Tips: 文字/文字セット/文字エンコード
- コンピュータの内部では、文字を数字(文字コード)として扱っている
- 文字の集合(どんな文字が、どういう順番で並べられているか)を表す文字セットと、文字セットを実際にコンピュータの中で扱う数字(文字コード)に変換する文字エンコードの両方がある
- そのため、同じaの文字でも、文字セットと文字エンコードの組合せで最終的には何種類かの文字コードが使われている
- 画面上で文字セットの違いを確認するのは難しい。画面に表示する際には、さらにフォント(font)と呼ばれる要素が絡むから。
- たとえば aとaは違う文字セットに入っているのでコンピュータ内部では別の文字として扱われるが、見てもよくわからない
- ∴入力するときに気をつけることが大事
1 文字コードのチェック
charcodeというプログラムは、文字が内部的にどのように扱われるかをチェックするツール。調べたい文字を入力してチェックボタンを押せば、文字コードが表示される。下の例は「狸」という漢字にどのような文字コードが割り当てられているかを示している(表示は16進数)。charcodeは https://eip.econ.kanagawa-u.ac.jp/eip/charcode.exe からダウンロードできる。
2. 全角と半角
- 俗に、IMEを使わずに入力する英数字のことを「半角文字」、IMEを使って入れる文字を「全角文字」と呼ぶ
- 文字コードチェックプログラムでチェックすると、文字コードが16進数2桁で表示される文字が「半角文字」と考えるとだいたいあっている
- よく「半角英数字で入力してください」のような指定があるが、この場合の「半角」とはIMEを使わないでキーボードから直接入力できる英数字という意味にすぎない。画面上で半分のサイズに見えるかどうかは、フォント次第。
- メールアドレスやURLなどは半角英数字、記号で入力するのが基本。よくやるミスは、@を@と入力してしまったりすること
- 元々は活字の大きさが漢字を1とした際に数字や英字が半分のサイズだったことから慣習的にそう呼ばれている
- ただし、現在の画面表示では必ずしもサイズが2:1にはなっていないので、目でみて判断するのは難しい
- 例: いわゆる半角の「a」と全角の「a」、じっと見比べれば分かるかもしれないが、パッとみて分かるかな?