- 基本概念
文字コードはコンピュータ上で文字(テキスト)を利用するために与えられるバイト(byte)表現です。
もともとコンピューターは「0」か「1」の2進数で情報がやり取りされているため、人間が使えるように文字(英語、日本語他)を表示しなければならないことから文字コードが生まれてきました。
- 文字コードの問題点
英数字(ABCDE~XYZ、0~9)は36文字であるため、1バイト(256文字分収録可能)で収録可能です。
しかし、漢字やカタカナとひらがなが存在する日本語は1バイトでは収録できません。
そのため、2バイト(65536文字分)の文字コードを使いこの問題を解決しました。
ですが、独自に文字コードを作ったためShift_JISやEUC-JPなどの文字コードが生まれてしまいました。
それぞれ互換性がないので文字化けしてしまう問題が生じています。
文字化けすると何が書かれていたのかさっぱりわかりません。
- 文字コードの問題点を解決するために
文字化けの問題を解決するために、世界の主要な2バイト文字をすべてカバーする統一規格「Unicode」が作られています。日本語や中国語、韓国語も「Unicode」であれば文字化けせずに表現可能です。
当サイトは、Unicodeの文字コード「UTF-8」をそうした理由で利用しています。
UTF-8でなくとも、使用する文字コードを統一することをおすすめします。