教えて!HELPDESK      Excel     Word      Outlook      Power Point      Windows

 

 

文字コードとは:文字集合(CCS)と符号化方式(CES)

 

 

 

 

 


 

 

 

「文字コード、文字集合、符号化方式の違いが分からない」「Unicode、Shift-Jis、JISX0208って何」といったご質問をいただくことがありますので簡単にご紹介します。


 

文字コードとは

文字コードとは、文字1つ1つに割り当てている番号のことで、番号と文字の対応表があるからこそ、文字の認識ができます。例えば「3402」→「あ」というように変換できます。 この変換法ですが、文字集合(CCS)と符号化方式(CES)によって実現します。

 

文字集合(CCS)とは

文字と番号の対応表です(Coded Character Set)日本語文字の集合、ドイツ語文字の集合、韓国語文字の集合・・・のように様々な集合があり、表現したい文字集合を使います。PCの世界では最初に米国規格協会ANSI(JISのような機関)がAsciiコードという文字集合を制定しました。この文字集合は英数字や記号を格納しているため、英語環境でのデータをやり取りできます。 その後JISが日本語を扱える初の文字集合(半角英数字+半角カナのJISX0201)を制定しました。 改良されたJISX0208(JIS第一・第二水準の漢字、ひらがな、カタカナ、英数記号などの集合)は安定して使える文字集合です。Vista以降 のWindowsでは最新のJISX0213:2004(JISX0208+第3・第4水準漢字,2004年度改定)に対応しています。

 

★主な文字集合…UNICODE,ASCIIコード,JISX0208(JIS90),JISX0213(JIS2004)

 

符号化方式(CES)とは

文字集合(CCS)を符号化してコンピュータで扱えるようにするエンコード方式のことです(Character Encoding Scheme)文字集合(CCS)によって「文字←→番号」を変換し、符号化方式(CES)によって「番号←→コンピュータ用の数値」に変換するイメージです。例えばJISX0208(文字集合)を符号化する方式(CES)にはISO-2022-jpEUC-JPShift_JISなどがあります。(1つの文字集合を符号化する方式は1つとは限りません)

 

★主なエンコード方式(CES)について

符号化方式(CES)

コード体系

概要

対応する文字集合(CSS)

ISO-2022-JP

(通称JISコード)

インターネット、電子メール等で使われる日本語用の符号化方式。JIS(コード)とも言う。

メールでJISエンコードの場合に補助漢字(JISX0212)や環境依存文字を使うと文字化けするのはこれらの文字集合を対応していないから。

JISX0208

JISX0201(半角カナは許容外)

Shift-JIS

コンピュータ上で日本語を含む文字を表現できる符号化方式。ANSIとも呼ばれる。

JISX0208、JISX0213

EUC-JP

UNIXなどで、日本語を表現するときに用いられる符号化方式。

JISX0208、JISX0212(補助漢字)、JISX0213

UTF-8

最もポピュラー★1な符号化方式でUNICODEを扱えます(★1UTF-8対応ソフトウェアが多い)文字集合(文字セット)が単一の大規模文字セットです。

UTF-8に対応するソフトが多いため、文字化けなどが少なくなりました。例えば昔はメール本文に環境依存文字を入力してJIS(iso-2022-jp)でエンコードすると文字化けしていましたが、最近ではメーラーが自動的にエンコードを選択しUTF-8で送信するなどして環境に依存せず表示可能なことが多いです。

WordもUnicodeに基づいているため、自動的にUnicodeでエンコードしてファイルを保存。

UNICODE

UTF-16

UNICODEをCSSとする符号化方式の1つ。

UNICODE

      

 

 

教えて!HELPDESK      Excel     Word      Outlook      Power Point      Windows