教えて!HELPDESK      Excel     Word      Outlook      Power Point      Windows

 

 

Windows7/10:文字コード入門(最新版)

   

 

 

 

 

 

 

 

 

 

 

 

 

 


 

 

 

 

 

 

 

 

 

 


 

 

 

 

 

 

 

ここでは文字コードとは何なのか、Windows7/10ではどのような文字コード規格に対応しているのか分かりやすい形でご紹介していきます。

 

■ 文字コードとは?

文字コードとは、文字1つ1つに割り当てている番号のことです。コンピュータではこの番号から文字を認識しています。例えば「3402」→「あ」というように、全てのコンピュータシステムで文字に統一した番号を割り当てている為、文字のやり取りが可能となっています。

 

この”文字のやりとり”ですが、文字集合(例えば日本語文字の集合、ドイツ語文字の集合)と符号化方式(どんな計算方法で文字を数値にするか)で決まります。文字集合をCCS、符号化方式をCESといいます(文字集合と符号化方式)


■ 文字コード(文字集合)の歴史

1963年に、米国規格協会ANSI(日本でいうJISのような機関)がAsciiコードという文字集合(文字セット)を制定しました。この文字集合は英数字、記号、制御記号(空白等)を扱えるコードで100種類程度を表現できます。

 

▼ ASCIIコード表


 

このASCIIコードは米国だけでなく世界中に広まり、1967年にはASCIIコードを元にした国際的な規格ISO646が制定され「Asciiコードを元に各国が独自の標準文字コードを作っていいことにしよう」ということになりました。よってAsciiコード表↑の緑の部分は各国の通貨記号や文字を自由に割り当てるようになりました。この時日本で生まれたのがJISコード(JIS x0201)であり、ASCIIコードの5Cのバックスラッシュを¥に割り当て、7Eの~(チルダ)をˉ(オーバースコア)に割り当て、更に半角カタカナを追加し ました。他の国も同様に緑のコード部をアクサンやウムラウトなどに割り当てた為、文字集合(文字セット)の異なる機種によっては緑部の割当自由なコード番号は異なる表示になることがありました。


■ JISコード(文字集合)の歴史

JISコードは何度か見直され、改変されています。JISコードの歴史を見てみましょう。


◆ JIS X 0201 … 半角英数字+半角カナ

日本語用に初めて制定された文字集合がJIS x0201です。JISローマ字部(これはAsciiコードとほぼ同じ。¥とˉが割り当てられてるだけ)に加え、1byte仮名文字(これが半角カナ)も追加されました。 つまりPCでの初日本語は半角カナのみです(全角の文字はない)Asciiコードに1バイト半角カナが加えられた初の日本語の文字集合がJISコードJISX0201と覚えておきましょう。しかし次に制定されたJISX0208にJISX0201の文字はほぼ全て含まれるため、現在では単独使用されることはありません。
 

 

◆ JIS X 0208 … ひらがな・カタカナ・漢字・全角記号・英数字などの文字コード。

1978年に制定された、日本語環境で最も一般的で互換性も安定している文字集合です。英数字・ひらがな・カタカナ・全角記号に加え使用頻度の高い第1水準の漢字(2965字)と、使用頻度はそれほど高くないとされる第2水準の漢字(3388字)が含まれています。この文字集合に含まれる字であれば外部とのやり取りで文字化けする可能性は殆どないでしょう。 現在(Windows10の時代)でさえ最も安定している文字集合です。

尚、JIS X0208は以下のように何度か改定されています。

  1. 1978年制定− 通称JIS78

  2. 1983年改定− 通称JIS83(44字の入れ替え+300字の例示字形変更、75字追加)

  3. 1990年改定− 通称JIS90(2字追加)※Windows XPはこのJISX0208:90(JIS90)を標準サポート。

 

◆ JIS X 0212 … 補助漢字で構成される文字コード。

1990年に制定された補助漢字という使用頻度の低い漢字(5801字)や記号等の非漢字(266字)で構成される文字コードです。JISX0208にはない文字だけで構成されており(厳密には〆のみ重複)、これだけを単独で文字集合として使うことはなくJISX0208とセットで使うことを想定されて いました。WindowsXPはJISX0212もサポートしており、MS-IMEの「単漢字辞書」にチェックを入れると変換候補に表示されます。JISX0212という文字集合はUnicodeにも収録されているため、Unicodeをサポートする環境であれば表示することが可能ですが、OSやブラウザ、ソフトによっては文字化けしたり、メールエンコードが意図しないものになる 可能性もあります。

現在(Windows7/10)ではJISX0213にこれらJISX0212の文字が多く重複 (完全包含ではない)している為、単独使用することは少ないでしょう。

 

◆ JIS X 0213 …JISX0208を包含し更に第3・第4水準の文字を加えた文字集合

→ 2004年に改定してJISX2013:2004(通称JIS2004) 

2000年に制定されました。JIS X 0212がJIS X 0208にない文字を集めた集合であるのに対し、JIS X 0213はJIS0208を包含し、更に第3水準・第4水準の漢字(これらはJISX0212と重複している文字が多い)や記号を加えた上位集合です。JISX0212と一緒に使うとダブってしまう字が多いため(完全にJISX0213が0212を包含しているのではない)一緒に使うことはありません。JISX0213では、対応する符号化方式としてISO-2022-JP-2004 が定義されています。

 

2004年に改定され、168字の例示字形(JISが推奨する字の形)の変更、10字の追加が行われました。これが通称JIS2004と呼ばれる現在最新の文字集合です。

Windows10では(Vista以降)このJIS2004を標準でサポートしているため、収録されている文字を標準フォント(MS明朝、MSP明朝、MSゴシック、MSPゴシック、MS UI Gothic、メイリオ、Meiryo UI、游朝体など)で表現できます。

 

Windows7/10ではJIS2004改定で例示字形が変わった168字についても 標準フォントで表示できます。例えば「かつしか」はJIS0208(XPなど)では「」で表示されてきましたが、JIS2004では「」で表示されます。(どちらも文字コードは同じで字形が変更されただけです。)

※Windows10ではIVS入力により、JIS90の字体も入力できます(詳しくはこちら

《補足1》

JISX0213で追加された第3・第4水準の漢字はUnicodeにも収録され ていますが、Unicodeをサポートしていないシステムでは文字化けする可能性があります。(例:Win7/10でネット上のフォームに入力できてもフォーム送信先で正常に表示されているとは限らない)

このような状況を回避する為、MS-IMEではJISX0208以外の文字に は「環境依存文字」、Shift_JISでも表現できない文字には「環境依存文字(Unicode)」というコメントを表示し注意を促しています。 (第3,4水準の文字全てがShift_JISで表現できないわけではありません

 

※第3・第4水準の文字を入力するにはMS-IMEの単漢字辞書にチェックON、「変換」タブ−「変換文字制限」−「変換文字制限をしない」となっている必要があります。

《補足2》

第3・第4水準が追加されたJISX0213はWindowsVista以降、標準サポートされましたが、実はXPでもこれらの漢字を表現できます。これは第3・第4水準の漢字としてJISで定義される以前にUnicodeとしてCJK統合漢字やその拡張領域に収録されているためです。ですからCJK統合漢字を表現できるフォント(NEW GulimやSimSun)でUnicodeに対応しているアプリケーション(Word等)であれば表現可能です。(Vista以降は一般的なフォントで も表示可能になった、例示字形に従って168文字の文字の形が変わった、ということです。)


例えばという文字はUnicodeのCJK統合漢字領域にも収録されています。ですからXPでもWordでNew Gulimなどのフォントを使って表示することが可能なのです。(XP上のWordに3402と入力して「Alt」+「X」キーを押してみましょう。)

 

《補足3》

各文字コードに収録されている文字一覧は、MS-IMEのIMEパッド−「文字一覧」で確認することができます。文字カテゴリから確認したい文字コードセットをクリックします。

 

 

教えて!HELPDESK      Excel     Word      Outlook      Power Point      Windows