文字符号化方式

文字符号化方式（もじふごうかほうしき、英: character encoding scheme、CES）とは、符号化文字集合で文字に対応付けた非負整数値を、実際にコンピュータが利用できるデータ列（通常、バイト列）に変換する符号化方式。

文字符号化体系、文字符号化スキーム (CCS) とも言う。文字について述べていることが明確なときは、単に符号化方式、またIBMの用語ではコード化体系 (ES) などとも言う。

この用語はUnicodeやIETFの標準などで用いているが、ISO/IECやJISの標準では用いず「符号化文字集合の構造」あるいは「文字符号の構造及び拡張法」として扱われている。この用語の定義は、世界の文字コード規格とは必ずしも合致しないことがある。

符号化文字集合と文字符号化方式

符号化文字集合とCESの関係を示すため、JIS X 0208を例にとる。なお、話を簡単にするため、附属書は無視する。

JIS X 0208は、符号化文字集合であり、文字の表と、各文字に対応付けられた1区1点～94区94点の番号（区点）と、それに対応したビット組合せからなる。例えば、「亜」という漢字の区点番号は16区1点であり、対応するビット組合せは x0110000 x0100001 の2バイトである (xは呼出し先がGLであれば0、GRであれば1)。こうした符号化文字集合について、他の符号化文字集合と組み合わせたり、計算によって変形したりする方式を、文字符号化方式 (CES) と呼ぶことがある。また、特定の符号化文字集合とCESとの組み合わせによって実現する文字列の表現を符号化表現と呼ぶことがある (符号化表現はキャラクタセットとほぼ同義である)。

1つの符号化文字集合に適用できるCESが複数ある場合、符号化表現も1つではない。JIS X 0208の場合、主要なものとして、ISO-2022-JP (RFC1468符号化表現)・EUC-JP・Shift_JISがある。

ISO-2022-JPは、JIS X 0208の文字に対応付けた1～94の区点を、それぞれ21₁₆～7E₁₆の範囲の1バイト、計2バイトで表す。さらに、エスケープ・シーケンスを使い、ASCIIやJIS X 0201など別の文字集合に切り替えることができる。このように、1つのCESが使う符号化文字集合は、1つとは限らない。

ほとんどの場合、ISO-2022-JPのように符号化文字集合とバイト列の対応は単純であるが、常にそうだとは限らない。Shift_JISでは、JIS X 0208文字集合を、複雑な計算式により、2バイトで表現できる0000₁₆～FFFF₁₆のうちJIS X 0201と競合しない長方形の領域に詰め込んでいる。

文字符号化形式と文字符号化スキーム

Unicodeでは、文字符号化スキーム (CES) を、文字符号化形式 (CEF) と、バイト直列化等の2つの段階に分けて標準化している^[1]。

符号化文字集合	符号化形式 (CEF)	符号化スキーム (CES)
Unicode文字集合	UTF-8	UTF-8
	UTF-16	UTF-16BE
		UTF-16LE
		UTF-16
	UTF-32	UTF-32BE
		UTF-32LE
		UTF-32

Unicodeでは、Unicode符号化文字集合のU+0000〜U+10FFFFの各符号位置に、Unicodeスカラ値という非負整数値を対応付けている。CEFは、このUnicodeスカラ値を符号単位列に変換する。UnicodeのCEFには、UTF-8・UTF-16・UTF-32があり、これらが使う符号単位はそれぞれ、符号なし8ビット整数^[2]・符号なし16ビット整数・符号なし32ビット整数である。これらの文字符号化形式はプログラムにおける文字の内部表現として実装される。

しかし、情報交換のためファイルの読み書きや通信を行う場合には、符号単位列をバイト列にする必要があり、8ビット以外の符号単位列をバイト列にするには、バイト順序（エンディアン）を決める必要がある。そのためCESでは、CEFに加え、バイト直列化の手続きを決める、つまり、エンディアンを指定するかまたはエンディアンを記述する方法を規格化している。（各CESのバイト直列化の具体的な内容については、UTF-16#符号化を参照）

Unicodeで定められたCEFとCESは、表のものがある（ただし、Unicode技術標準^[3]でSCSU (UTS 6) が、Unicode技術報告^[3]でUTF-EBCDIC (UTR 16) とCESU-8 (UTR 26) が、Unicode技術ノート^[4]でBOCU-1 (UTN 6) が、その他、ISO/IEC標準やRFCで、Unicode文字集合を使ったCEFやCESを規格化している）。同じ名称のCEFとCESがあり、これらを区別するときは、「UTF-16符号化形式」「UTF-16符号化スキーム」のように呼ぶ。一般にUTF-16と呼ばれるものは、UTF-16符号化形式に対応する3つのCESの総称である。なお、UTF-8符号化形式とUTF-8符号化スキームは実質的に同じものだが、便宜上、分けている。

Unicode以外でも、原理的にはCEFとCESを区別して論ずることができる。しかし、ほとんどの場合8ビット整数を符号単位とするため、UTF-8の場合と同様に区別する意味は少ない。たとえば、Shift_JISの文字データを扱うプログラムは、8ビット整数を符号単位とするマルチバイト文字の文字データの処理を行っているため、ファイルの読み書きや通信などでバイト直列化処理をあらためて行うことはない。

キャラクタセット

「文字コード#コードセット」を参照

脚注

[脚注の使い方]

^ 本節の用語の日本語表記は次に従った。“Unicode Terminology English - Japanese”. Unicode, inc. 2009年12月31日閲覧。
^ ここでの「符号」とは正負のことである。
^ ^a ^b 詳細は次を参照。About Unicode Technical Reports - Types of Unicode Technical Reports: UTR, UTS, UAX, Unicode, Inc.
^ 詳細は次を参照。About Unicode Technical Notes, Unicode, Inc.

参考資料

JIS X 0202:1998『情報技術 - 文字符号の構造及び拡張法』(ISO/IEC 2022:1994 Information technology - Character code structure and extension techniques 第4版の国際一致規格) 1998年、日本規格協会。
The Unicode Standard, Version 5.0、2006年11月、Addison-Wesley。ISBN 0321480910
RFC 2978 IANA Charset Registration Procedures (『IANA キャラクタセット登録手続き』) N. Freed 他著、2000年10月。

外部リンク

IANA 文字集合レジストリ (IANA Character Set Registry) (IANA が登録しているキャラクタセットの情報一覧)
UTR#17: Character Encoding Model（Unicodeの文字符号化モデル）
RFC2130: The Report of the IAB Character Set Workshop held 29 February 1 March（IABの文字符号化モデルについて記述がある）
Character Data Representation Architecture Reference（IBMの文字データ表現体系 (CDRA) リファレンス）
IBM Coded Character Set Identifier (CCSID)（IBMのコード化文字セット識別コード (CCSID) の管理簿）

文字コード

日本語用の
文字コード

JIS規格

符号化文字集合	JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 JIS X 0221（日本文字部分レパートリ）
文字符号化方式	ISO-2022-JP EUC-JP Shift_JIS Shift_JISX0213 Shift_JIS-2004 EUC-JISX0213 EUC-JIS-2004 ISO-2022-JP-3 ISO-2022-JP-2004 漢字シフトコード
文字一覧	JIS X 0213非漢字一覧 JIS X 0213漢字一覧の1面 JIS X 0213漢字一覧の2面

JIS以外の公規格

メーカーの規格

符号化文字集合	IBM拡張文字マイクロソフト標準キャラクタセット Adobe-Japan1 iモード絵文字 EZweb絵文字 SoftBank絵文字今昔文字鏡 JIPS EBCDIC GT書体 KEIS IBM漢字システムレコード用文字符号ビブロス外字
文字符号化方式	Microsoftコードページ932 MacJapanese JEF漢字コード U-PRESS

日本語を含む
多言語文字集合

Unicode
ISO/IEC 10646
JIS X 0221

面	基本多言語面追加面追加多言語面追加漢字面第三漢字面追加特殊用途面私用面
文字符号化方式	UTF-8 UTF-16/UCS-2 UTF-32/UCS-4 UTF-7 UTF-EBCDIC GB 18030 SCSU BOCU-1
文字一覧	Unicode一覧 Unicode一覧表 Unicode6.0の携帯電話の絵文字の一覧 UnicodeのEmojiの一覧

TRONコード

TRONコード

日本語以外用の
文字集合

初期の文字コード	ASCII Baudot Code ISO/IEC 646 ISO/IEC 6937 T.61
ISO/IEC 8859	-1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -13 -14 -15 -16
書誌用	ISO 5426 ISO 5426-2 ISO 5427 ISO 5428 ISO 6438 ISO 6861 ISO 6862 ISO 9036 ISO 10585 ISO 10586 ISO 10754 ISO 11822 ANSEL MARC-8
国家標準	ArmSCII CNS 11643 GOST 10859 GB 2312 HKSCS ISCII KPS 9566 KS X 1001 PASCII TIS-620 TSCII VISCII YUSCII KOI8-R KOI8-RU KOI8-U KOI8-T KOI8-CS
EUC	EUC-CN EUC-KR EUC-TW
ISO/IEC 2022	ISO/IEC 2022 CN ISO/IEC 2022 KR CCCII
MacOS コードページ	Macintosh Standard Roman Character Set アラビア語 CentralEurRoman EUC-CN Big5 クロアチア語キリルデーヴァナーガリー Dingbats ペルシャ語ギリシア語グジャラート語グルムキーヘブライ語アイスランド語 EUC-KR ルーマニア語 MacSymbol TIS-620 トルコ語ウクライナ語
DOS コードページ	437 720 737 775 850 852 855 857 858 860 861 862 863 864 865 866 869 KOI8 Kamenicky Mazovia MIK Iran System
Windows コードページ	874 (TIS-620) 936 (GBK) 949 (EUC-KR) 950 (Big5) 1250 1251 1252 1253 1254 1255 1256 1257 1258 1361 54936 (GB18030)
EBCDIC コードページ	37 293（英語版） 300（英語版） 310（英語版） 351（英語版） 353（英語版） 355（英語版） 357（英語版） 358（英語版） 359（英語版） 360（英語版） 819 930（英語版） 933（英語版） 939（英語版） 1364（英語版） 1390（英語版） 1399（英語版） 8859（英語版）
その他標準	モザイク集合
記号用	Symbol Wingdings Webdings
プラットフォーム固有	ATASCII CDC display code DEC Radix-50 Fieldata GSM 03.38 HP roman8 PETSCII TI calculator character sets ZX Spectrum character set