UTF-8Nとは
はじめに
ArcExplorer JavaEditionでは、AXLファイルの記述にUTF-8Nが使用されます。ここではUTF-8Nについての概要と、UTF-8NファイルをWindows
PC上で取り扱う方法について説明します。
XMLとUnicode
ArcXMLと呼ばれるXML 1.0準拠のXML言語が、AXLファイルの中身やArcIMS Application
Serverとクライアント マシン間の通信に使用されています。XML 1.0では、言語を記述する際にUnicode符号化文字集合を使用することが推奨されています。このためArcXMLはUnicode符号化文字集合を使用するUTF-8N文字エンコーディング
スキーマをサポートします。
符号化文字集合とは有限個の文字の集まりを定義したもので、文字エンコーディング スキーマとは、符号化文字集合に対応する数値(文字コード)を定義したものです。
UTFとBOM
Unicode 1.1符号化文字集合では、全ての文字が16ビット空間で定義されています。UTF-16文字エンコーディング
スキーマでは、文字が16ビット単位で格納されます。このとき、格納された配列がバイト単位で、ビックエンディアンとリトルエンディアンのどちらで格納されているのかを指定するために、Unicodeではファイルの先頭にBOM(Byte
Order Mark)が挿入されます。
UTF-8では1文字の情報量が可変の8ビット単位で格納されるためBOMは必要ないのですが、「あるファイルがUnicodeなのかどうか」を判定するための材料としてBOMが使用される場合があります。UTF-8と記述される場合は、一般的にBOMが挿入されたUTF-8を指します。逆にBOMが挿入されないUTF-8はUTF-8Nと表記されます。
UTF-8Nドキュメントの作成
Windows OSではShift-JIS、Solaris OSではEUC-JP文字エンコーディング スキーマが一般に使用されています。しかし、UTF-8Nはこのどちらとも互換性はありません。OSに標準添付されるテキスト
エディタはOSがネイティブで使用する文字エンコーディング スキーマのみをサポートすることが多いので、UTF-8Nによるドキュメントの作成/編集には、別途これをサポートするテキスト
エディタが必要です。
Windows 2000に標準搭載されるNotepad(メモ帳)にはUTF-8での保存機能がありますが、これはBOM付きのUTF-8ファイルになります。
XMLではUTF-8でXML文書を記述することが多いため、市販のXMLエディタなどにはUTF-8Nでテキストを保存できる機能を持つものも存在します。またフリーの製品でもxyzzyエディタなど、いくつかのテキスト
エディタがUTF-8Nをサポートします。
関連情報
xyzzyエディタは下記URLのWebサイトより入手できます。
xyzzyエディタのダウンロードサイト (http://www.jsdlab.co.jp/~kamei/)
参考文献とリンク
当Webページの作成にあたり、以下の書籍、Webページを参考としました。
パソコンにおける 日本語処理/文字コード ハンドブック
川俣 晶 著, 株式会社 技術評論社
平成11年6月10日 初版 第1刷発行, \2480+税
鈴木朝子と高橋誠の部屋
(http://homepage2.nifty.com/hobbit/)
Windows
98/2000上でのUTF-8のページの作り方 (http://homepage2.nifty.com/hobbit/html/utf8.html)
作成日:2002/03/11
更新日:2002/08/08
ESRIジャパン株式会社
|