JavaでUnicodeファイル(UTF-8など)を読み取る際に発生したBOMプレフィックスの問題

クズども · 掲載地 2019/01/14 16:26:17

JavaでUnicodeファイル(UTF-8など)を読む際に遭遇するBOMの最初の文字の問題と、それらの扱い方について

Windowsでテキストエディタで作成されたテキストファイルは、UTF-8などのUnicode形式で保存する場合、ファイルのヘッダーにBOM ID(最初の文字)が追加されます。

この識別はJavaでファイルを読み取っても削除されず、String.trim()も削除できません。 readLine() を使って最初の行を読み、それを文字列に保存すると、文字列の長さは見えるより1大きくなり、最初の文字はこのBOMになります。

これは問題を引き起こすことがあります。例えばiniファイルを読むときに、最初の行が「[」で始まるかどうかを見分けたい場合、正しく判断できないことがあります。

幸いなことに、JavaがUnicodeファイルを読み取るとBOMは一様に「\uFEFF」に変わるので、手動で解くことができます(判断後、substring()またはreplace()を使ってこのBOMを削除してください):

ログインが見えます。

しかし、このアプローチは完璧ではありません生成されたjarファイルがWindows上で動作している場合でも、問題は残っています。最終的な回避策は、apache commons ioが提供するBOMInputStreamを使うことです:

ログインが見えます。

BOMとは何ですか?

BOM = バイト順マーク
BOMはUnicode仕様でバイトの順序をマークする推奨される方法です。例えばUTF-16の場合、受信側がFEFFのBOMを受け取ると、バイトストリームがビッグエンディアンであることを示します。 FFFEが受信された場合、バイトストリームがリトルエンディアンであることを示します。
UTF-8はバイト順を示すBOMを必要としませんが、「私はUTF-8エンコードされています」と表示するために使用できます。 BOMのUTF-8エンコーディングはEF BB BFです(UltraEditでテキストを開き、16進数に切り替えると確認できます)。つまり、受信側がEF BB BFで始まるバイトストリームを受け取った場合、それはUTF-8エンコーディングであることがわかります。

[出典] JavaでUnicodeファイル(UTF-8など)を読み取る際に発生したBOMプレフィックスの問題

関連記事

閲覧したセクション