文字コード判別 - 晴れ時々開発＠ポートランド

metaタグや、XMLの encoding で文字コードが判別していない場合に、とりあえず日本語を判別するコードを追加した。文字コードの自動判別って、簡単な方法では、結局 EUC-JP と Shift_JIS ( Windows-31J ) がかぶるから完全にはいかない。なので、その辺はまぁ、いい加減で。とりあえず、iso-2022-jp はちゃんと判別できているし。

そろそろ作っておこうと思ったのは、XMLが制御コード(改行、タブはOK) がはいっちゃったら駄目ってことで、iso-2022-jp の ESC(0x1b) が引っかかって、エラーになったからなんだけど。また、OpenSearchRssの方でもそれらを置換するようにした(具体的には、"?" に置換するようにしたけど。きめ打ちで...)。普通はその文字は送られないはずなので良いのだけど。(自分のコードが間違っていて、自爆した...)。

他は、どうしようもないので、とりあえず、試しに改行コードで EUC-JP か Shift_JIS のどっちが可能性が高いかも調べといて、判別しなかったらそれをもとに判別するようにした。

判別コードは次のサイトを参考にしました:

Hey! Java Programming! 日本語処理 http://www.mars.dti.ne.jp/~torao/program/appendix/japanese.html