2014年4月18日金曜日

utf-8の漢字表現は3バイト

むかーし書いた日本語を扱うcgiプログラムを再利用して、ブログに似たシステムを構築しようと思いたった。5年程前には完璧に動いていたのに、なぜか文字化けしてしまって修復できない。おかしい、おかしい、と一日潰してしまいそうになった。

そこで、プログラムを新たに書いて、漢字の取り扱いの分析を始めたら、すぐに原因がわかった:UTF-8では日本語は3バイトで表現するようになっていたのだ....

物理法則は一度マスターしたら永久に使えるが、プログラムの決まりはせいぜい5年ぐらいしか寿命がないのか...と恐れ入った次第。

とにかくhtmlのformからcgiで受け取った日本語文字列がちゃんと変換できるようになったのでほっと一息。

0 件のコメント: