俺TODAY.org
( ゚Д゚)ウマーな生き方を目指す。良い意味で
スポンサーサイト
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
自分用覚え書き。UTF-8にはBOMがある orz
素人プログラマーな俺の自分用覚え書きです。週末、ちまちまとプログラムを書いていました。処理したいファイルのファイル名を、1つのファイル(filename.txt)にまとめておきました。中身は、こんな感じだと思いねえ。

file1
file2
file3
file4



で、これをプログラムに突っ込んで、順にファイル名を読んで各ファイルを処理するような感じ。このプログラムを走らせてみたところ、file1だけ「そんなファイルないよ」エラーになり、file2, file3, file4は正しく処理される、そんな結果になりました。もちろんfile1もちゃんとあります。

作業中は、どうしてもこうなる理由が分からなかったのですが、約1日経ってやっと気付きました。filename.txtはUTF-8エンコードで、先頭にBOM = Byte Order Markが付いてたからです。つまり実際filename.txtの中身は、こんな感じだったと。

0xEF 0xBB 0xBF file1
file2
file3
file4


そりゃ、こんなファイルねえよwww

UTF-8では、BOMは定められているけれども不要という扱いみたい? なくても済むなら、付けたくないなあw 実際、俺がMac OS Xで使っているCot Editorでは、BOM付けるのは非推奨っぽいですね。



Cot Editor



一方、Windowsで使っているxyzzyでは、特にどちらが優先ということもなく、BOMを付けるのをUTF-8、付けないのをUTF-8Nと区別しています。またこのUTF-8Nという名称は、正式なものではなく、日本ローカルな呼び名みたい。以上ソースは Wikipedia でした。




RSS
仕事の都合で時々更新が滞ります (-_-;) ので、
RSSリーダーに登録しておくと、便利かもしれません。
俺のお勧めは ライブドア・リーダーです。



関連記事
スポンサーサイト

テーマ:ブログ - ジャンル:ブログ

コメント
コメント
コメントの投稿
URL:
本文:
パスワード:
非公開コメント: 管理者にだけ表示を許可する
 
トラックバック
トラックバック URL
http://oretoday.blog10.fc2.com/tb.php/611-57686caa
この記事にトラックバックする(FC2ブログユーザー)
トラックバック
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。