[3885] MSofficeファイルは「自動選択」でunicodeにならない？ maru 2004年06月12日 12:01

お世話になっております。

今まであまり気にならなかったのですが
MSofficeのファイルは「開きなおす」を使えば
内容を表示できますが、これって自動選択されないですよね？

実装するのは難しいのでしょうか？
それともウチの環境がおかしいのかなぁ。

[3886] RE: MSofficeファイルは「自動選択」でunicodeにならない？げんた 2004年06月13日 03:06

>MSofficeのファイルは「開きなおす」を使えば
>内容を表示できますが、これって自動選択されないですよね？
現状ではファイルの先頭から16KBを読み込んで文字判定をしますが，その中にUnicodチェックが含まれていません．
Unicodeの特徴って無いんでしょうかね＞識者の方．
Word文書のように先頭にゴミが入っているとBOMでの識別はできませんし．
- [3887] Re2: MSofficeファイルは「自動選択」でunicodeにならない？もか 2004年06月14日 03:02
  
  「テキストが空」のWord 2002のファイルは、新規作成段階で10KB、開いて保存すると19KB位あり、「本文より他のデータのほうが多い」です。
  ワードドキュメントは、文字、レイアウト情報、画像、動画などを入れる箱です。実際サクラで開いてみると、一部分はShift_JISです。
  BOMなしのUTF-16LEの自動判別が可能にしても、ノイズの量からして、ワードファイルの自動判別には、たいして役に立たないといえます。
  私のイメージとしては、MPEG-4や拡張子がAVIのファイルを読めるようにすることと同等だと思います。
  ようするに、ワードファイルとして認識する以外にまともには読めません。
  
  Unicode(UTF-16)の特徴は、0000～FFFDまで文字がほとんど割り当てられている。
  言語ごとに、ブロックでいちよう分かれているので、日本語に限定すれば自動認識も不可能ではない。
  サロゲート領域は、順番があるがほとんど使われない。
  逆に用途によっては、ほとんどサロゲート領域の文字だけで構成されることもある。
  といことで、自動認識はしにくい。
  - [3888] Re3: MSofficeファイルは「自動選択」でunicodeにならない？ maru 2004年06月18日 12:57
    
    返信遅くなりました。
    レスありがとうございます。
    
    なるほど。
    普通に開くだけなら、余り意味がないですね。
    
    たとえば「word/excelを対象に含めてgrep」
    といった用途なら、自動判別が役に立ちそうな。
    
    word/excelなどのファイル内の文字列を検索する場合
    状況にもよりますが、私はたいていsakuraを使います。

[3885] MSofficeファイルは「自動選択」でunicodeにならない？ maru 2004年06月12日 12:01

[3886] RE: MSofficeファイルは「自動選択」でunicodeにならない？ げんた 2004年06月13日 03:06

[3887] Re2: MSofficeファイルは「自動選択」でunicodeにならない？ もか 2004年06月14日 03:02

[3888] Re3: MSofficeファイルは「自動選択」でunicodeにならない？ maru 2004年06月18日 12:57

[3886] RE: MSofficeファイルは「自動選択」でunicodeにならない？げんた 2004年06月13日 03:06

[3887] Re2: MSofficeファイルは「自動選択」でunicodeにならない？もか 2004年06月14日 03:02