◀一般トップへ
  • 3885 MSofficeファイルは「自動選択」でunicodeにならない?
    • 3886 RE: MSofficeファイルは「自動選択」でunicodeにならない?
      • 3887 Re2: MSofficeファイルは「自動選択」でunicodeにならない?
        • 3888 Re3: MSofficeファイルは「自動選択」でunicodeにならない?
  • [3885] MSofficeファイルは「自動選択」でunicodeにならない? maru 2004年06月12日 12:01

    お世話になっております。

    今まであまり気にならなかったのですが
    MSofficeのファイルは「開きなおす」を使えば
    内容を表示できますが、これって自動選択されないですよね?

    実装するのは難しいのでしょうか?
    それともウチの環境がおかしいのかなぁ。
    • [3886] RE: MSofficeファイルは「自動選択」でunicodeにならない? げんた 2004年06月13日 03:06

      >MSofficeのファイルは「開きなおす」を使えば
      >内容を表示できますが、これって自動選択されないですよね?
      現状ではファイルの先頭から16KBを読み込んで文字判定をしますが,その中にUnicodチェックが含まれていません.
      Unicodeの特徴って無いんでしょうかね>識者の方.
      Word文書のように先頭にゴミが入っているとBOMでの識別はできませんし.
      • [3887] Re2: MSofficeファイルは「自動選択」でunicodeにならない? もか 2004年06月14日 03:02

        「テキストが空」のWord 2002のファイルは、新規作成段階で10KB、開いて保存すると19KB位あり、「本文より他のデータのほうが多い」です。
        ワードドキュメントは、文字、レイアウト情報、画像、動画などを入れる箱です。実際サクラで開いてみると、一部分はShift_JISです。
        BOMなしのUTF-16LEの自動判別が可能にしても、ノイズの量からして、ワードファイルの自動判別には、たいして役に立たないといえます。
        私のイメージとしては、MPEG-4や拡張子がAVIのファイルを読めるようにすることと同等だと思います。
        ようするに、ワードファイルとして認識する以外にまともには読めません。

        Unicode(UTF-16)の特徴は、0000~FFFDまで文字がほとんど割り当てられている。
        言語ごとに、ブロックでいちよう分かれているので、日本語に限定すれば自動認識も不可能ではない。
        サロゲート領域は、順番があるがほとんど使われない。
        逆に用途によっては、ほとんどサロゲート領域の文字だけで構成されることもある。
        といことで、自動認識はしにくい。
        • [3888] Re3: MSofficeファイルは「自動選択」でunicodeにならない? maru 2004年06月18日 12:57

          返信遅くなりました。
          レスありがとうございます。

          なるほど。
          普通に開くだけなら、余り意味がないですね。

          たとえば「word/excelを対象に含めてgrep」
          といった用途なら、自動判別が役に立ちそうな。

          word/excelなどのファイル内の文字列を検索する場合
          状況にもよりますが、私はたいていsakuraを使います。