「テキストが空」のWord 2002のファイルは、新規作成段階で10KB、開いて保存すると19KB位あり、「本文より他のデータのほうが多い」です。
ワードドキュメントは、文字、レイアウト情報、画像、動画などを入れる箱です。実際サクラで開いてみると、一部分はShift_JISです。
BOMなしのUTF-16LEの自動判別が可能にしても、ノイズの量からして、ワードファイルの自動判別には、たいして役に立たないといえます。
私のイメージとしては、MPEG-4や拡張子がAVIのファイルを読めるようにすることと同等だと思います。
ようするに、ワードファイルとして認識する以外にまともには読めません。
Unicode(UTF-16)の特徴は、0000~FFFDまで文字がほとんど割り当てられている。
言語ごとに、ブロックでいちよう分かれているので、日本語に限定すれば自動認識も不可能ではない。
サロゲート領域は、順番があるがほとんど使われない。
逆に用途によっては、ほとんどサロゲート領域の文字だけで構成されることもある。
といことで、自動認識はしにくい。