◀一般トップへ
  • 4290 検索がうまくいかない
    • 4291 UNICODEにしてますか
      • 4297 Re:UNICODEにしてますか
        • 4298 Re2:UNICODEにしてますか
          • 4299 Re3:UNICODEにしてますか
          • 4300 文字コードセットの指定方法
            • 4301 Re:文字コードセットの指定方法
              • 4302 Re2:文字コードセットの指定方法
                • 4303 Re3:文字コードセットの指定方法
                  • 4304 Re4:文字コードセットの指定方法
                    • 4305 Re5:文字コードセットの指定方法
  • [4290] 検索がうまくいかない koh 2005年02月10日 10:41

    docファイルのGrep検索がうまくいきません。
    検索文字数、階層数、文字コードが影響してくるのでしょうか?
    考えられる原因を教えていただきたく思います。
    よろしくお願い致します。
    • [4291] UNICODEにしてますか 渡辺真 2005年02月11日 08:08


      > docファイルのGrep検索がうまくいきません。
      > 文字コードが影響してくるのでしょうか?

      下の「文字コードセット」で「Unicode」を選択してみて下さい。
      • [4297] Re:UNICODEにしてますか koh 2005年02月14日 09:33

        ▼ 渡辺真さん
        >
        > > docファイルのGrep検索がうまくいきません。
        > > 文字コードが影響してくるのでしょうか?
        >
        > 下の「文字コードセット」で「Unicode」を選択してみて下さい。

        ありがとうございます。
        うまくいきました。

        再度、ご質問で恐縮なのですが、文字コードセットについてどのように
        考えて検索を行なえばよいのでしょうか?

        基本的に「Unicode」にすればよろしいのでしょうか?

        主に検索したいファイルはtxtファイルとdocファイルです。

        初歩的な質問だと思いますが、お答えくださいますと助かります。
        よろしくお願い致します。
        • [4298] Re2:UNICODEにしてますか (全略) 2005年02月14日 13:06

          ▼ kohさん
          > 基本的に「Unicode」にすればよろしいのでしょうか?
          >
          > 主に検索したいファイルはtxtファイルとdocファイルです。
          たいがいの場合、ダメです
          検索したいファイルが全てUNICODEだとか、docファイルしか対象にしないと言うのなら別にいいんですが

          「Unicode」にすれば文字コードを自動判別することなくUnicodeとして開き検索します
          他の文字コード(SJISとかEUCとか)のファイルが検索できなくなります
          Word,Excelのファイルはバイナリファイルですが文字はUnicodeで保存されているので
          「たまたま」うまく検索できているだけかと思います
          なのでdocのファイルをGrepするときだけ「Unicode」にしたほうが無難かも

          # 文字コード判別に失敗したら指定された文字コードを使う、とかの方がいいんですかねぇ、、、
          # でも1つのファイルに複数の文字コードがあるファイルもあるしなぁ T-T

          たとえばWordは知りませんが、Excelはセルの文字列はUnicodeのクセに
          マクロの文字コードはSJISだったり、、、
          • [4299] Re3:UNICODEにしてますか maru 2005年02月14日 22:46

            > たとえばWordは知りませんが、Excelはセルの文字列はUnicodeのクセに
            > マクロの文字コードはSJISだったり、、、

            手前味噌ながら
            http://www.geocities.jp/maru3128/sakura.html#omake
            文字コード自動判定時に、officeのヘッダーが付いてたら
            Unicodeで開くように改造したものです。
            いわゆる自分専用仕様としてコンパイルしたものですが
            必要であればご自由にお使いください。

            当然、修飾部分はすべてバイナリになってしまうため
            検索目的以上には使えません。
            さらにExcelは(前略)さんのおっしゃるように
            文字コードの混在が発生しますのでイマイチ信頼できません。
            基本的に97以降ではセルの値の検索はUnicodeだけで
            できるように設計されていますがS-JISが使用できない
            わけでもないらしく・・・。詳しくは分かりません。
            もし興味があれば↓など。
            http://www.pleasuresky.co.jp/insidexl.php3
          • [4300] 文字コードセットの指定方法 渡辺真 2005年02月14日 22:48

            既に回答済みですが、補足します。

            サクラエディタでまず開いてみて、読めるファイル(.txtや.html)は、「自動選択」で OK です。

            一方、.docや.xlsのように、サクラエディタで開くと、分けの分からない文字で始まっているもの(バイナリファイル)は、プログラムでも「自動選択」の判定ができないので、明示的に人が指定しなければなりません。

            (下の既出の書きこみのように、「正規表現キーワードを使うにして、バイナリファイルを開くと、まれにアプリケーションで落ちることが有ります」ので、もし、「正規表現キーワード」を使っているなら、事前にサクラで、「正規表現キーワード」を使わない、doc,xlsのタイプ別設定を作っておくと良いでしょう。)


            最近のバージョンの MS-Office の文書は「UNICODE」だとか、マクロの文字コードは「SJIS」だとかいう、知識が有って、それを指定します。


            ちなみに、docファイルを、サクラエディタで開いて、「ファイル」→「開き直す」→「Unicodeで開き直す」とすると、真中あたりで、本文が読めることから、「UNICODE」だと分かります。
            • [4301] Re:文字コードセットの指定方法 maru 2005年02月15日 01:03

              ▼ 渡辺真さん
              > 「正規表現キーワードを使うにして
              > バイナリファイルを開くと、まれにアプリケーションで
              > 落ちることが有ります」ので

              これは・・・困りましたね。
              私はバイナリファイルでもお構いなしに開きまくり。
              しかも正規表現キーワード使っています。
              いままでよく無事でした。

              > doc,xlsのタイプ別設定を
              なるほど。早速用意するとしましょう。
              • [4302] Re2:文字コードセットの指定方法 koh 2005年02月15日 14:56

                皆様、ご指導ありがとうございました。
                大変、参考になりました。

                txtとdocを同時に検索をかけないで、txtなら自動選択、docなら、
                Unicodeで2回行なうことで対処しようと思います。

                本当にありがとうございます。
                • [4303] Re3:文字コードセットの指定方法 koh 2005年02月15日 18:54

                  たびたびのご質問で、大変恐縮なのですが、docファイル(wordで作成)
                  したファイル内の文字列で、太字などで装飾された文字列を検索する
                  方法はあるのでしょうか?

                  Unicodeを含むすべての文字コードで試しましたが、検索されません。

                  何かよい案がありましたら、お教えください。
                  よろしくお願い致します。
                  • [4304] Re4:文字コードセットの指定方法 maru 2005年02月16日 00:12

                    太字になっている文字列に限定して検索する、の意味ですか?

                    それともマッチするはずの文字列がたまたま太字に
                    なっていると、検索に失敗する、という文章にも見えますが
                    私のところではそういった現象は経験がないです。

                    もし後者の意味であれば問題となったファイルを
                    送付いただけませんか?
                    • [4305] Re5:文字コードセットの指定方法 koh 2005年02月16日 10:02

                      再度、検索を試したところ、うまくいきました。
                      私の勘違いでした。
                      申し訳ございません。