◀一般トップへ
  • 6084 置換
    • 6085 RE: 置換
      • 6086 Re2: 置換
        • 6089 Re3: 置換
  • [6084] 置換 もも 2007年06月05日 15:40

    初心者なのでやさしくお願いします。タグのついているヘッダーを削除して本文のみを抽出したいのです。
    しかも、空白行・改行コードも削除して↓以下のように文章をつなげた状態で取り出したいのです。もし、一気にいかないようでしたら、2段階の作業をしてもいいので教えてくださいませ。

    <head>
    <lesson>01</lesson>
    </head>
    <text>
    She is a little girl. Her name is Rose.
    </text>

    <head>
    <lesson>02</lesson>
    </head>
    <text>
    He is a little boy. His name is Jack.
    </text>

    ↓

    She is a little girl. Her name is Rose. He is a little boy. His name is Jack.


    • [6085] RE: 置換 maru 2007年06月05日 17:10

      >タグのついているヘッダーを削除して本文のみを抽出したいのです。
      >しかも、空白行・改行コードも削除して…

      ヘッダの構造とかすべて、このままの繰り返しを期待してよいのでしょうか。
      例文のままなら、たとえばこのような感じに2段階に置換(削除)するとか。

      2回とも、正規表現にチェックを入れてください。
      置換前1: <.*>
      置換後1:
      置換前2: \r\n
      置換後2:
      • [6086] Re2: 置換 もも 2007年06月05日 18:08

        ありがとうございますぅ。わーい!できましたー!
        でも、わたしは超初心者なので、<.*> と \r\n の正規表現の意味が??? 簡単に解説してくださいませ。お手数ですがお願いしますぅ。


        • [6089] Re3: 置換 もも 2007年06月05日 19:30

          早速のお返事ありがとうございますぅ!よくわかりましたぁ。