[6253] テスト版更新げんた 2007年08月25日 00:43

テスト版を更新しました．
http://sakura.qp.land.to/?Junk%2Ftest-1.5.17.0

追加・更新したパッチ
-[[patches:1776384]] コマンドライン -Y=num FixMoveCursorEOL2_3.patch
-[[patches:1742481]] bregonig.dll対応 bregonig-7.diff
-[[patches:1553455]] パイプやリダイレクト記号を使えるようにする ExecCommandPlus20070702.zip
-[[patches:1550557]] 自動実行マクロ AutoExecMacro5_a3_1112.patch
-[[patches:1724317]] UTF-7 の読み取りミス(?) 対策＋α codechecker_fix2__r1112.patch

なお，動作確認目的のため，不完全なパッチや動作確認を行っていないパッチも含まれていますことをご了承ください．

[6259] Re:テスト版更新 Uchi 2007年08月27日 12:29

▼ げんたさん
> テスト版を更新しました．
> http://sakura.qp.land.to/?Junk%2Ftest-1.5.17.0
BOM付きのUTF-8,Unicodeのファイルを読み込む時に、
ファイルの先頭のBOMを削除しなくなりました。
1.5.17.201では正常に動作していました。

以上バグらしきものの報告をさせていただきます。
- [6260] Re2:テスト版更新ラスティブ 2007年08月27日 23:19
  
  ▼ Uchiさん
  > BOM付きのUTF-8,Unicodeのファイルを読み込む時に、
  > ファイルの先頭のBOMを削除しなくなりました。
  
  えっと。犯人です f(－_・;;
  バグのご報告、感謝します。
[6261] Re:テスト版更新 see 2007年08月29日 05:32

▼ げんたさん
> テスト版を更新しました．
> -[[patches:1724317]] UTF-7 の読み取りミス(?) 対策＋α codechecker_fix2__r1112.patch
1.5.17.201で半角カタカナが混じっているファイルをSJISと判定するようになって喜んでいたのですが、今回の202では、またEUCと判定されるようになりました。

例えば、以下の２行だけのファイルを開いた時EUCと判定されてしまいます。
（アップすると半角カナが全角になってしまいましたが以下は半角カナです）
---------------------------------------
アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヲン
ガギグゲゴザジズゼゾダヂヅデドバビブベボパピプペポー
---------------------------------------

ファイルのプロパティは以下のようになっていました。
--文字コード調査情報----------
Unicode BOM の有無：なし

--- Single-byte code info.
1. EUC - 96 byte(s) specific, 95 points.
2. SJIS - 0 byte(s) specific, 0 points.
3. UTF-8 - 22 byte(s) specific, -53 points.
4. JIS - 0 byte(s) specific, -97 points.
5. UTF-7 - unavailable.
--- Double-byte code info.
UTF16 LE - 0 byte(s) used for newline code, 58 bytes unassigned or ill-formed.
UTF16 BE - 0 byte(s) used for newline code, 8 bytes unassigned or ill-formed.
--- Newline code info.
0x0D/0x0A - 3 byte(s) found.

SJISが「0 byte(s) 0 points」というのは？　上記半角カタカナも全てSJISのコード範囲なのですが・・・
（関係ないけど0x0D/0x0Aは2箇所（バイト数では４バイト）だけど何故3 byte(s) found ？）
- [6262] Re2:テスト版更新ラスティブ 2007年08月29日 15:40
  
  ▼ seeさん
  > > -[[patches:1724317]] UTF-7 の読み取りミス(?) 対策＋α codechecker_fix2__r1112.patch
  > 1.5.17.201で半角カタカナが混じっているファイルをSJISと判定するようになって
  > 喜んでいたのですが、今回の202では、またEUCと判定されるようになりました。
  
  ・・・。
  了解しました。ｂ(＞.・
  
  > SJISが「0 byte(s) 0 points」というのは？
  > 上記半角カタカナも全てSJISのコード範囲なのですが・・・
  
  その版では半角カタカナをカウントしてないんです (^^;
  カウントするように修正したものを codechecker_fix4__r1112.tgz として登録しておきました。
  テストバイナリに統合されるまで気長にお待ち下さい。
  # 自分でテストバイナリ作ろうとしたら見事に失敗してしまいましたので orz
  
  > （関係ないけど0x0D/0x0Aは2箇所（バイト数では４バイト）だけど何故3 byte(s) found ？）
  
  0x0D/0x0A の数は 2 バイト 1 組の文字コード UTF-16 の検出時に使うので、実は、
  検査したデータの長さが奇数バイトの時は最後の 1 バイトを捨てるようにしてあります。
  表示の仕方も悪い…ですね。はい。
  - [6266] Re3:テスト版更新 see 2007年08月31日 06:31
    
    ▼ ラスティブさん
    > その版では半角カタカナをカウントしてないんです (^^;
    > カウントするように修正したものを codechecker_fix4__r1112.tgz として登録しておきました。
    1.15.17.0にこのパッチ（codechecker_fix4__r1112.tgz）だけを適用して確認しました。
    半角カナもSJISにカウントされSJISで開くようになりました。
    （サンプルの最後の「ー」を消すとSJISとEUCは同一ポイントになりますがSJISで開きます。）
    他のファイルも少し試してみましたがSJISとEUCのポイント差はどちらの文字コードのファイルを開いてもかなりの僅差で微妙だなと感じました。
    この辺は色々意見があるところだとは思いますが、とりあえずこの件はＯＫです。
    お手数をおかけし申し訳ありません。本当にありがとうございました。
    
    --文字コード調査情報----------
    Unicode BOM の有無：なし
    サンプルデータ長： 101 バイト
    UTF-16 検出ログ：
    UTF16 LE -- 0 byte(s) used for newline code, 58 bytes unassigned or ill-formed.
    UTF16 BE -- 0 byte(s) used for newline code, 8 bytes unassigned or ill-formed.
    0x0D/0x0A -- 3 byte(s) found.
    SJIS, JIS, EUCJP, UTF-8, UTF-7 検出ログ：
    1. SJIS -- 97 byte(s) specific, 97 points.
    2. EUC -- 96 byte(s) specific, 95 points.
    3. UTF-8 -- 22 byte(s) specific, -53 points.
    4. JIS -- 0 byte(s) specific, -97 points.
    5. UTF-7 -- set to INT_MIN.
    結果：
    [SJIS, JIS, EUCJP, UTF-8, UTF-7 の何れかが検出されました]

[6253] テスト版更新 げんた 2007年08月25日 00:43

[6259] Re:テスト版更新 Uchi 2007年08月27日 12:29

[6260] Re2:テスト版更新 ラスティブ 2007年08月27日 23:19

[6261] Re:テスト版更新 see 2007年08月29日 05:32

[6262] Re2:テスト版更新 ラスティブ 2007年08月29日 15:40

[6266] Re3:テスト版更新 see 2007年08月31日 06:31

[6253] テスト版更新げんた 2007年08月25日 00:43

[6260] Re2:テスト版更新ラスティブ 2007年08月27日 23:19

[6262] Re2:テスト版更新ラスティブ 2007年08月29日 15:40