◀一般トップへ
  • 3247 UTF-8文字化け
    • 3252 Re: UTF-8文字化け
      • 3358 Re2: UTF-8文字化け
    • 3253 ファイル送って下さい
      • 3254 Re:ファイル送って下さい
        • 3255 16進の3バイト
          • 3256 Re:16進の3バイト
            • 3262 「~」と「~のようなもの」は別字なのだ
  • [3247] UTF-8文字化け 佐野剛史 2003年09月05日 08:59

    サクラエディタでUTF-8でエンコードされている
    テキストを開くと、「〜」(~のような
    文字)の文字が文字化けします。これはバグで
    しょうか。

    具体的には、

    Ruby Way ~Ruby道への招待~

    が

    Ruby Way 縲彝uby道への招待縲

    になります。
    • [3252] Re: UTF-8文字化け もか 2003年09月05日 16:15

      >サクラエディタでUTF-8でエンコードされているテキストを開くと、
      >「〜」(~のような文字)の文字が文字化けします。
      まず、断っておかないといけないのは、サクラエディタは内部コードがSJISなのでSJISに含まれない文字は利用できません。

      サクラエディタではUnicode文字列とCP932(Shift_JIS)の変換に、MSのテーブル=対応表を使っています。
      今回の文字は〜でU+301C(WAVE DASH)です。
      本来の対応:0x8160←→U+301C
      ですので本来は「~のような文字」ではなく、「~そのもの」のはずなんですが、
      MSの対応:0x8160←→U+FF5E(FULLWIDTH TILDE)
      となっていて、肝心のU+301Cはというと、“対応するSJISコードは無し”です。
      そのため、現在のサクラエディタでは扱えない文字と言うことになってしまっています。

      >これはバグでしょうか。
      MSのバグ(仕様)です。今後修正される見込みはまずないでしょう。
      しかし、この文字に限ればサクラエディタで独自に対応することは不可能ではないです。
      • [3358] Re2: UTF-8文字化け 蒔田 信幸 2003年10月10日 23:00

        「逆~」は、例えば、Google で、
        「site:info-price.jp 秋葉原」
        を検索すると表示される。

        Windowsのどこかには、フォントが有るはずなのです!
    • [3253] ファイル送って下さい 渡辺真 2003年09月05日 16:57

      既に、もか さんから回答有りましたが、私の環境では、うまく再現しません。

      後学のために、サンプルファイルを送って下さい。
      • [3254] Re:ファイル送って下さい 蒔田 信幸 2003年09月06日 11:01

        ▼ 渡辺真さん 質問で申し訳ありません
        > 既に、もか さんから回答有りましたが、私の環境では、うまく再現しません。
        >
        > 後学のために、サンプルファイルを送って下さい。

        U301C は、16進の3バイトで表すと何になるのですか。
        • [3255] 16進の3バイト 渡辺真 2003年09月06日 13:39

          サンプルファイルをもらっていないので分かりませんが、

          わたしの環境では、掲示板の文字「~」をSakuraに張り付けて、UTF-8で保存すると、

          EFBD9E

          になって、開き直すと「~」に戻って文字化けしません。
          • [3256] Re:16進の3バイト 蒔田 信幸 2003年09月06日 16:36

            ▼ 渡辺真さん
            それなら、
            U301C = E3809C どこどこからのような記号

            x01x 00 0000 01
            x809x -1000 0000-1001
            ○エディタで表示しました。

            U9053 = E98193 道
            = E381B8 へ
            = E381AE の
            U62DB = E68B9B 招
            U5F85 = E5BE85 待
            UFF5E = EFBD9E ~

            05 00 0001 01
            819 -1000 0001-1001

            2D 00 1011 01
            8B9 -1000 1011-1001

            F8 11 1110 00
            BE8 -1011 1110-1000

            F5 11 1101 01
            BD9 -1011 1101-1001

            301C = 0011 00 0000 01 1100
            E3809C =-1110 0011-1000 0000-1001 1100
            ^^^^ 3バイトだから1が3個並んで0
            http://www.okinawa.oiu.ac.jp/okinawa-cgi/cgi-bin/uni-kanji/unicode.htm
            と、まあこんな感じです。(暑)
            以上

            > しかし、この文字に限ればサクラエディタで独自に対応
            > することは不可能ではないです。
            特殊記号の入力もしくは、コードの逆変換が出来ないので、
            大変更だと思います。いっその事、U301CとUFF5Eを交換しますか?(汗)
            • [3262] 「~」と「~のようなもの」は別字なのだ 渡辺真 2003年09月08日 12:15

              しつこくお付き合いいただき、有難うございました。

              http://www.unicode.org/charts/PDF/U3000.pdf

              の解説を見て、やっと理解しました。(^^ゞ

              山谷の「~」は、U+FF5E(FULLWIDTH TILDE)で

              「~の位相のずれた谷山」は、U+301C(WAVE DASH)なんですね。

              >サクラエディタで独自に対応
              してもらって、
              U+301C→0x8160
              U+FF5E→0x8160
              の両刀使いが、ファジィで良いと思います。(汗)