簡体字中国語(GB18030)に対応してもらえませんか？

長年Meryを愛用させてもらっています。
ご存じかもしれませんが、2022年に中国の国家標準規格としてのエンコーディングがGB2312からGB18030へと強制力を伴って変更されています。
そのため、ここ数年の間に中国語関連のテキストを扱っているとGB2312ではたまに一部文字化けをしてしまうことがあり、その場合だけMery以外のエディタを扱う必要があります。
長年愛用しているMeryに比べたらGB18030のためにだけ使用しているエディタは扱いにくく困っており、MeryでGB18030が扱えると非常に助かります。
エンコーディングの一覧に「簡体字中国語(GB18030)」を追加していただけないでしょうか。
ご検討、よろしくお願いいたします。

ーーーー
Mery: 3.7.13 (x64, Portable)
Onigmo: 6.2.0
C/Migemo: 1.3
Tidy: 5.8.0
Hunspell: 1.7.1
アウトライン: 3.2.2 (Outline.dll)
OS: Windows 11 (Version 23H2, OS Build 22631.4751, 64-bit Edition)

2025年4月2日 23:26 | しーな | 返信
ご愛用いただきありがとうございます。

> ご存じかもしれませんが、2022年に中国の国家標準規格としてのエンコーディングがGB2312からGB18030へと強制力を伴って変更されています。

これは知りませんでした。エンコーディングといえば UTF-8 が標準になりつつあると思っていましたが、中国では UTF-8 ではなく GB18030 が公式に採用されているのですね。

調べてみたところ、GB18030 は Unicode のすべての文字を扱えるものの、BOM のような識別情報がないため、テキストファイルが GB18030 かどうかを自動判定するのはかなり難しそうです。

自動判定には、中国語の統計的な文字頻度を考慮する必要があるようですね。

さらに、日本語 EUC とバイトパターンが似ている部分があり、誤認識されやすいのも厄介なところです。

ひとまず、自動判定は置いておいて、手動でエンコーディングを選択して開いたり保存したりできるようにするだけなら、実装できそうなので検討してみたいと思います。

2025年4月3日 21:35 | Kuro | 返信
Kuro さんの投稿 (2025年4月3日) への返信

対応検討ありがとうございます。
自動判別が無くとも、手動でGB18030が選択できるだけで非常に助かりますので、期待しながらこれからも愛用させていただきます。

余談になりますが、グローバルな標準としてはUTF-8が普及しているというのはその通りだと思います。
ただ、日本語や中国語といった非ラテン文字地域だとUTF-8では3バイト文字がほとんどとなり、容量（ファイルサイズ）の無駄遣いになるという側面がありますので、マルチバイト文字セットが使われる場面はまだまだあるようです。
なお、中国でUTF-8等のUnicode系のエンコーディング自体は禁止されておらず普通に使われていますので、単にGB2312からGB18030へと強制移行しただけのようです。

何年先になるかわかりませんが、各種エディタから「簡体字中国語(GB2312)」というエンコーディングの選択肢は消えていくのかもしれません。

2025年4月3日 22:30 | しーな | 返信
しーなさんの投稿 (2025年4月3日) への返信

ご返信ありがとうございます。

> ただ、日本語や中国語といった非ラテン文字地域だとUTF-8では3バイト文字がほとんどとなり、容量（ファイルサイズ）の無駄遣いになるという側面がありますので、マルチバイト文字セットが使われる場面はまだまだあるようです。

なるほど、確かに。テレホーダイを活用していた時代や、パケット料を節約していた頃を思い出すと、1 バイトの重みが身にしみて分かりますね。

GB18030 では、よく使われる中国語の文字は 2 バイトなんですね。GB2312 に Unicode 対応を取り込んだようなイメージでしょうか。

> 何年先になるかわかりませんが、各種エディタから「簡体字中国語(GB2312)」というエンコーディングの選択肢は消えていくのかもしれません。

確かに、GB18030 は GB2312 と互換性があるようなので、今後は GB2312 が使われなくなっていく可能性は高そうですね。

> 自動判別が無くとも、手動でGB18030が選択できるだけで非常に助かりますので、期待しながらこれからも愛用させていただきます。

そう言っていただけると、とても励みになります。

現在、手動での選択に対応できるよう実装を進めているところですので、次のバージョンをどうぞ楽しみにお待ちくださいませ。

2025年4月5日 21:15 | Kuro | 返信
しーなさんの投稿 (2025年4月3日) への返信

> 現在、手動での選択に対応できるよう実装を進めているところですので、次のバージョンをどうぞ楽しみにお待ちくださいませ。

その後、テキストファイルのエンコーディングを検出するライブラリとして、広く使用されている「chardet」に対応できる見込みが立ちました。

これにより、GB18030 やその他の外国語もある程度自動でエンコーディングを検出できるようになりそうです。

ただ、日本語に関しては、Mery の検出ロジックの方が精度が高い場合もあるので、chardet は主に外国語を使うユーザーさん向けのオプションとして提供する予定です。

近日中にリリースできるよう進めていますので、もう少しだけお待ちいただけると嬉しいです。

2025年4月9日 21:57 | Kuro | 返信
Kuro さんの投稿 (2025年4月9日) への返信

続報ありがとうございます。
もともと数年前にMeryを使いだしたのは、当時サロゲートペアもケアしてくれている、エンコーディングに対して非常に強いエディタであったからだということを今さらながら思い出しました。
そのMeryがGB18030にも対応してくれるということを非常に嬉しく思います。
期待しつつ、引き続きお待ちしています。

2025年4月10日 14:28 | しーな | 返信
しーなさんの投稿 (2025年4月10日) への返信

GB18030に対応したMery Version 3.7.14のリリースありがとうございます。
単純なエンコーディング対応だけでなく、自動判別にuchardet追加という面白い対応までしてくださり、とても感謝しています。

使い始めて何年も経ちますが、その間バージョンアップという名の進化を続け、2025年今現在でも他の多くの軽量テキストエディタと比べてみても、私にとっては世界一使いやすい軽量テキストエディタであるMeryの開発者に敬意を込めて、ささやかではありますが、ドグペを送らせていただきました。

今後はより一層Meryを愛用させてもらいますね！

2025年5月1日 13:14 | しーな | 返信
しーなさんの投稿 (2025年5月1日) への返信

早速お試しいただき、ありがとうございます。

こちらこそ、中国語のエンコーディング事情までは詳しくなかったので、とても参考になりました。

uchardet については、普段みなさんが Mery をどんな用途で使っているのか、なかなか分からないもので (わざわざ教えに来てくださる方も少ないですしね)、外国語の編集にも使われているんだなぁと、改めて気づかされました。

そんなわけで、GB18030 とあわせて対応してみました。お役に立てれば嬉しいです。

> 使い始めて何年も経ちますが、その間バージョンアップという名の進化を続け、2025年今現在でも他の多くの軽量テキストエディタと比べてみても、私にとっては世界一使いやすい軽量テキストエディタであるMeryの開発者に敬意を込めて、ささやかではありますが、ドグペを送らせていただきました。

開発支援、本当にありがとうございます！🙇‍♂️ フリーソフトという性質上、こうしてあたたかい言葉を直接いただけることはなかなかないので、とても励みになります。

趣味で開発しているものなので、モチベーションの維持が難しいこともありますが、これからもひっそりと続けていけたらと思っています。

今後とも、テキストエディター「Mery」をどうぞよろしくお願いします！

2025年5月1日 15:21 | Kuro | 返信