「文字カウント」の版間の差分

2015年9月30日 (水) 23:23時点における版

選択範囲or文書全体の字数・容量を算出するマクロです。
Shift_JIS／UTF-16／UTF-8 でのバイト数を一度に確認できます。

注意点

改行・半角文字・全角文字、すべて1文字とカウントします。
Shift_JIS は Windows-31J / Microsoft コードページ 932 (CP932) に準拠しています。
Unicode 対応は一部に留まります。
- サロゲートペアは、Mery では仕様上2文字とカウントされますが、このマクロでは1文字とカウントします。
- 結合文字や異体字セレクタ、Unicode の空白文字や制御文字は考慮していません。これらは通常の文字と同様にカウントされます。
文字数や文字種が増えるほど処理に時間がかかります（作者の環境では、100万字の処理に約1.5秒かかりました）。
ステータスバーに処理に要した時間が表示されますので参考にしてください。

ソースコード

ダウンロード→ 文字カウント.zip

拙作ですがアイコンファイルを同梱してあります。
Mery の My Macros フォルダにアイコンファイル (文字カウント.ico) を配置すれば、ツールバーにアイコンが読み込まれます。

更新履歴

ファイル:文字カウント.zip

2015/09/30
- 改行コードを判別し、容量に反映するようにした。ただし、判別にクリップボードを使う仕様上、下記の難点があります。
  - 対象範囲に改行が存在しない場合は判別できない。
  - クリップボードの内容を記憶・復元する過程でクリップボード履歴が1つ増えてしまう。
- 結果表示の内容を改訂。
  - 「段落」はデフォルトで非表示とした。（後述の定義変更を受けて）
  - 「拡張」を「依存」に改称し、MS拡張 → MS拡張＋MS外字の字数に変更。
  - 「ｻﾛｹﾞｰﾄ」を「ペア」に改称。
  - SJIS の容量表記を「数値 bytes」→「数値バイト」に変更。
  - UTF-16 の容量表記を「数値 bytes (BOM無)」→「数値+2(BOM) バイト」に変更。
  - UTF-8 の容量表記を「数値 bytes (BOM無)」→「数値+3(BOM) バイト」に変更。
- 分類「会話」を削除。（なんとなく用意してみた、程度の存在理由だったので）
- 分類「段落」の正規表現を変更。 /^(?=　[^　\s])/gm → /^(?![ 　\t]*$)/gm
  Microsoft Word の文字カウント仕様（段落数）に近づけた。
- 分類「英単」を「半英単」に改称し、正規表現を変更。 /\b(?=\w)/g → /(?=[!-~](?![!-~]))/g
  Microsoft Word の文字カウント仕様（半角英数の単語数）に少しだけ近づけた。※仕様が不詳かつ複雑なため、完全再現は目指していません。
- 「MS外字」の分類(type)を "総数,MS外字" → "総数,MS外字,全角" に変更。
- 文字 U+0080 の分類(type)を "総数,Uni" → "総数,MS外字" に修正。
- 文字種一覧に「SJIS保存時、よく似た半角文字に変換される文字」を追加。
2014/02/17
- アウトラインやアウトプットにフォーカスがある場合、結果が 0 になってしまうのを修正。
  Document ではなく Editor.ActiveDocument を利用してテキストを取得するようにした。
- 分類「段落」の正規表現を変更。 /^(?=　[^　\s]+)/gm → /^(?=　[^　\s])/gm
- 分類「会話」の正規表現を変更。 /^(?=「.+」$)/gm → /^(?=「.*」$)/gm
2014/02/01
- 初版公開。

文字種一覧

デフォルトで定義されている文字種は下表のとおりです。分類は Shift_JIS (CP932) を基準にしています。

　赤地　の項目は、デフォルトで結果表示に採用されている項目です。ただし下記の項目は、計算により求められています。

「字数」＝　総数　－　改行　－　空白　　※総字数から改行・空白を引いた数
「依存」＝　MS拡張　＋　MS外字

分類 (type)				該当文字 (re) /正規表現/	容量 (sjis,utf16,utf8)	備考
	階層			/^(?=\.)/gm		ピリオドで始まる行 (階層付きテキスト)
	段落			/^(?![ 　\t]*$)/gm		空白行でない論理行
	半英単			/(?=[!-~](?![!-~]))/g		ASCII文字による単語 (半角英数の単語)
総数
	制御	改行		※CR+LF ※CR または LF	2, 4, 2 1, 2, 1	ASCII制御文字
		空白	タブ	/\t/g	1, 2, 1	ASCII制御文字
				/[\u0000-\u001F\u007F]/g	1, 2, 1	上記以外のASCII制御文字
	半角	空白	半空	/ /g	1, 2, 1	ASCII文字
		数字	半数	/[0-9]/g	1, 2, 1	ASCII文字
		英字	半英	/[A-Za-z]/g	1, 2, 1	ASCII文字
		記号		/[\u0020-\u007E]/g	1, 2, 1	上記以外のASCII文字
		記号	半カナ	/[｡｢｣､･ｰﾞﾟ]/g	1, 2, 3
		仮名	半カナ	/[ｦ-ｯｱ-ﾝ]/g	1, 2, 3
	全角	空白	全空	/　/g	2, 2, 3
		数字	全数	/[０-９]/g	2, 2, 3
		英字	全英	/[Ａ-Ｚａ-ｚ]/g	2, 2, 3
		仮名	かな	/[ぁ-ん]/g	2, 2, 3	※SJISではゔゕゖなどは扱えない
		仮名	カナ	/[ァ-ヶ]/g	2, 2, 3
		ギリシャ		/[Α-ΡΣ-Ωα-ρσ-ω]/g	2, 2, 2	※SJISではシグマの語末形 ς は扱えない
		キリル		/[ЁА-Яа-яё]/g	2, 2, 2	※Unicodeでは Ё ё の配置がJISと異なる
		記号		/[´¨±×÷°§¶]/g	2, 2, 2	UTF-8で2バイトの全角記号(8字)
		記号		/[、。， (中略) †‡◯]/g	2, 2, 3	UTF-8で3バイトの全角記号(138字)
		罫線		/[─│┌ (中略) ┥┸╂]/g	2, 2, 3	罫線素片(32字)
		漢字	第一	/[亜唖娃 (中略) 湾碗腕]/g	2, 2, 3	JIS第一水準漢字(2965字)
			第二	/[弌丐丕 (中略) 瑤凜熙]/g	2, 2, 3	JIS第二水準漢字(3390字)
			MS拡張	/[纊褜鍈 (中略) 鶴鸙黑]/g	2, 2, 3	IBM拡張文字(漢字360字)
			MS拡張	/[①-⑳Ⅰ (中略) ￤＇＂]/g	2, 2, 3	NEC特殊文字/IBM拡張文字(記号等87字)
			MS外字	/[\uE000-\uE757]/g	2, 2, 3	Microsoft ユーザー定義外字(1880字)
				/[\uF8F0-\uF8F3]/g	1, 2, 3	CP932 未定義文字 ※SJIS保存時、0xA0/FD/FE/FF/80 に変換される
				/\u0080/g	1, 2, 2	CP932 未定義文字 ※SJIS保存時、0xA0/FD/FE/FF/80 に変換される
	Uni			/[¡¥¦©ª®²³¹º¿À-ÖØ-öø-ÿ]/g	1, 2, 2	※SJIS保存時、よく似た半角文字に変換される
				/[¢£«¬¯µ·¸»]/g	2, 2, 2	※SJIS保存時、よく似た全角文字に変換される
				/ゔ/g	2, 2, 3	※SJIS保存時、全角カナのヴに変換される
				/[\u0080-\u07FF]/g	1, 2, 2	上記以外のUTF-8で2バイトの文字
		SP		/[\uD800-\uDBFF][\uDC00-\uDFFF]/g	2, 4, 4	サロゲートペア (U+10000～10FFFF)
				/[\u0800-\uFFFF]/g	1, 2, 3	上記以外のUTF-8で3バイトの文字

Shift_JIS では、　MS拡張　　MS外字　に分類される文字は「機種依存文字」に該当し、Windows 以外では文字化けする可能性があります。
Shift_JIS では、　Uni　に分類される文字を正常に保存できません。保存を強行した場合、よく似た文字や ? の文字に変換されます。

文字種について

文字種の分類は、ソースコードの最初のほうにある「文字種の定義」の部分で定義されています。

var list = [
{sjis:数値,utf16:数値,utf8:数値, type:文字列, re:正規表現},
  (中略)
];

re	カウントしたい文字を正規表現で記述します。たとえば全角カタカナなら、`re:/[ァ-ヶ]/g` という具合です。利用できる正規表現は、実行環境 JScript (JavaScript) の仕様に依存します。
type	文字種の分類名です。複数設定したい場合はカンマで区切ります。たとえば、`type:"総数,全角,カナ"` という具合です。この場合、type["総数"], type["全角"], type["カナ"] の変数にカウントが加算されます。
sjis utf16 utf8	1文字 (1カウント) あたりの容量 (バイト) を設定します。たとえば、`sjis:2,utf16:2,utf8:3` という具合です。それぞれ SJIS, UTF-16, UTF-8 での容量となります。省略した場合は 0 とみなします。

結果表示について

表示される結果は、ソースコードの最後のほうにある「ここから～ここまで結果表示の定義」の部分で定義されています。
ソースコードを単純化すると、以下のような処理になっています。

var result = (※出力用のテキストを生成);
Alert(result);

「文字カウント」の版間の差分

2015年9月30日 (水) 23:23時点における版

目次

注意点

ソースコード

更新履歴

文字種一覧

文字種について

結果表示について

案内メニュー

「文字カウント」の版間の差分

2015年9月30日 (水) 23:23時点における版

注意点

ソースコード

更新履歴

文字種一覧

文字種について

結果表示について

案内メニュー

検索