…または caption を貼り付け（1行=画像1枚）

caption ファイルを追加するか caption を貼り付けると、タグ頻度ランキングが出ます。

「このデータセット、本当に狙ったタグが行き渡っている？」——LoRA や追加学習の caption（タグ txt）をまとめて投入すると、タグごとに『出現数』と『何枚の画像に付いているか（枚数・割合）』を頻度ランキングで一覧化するツールです。.txt ファイルを複数ドロップ／選択しても、caption を1行=画像1枚で貼り付けてもよく、両方を合算して集計します。全 caption に入ってしまっている過剰なタグ（学習が効きにくくなる原因）や、数枚にしか付いていない取りこぼしタグを、割合バー付きでひと目で見分けられます。`long_hair` と `long hair`、大文字小文字の表記ゆれは既定で同一タグに寄せて合算し（オプションで厳密集計に切替）、1枚の caption 内で同じタグが重複していても既定では1回として数えます（出現回数を数える設定も用意）。ランキングはタグ名でその場フィルタでき、結果はタグ列のコピーや `tag,count,files` の CSV コピーでスプレッドシートにも持っていけます。タグの整形そのもの（下線↔空白の統一や括弧エスケープ）が必要なときは姉妹ツールの tag-format に、複数 caption の一括書き換えは caption-edit に渡してください。学習素材は作品そのものなので、本ツールは外部の辞書や API に一切アクセスせず、集計はすべて端末内（ブラウザ）で完結します。

使い方

学習用 caption の .txt ファイルを「ここにドロップ」または「.txt ファイルを選択」でまとめて読み込みます（フォルダ内の全 txt を選択して OK）。
ファイルが無い場合は、右側に caption を貼り付けます（1行が画像1枚ぶんの caption＝カンマ区切りのタグ列）。ファイルと貼り付けは合算されます。
下のランキングでタグごとの出現数・枚数（割合バー）を確認します。必要ならタグ名で絞り込み、タグ列や CSV をコピーしてスプレッドシートで分析します。

よくある質問

caption ファイルや画像はサーバーに送信されますか？

いいえ。読み込んだ .txt の中身も貼り付けたテキストも、集計はすべてブラウザ内の文字列処理で行われ、外部のタグ辞書や API にもアクセスしません。アップロード・保存・送信は一切なく、あなたの端末内だけで処理されます。

「出現数」と「枚数」はどう違いますか？

「枚数」はそのタグを含む caption（画像）の数で、データセットでの普及度を表します。「出現数」はタグが現れた回数の総和です。caption は通常1枚に同じタグが1回なので両者はほぼ一致しますが、1枚の caption 内で同じタグが重複している場合に差が出ます（既定では重複は1回として数えます）。

long_hair と long hair は同じタグとして合算されますか？

はい。既定では「_ と空白を同一視」がオンなので、アンダースコア表記とスペース表記の違いは無視して合算します。booru 形式と prompt 形式が混ざったデータセットでも揃います。厳密に分けて数えたい場合はオプションをオフにしてください。

全部の画像に入っているタグは学習に悪いのですか？

trigger word のように意図して全画像に入れるタグは別ですが、画風や被写体を学習させたい特徴タグが全 caption（100%）に入っていると、その特徴が『当たり前』として学習されにくくなることがあります。割合バーで 100% に張り付いているタグを見つける用途に使えます（最終判断は学習設定や目的によります）。

1枚の caption 内に同じタグが2回あるとどう数えますか？

既定では1枚につき1回として数えます（重複を畳む）。重複そのものを数えたい場合は「1ファイル内の重複も数える」をオンにすると、出現数が回数ぶん加算されます。枚数（文書頻度）はこの設定に関わらず常に『含む画像の数』です。

結果を Excel やスプレッドシートで分析できますか？

はい。「CSV をコピー」で `tag,count,files` 形式の全ランキングをコピーでき、そのまま Excel / Google スプレッドシートに貼り付けられます。タグ列だけが欲しい場合は「タグをコピー」でカンマ区切りのタグ一覧をコピーできます。