caption の .txt ファイルをここにドロップ

…または caption を貼り付け(1行=画像1枚)

caption ファイルを追加するか caption を貼り付けると、タグ頻度ランキングが出ます。

「このデータセット、本当に狙ったタグが行き渡っている?」——LoRA や追加学習の caption(タグ txt)をまとめて投入すると、タグごとに『出現数』と『何枚の画像に付いているか(枚数・割合)』を頻度ランキングで一覧化するツールです。.txt ファイルを複数ドロップ/選択しても、caption を1行=画像1枚で貼り付けてもよく、両方を合算して集計します。全 caption に入ってしまっている過剰なタグ(学習が効きにくくなる原因)や、数枚にしか付いていない取りこぼしタグを、割合バー付きでひと目で見分けられます。`long_hair` と `long hair`、大文字小文字の表記ゆれは既定で同一タグに寄せて合算し(オプションで厳密集計に切替)、1枚の caption 内で同じタグが重複していても既定では1回として数えます(出現回数を数える設定も用意)。ランキングはタグ名でその場フィルタでき、結果はタグ列のコピーや `tag,count,files` の CSV コピーでスプレッドシートにも持っていけます。タグの整形そのもの(下線↔空白の統一や括弧エスケープ)が必要なときは姉妹ツールの tag-format に、複数 caption の一括書き換えは caption-edit に渡してください。学習素材は作品そのものなので、本ツールは外部の辞書や API に一切アクセスせず、集計はすべて端末内(ブラウザ)で完結します。

使い方

  1. 学習用 caption の .txt ファイルを「ここにドロップ」または「.txt ファイルを選択」でまとめて読み込みます(フォルダ内の全 txt を選択して OK)。
  2. ファイルが無い場合は、右側に caption を貼り付けます(1行が画像1枚ぶんの caption=カンマ区切りのタグ列)。ファイルと貼り付けは合算されます。
  3. 下のランキングでタグごとの出現数・枚数(割合バー)を確認します。必要ならタグ名で絞り込み、タグ列や CSV をコピーしてスプレッドシートで分析します。

よくある質問

caption ファイルや画像はサーバーに送信されますか?

いいえ。読み込んだ .txt の中身も貼り付けたテキストも、集計はすべてブラウザ内の文字列処理で行われ、外部のタグ辞書や API にもアクセスしません。アップロード・保存・送信は一切なく、あなたの端末内だけで処理されます。

「出現数」と「枚数」はどう違いますか?

「枚数」はそのタグを含む caption(画像)の数で、データセットでの普及度を表します。「出現数」はタグが現れた回数の総和です。caption は通常1枚に同じタグが1回なので両者はほぼ一致しますが、1枚の caption 内で同じタグが重複している場合に差が出ます(既定では重複は1回として数えます)。

long_hair と long hair は同じタグとして合算されますか?

はい。既定では「_ と空白を同一視」がオンなので、アンダースコア表記とスペース表記の違いは無視して合算します。booru 形式と prompt 形式が混ざったデータセットでも揃います。厳密に分けて数えたい場合はオプションをオフにしてください。

全部の画像に入っているタグは学習に悪いのですか?

trigger word のように意図して全画像に入れるタグは別ですが、画風や被写体を学習させたい特徴タグが全 caption(100%)に入っていると、その特徴が『当たり前』として学習されにくくなることがあります。割合バーで 100% に張り付いているタグを見つける用途に使えます(最終判断は学習設定や目的によります)。

1枚の caption 内に同じタグが2回あるとどう数えますか?

既定では1枚につき1回として数えます(重複を畳む)。重複そのものを数えたい場合は「1ファイル内の重複も数える」をオンにすると、出現数が回数ぶん加算されます。枚数(文書頻度)はこの設定に関わらず常に『含む画像の数』です。

結果を Excel やスプレッドシートで分析できますか?

はい。「CSV をコピー」で `tag,count,files` 形式の全ランキングをコピーでき、そのまま Excel / Google スプレッドシートに貼り付けられます。タグ列だけが欲しい場合は「タグをコピー」でカンマ区切りのタグ一覧をコピーできます。