caption の .txt ファイルをここにドロップ

一括編集

タグを改名

caption の .txt ファイルを追加すると一括で編集でき、結果を .zip でまとめて保存できます。

「データセット全部に trigger word を足したい」「`lowres` や `watermark` を全 caption から消したい」「`long hair` を `long_hair` に統一したい」——LoRA や追加学習の caption(タグ txt)を1枚ずつ手で直すのは現実的ではありません。このツールは .txt を何百枚でもまとめて読み込み、同じ編集をデータセット全体へ一括適用して、元のファイル名のまま1つの .zip にまとめて再保存します。できることは、先頭への trigger word 付与(既に入っている caption には二重に足しません)、末尾への共通タグ付与、特定タグの一括削除、タグの改名(例: `1 girl`→`1girl` を全ファイルで置換)、各タグの前後トリムと語内スペースの整理、caption 内の重複タグ除去、アルファベット順の並べ替えです。削除・改名・重複の一致判定は `long_hair` と `long hair`、大文字小文字の違いを吸収する『ゆるい一致』なので、booru 形式と prompt 形式が混ざったデータセットでも狙ったタグをきちんと拾います。編集結果は左に元ファイル、右に編集後をプレビューし、変わったファイルには「編集済み」バッジが付くので、全件に適用する前に効き目を確認できます。タグの並べ替えや区切りの統一だけがしたいときは姉妹ツールの tag-format、タグの偏りを数えたいときは tag-counter に渡してください。学習素材は作品そのものなので、本ツールは外部の辞書や API に一切アクセスせず、読み込み・編集・zip 化のすべてを端末内(ブラウザ)で完結します。元のファイルには一切手を加えず、編集後の新しい .zip を書き出すだけなので安全です。

使い方

  1. 学習用 caption の .txt ファイルを「ここにドロップ」または「.txt ファイルを選択」でまとめて読み込みます(フォルダ内の全 txt を選択して OK)。
  2. 右の「一括編集」で、先頭に足す trigger word・末尾に足すタグ・削除するタグ・改名(◯◯→△△)を入力し、上のオプションでトリム/重複除去/並べ替え/スペースの寄せ方を選びます。プレビューで効き目を確認します。
  3. 「.zip をダウンロード」を押すと、編集後の全 caption が元のファイル名のまま1つの .zip にまとまって保存されます(元のファイルは変更されません)。

よくある質問

caption ファイルはサーバーに送信されますか?

いいえ。読み込んだ .txt の中身も編集結果も、すべてブラウザ内の文字列処理で扱い、外部のタグ辞書や API にもアクセスしません。アップロード・保存・送信は一切なく、zip の組み立てまで含めてあなたの端末内だけで処理されます。

元のファイルは上書きされますか?

いいえ。ブラウザはあなたのフォルダを直接書き換えられません。本ツールは読み込んだ内容を編集して『新しい .zip』として書き出すだけで、元の .txt には一切手を加えません。中身を確認してから、解凍して差し替えてください。

trigger word を全 caption の先頭に足したいです。

「先頭に追加(trigger word)」にタグを入れてください(カンマ区切りで複数可)。各 caption の先頭に前置されます。すでにそのタグが入っている caption には二重に足さないので、何度適用しても安全です。

long hair と long_hair はまとめて削除・改名できますか?

はい。削除・改名・重複の一致判定は『_ と空白を同一視・大文字小文字を無視』するゆるい一致です。たとえば「削除するタグ」に `long hair` と入れれば `long_hair` も `Long Hair` もまとめて消えます。出力側の表記は上の「スペース」設定(そのまま/アンダースコア/スペース)で揃えられます。

数百枚あっても大丈夫ですか?プレビューが全部出ません。

編集と zip 化は全ファイルに適用されます。プレビューは画面を軽く保つため先頭 100 件までを表示し、残りは「ほか N 件」と表示しますが、ダウンロードする .zip にはすべてのファイルが含まれます。「変更のみ表示」で編集が効いたファイルだけに絞れます。

タグの並べ替えや区切りの統一だけがしたいときは?

1つのテキストの整形(区切り統一・括弧エスケープ・並べ替え)は姉妹ツールの tag-format が向いています。データセットのタグ分布(どのタグが何枚に付くか)を数えたいときは tag-counter を使ってください。caption-edit は『複数ファイルへ同じ編集を一括適用して再保存する』ことに特化しています。