プロンプト
CLIP はプロンプトを 75 トークンのチャンクに区切ります(開始/終了の2つを足して77)。トークン数は A1111 / ComfyUI と一致。すべてブラウザ内で動きます。
トークン
Stable Diffusion / A1111 / ComfyUI のプロンプトが、CLIP テキストエンコーダで何トークンになるかを数え、どこで「75 トークンの区切り」に当たるかをリアルタイムで可視化するツールです。CLIP はプロンプトを 75 トークンのチャンクに区切り(開始・終了の特殊トークン2つを足して 1チャンク=77)、75 を超えた分は次のチャンクへ送られます。長いプロンプトで「どの語からチャンクが切り替わるのか」「あと何トークンで 75 に届くのか」が分かると、強調したい語をチャンクの先頭側に置く、不要な語を削る、といった調整がしやすくなります。トークン化は CLIP 本来の byte-level BPE をそのまま再現しているため、トークン数は A1111 の「x/75」表示や ComfyUI と一致します(例: `a photo of a cat` は 5 トークン、`masterpiece, best quality, 1girl` は 7 トークン)。プロンプトを貼り付けると、各トークンが chip で表示され、75 トークンごとに境界線が引かれます。語末(後ろに空白が来る位置)には淡い印が付くので、`lowres` が `low`+`res` のように1語が複数トークンに割れていることも見て取れます。判定に使う CLIP の語彙(BPE マージ表)は当サイトが自前でホストする静的ファイルを読み込むだけで、入力したプロンプトは外部に送信・保存されません。プロンプトはあなたの作品の設計図なので、計算はすべて端末内(ブラウザ)で完結します。
使い方
- Stable Diffusion のプロンプトを入力欄に貼り付けます(呪文・タグ列をそのままで OK)。
- 右側にトークンが chip で並び、75 トークンごとに「チャンク境界」の線が入ります。ツールバーに総トークン数とチャンク数が出ます。
- 75 に収めたい・チャンクの切れ目を調整したい場合は、語を削るか並べ替えて、境界線の位置を見ながら整えます。
よくある質問
プロンプトは外部に送信されますか?
いいえ。トークン化はすべてブラウザ内で行われます。当サイトが自前でホストする CLIP の語彙ファイル(BPE マージ表)を読み込むだけで、あなたが入力したプロンプトはアップロード・保存・送信されません。
トークン数は A1111 や ComfyUI と一致しますか?
はい。CLIP 本来の byte-level BPE を忠実に再現しているため、A1111 のプロンプト欄に出る「x/75」の x や ComfyUI のトークン数と一致します。`a photo of a cat`=5、`masterpiece, best quality, 1girl`=7 などで確認しています。
「75 区切り(チャンク)」とは何ですか?
CLIP はプロンプトを 75 トークンごとのチャンクに分割し、各チャンクに開始・終了の特殊トークンを2つ付けます(1チャンク=77)。75 を超えると次のチャンクへ送られ、UI によっては効きが変わったり打ち切られたりします。この境界を線で可視化しています。
1つの単語が複数トークンになるのはなぜですか?
CLIP は単語をそのまま1トークンにするのではなく、BPE という方式でよく使われる部分文字列に分割します。たとえば `lowres` は `low`+`res` に割れます。chip 表示と語末の印で、どの語が何トークンに分かれたかを確認できます。
日本語のプロンプトも数えられますか?
数えられます。ただし CLIP は日本語を学習主体にしていないため、日本語はバイト単位に細かく分割され、英語タグより多くのトークンを消費します。日本語が多いプロンプトでトークン数が大きく出るのはこのためです。
重みづけの記法 `(word:1.2)` や `[ ]` も数に含まれますか?
本ツールは入力テキストをそのまま CLIP の規則でトークン化します。括弧や数字も文字としてトークンに数えます。実際の生成では UI が重み記法を解釈して括弧を除く場合があるため、強調記法を多用したプロンプトの「実効トークン数」は本ツールの値より少なくなることがあります。素のトークン数の目安としてお使いください。