一致の厳密さ

0 枚

0 重複グループ

0 削減可能

データセットの画像をここにドロップ

またはクリックして選択（まとめて選べます）

2枚以上を追加すると近似重複を検出します

ブラウザ内で処理 · アップロードなし

LoRA や Stable Diffusion の追加学習用に集めた画像データセットから、「ほぼ同じ画像」＝近似重複を見つけるツールです。連写の隣り合うコマ、少しだけトリミングや明るさを変えただけの別ファイル、リサイズや再保存で別物になった重複などは、ファイル名やファイルサイズの厳密一致では検出できません。本ツールは各画像を 32×32 のグレースケールに縮小し、DCT ベースの知覚ハッシュ(pHash, 64bit)を計算します。pHash は細部ではなく構図・明暗の配置を捉えるため、解像度や軽い加工が違っても近い画像は近いハッシュになります。2枚のハッシュの「ハミング距離（異なるビット数）」が小さいほど見た目が近く、これを閾値でつないで近似重複をグループにまとめます。各グループは先頭を『残す候補』、残りを『重複候補』として表示し、削減できる総枚数（重複グループの合計枚数 − グループ数）も出ます。削除候補のファイル名はワンクリックでまとめてコピーできるので、エクスプローラやコマンドラインでの整理にそのまま使えます。一致の厳密さは『厳密 / 標準 / ゆるめ』の3段で切り替えられ、厳密はほぼ同一カット、ゆるめは「似たような一枚」まで拾います。同じ被写体・同じ構図の画像が偏って多いと、学習したモデルがそのカットに引っ張られて多様性を失います。本ツールで偏りの原因になる重複を学習前に間引けます。判定はすべてブラウザ内（端末上）で完結し、ドロップした画像はアップロード・保存・送信されません。あなたのデータセットは外に出ません。

使い方

学習に使う画像をまとめてドロップ（またはクリックして複数選択）します。2枚以上で検出が始まります。
近似重複が見つかると、似た画像どうしがグループにまとまって表示されます。各グループの先頭が『残す候補』、残りが『重複候補』で、距離（ハミング距離）も出ます。
『一致の厳密さ』を厳密/標準/ゆるめで切り替えて、拾いすぎ・取りこぼしを調整します。
『重複ファイル名をコピー』で削除候補のファイル名を一括コピーし、エクスプローラやコマンドラインでデータセットを整理します。

よくある質問

画像は外部に送信されますか？

いいえ。画像の縮小・ハッシュ計算・比較はすべてブラウザ内で行われます。ドロップした画像はアップロード・保存・送信されません。データセットは一切端末の外に出ません。

知覚ハッシュ(pHash)とは何ですか？

画像を小さなグレースケールに縮小し、DCT（離散コサイン変換）で構図・明暗の大まかな配置を 64bit の指紋にする手法です。細部より「全体の見た目」を捉えるため、解像度や軽い加工が違っても、見た目が近い画像は近いハッシュになります。2つのハッシュの異なるビット数（ハミング距離）が小さいほど似ています。

『厳密 / 標準 / ゆるめ』はどう違いますか？

近似とみなすハミング距離のしきい値を変えます。厳密は距離が非常に小さい『ほぼ同一カット』だけ、標準は連写やトリミング違いなど『同じ構図』まで、ゆるめは『似たような一枚』まで拾います。拾いすぎたら厳密寄りに、取りこぼしたらゆるめ寄りに調整してください。

『残す候補』『重複候補』はどう決まりますか？

グループ内で読み込み順が最初の画像を『残す候補』、それ以外を『重複候補』として表示するだけの目安です。ツールが勝手にファイルを削除することはありません。実際にどれを残すかは中身を見て判断してください。

左右反転や大きな加工をした画像も重複として見つかりますか？

pHash は左右反転すると別の指紋になるため、反転画像は通常は別物として扱われます（用途によっては反転も重複ですが、ここでは検出しません）。色調や明るさの大きな変更、トリミングのし過ぎなども、見た目が十分変われば別物になります。本ツールは『ほぼ同じ見た目』の近似重複の検出に向いています。

何枚まで一度に調べられますか？

上限は設けていませんが、比較は総当たり（枚数の2乗）なので、数百枚を超えると検出に時間がかかります。読み込み中も画面が固まらないようにしていますが、大量のデータセットはフォルダ単位で分けて確認することをおすすめします。