Möglichkeiten zur Deduplizierung von Dateien

Ich möchte die Dateien einfach auf mehreren Computern sichern und archivieren. Leider haben die Dateien einige große Dateien, die dieselbe Datei sind, aber auf verschiedenen Computern unterschiedlich gespeichert sind. Zum Beispiel kann es ein paar hundert Fotos, die von einem Computer auf den anderen als Ad-hoc-Backup kopiert wurden. Jetzt, da ich ein gemeinsames Repository von Dateien erstellen möchte, möchte ich nicht mehrere Kopien desselben Fotos.

Wenn ich alle diese Dateien in ein einzelnes Verzeichnis kopiere, gibt es ein Tool, das doppelte Dateien erkennen und mir eine Liste geben oder sogar eines der Duplikate löschen kann?

Author: User1, 2010-05-13

7 answers

Erstellen Sie eine md5sum jeder Datei, dupliziert md5sums vorschlagen (aber nicht garantieren) doppelte Dateien.

 3
Author: bryan,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2010-05-13 18:08:19

Sie können dupemerge verwenden, um die identischen Dateien in Hardlinks umzuwandeln. Es dauert jedoch sehr lange für einen großen Dateisatz. SHA (oder MD5) Hashes der Dateien funktionieren mit ziemlicher Sicherheit schneller, aber Sie müssen mehr Nacharbeit leisten, um die Duplikate zu finden. Die Wahrscheinlichkeit einer versehentlichen Kollision ist so gering, dass Sie sie in Wirklichkeit ignorieren können. (Tatsächlich tun dies bereits viele Deduplizierungsprodukte.)

Ihre beste Wette für den Umgang mit Fotos und Musik ist zu bekommen tools, die speziell auf das Auffinden von Duplikaten dieser Elemente zugeschnitten sind. Zumal Sie möglicherweise keine Dateien haben, die auf binärer Ebene identisch sind, nachdem Dinge wie Tagging oder Zuschneiden oder Codierungsunterschiede ins Spiel kommen. Sie möchten Tools, die Fotos finden, die gleich "aussehen", und Musik, die gleich "klingt", auch wenn kleinere Anpassungen an den Dateien vorgenommen wurden.

 2
Author: afrazier,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2010-05-13 19:22:52

Nun, wenn Sie die Möglichkeit haben, können Sie ein deduplizierendes Dateisystem einrichten und Ihre Backups darauf legen. Dadurch werden nicht nur ganze Dateien, sondern auch ähnliche Dateien dedupliziert. Wenn Sie beispielsweise dasselbe JPEG an mehreren Stellen, jedoch mit unterschiedlichen EXIF-Tags für jede Version haben, speichert ein deduplizierendes Dateisystem die Bilddaten nur einmal.

Deduplizierende Dateisysteme umfassen lessfs, ZFS und SDFS.

 1
Author: Ryan C. Thompson,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2010-08-25 02:17:35

Als ich so etwas gemacht habe, habe ich gelernt, dass es viel einnehmender/zeiteffizienter ist, die Dateien in Ihrer Freizeit im Laufe von ein paar Wochen selbst durchzugehen. Sie können den Unterschied zwischen den Dingen viel besser erkennen als Ihr Computer.

Wenn Sie nicht zustimmen, dann schlage ich vor, EasyDuplicateFinder. Wie ich oben erwähnt habe, dauert es jedoch lange, sagen wir, ungefähr einen Tag für 5 GB Dateien.

Und in einer anderen Anmerkung macht Crashplan was sie haben es vorher getan, aber auf eine viel besser organisierte, nicht versionierende Weise.

 0
Author: digitxp,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2010-08-25 03:24:19

Eine andere Möglichkeit, davon auszugehen, dass die Maschinen, die Sie sichern, dies unterstützen, besteht darin, etwas wie rsync zu verwenden.

Wenn Sie rsync von A nach B, dann von C nach B, dann von D nach B usw., werden exakte Duplikate (dh nach Dateinamen) eliminiert (und synchronisiert zwischen den Maschinen, die Sie sichern).

Wenn Sie nicht möchten, dass sie alle miteinander synchronisiert sind, ist dies jedoch nicht der beste Weg.

 0
Author: warren,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2010-08-25 03:33:24

Verwenden Sie für Bilddateien findimagedupes. Es ist auch in debian verpackt.

 0
Author: cweiske,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2014-01-28 09:35:13

Hardlinks führen nur dann eine Deduplizierung durch, wenn die gesamte Datei identisch ist. Wenn sich Header (EXIF, ID3, ...) oder Metadaten (owner) unterscheiden, werden sie nicht verknüpft.

Wenn Sie die Möglichkeit haben, ein Dateisystem mit Blockdeduplizierungsunterstützung (ZFS, btrfs,...) zu verwenden, verwenden Sie dies stattdessen. Ich mag die Offline offline (auch bekannt als batch) - Dedup-Unterstützung von btrfs, die Deduplizierung auf Erweiterungsebene unterstützt und nicht ständig große Speichermengen verbraucht (als ZFS online dedup).

Die Deduplizierung hat auch den Vorteil, dass Dateien vom Benutzer geändert werden können, ohne dass die andere Kopie dies bemerkt (was in Ihrem Fall möglicherweise nicht anwendbar ist, aber in anderen Fällen).

Siehe https://btrfs.wiki.kernel.org/index.php/Deduplication für eine ausgezeichnete Diskussion.

 0
Author: Marcel Waldvogel,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2017-02-05 19:38:55