Архив метки: копия

Dupdetector: находим и удаляем дубликаты картинок и фотографий

Одна из моих любимых программ, которая нужна для поиска и удаления дубликатов фотографий.

У беспечных пользователей дубликаты появляются постоянно. Например, одни и те же фотографии с фотоаппарата могут быть скинуты одновременно в разные папки, типа «Новая папка 1» и «Разобрать».

У меня так не бывает. Но бывает так, что дубли находятся в неразобранных фотографиях, уже отсортированных и тех, что предназначаются для блога и лежат отдельно.

А иногда я сохраняю иллюстрации и фото из социальных сетей. Причём, если из вКонтакта и прочих сетей фотографию можно реально сохранить, то из инстаграма сохранить фотографию можно только скриншотом, если с мобилы.

И получается путаница. Для беспечных пользователей это потеря нескольких гигабайт (ведь они дважды и трижды хранят одно и то же), а для меня всего-лишь неидеальность.

И эту неидеальность исправит программа Dupdetector. Она бесплатная, но сайт разработчика недоступен, а советовать вам софт-порталы я не буду, ищите программу сами.

Как пользоваться программой Dupdetector

Когда вы запускаете программу, то видите несколько вкладок. Это шаги, по которым надо пройти последовательно. Сначала выбираем метод работы.

В первом случае программа сканирует файлы, строит одну базу и анализирует файлы по этой базе. Подходит для большинства задач и для старта.

Во втором случае программа позволяет сравнивать две базы, если вы для каждого диска уже сканировали файлы и имеете готовые базы. При этом дубликаты внутри одной базы не сканируются.

В третьем случае вам предлагается проверить, есть ли конкретное изображение в уже готовой базе. Опять же, внутри базы никакие дубликаты не ищутся.

 

Выбираем первый вариант работы и переходим на вкладку Get Data.

Здесь надо указать либо готовую базу изображений (Open), либо создать новую, если вы этого никогда раньше не делали (Build). Мы выбираем второе.

Здесь указываем расположение папки с изображениями (так можно отметить и целый диск) и обязательно оставляем галочку Include all subfolders, чтобы программа прошерстила все папки внутри. После указания пути жмём ОК.

Возвращаемся к предыдущему окну и жмём Build. Начинает строиться база изображений. Это может занять некоторое время, особенно если вы выбрали целый диск или большую коллекцию.

После построения базы переходим на следующую вкладку, на настройку параметров поиска дубликатов — Find dups.

По умолчанию программа предлагает считать файлы дублями, если они совпадают на 98-100%. Алгоритм сравнения задаётся в кнопке Setup, вот что там внутри.

В большинстве задач тут ничего менять не надо. В нижней части задаются ограничения по совпадениям. По умолчанию все изображения сравниваются, независимо от их размеров, веса и соотношения сторон. Возвращаемся обратно и жмём кнопку «Find dups». Но сначала я уменьшу нижний порог до 95% (а вы так не делайте).

Когда внизу появляется надпись Finished, можно переходить к следующей вкладке, к просмотру дубликатов.

И вот почему я поставил 95% в нижней границе. Чтобы показать, что две абсолютно разные фотографии по содержанию и даже по соотношению сторон совпадают на 95.3% по мнению программы.

Под каждой парой фотографий вы видите размер в пикселях и вес файла. Это удобно, если вы хотите сохранить более качественную картинку или сэкономить место. Кнопками Back и Next можно перемещаться между парами совпадений.

Вот ещё совпадение. На этот раз это абсолютно одинаковые фотографии по содержанию. Но за счёт разных размеров в пикселях, программа считает их одинаковыми лишь на 99.8%. И обратите внимание: фотография, которая больше по пикселям, весит меньше. Такое бывает.

После того, как вы удалите ненужные дубликаты, у вас не останется пар, между которыми можно будет переключаться.

И вот опять: совпадение 95% у совершенно разных фотографий. Алгоритм часто ошибается на слишком тёмных и ночных фото. Поэтому нижняя граница по умолчанию и стоит на 98%. Но даже в этом случае алгоритм будет срабатывать на разные фотографии, если вы, например, снимали серию, где изображение отличается незначительно. Чтобы исключить эти срабатывания и искать только лишь реальные дубликаты установите нижнюю границу на 99%, например.


Лучше маленький лайк и репост, чем большое спасибо в комментах. По этой причине комментарии выключены, а кнопки репостов — вас ждут. Пользуйтесь, прошу :)