Архив метки: база

Dupdetector: находим и удаляем дубликаты картинок и фотографий

Одна из моих любимых программ, которая нужна для поиска и удаления дубликатов фотографий.

У беспечных пользователей дубликаты появляются постоянно. Например, одни и те же фотографии с фотоаппарата могут быть скинуты одновременно в разные папки, типа «Новая папка 1» и «Разобрать».

У меня так не бывает. Но бывает так, что дубли находятся в неразобранных фотографиях, уже отсортированных и тех, что предназначаются для блога и лежат отдельно.

А иногда я сохраняю иллюстрации и фото из социальных сетей. Причём, если из вКонтакта и прочих сетей фотографию можно реально сохранить, то из инстаграма сохранить фотографию можно только скриншотом, если с мобилы.

И получается путаница. Для беспечных пользователей это потеря нескольких гигабайт (ведь они дважды и трижды хранят одно и то же), а для меня всего-лишь неидеальность.

И эту неидеальность исправит программа Dupdetector. Она бесплатная, но сайт разработчика недоступен, а советовать вам софт-порталы я не буду, ищите программу сами.

Как пользоваться программой Dupdetector

Когда вы запускаете программу, то видите несколько вкладок. Это шаги, по которым надо пройти последовательно. Сначала выбираем метод работы.

В первом случае программа сканирует файлы, строит одну базу и анализирует файлы по этой базе. Подходит для большинства задач и для старта.

Во втором случае программа позволяет сравнивать две базы, если вы для каждого диска уже сканировали файлы и имеете готовые базы. При этом дубликаты внутри одной базы не сканируются.

В третьем случае вам предлагается проверить, есть ли конкретное изображение в уже готовой базе. Опять же, внутри базы никакие дубликаты не ищутся.

 

Выбираем первый вариант работы и переходим на вкладку Get Data.

Здесь надо указать либо готовую базу изображений (Open), либо создать новую, если вы этого никогда раньше не делали (Build). Мы выбираем второе.

Здесь указываем расположение папки с изображениями (так можно отметить и целый диск) и обязательно оставляем галочку Include all subfolders, чтобы программа прошерстила все папки внутри. После указания пути жмём ОК.

Возвращаемся к предыдущему окну и жмём Build. Начинает строиться база изображений. Это может занять некоторое время, особенно если вы выбрали целый диск или большую коллекцию.

После построения базы переходим на следующую вкладку, на настройку параметров поиска дубликатов — Find dups.

По умолчанию программа предлагает считать файлы дублями, если они совпадают на 98-100%. Алгоритм сравнения задаётся в кнопке Setup, вот что там внутри.

В большинстве задач тут ничего менять не надо. В нижней части задаются ограничения по совпадениям. По умолчанию все изображения сравниваются, независимо от их размеров, веса и соотношения сторон. Возвращаемся обратно и жмём кнопку «Find dups». Но сначала я уменьшу нижний порог до 95% (а вы так не делайте).

Когда внизу появляется надпись Finished, можно переходить к следующей вкладке, к просмотру дубликатов.

И вот почему я поставил 95% в нижней границе. Чтобы показать, что две абсолютно разные фотографии по содержанию и даже по соотношению сторон совпадают на 95.3% по мнению программы.

Под каждой парой фотографий вы видите размер в пикселях и вес файла. Это удобно, если вы хотите сохранить более качественную картинку или сэкономить место. Кнопками Back и Next можно перемещаться между парами совпадений.

Вот ещё совпадение. На этот раз это абсолютно одинаковые фотографии по содержанию. Но за счёт разных размеров в пикселях, программа считает их одинаковыми лишь на 99.8%. И обратите внимание: фотография, которая больше по пикселям, весит меньше. Такое бывает.

После того, как вы удалите ненужные дубликаты, у вас не останется пар, между которыми можно будет переключаться.

И вот опять: совпадение 95% у совершенно разных фотографий. Алгоритм часто ошибается на слишком тёмных и ночных фото. Поэтому нижняя граница по умолчанию и стоит на 98%. Но даже в этом случае алгоритм будет срабатывать на разные фотографии, если вы, например, снимали серию, где изображение отличается незначительно. Чтобы исключить эти срабатывания и искать только лишь реальные дубликаты установите нижнюю границу на 99%, например.


Лучше маленький лайк и репост, чем большое спасибо в комментах. По этой причине комментарии выключены, а кнопки репостов — вас ждут. Пользуйтесь, прошу :)

Хостинг для форумов

Веб-форум — это площадка для общения пользователей. Форум может быть одним из разделов сайта. Но бывает и так, что сайт целиком представляет из себя веб-форум.

В начале нулевых во Владивостоке появился сайт antistatic как путеводитель по клубам, вечеринкам и прочим мероприятиям. Форум был одним из разделов, но буквально через пару лет стал главным и основным, а на сайт все забили. То есть всё общение, все новости, анонсы, информация, акции — всё это было реализовано через форум и его движок.

Движок для форума можно взять любой: платный или бесплатный, с наворотами и без. Из бесплатных был неплох phpbb, из платных ipboard. Главное правило в выборе движка для форума — известность. Чем больше пользователей, тем выше стабильность, лучше поддержка и больше плагинов.

Хостинг для форума должен справляться с высокими нагрузками. Надёжным считается такой форум, который не “падает” при малейшем наплыве посетителей. При этом основная нагрузка приходится на базу данных, так как все сообщения на форуме фактически хранятся именно в БД. Функции поиска по сообщениям или отображения тем определённого автора так же используют обращения к базе данных. В общем, загрузка любой страницы форума — это обращение к базе данных. Поэтому для крупных проектов лучше выбирать такой хостинг, который размещает базы данных на твёрдотельных дисках (SSD) — более быстрое время доступа позволит выгружать результаты быстрее..

Ошибочно считается, что хостинг под форум должен только поддерживать PHP и MySQL, а остальное не имеет значения. Это верно, пока вы считаете, что 100 посетителей в день и 1000 сообщений в сутки это очень много. На самом деле, чем больше сообщений создают пользователи форума, тем больше становится размер базы данных. В этом случае максимальный объём базы данных гораздо важнее, чем предоставляемое дисковое пространство для загрузки файлов. Да, иногда место для БД и место для файлов — это разные гигабайты. Учтите это. Практически во всех современных виртуальных хостингах это пространство едино: гигабайты и под файлы и под БД.

Итак, для форума нужен хостинг с PHP и MySQL (или любой другой БД). У Ру-Центра это второй по стоимости тариф, первый не даёт баз данных. А вот у СпринтХоста на любом тарифе виртуального хостинга есть всё необходимое.

Сколько стоит платный хостинг для форумов? Очень недорого! В среднем, от 150 рублей в месяц. У кого-то больше, где-то меньше. Надо сравнивать тарифы и предоставляемые услуги. Например, для форума вам потребуется база данных (одна), немного процессорного времени, не очень много места на хостинге для установки движка, много места под базу данных (и чем дальше, тем больше) и, в принципе, всё. Если брать виртуальный хостинг, то неплохой вариант для форума предлагает ТаймВеб.

Изначально форумы создавались для текстового общения и были похожи на тематические гостевые книги. Сейчас в сообщение можно добавлять фотографии и видео, прикладывать документы, вставлять анимированную графику и многое другое. С развитием любого движка для форума всегда повышаются требования к хостингу. Так, если вы планируете хранить не только сообщения, но и давать возможность загружать файлы прямо на ваш сервер, то придётся увеличить и дисковое пространство.

Но! Если у вас форум только набирает обороты, смело берите самый дешёвый тариф. Чтобы забить базу данных на 100 мегабайт, вам потребуется оживлённо дискутировать месяцев шесть точно.

Изначальный текст написан для компании Coopertino, но был снят с публикации. Резервируется здесь с небольшими изменениями и дополнениями.


Лучше маленький лайк и репост, чем большое спасибо в комментах. По этой причине комментарии выключены, а кнопки репостов — вас ждут. Пользуйтесь, прошу :)