Список сайтов
Парсер e-mail по списку сайтов
Дополните почтами Email любую таблицу, содержащую сайты. На входе может быть например таблица с организациями, выгруженными из 2гис или другого справочника; либо таблица с доменами, выгруженная из парсера выдачи Яндекса, либо простой список ссылок.
Возможности:
- Фильтрация собранных почт
- Регулировка количества сканируемых страниц
- Кэширование найденных почт в базу
- Приоритетное сканирование страниц с контактами
- Слияние разных баз в одну
- Исключение заданных сайтов из сканирования
Оставьте контакты — мы отправим подробное описание программы на вашу почту.
Скачать демоКак это работает
Посмотрите, как это просто! Интерфейс программы интуитивно понятен. Не нужно быть программистом.
Запуск без установки
Просто откройте архив и запустите файл. Программа не засоряет реестр Windows, работая как portable.
Настройка параметров
Задайте список сайтов для сканирования
Нажмите «Старт», и всё!
Программа многопоточно сканирует указанные сайты, и собирает с них почты. Результат можно скопировать из окна программы в исходную таблицу (откуда были взяты ссылки) для её обогащения, или сохранить в новый файл Excel.
Видео работы программы
Результат работы
В итоге вы получаете такую таблицу с данными:
Колонки в итоговом файле
Важные детали
ПАРСЕР ИМЕЕТ ДВА БАЗОВЫХ РЕЖИМА РАБОТЫ:
Первый — «Загрузить список сайтов из файлов Excel и вернуть результаты в исходные файлы» позволяет взять готовую Excel-таблицу, взять из неё в заданной колонке сайты, взять в заданной колонке уже имеющиеся в табли��ы емейлы, просканировать сайты, собрать с них емейлы, добавить собранные к имеющимся, убрать дубли, отфильтровать специальным образом, и вернуть в таблицу обработанный список ящиков.
Второй — «Взять сайты/ссылки в окошке ниже, и вывести результаты в новый файл» используется в случае, когда нет возможности/необходимости брать емейлы из имеющейся таблицы, или нужно получить просто список ящиков, или нужно просто наполнить кэш-базу для будущей работы.
В этом режиме работать проще всего. Если у Вас есть любая таблица из любого источника, где имеется колонка с сайтами, Вы можете дополнить её колонкой с емейлами. Скопируйте колонку с сайтами из таблицы в парсер, сделайте выгрузку, скопируйте результаты сканирования в исходную таблицу.
Важно! Парсер поддерживает полное соответствие порядка найденных емейлов в результатах сканирования исходному списку сайтов — они не перепутаются!
Первый режим работы
«Загрузить список сайтов из файлов Excel и вернуть результаты в исходные файлы»
Кнопка «Выбрать файлы» позволяет задать один или несколько файлов, которые нужно обработать.
Галочка «Ящики с доменом сайта» позволяет отфильтровать корпоративные емейлы от ящиков с общедоступных почтовых сервисов, или фейковые ящики email@site.com.
Галочка «Ящики из списка доменов справа» позволяет отфильтровать домены бесплатной почты из списка справа (этот список используется только для работы этой галочки, более нигде).
Галочка «Все ящики» позволяет быстро отключить фильтрацию, чтобы выводились все ящики.
Галочка «Удалять емейлы из файлов BlackList, BlackListTemp» управляет двумя черными списками. Список BlackList.txt, наполняемый пользователем, содержит постоянно фильтруемые ящики, которые никогда не станут рабочими — как mail@domain.com. Список BlackListTemp.txt содержит временно фильтруемые ящики, которые в данный момент не работают, но возможно ещё заработают (например, выдают ошибку переполненного ящика).
Кроме того, парсер использует белый список ящиков, который хранится в файле TrustBase.xlsx.
При подготовке итогового списка емейлов парсер выводит ящики в следующем порядке (это играет роль, когда количество выводимых емейлов ограничено значением параметра «Емейлов в ячейке, не более») — сначала идут ящики из обрабатываемого файла, затем из белого списка TrustBase, затем идут ящики с сайта.
Второй режим работы
«Взять сайты/ссылки в окошке ниже, и вывести результаты в новый файл»
При работе во втором режиме, результаты сканирования автоматически выделяются в окне программы, чтобы сразу нажать Ctrl+C и перенести их в нужное место, и автоматически сохраняются в файл Excel, название которого указано в логах.
Можно отключить сканирование сайтов галочкой «Выполнять сканирование сайтов, на каждом сайте сканировать страниц:», в этом случае работа будет идти только с файлами. При включенной галочке, можно управлять количеством сканируемых страниц даже в процессе сканирования. Программа берёт в список сканирования только те страницы, которые видны с заданного адреса (главной страницы домена или заданной ссылки) — это позволяет не зарываться на больших сайтах.
Для того, чтобы программа не заходила на какие-то сайты (соцсети, википедия, глючные сайты и тд), домены таких сайтов пользователь вносит в файл skip.txt в папке программы.
Программа при построении списка ссылок для сканирования заданного сайта может брать наиболее приоритетные страницы (по маркерам из файла prioritymarkers.txt), их она передвинет наверх общего списка страниц, и просканирует их в первую очередь (это важно, когда общее число найденных страниц превышает заданный лимит сканирования). В файле prioritymarkers можно указать слова, наличие которых в ссылке означает повышенную вероятность нахождения там контактов — contact, kontakty, контакты, about, и т.д.
Для ускорения выгрузок программа использует кэш собранных емейлов, который хранится в файле DB.txt. Его использование позволяет не тратить время на повторное сканирование сайта, а почти мгновенно находить ранее найденные на сайте емейлы.
Если Вы делаете разные сканирования в разных папках (либо для ускорения общего процесса, либо для разделения выгрузок по тематикам/проектам), Вы можете потом объединить несколько баз в одну общую, путём нажатия кнопки «Слить базы в одну» и выбора нескольких файлов баз.
Техническая гарантия
Проверено антивирусом
Файл собран на чистом окружении. Ложные срабатывания антивирусов на portable-утилиты — норма, мы гарантируем отсутствие вредоносного кода.
Безопасная оплата
Оплата производится на защищенном сервере Продамус. Чек об оплате приходит на вашу почту.
Техподдержка 24/7
Если программа не запускается или выдает ошибку — напишите нам, заявки принимаются круглосуточно

