2GIS
Парсер карт и справочника организаций
Автоматически собирает организации из 2ГИС по рубрикам (или произвольным запросам) и городам (или по ссылке на карту). Выгружает организации в заданном радиусе от заданной точки. Получите название, адрес, телефон, email, сайт, часы работы, рейтинг и количество отзывов, признак оплаты продвижения, и др.
Возможности:
- Сбор по рубрикам и городам РФ и других стран
- Фильтрация по рейтингу
- Экспорт в Excel/CSV
- Обход ограничений
- Автоматическое обновление
- Возможность запуска из командной строки
- Возможность выгружать новые компании, внеся известные в файл skip
Оплата онлайн — ссылка на скачивание сразу после опла ты
Как это работает
Посмотрите, как это просто! Интерфейс программы интуитивно понятен. Не нужно быть программистом.
Запуск без установки
Просто распакуйте архив и запустите файл программы. Программа не засоряет реестр Windows, работая как portable.
Определяем, откуда выгружать
Для выгрузки в режиме сбора по ссылкам на карты, откройте в браузере сайт 2гис, настройте отображение нужного участка карты, скопируйте полученную ссылку на карту из адресной строки браузера в парсер
Для выгрузки по базам городов, зайдите на вкладку <Сбор по городам>, выберите подходящую вкладку: <По дереву регионов> или <По списку>, поставьте отметки на нужных городах/регионах
Для того, чтобы отметить несколько городов в списке, удерживайте клавишу Shift или Ctrl при клике на городе. Удержание Shift отметит все города в диапазоне от предудущего выделения до кликнутого. Удержание Ctrl добавит в прежним выделениям кликнутый город.
Нажмите кнопку <Отметить все> справа внизу списка для отметки всех городов в списке. Обратите внимание, что будут отмечены все города всех стран. Если нужно выделить все города одной страны, кликните на первом городе страны в списке для его выделения, затем удерживая Shift, кликните на последнем городе страны в списке.
Раз в месяц или несколько есть смысл актуализировать список городов, на случай если в 2ГИС добавят новые базы. Для этого нажмите <Обновить города> на вкладке <Сбор по городам>
Определяем, что выгружать
Для выгрузки по рубрикатору откройте вкладку <Сбор с рубрикатора компаний>
Для поиска нужной рубрики нажмите клавиши Ctrl+F, введите фразу, слово или несколько символов, например «парк». Программа покажет только рубрики, содержащие «парк»: Аквапарки, Парки культуры и отдыха, и т.д. Двойными кликами на нужных рубриках добавьте их в копилку рубрик. Для возврата к нефильтрованному списку рубрик нажмите клавиши Ctrl+F и нажмите Enter без ввода фильтра.
Нажмите кнопку <Все> справа внизу списка для выделения всех рубрик в списке.
Обратите внимание, при выделении рубрики первого уровня выгрузка будет производиться по всем вложенным в неё рубрикам второго и третьего уровня. При выделении рубрики второго уровня выгрузка будет производиться по всем вложенным в неё рубрикам третьего уровня.
Для выгрузки по произвольным поисковым фразам — откройте вкладку <Сбор по произвольному списку запросов/адресов>
Для выгрузки организаций в здании по заданному адресу — откройте вкладку <Сбор по произвольному списку запросов/адресов>
Нажмите кнопку <Редактировать список> для внесения изменений в список запросов/адресов
Отметьте в списке нужные строки, используя Shift и Ctrl для отметки нескольких строк при необходимости (как с городами, описано выше).
Нажмите кнопку <Все> справа внизу списка для выделения всех запросов/адресов в списке.
Определяем, как выгружать
Если необходимо сканировать сайты компаний в поисках емейлов, включите соответствующую галочку.
Если необходимо при поиске емейлов искать ещё и ИНН, включите соответствующую галочку. Включение поиска ИНН автоматически включает поиск емейлов.
Задайте число сканируемых страниц. Число 1 будет означать, что программа откроет сайт компании по ссылке из справочника 2гис, и возьмёт данные только оттуда. Если лимит сканирования больше 1, программа возьмёт с открытой страницы все ссылки на внутренние страницы сайта, выстроит их согласно заданным приоритетам сканирования (подробнее о них в описании настроек), возьмёт из построенного списка ссылок заданное вами число страниц, и все их просканирует.
Если сайт компании попадает под заданные фильтры сайтов (подробнее о них в описании настроек), то программа не будет его сканировать.
Если найденный на сайте email попадает под заданные фильтры email (подробнее о них в описании настроек), то программа не будет его выгружать в результаты.
Включите фильтр организаций по типу, при необходимости. Обратите внимание, что включение каждой галочки УМЕНЬШАЕТ число результатов в выгрузке. Чем больше галочек фильтра включено, тем меньше фирм будет в выгрузке. Включение всех галочек может привести к тому, что ни одна фирма не будет выгружена, поскольку в данной рубрике не окажется ни одной фирмы со всеми ОДНОВРЕМЕННО включенными признаками типов.
При необходимости выгрузить организации только в заданном радиусе от точки с заданными координатами, включите соответствующую галочку, задайте радиус и точку в формате «долгота,широта» (например 91.431549,53.724787).
Определяем настройки
Для вызова окна настроек программы нажмите на оранжевую кнопку рядом с кнопкой <СТАРТ>
Установите параметры организации файлов: выгружать все организации выгрузки в один файл, или раскладывать их по разным файлам (и разным папкам).
Установите кодировку выгрузки. В случае старых версий Excel удобнее использовать кодировку Windows-1251. Обратите внимание, что при выгрузке организаций не из России кодировка Windows-1251 не подходит.
Если вам необходимо, чтобы программа не допускала дублирования организаций, включите галочку <… выгружать только один раз…>. Если отключить эту галочку, в выгрузке организация будет присутствовать столько раз, сколько рубрик ей присвоено в справочнике 2гис.
Задайте настройки сканирования сайтов компаний. Нажатие кнопок открывает текстовые файлы из папки программы, вы можете открывать их оттуда на редактирование любым удобным вам способом. В файле ScanSitesUrlsBlackList — список сайтов, на которые программа не будет заходить. В файле ScanSitesEmailsBlackList — список почт, которые программа не будет выводить в выгрузку. В файле ScanSitesPriorityMarkers — список маркеров, которые определяют наиболее приоритетные для поиска контактов страницы. Предполагается, что на страницах контактов вероятность встретить email или ИНН компании выше, чем на других страницах. Поэтому в этот список нужно вносить фразы вроде «contact» или «контакты», чтобы страницы с заданными фразами пользовались приоритетом при отсечении сканируемых согласно заданному лимиту страниц от несканируемых.
Запуск
Нажмите кнопку СТАРТ!
Программа автоматически откроет файл выгрузки после завершения работы, чтобы вы не пропустили этот момент.
Видео работы программы
Результат работы
В итоге вы получаете такую таблицу с данными:
Колонки в итоговом файле
Важные детали
Парсер выгружает данные напрямую из 2ГИС! Никакие промежуточные базы не используются.
При этом важно учитывать, что 2гис сейчас выдаёт не более 10000 организаций по любому одному запросу или рубрике, соответственно и в выгрузке например парикмахерских Москвы будет только первые 10000 организаций.
Посмотрите на логи реальных сборов, здесь выложен лог выгрузки рубрики «Парикмахерские» по карте https://2gis.ru/?m=46.1729%2C56.570255%2F5.35 — в эту карту попало наверное с треть России. Выгрузка заняла 27 минут, за один раз было выгружено более 50тыс организаций! Другой пример: здесь выложен лог выгрузки полной базы Москвы по всем рубрикам. Выгрузка заняла 4 часа, за один раз было выгружено 397 тысяч организаций! Ещё пример: здесь выложен лог выгрузки 24 баз городов от Абакана до Димитровграда по всем рубрикам. Выгрузка заняла 3 часа, за один раз было выгружено 294 тысячи организаций! По этим примерам видна реальная скорость выгрузки: 1) по карте, 2) по одной крупнейшей базе, 3) по нескольким средним базам сразу.
Обратите внимание: если вам необходимо сканировать сайты компаний в поисках email и ИНН, выгрузка будет идти дольше, чем выгрузка только из 2гис. Скорость сканирования сайтов зависит от заданного вами лимита количества сканируемых страниц на каждом сайте, от скорости работы сайтов в выборке, от количества компаний с сайтами в выборке, и так далее. Если вам необходимо выгружать со сканированием сайтов большое количество компаний, суточного тарифа может быть недостаточно для завершения выгрузки. После истечения срока действия лицензии выгрузка остановится.
Для того, чтобы сканирование сайтов не тормозило процесс выгрузки из 2гис, рекомендуем использовать наш парсер EmailExtractor для сканирования сайтов компаний, который не имеет ограничений по сроку действия лицензии, и кроме всего прочего, позволяет накапливать базу емейлов для ускорения повторных выгрузок по тем же сайтам.
Если Вам необходимо постоянно актуализировать данные по определенному списку организаций, есть смысл приобрести лицензию UltraParser2gis на короткий срок, сделать выгрузку, и затем регулярно актуализировать эту базу с помощью парсера Parser2gisByIds, лицензия которого сейчас не имеет ограничений по сроку.
Парсер ДубльГис умеет работать в режиме получения списка новых организаций в базе. При запуске сбора парсер ищет файл skip.txt в своей папке, и загружает оттуда список ID организаций, которые не нужно загружать. Если Вы собрали какую-то рубрику некоторое время назад, возьмите из старого файла результатов первую колонку с числовыми ID организаций, и поместите этот список в файл skip.txt в папке программы. Запустите сбор той же рубрики, парсер пропустит все старые организации, и на выходе вы получите список только новых организаций заданной рубрики.
Парсер может запускаться автоматически и получать настройки для выгрузки (города, категории, опции выгрузки, путь к файлу выгрузки) извне. Это позволяет интегрировать программу в существующую инфраструктуру — например, вы можете через системный планировщик автоматически запускать поиск новых компаний в заданный файл, забирать готовый файл выгрузки, и автоматически заливать его в CRM; или автоматически запускать поиск емейлов, и автоматически отправлять собранные емейлы в рассылку.
В папке с программой есть файл cmdlineoptions.ini, там пример задания настроек выгрузки. В параметрах запуска программы укажите путь к файлу с настройками, например: “UltraParser2gis.exe C:\cmdlineoptions.ini”
Можно сделать разные файлы настроек на разные случаи, и менять имя файла в командной строке вызова парсера на нужный в данный момент.
Техническая гарантия
Проверено антивирусом
Файл собран на чистом окружении. Ложные срабатывания антивирусов на portable-утилиты — норма, мы гарантируем отсутствие вредоносного кода.
Мгновенная доставка
Ссылка на скачивание приходит на почту сразу после оплаты.
Техподдержка 24/7
Если программа не запускается или выдает ошибку — напишите нам, заявки принимаются круглосуточно

