Настраиваемый парсер сайтов «PVA Page Crawler»

Окно программы PVA Page Crawler

«PVA Page Crawler» («PVA Страничный ползун») - консольное приложение для парсинга (синтаксического анализа) текста веб-страниц и текстовых файлов и создание базы данных объектов и их свойств как результат такого анализа.

"Синтаксический анализ (жарг. парсинг) в лингвистике и информатике — процесс сопоставления линейной последовательности лексем (слов, токенов) естественного или формального языка с его формальной грамматикой. Результатом обычно является дерево разбора (синтаксическое дерево). Обычно применяется совместно с лексическим анализом. Синтаксический анализатор (жарг. парсер) — это программа или часть программы, выполняющая синтаксический анализ.В ходе синтаксического анализа исходный текст преобразуется в структуру данных, обычно — в дерево, которое отражает синтаксическую структуру входной последовательности и хорошо подходит для дальнейшей обработки."
("Википедия. Свободная энциклопедия")

Приложение можно использовать для автоматического сбора информации на сайтах со структурированной информацией (досках объявлений, интернет-магазинах, сайтах знакомств, социальных сетях).

Входным параметром приложения является текстовый sos-файл ("sos" – scheme of search – схема поиска). Возможность конфигурировать параметры поиска, описания структуры исходной информации, а также задания формата выходных данных делает приложение с определенной степенью вариативности универсальным.

Принтскрин sos-файла со схемой поиска

В sos-файле можно указать следующие данные:

  1. Описание входных данных:
    • адрес интернет-страницы или серия адресов со счетчиком;
    • путь к файлу со списком адресов интернет-страниц;
    • путь к текстовому файлу с исходной информацией для парсинга или серию со счетчиком;
  2. Описание выходных данных:
    • тип результирующей базы данных - TXT, CSV, MDB (в разработке выходные форматы XLS, XML, DBF);
    • описание структуры выходной базы данных:
      • имя таблицы, имена, типы и размерность полей (свойств);
      • формата выходной информации в текстовых файлах (в виде таблицы, в виде построчного вывода свойств каждого полученного в результате объекта);
  3. Описание алгоритма поиска:
    • паттерн (шаблон) поиска составленный с помощью регулярного выражения;
    • начальные и конечные текст-теги, которые ограничивают блок информации об одном объекте поиска в целом и о его свойствах;
  4. Дополнительное форматирование выходной информации о том или ином свойстве объекта:
    • обрезание ведущих и/или конечных пробелов;
    • удаление заданного числа символов с начала/конца строки;
    • дополнение слева выходной строки путем присоединения с левой и/или с правой стороны;
    • дополнительное выделение из выходной строки первого вхождения подстроки, заданной шаблоном;
    • замена в выходной строке одного контекста другим;
    • замена в выходной строке контекста, удовлетворяющего регулярному выражению, другим контекстом;
  5. Параллельное сохранение обрабатываемой информации на локальном диске:
    • сохранение html- кода интернет-страницы как текстовый файл в виде «как есть»;
    • загрузка и сохранение файлов по ссылкам (например, фотографий и других изображений встречающихся в описании объектов поиска).

Приложение сохраняет протокол парсинга в виде журнала хронологии.

Приложение представляет собой исполняемый файл и не требует предварительной установки. В качестве параметров при запуске указывается путь к sos-файлу со схемой поиска (обязательный параметр) и путь к файлу протокола парсинга (необзательно).

Разработчик предоставляет вместе с самим приложением шаблон sos-файла и пример sos-файла для парсинга конкретного сайта. Разработчик принимает заявки на составление sos-файла для парсинга выбранных вами сайтов или других текстов (файлов). Пришлите пример исходного текста или адрес сайта для парсинга, а так же пожелания к структурированию выходной информации на электронный адрес разработчика admin@pvalab.com.


написать разработчику >>


Вверх