Настраиваемый парсер сайтов «PVA Page Crawler»
«PVA Page Crawler» («PVA Страничный ползун») - консольное приложение для парсинга (синтаксического анализа) текста веб-страниц и текстовых файлов и создание базы данных объектов и их свойств как результат такого анализа.
| "Синтаксический анализ (жарг. парсинг) в лингвистике и информатике — процесс сопоставления линейной последовательности лексем (слов, токенов) естественного или формального языка с его формальной грамматикой. Результатом обычно является дерево разбора (синтаксическое дерево). Обычно применяется совместно с лексическим анализом. Синтаксический анализатор (жарг. парсер) — это программа или часть программы, выполняющая синтаксический анализ.В ходе синтаксического анализа исходный текст преобразуется в структуру данных, обычно — в дерево, которое отражает синтаксическую структуру входной последовательности и хорошо подходит для дальнейшей обработки." |
| ("Википедия. Свободная энциклопедия") |
Приложение можно использовать для автоматического сбора информации на сайтах со структурированной информацией (досках объявлений, интернет-магазинах, сайтах знакомств, социальных сетях).
Входным параметром приложения является текстовый sos-файл ("sos" – scheme of search – схема поиска). Возможность конфигурировать параметры поиска, описания структуры исходной информации, а также задания формата выходных данных делает приложение с определенной степенью вариативности универсальным.
В sos-файле можно указать следующие данные:
- Описание входных данных:
- адрес интернет-страницы или серия адресов со счетчиком;
- путь к файлу со списком адресов интернет-страниц;
- путь к текстовому файлу с исходной информацией для парсинга или серию со счетчиком;
- Описание выходных данных:
- тип результирующей базы данных - TXT, CSV, MDB (в разработке выходные форматы XLS, XML, DBF);
- описание структуры выходной базы данных:
- имя таблицы, имена, типы и размерность полей (свойств);
- формата выходной информации в текстовых файлах (в виде таблицы, в виде построчного вывода свойств каждого полученного в результате объекта);
- Описание алгоритма поиска:
- паттерн (шаблон) поиска составленный с помощью регулярного выражения;
- начальные и конечные текст-теги, которые ограничивают блок информации об одном объекте поиска в целом и о его свойствах;
- Дополнительное форматирование выходной информации о том или ином свойстве объекта:
- обрезание ведущих и/или конечных пробелов;
- удаление заданного числа символов с начала/конца строки;
- дополнение слева выходной строки путем присоединения с левой и/или с правой стороны;
- дополнительное выделение из выходной строки первого вхождения подстроки, заданной шаблоном;
- замена в выходной строке одного контекста другим;
- замена в выходной строке контекста, удовлетворяющего регулярному выражению, другим контекстом;
- Параллельное сохранение обрабатываемой информации на локальном диске:
- сохранение html- кода интернет-страницы как текстовый файл в виде «как есть»;
- загрузка и сохранение файлов по ссылкам (например, фотографий и других изображений встречающихся в описании объектов поиска).
Приложение сохраняет протокол парсинга в виде журнала хронологии.
Приложение представляет собой исполняемый файл и не требует предварительной установки. В качестве параметров при запуске указывается путь к sos-файлу со схемой поиска (обязательный параметр) и путь к файлу протокола парсинга (необзательно).
Разработчик предоставляет вместе с самим приложением шаблон sos-файла и пример sos-файла для парсинга конкретного сайта. Разработчик принимает заявки на составление sos-файла для парсинга выбранных вами сайтов или других текстов (файлов). Пришлите пример исходного текста или адрес сайта для парсинга, а так же пожелания к структурированию выходной информации на электронный адрес разработчика admin@pvalab.com.
написать разработчику >>