Парсин сайта средствами PDI

Парсинг сайтов сегодня стал обязательным для многих информационных систем. Обычными задачами парсинга является извлечение цен конкурентов.

В PDI есть средства, которые помогают извлекать информацию с сайтов. В данном уроке разберемся, как извлечь информацию с сайта DNS по сервисным центрам. Для этого будем использовать следующие инструменты:

  1. livehttpheaders плагин для браузера, который позволяет просматривать заголовки.
  2. Со стороны PDI будем использовать следующие шаги:
    • HTTP Client (умеет работать с куками).
    • Modified Java Script Value (склеивание данных).
    • Select values (удаление ненужных данных)
    • Split field to rows (извлечение данных).

Более подробно в видео. (Загрузка/Download)

План видео (ссылка на youtube http://youtu.be/hsxB-Knk0Ic)

00:00 Теория.
01:46 Обзор плагина «livehttpheaders» для браузеров.
06:29 Обзор PDI инструментария для реализации задачи.
14:40 Обзор решения и пути увеличения скорости обработки.

Ссылки на материалы:

  1. Плагин livehttpheaders http://livehttpheaders.mozdev.org/
  2. Cleaning webpages with Pentaho Data Integration and JTidy http://rpbouman.blogspot.ru/2011/05/using-tidy-to-clean-webpages-with.html