Motivácia
Súčasťou mnohých akademických, komerčných ako aj nekomerčných projektov je analýza
dát. Nie vo všetkých oblastiach sú však k dispozícii predpripravené a vhodne štruktúrované
dátové sady. V takých prípadoch je zvyčajne potrebné získať potrebné
dáta z rôznych
webových stránok (angl. Web Data Extraction). Táto úloha sa rieši zvyčajne vypracovaním
sťahovačov (angl. Web Wrappers), ktoré dané webové stránky prechádzajú a zvyčajne s
využitím regulárnych výrazov alebo XPath definícií sťahujú požadované
dáta.
Programovanie vlastných riešení je však časovo náročné a nie je dostatočne robustné voči
zmenám na webových stránkach (napr. zmena štruktúry HTML kódu).
Cieľ projektu
Cieľom projektu je vytvoriť nástroj pre automatickú extrakciu neštruktúrovaných dát z
webu. Tento
nástroj umožní používateľovi jednoduchým spôsobom definovať
požadované dáta (napr. ich vyznačením na webovej stránke) a naplánovať ich
jednorazovú alebo pravidelnú extrakciu. Následne vykoná túto extrakciu a sprístupní
dáta prostredníctvom rozhrania API. V
ytváraný nástroj bude nezávislý na
konkrétnom type webových stránok a bude preto aplikovateľný v mnohých
oblastiach, od bakalárskych a diplomových projektov, cez rôzne výskumné projekty
až po rozsiahle extrakcie, s ktorými sa stretávame v praxi.