Vitajte na stránke tímu 16

Motivácia

Súčasťou mnohých akademických, komerčných ako aj nekomerčných projektov je analýza dát. Nie vo všetkých oblastiach sú však k dispozícii predpripravené a vhodne štruktúrované dátové sady. V takých prípadoch je zvyčajne potrebné získať potrebné dáta z rôznych webových stránok (angl. Web Data Extraction). Táto úloha sa rieši zvyčajne vypracovaním sťahovačov (angl. Web Wrappers), ktoré dané webové stránky prechádzajú a zvyčajne s využitím regulárnych výrazov alebo XPath definícií sťahujú požadované dáta. Programovanie vlastných riešení je však časovo náročné a nie je dostatočne robustné voči zmenám na webových stránkach (napr. zmena štruktúry HTML kódu).

Cieľ projektu

Cieľom projektu je vytvoriť nástroj pre automatickú extrakciu neštruktúrovaných dát z webu. Tento nástroj umožní používateľovi jednoduchým spôsobom definovať požadované dáta (napr. ich vyznačením na webovej stránke) a naplánovať ich jednorazovú alebo pravidelnú extrakciu. Následne vykoná túto extrakciu a sprístupní dáta prostredníctvom rozhrania API. V ytváraný nástroj bude nezávislý na konkrétnom type webových stránok a bude preto aplikovateľný v mnohých oblastiach, od bakalárskych a diplomových projektov, cez rôzne výskumné projekty až po rozsiahle extrakcie, s ktorými sa stretávame v praxi.