Zadanie projektu

TVORBA OBAĽOVAČOV NA ZÍSKAVANIE INFORMÁCIÍ Z WEBU

Obaľovač (angl. wrapper) je program, ktorý slúži na získavanie informácií z webových stránok. Jeho použitie ušetrí manuálnu prácu sledovania informácií na webových stránkach (resp. informácií zadaných v inom formáte). Cieľom projektu je identifikácia a stiahnutie relevantných informácií z neštruktúrovaného kódu HTML, ktorá je zameraná najmä na prezentáciu informácií pre človeka a nie na spracovateľnosť pre počítače.

Tento tímový projekt nadväzuje na prácu, ktorá bola vykonaná počas minulého akademického roka, keď bol zrealizovaný jednoduchý rámec na tvorbu predprogramovaných obaľovačov. Boli riešené nasledujúce problémy týkajúce sa prostredia obaľovača, niektoré problémy však nechajú priestor na ďaľšie vylepšenia. Webové stránky sú zvyčajne nekorektné. Preto sa používajú parsre a iné nástroje, ktoré pracujú aj s nekorektným HTML kódom (mozilla, beutifulsoap, htmltidy atď.). Tu je možnosť vylepšenia parsera, ktorý je robustnejší voči chybám. Pounúka sa možnosť použitia Mozilla parsera pre tento účel. Nakoľko stránky sa môžu časom meniť, buď kvôli zmene rozhrania alebo kvôli meniacim sa HTML kódom, ktoré sú zadané manuálne ľuďmi v obaľovači je realizovaný kontrolný mechanizmus. Ak obaľovač nezvláda stránku, na ktorú je prispôsobený, pri kontrole korektnosti sa spustí skript zadaný vývojárom (napr. poslanie správy). V tomto projekte sa očakáva realizácia obaľovača, ktorý stavia na výsledok dosiahnutý minulý rok a rozširuje ju o daľšie funkcionality:

  • Návrh a realizácia učenia obaľovača - Cieľom je aby sa obaľovač dal implementovať čím jednoduchšie, podľa možosti potreby zadať čím menej parametrov. Používateľ by mal mať možnosť vytvoriť obalovač len pomocou zadania príkladov, čo chce zo stránky získať.
  • Tvorba obaľovača pomocou prehliadača - Používateľ by mal mať možnosť tvoriť obalovač pomocou prehliadača, prostredie na tvorbu obalovača by mal akcie používateľa odchytať a spracovať.
  • Ľahko rožšíriteľný rámec na rozšírenie obaľovača o ďaľšie spôsoby učenie vzorov - Okrem jedného zrealizovaného učenia vzorov, treba mať na zreteli rozšíriteľnosť nástroja o ďaľšie spôsoby učenia.
  • Vylepšenie navigačných možností - Je potrebné implementovať daľšie navigačné akcie na prekonanie stránok s formulármi, heslami.