Zadanie projektu • TVORBA OBAĽOVAČOV NA ZÍSKAVANIE INFORMÁCIÍ Z WEBU Obaľovač (angl. wrapper) je program, ktorý slúži na získavanie informácií z webových stránok. Jeho použitie ušetrí manuálnu prácu sledovania informácií na webových stránkach (resp. informácií zadaných v inom formáte). Cieľom projektu je identifikácia a stiahnutie relevantných informácií z neštruktúrovaného kódu HTML, ktorá je zameraná najmä na prezentáciu informácií pre človeka a nie na spracovateľnosť pre počítače. Tento tímový projekt nadväzuje na prácu, ktorá bola vykonaná počas minulého akademického roka, keď bol zrealizovaný jednoduchý rámec na tvorbu predprogramovaných obaľovačov. Boli riešené nasledujúce problémy týkajúce sa prostredia obaľovača, niektoré problémy však nechajú priestor na ďaľšie vylepšenia. Webové stránky sú zvyčajne nekorektné. Preto sa používajú parsre a iné nástroje, ktoré pracujú aj s nekorektným HTML kódom (mozilla, beutifulsoap, htmltidy atď.). Tu je možnosť vylepšenia parsera, ktorý je robustnejší voči chybám. Pounúka sa možnosť použitia Mozilla parsera pre tento účel. Nakoľko stránky sa môžu časom meniť, buď kvôli zmene rozhrania alebo kvôli meniacim sa HTML kódom, ktoré sú zadané manuálne ľuďmi v obaľovači je realizovaný kontrolný mechanizmus. Ak obaľovač nezvláda stránku, na ktorú je prispôsobený, pri kontrole korektnosti sa spustí skript zadaný vývojárom (napr. poslanie správy). V tomto projekte sa očakáva realizácia obaľovača, ktorý stavia na výsledok dosiahnutý minulý rok a rozširuje ju o daľšie funkcionality:
|