O projekte

Informačná explózia so sebou prináša aj viacero problémov. Napriek tomu, že v dnešnej dobe si nemožno sťažovať na nedostatok informácií, máme často problém nájsť to, čo práve potrebujeme. Väčšina dokumentov je totiž v neštrukturovanej podobe a získať z nich informácie typu: kto v danom období pôsobil v určitom regióne je prakticky nemožné. Fulltextové vyhľadávanie má jeden vážny nedostatok a to, že nezohľadňuje sémantiku daných kľúčových slov.

V našom projekte sa zameriavame na spracovanie prirodzeného jazyka a stanovili sme si pomerne ambiciózny cieľ, ktorým je extrakcia štruktúrovaných dát z neštruktúrovaného textu so zachytením ich významu. Pričom zameriavať sa budeme najmä na životopisy a iné dokumenty, z ktorých budeme môcť extrahovať informácie o tom kde a kedy dané osoby študovali, prípadne pôsobili. Pokúsime sa tiež z textov získať vzťahy typu: kolega alebo spolužiak.

Našou úlohou bude teda rozpoznávať, a pokiaľ to bude možné aj jednoznačne identifikovať, entity typu osoba, korporácia, geograficke lokacie, datácia a zároveň identifikovať udalosť štúdium, prípadne pôsobenie a v rámci nich vzťahy medzi týmito entitami prepojiť.

Cieľom je tieto údaje uložiť v štruktúrovanej podobe tak, aby bolo možné v nich vyhľadávať a získať informáciu o tom kto a kedy v danom mieste študoval, s kým sa mohol poznať a vytvárať tak aj virtuálne komunity napr. pre určité zameranie.


Ciele projektu

1. Semester

Cieľom tohto semestra je vytvorenie databázy na základe neštruktúrovaných životopisov. Je potrebné identifikovať nasledovné polia:

• Narodenie – dátum a miesto

• Úmrtie – dátum a miesto

• Štúdium – dátum, miesto, profesori, spolužiaci

V ideálnom prípade by bolo vhodné taktiež vizualizovať súvislosti medzi osobnosťami pomocou grafu. Jednotlivé vrcholy budú predstavovať osobnosti a hrany budú predstavovať súvislosti medzi nimi.

2. Semester

Ciele pre tento semester sú:

• Integrácia neo4j databázy

• Opraviť a vylepšiť vyhľadávanie entít

• Vizualizovania dát pomocou webovej aplikácie

Progres

1.5.2018

Aplikácia je stabilne nasadená na serveri. Dolaďujú sa posledné chyby na front-ende aj back-ende. Momentálne sa venujeme finálnej dokumentácii diela.


23.4.2018

Úspešne sme sa zúčastnili TP Cup súťaže tímových projektov na IITSRC 2018. Podarilo sa nám odprezentovať náš produkt viacerým hodnotiacim a iným záujemcom. Na výsledky stále čakáme.


12.4.2018

V poslednom období sa venujeme príprave na IITSRC 18.4.2018. Aplikácia je v rámci možností prezentovateľná.


26.3.2018

V rámci back-endu sa nám podarilo opäť odstrániť ďalšie chyby, ktoré vznikali kvôli anomáliám v textoch.


9.3.2018

Podarilo sa nám spojazdniť databázu Neo4j aj na serveri.


2.3.2018

Pri hľadaní vhodného zaradenia pre nášho nového kolegu v tíme sme sa rozhodli mu zveriť front-end. V priebehu prvého šprintu sa nám podarilo rozbehať základný koncept webovej aplikácie. Taktiež sa nám podarilo sfinalizovať článok na IITSRC, ktorého rozšírený abstrakt si môžete pozrieť v sekcii “TP CUP”.


24.2.2018

Do tímu nám pribudol nový člen. Pri tejto príležitosti sme taktiež začali pracovať na článku pre TP Cup, ktorého sa zúčastníme v rámci IIT.SRC 2018 v apríli 2018.


15.2.2018

Podarilo sa nám navrhnúť prvý databázový model a vložiť aktuálne spracované dáta do databázy Neo4j. Momentálne pracujeme s lokálnymi verziami databáz. Podarilo sa nám odstrániť niektoré chyby pri rozpoznávaní entít a ich vzťahov na základe lepšieho predspracovania samotných textov.


14.12.2017

Počas prvého semestra sme sa ako tím museli vysporiadať s odchodom dvoch členov. Aj napriek tejto skutočnosti sa nám pomerne úspešne podarilo spojazdniť back-end softvéru. Identifikácia entít a vzťahov v predbežnej evaluácii dosahuje okolo 50% úspešnosť. Sú potrebné úpravy a zmeny.


Členovia


Berta Peter, Bc.

Scrum Master

Peter je študentom inžinierskeho štúdia na fakulte informatiky a informačných technológií v Bratislave. Počas bakalárskeho štúdia sa venoval výskumu identifikácie prípadov použitia v zdrojovom kóde. Má rozsiahle skúsenosti s programovacími jazykmi C, Java, Python a Javascript. V rámci svojho diplomového projektu sa bude zaoberať organizačnými vzormi a vzorovými jazykmi. V tíme má pridelenú rolu scrum mastera.


Adamov Matej, Bc.

Master Director of Team, Communication and Customer, Interaction

Matej momentálne po dokončení bakalárskeho stupňa na fakulte informatiky a informačných technológii v odbore informatika, na tejto fakulte pokračuje aj na inžinierskom stupni v odbore inteligentné softvérové systémy. V tíme sa venuje manažmentu komunikácie a kontroly. Medzi Matejove obľúbené oblasti patrí strojové učenie, objavovanie znalostí a proces návrhu systémov.


Pečíková Bronislava, Bc.

Database expert

Bronislava vyštudovala bakalárske štúdium v odbore aplikovaná matematika a aktuálne študuje inžinierske štúdium na fakulte informatiky a informačných technológii v odbore inteligentné softvérové systémy, tento odbor si obľúbila a to najmä preto, že ju baví dátová analýza, objavovanie znalostí a strojové učenie. V tíme zastrešuje prácu s dátami, teda výber databázy návrh štruktúry dát optimalizáciu dopytov okrem toho je hlavným zodpovedným za dokumentáciu a to nie len oficiálnu projektovú dokumentáciu ale aj dokumentáciu riadenia a rôzne “pracovné” dokumentácie nevyhnutné pre dobré fungovanie vývoja. No a v neposlednom rade je jej úlohou aj prezentácia tímu prostredníctvom webovej stránky, za ktorej obsah zodpovedá.


Krempaský Michal, Bc.

Lead Testing Coordinator

Michal vyštudoval bakalárske štúdium na fakulte informatika a informačných technológií v odbore informatika a pokračuje ďalej na inžinierskom stupni v odbore inteligentní softvérové systémy. Jeho úloha v tíme je manažment rizík, kde sa snaží identifikovať potencionálne rizika, ktorí by mohli negatívne ovplyvniť projekt. Okrem rizík má na starosti aj tému testovania, kde vie prispieť aj skúsenosťami z praxe. Jeho obľubené témy v informatike sú ohľadom umelej inteligencie a modelovanie. Rád hľadá chyby v systémoch a riešenia pri vzniknutých problémoch.


Ondrej Hamara, Bc.

Developer

Ondrej vyštudoval bakalárske štúdium na fakulte informatiky a informačných technológií v odbore informatika a pokračuje ďalej na inžinierskom stupni v odbore softvérové inžinierstvo. Jeho úlohou v tíme je správa webovej stránky tímu a vývoj frontendovej applikácie na webe. Okrem toho na starosti má aj vizualizáciu dát. Jeho obľubené oblasti v IT svete sú modelovanie systémov pomocou UML a ich zobrazovanie v 3D priestore. Nepohrdne ani prácou na backhande pri vývoji logiky systémov v OO programovaní.


Dokumenty

Zápisnice zo stretnutí - zimný semester

Popis Dátum
Zapisnica 1 September 25, 2017 Stiahnuť
Zapisnica 2 Október 2, 2017 Stiahnuť
Zapisnica 3 Október 9, 2017 Stiahnuť
Zapisnica 4 Október 16, 2017 Stiahnuť
Zapisnica 5 Október 23, 2017 Stiahnuť
Zapisnica 6 Október 30, 2017 Stiahnuť
Zapisnica 7 November 6, 2017 Stiahnuť
Zapisnica 8 November 13, 2017 Stiahnuť
Zapisnica 9 November 20, 2017 Stiahnuť
Zapisnica 10 November 28, 2017 Stiahnuť
Zapisnica 11 December 8, 2017 Stiahnuť
Zapisnica 12 December 11, 2017 Stiahnuť

Zápisnice zo stretnutí - letný semester

Popis Dátum
Zapisnica 1 Február 13, 2018 Stiahnuť
Zapisnica 2 Február 20, 2018 Stiahnuť
Zapisnica 3 Február 27, 2018 Stiahnuť
Zapisnica - Medzistretnutie Marec 6, 2018 Stiahnuť
Zapisnica 4 Marec 9, 2018 Stiahnuť
Zapisnica 5 Marec 13, 2018 Stiahnuť
Zapisnica 6 Apríl 3, 2018 Stiahnuť
Zapisnica 7 Apríl 10, 2018 Stiahnuť
Zapisnica 8 Apríl 17, 2018 Stiahnuť
Zapisnica 9 Apríl 24, 2018 Stiahnuť

Retrospektíva

Popis Dátum
Retrospektíva Máj 11, 2018 Stiahnuť

Zimný semester - 1. Kontrolný bod

Popis Dátum
Dokumentácia riadenia November 17, 2017 Stiahnuť
Projektová dokumentácia November 17, 2017 Stiahnuť
Metodiky November 17, 2017 Stiahnuť
Export evidencie úloh November 17, 2017 Stiahnuť

Zimný semester - 2. Kontrolný bod

Popis Dátum
Dokumentácia riadenia December 15, 2017 Stiahnuť
Projektová dokumentácia December 15, 2017 Stiahnuť
Metodiky December 15, 2017 Stiahnuť

Letný semester - Záverečné odovzdanie

Popis Dátum
Dokumentácia riadenia Máj 11, 2018 Stiahnuť
Projektová dokumentácia Máj 11, 2018 Stiahnuť
Metodiky Máj 11, 2018 Stiahnuť
Retrospektívy Máj 11, 2018 Stiahnuť
Použivateľská príručka Máj 11, 2018 Stiahnuť
Inštalačná príručka Máj 11, 2018 Stiahnuť

TP CUP

Title: Building Ontologies from Unstructured Biographies


Extended Abstract:

Great amount of information is stored in historical books. However, majority of this knowledge is hidden within long texts. At this moment, the extracted information only describes main concepts, for example date of birth or death. Lots of data describing connections between people or communities remain undiscovered. Nowadays, with accessibility of digitalized texts, many opportunities for automating discovery of these connections arise.

In this paper, we focus on building ontologies from unstructured biographies using named entity recognition. Result is visualized as graph of entities and connections between them.
Using this tool, one can easily search through processed biographies and review potential interesting information.

Kontakt

deepsearch26@gmail