O projekte
Informačná explózia so sebou prináša aj viacero problémov. Napriek tomu, že v dnešnej dobe si nemožno sťažovať na nedostatok informácií, máme často problém nájsť to, čo práve potrebujeme. Väčšina dokumentov je totiž v neštrukturovanej podobe a získať z nich informácie typu: kto v danom období pôsobil v určitom regióne je prakticky nemožné. Fulltextové vyhľadávanie má jeden vážny nedostatok a to, že nezohľadňuje sémantiku daných kľúčových slov.
V našom projekte sa zameriavame na spracovanie prirodzeného jazyka a stanovili sme si pomerne ambiciózny cieľ, ktorým je extrakcia štruktúrovaných dát z neštruktúrovaného textu so zachytením ich významu. Pričom zameriavať sa budeme najmä na životopisy a iné dokumenty, z ktorých budeme môcť extrahovať informácie o tom kde a kedy dané osoby študovali, prípadne pôsobili. Pokúsime sa tiež z textov získať vzťahy typu: kolega alebo spolužiak.
Našou úlohou bude teda rozpoznávať, a pokiaľ to bude možné aj jednoznačne identifikovať, entity typu osoba, korporácia, geograficke lokacie, datácia a zároveň identifikovať udalosť štúdium, prípadne pôsobenie a v rámci nich vzťahy medzi týmito entitami prepojiť.
Cieľom je tieto údaje uložiť v štruktúrovanej podobe tak, aby bolo možné v nich vyhľadávať a získať informáciu o tom kto a kedy v danom mieste študoval, s kým sa mohol poznať a vytvárať tak aj virtuálne komunity napr. pre určité zameranie.
Ciele projektu
1. Semester
Cieľom tohto semestra je vytvorenie databázy na základe neštruktúrovaných životopisov. Je potrebné identifikovať nasledovné polia:
• Narodenie – dátum a miesto
• Úmrtie – dátum a miesto
• Štúdium – dátum, miesto, profesori, spolužiaci
V ideálnom prípade by bolo vhodné taktiež vizualizovať súvislosti medzi osobnosťami pomocou grafu. Jednotlivé vrcholy budú predstavovať osobnosti a hrany budú predstavovať súvislosti medzi nimi.
2. Semester
Ciele pre tento semester sú:
• Integrácia neo4j databázy
• Opraviť a vylepšiť vyhľadávanie entít
• Vizualizovania dát pomocou webovej aplikácie
Progres
1.5.2018
Aplikácia je stabilne nasadená na serveri. Dolaďujú sa posledné chyby na front-ende aj back-ende. Momentálne sa venujeme finálnej dokumentácii diela.
23.4.2018
Úspešne sme sa zúčastnili TP Cup súťaže tímových projektov na IITSRC 2018. Podarilo sa nám odprezentovať náš produkt viacerým hodnotiacim a iným záujemcom. Na výsledky stále čakáme.
12.4.2018
V poslednom období sa venujeme príprave na IITSRC 18.4.2018. Aplikácia je v rámci možností prezentovateľná.
26.3.2018
V rámci back-endu sa nám podarilo opäť odstrániť ďalšie chyby, ktoré vznikali kvôli anomáliám v textoch.
9.3.2018
Podarilo sa nám spojazdniť databázu Neo4j aj na serveri.
2.3.2018
Pri hľadaní vhodného zaradenia pre nášho nového kolegu v tíme sme sa rozhodli mu zveriť front-end. V priebehu prvého šprintu sa nám podarilo rozbehať základný koncept webovej aplikácie. Taktiež sa nám podarilo sfinalizovať článok na IITSRC, ktorého rozšírený abstrakt si môžete pozrieť v sekcii “TP CUP”.
24.2.2018
Do tímu nám pribudol nový člen. Pri tejto príležitosti sme taktiež začali pracovať na článku pre TP Cup, ktorého sa zúčastníme v rámci IIT.SRC 2018 v apríli 2018.
15.2.2018
Podarilo sa nám navrhnúť prvý databázový model a vložiť aktuálne spracované dáta do databázy Neo4j. Momentálne pracujeme s lokálnymi verziami databáz. Podarilo sa nám odstrániť niektoré chyby pri rozpoznávaní entít a ich vzťahov na základe lepšieho predspracovania samotných textov.
14.12.2017
Počas prvého semestra sme sa ako tím museli vysporiadať s odchodom dvoch členov. Aj napriek tejto skutočnosti sa nám pomerne úspešne podarilo spojazdniť back-end softvéru. Identifikácia entít a vzťahov v predbežnej evaluácii dosahuje okolo 50% úspešnosť. Sú potrebné úpravy a zmeny.
Členovia
Berta Peter, Bc.
Scrum Master
Peter je študentom inžinierskeho štúdia na fakulte informatiky a informačných technológií v Bratislave. Počas bakalárskeho štúdia sa venoval výskumu identifikácie prípadov použitia v zdrojovom kóde. Má rozsiahle skúsenosti s programovacími jazykmi C, Java, Python a Javascript. V rámci svojho diplomového projektu sa bude zaoberať organizačnými vzormi a vzorovými jazykmi. V tíme má pridelenú rolu scrum mastera.
Adamov Matej, Bc.
Master Director of Team, Communication and Customer, Interaction
Matej momentálne po dokončení bakalárskeho stupňa na fakulte informatiky a informačných technológii v odbore informatika, na tejto fakulte pokračuje aj na inžinierskom stupni v odbore inteligentné softvérové systémy. V tíme sa venuje manažmentu komunikácie a kontroly. Medzi Matejove obľúbené oblasti patrí strojové učenie, objavovanie znalostí a proces návrhu systémov.
Pečíková Bronislava, Bc.
Database expert
Bronislava vyštudovala bakalárske štúdium v odbore aplikovaná matematika a aktuálne študuje inžinierske štúdium na fakulte informatiky a informačných technológii v odbore inteligentné softvérové systémy, tento odbor si obľúbila a to najmä preto, že ju baví dátová analýza, objavovanie znalostí a strojové učenie. V tíme zastrešuje prácu s dátami, teda výber databázy návrh štruktúry dát optimalizáciu dopytov okrem toho je hlavným zodpovedným za dokumentáciu a to nie len oficiálnu projektovú dokumentáciu ale aj dokumentáciu riadenia a rôzne “pracovné” dokumentácie nevyhnutné pre dobré fungovanie vývoja. No a v neposlednom rade je jej úlohou aj prezentácia tímu prostredníctvom webovej stránky, za ktorej obsah zodpovedá.
Krempaský Michal, Bc.
Lead Testing Coordinator
Michal vyštudoval bakalárske štúdium na fakulte informatika a informačných technológií v odbore informatika a pokračuje ďalej na inžinierskom stupni v odbore inteligentní softvérové systémy. Jeho úloha v tíme je manažment rizík, kde sa snaží identifikovať potencionálne rizika, ktorí by mohli negatívne ovplyvniť projekt. Okrem rizík má na starosti aj tému testovania, kde vie prispieť aj skúsenosťami z praxe. Jeho obľubené témy v informatike sú ohľadom umelej inteligencie a modelovanie. Rád hľadá chyby v systémoch a riešenia pri vzniknutých problémoch.
Ondrej Hamara, Bc.
Developer
Ondrej vyštudoval bakalárske štúdium na fakulte informatiky a informačných technológií v odbore informatika a pokračuje ďalej na inžinierskom stupni v odbore softvérové inžinierstvo. Jeho úlohou v tíme je správa webovej stránky tímu a vývoj frontendovej applikácie na webe. Okrem toho na starosti má aj vizualizáciu dát. Jeho obľubené oblasti v IT svete sú modelovanie systémov pomocou UML a ich zobrazovanie v 3D priestore. Nepohrdne ani prácou na backhande pri vývoji logiky systémov v OO programovaní.
Aplikácia
Použivateľská príručka: Zobraz
Dokumenty
Zápisnice zo stretnutí - zimný semester
Popis |
Dátum |
|
Zapisnica 1 |
September 25, 2017 |
Stiahnuť |
Zapisnica 2 |
Október 2, 2017 |
Stiahnuť |
Zapisnica 3 |
Október 9, 2017 |
Stiahnuť |
Zapisnica 4 |
Október 16, 2017 |
Stiahnuť |
Zapisnica 5 |
Október 23, 2017 |
Stiahnuť |
Zapisnica 6 |
Október 30, 2017 |
Stiahnuť |
Zapisnica 7 |
November 6, 2017 |
Stiahnuť |
Zapisnica 8 |
November 13, 2017 |
Stiahnuť |
Zapisnica 9 |
November 20, 2017 |
Stiahnuť |
Zapisnica 10 |
November 28, 2017 |
Stiahnuť |
Zapisnica 11 |
December 8, 2017 |
Stiahnuť |
Zapisnica 12 |
December 11, 2017 |
Stiahnuť |
Zápisnice zo stretnutí - letný semester
Popis |
Dátum |
|
Zapisnica 1 |
Február 13, 2018 |
Stiahnuť |
Zapisnica 2 |
Február 20, 2018 |
Stiahnuť |
Zapisnica 3 |
Február 27, 2018 |
Stiahnuť |
Zapisnica - Medzistretnutie |
Marec 6, 2018 |
Stiahnuť |
Zapisnica 4 |
Marec 9, 2018 |
Stiahnuť |
Zapisnica 5 |
Marec 13, 2018 |
Stiahnuť |
Zapisnica 6 |
Apríl 3, 2018 |
Stiahnuť |
Zapisnica 7 |
Apríl 10, 2018 |
Stiahnuť |
Zapisnica 8 |
Apríl 17, 2018 |
Stiahnuť |
Zapisnica 9 |
Apríl 24, 2018 |
Stiahnuť |
Retrospektíva
Popis |
Dátum |
|
Retrospektíva |
Máj 11, 2018 |
Stiahnuť |
Zimný semester - 1. Kontrolný bod
Popis |
Dátum |
|
Dokumentácia riadenia |
November 17, 2017 |
Stiahnuť |
Projektová dokumentácia |
November 17, 2017 |
Stiahnuť |
Metodiky |
November 17, 2017 |
Stiahnuť |
Export evidencie úloh |
November 17, 2017 |
Stiahnuť |
Zimný semester - 2. Kontrolný bod
Popis |
Dátum |
|
Dokumentácia riadenia |
December 15, 2017 |
Stiahnuť |
Projektová dokumentácia |
December 15, 2017 |
Stiahnuť |
Metodiky |
December 15, 2017 |
Stiahnuť |
Letný semester - Záverečné odovzdanie
Popis |
Dátum |
|
Dokumentácia riadenia |
Máj 11, 2018 |
Stiahnuť |
Projektová dokumentácia |
Máj 11, 2018 |
Stiahnuť |
Metodiky |
Máj 11, 2018 |
Stiahnuť |
Retrospektívy |
Máj 11, 2018 |
Stiahnuť |
Použivateľská príručka |
Máj 11, 2018 |
Stiahnuť |
Inštalačná príručka |
Máj 11, 2018 |
Stiahnuť |
TP CUP
Title: Building Ontologies from Unstructured Biographies
Extended Abstract:
Great amount of information is stored in historical books.
However, majority of this knowledge is hidden within long texts.
At this moment, the extracted information only describes main concepts, for example date of birth or death.
Lots of data describing connections between people or communities remain undiscovered.
Nowadays, with accessibility of digitalized texts, many opportunities for automating discovery of these connections arise.
In this paper, we focus on building ontologies from unstructured biographies using named entity recognition.
Result is visualized as graph of entities and connections between them.
Using this tool, one can easily search through processed biographies and review potential interesting information.
Kontakt
deepsearch26@gmail