O našom projekte
Priblíženie podstaty projektu
Kvalitu publikačnej činnosti vedeckých pracovníkov je potrebné vhodným spôsobom hodnotiť. Jedným zo spôsobov je hodnotenie prostredníctvom ohlasov na publikované dielo. Ohlas môže byť citácia, recenzia na dielo a pod.. Pre hodnotenie vedeckých prác majú najväčší význam práve citácie. Pod pojmom citácia v tomto kontexte rozumieme odkaz na skôr publikovanú prácu, ktorá súvisí s argumentmi , použitými citujúcim autorom vo svojej práci. Citácia teda prepája skôr publikovanú prácu s prácou neskoršou, ktorá ju cituje. Ohlasy sa vo všeobecnosti tiež používajú na hodnotenie vedeckého pracovníka, výskumu, určovanie a predpovedanie úrovne vedy a pod..
Za účelom zberu evidencie citácií vznikli citačné databázy. Poskytujú, pre vybraného autora a dielo, zoznam citujúcich diel spolu s bibliografickými odkazmi na citujúce diela. Najznámejšími citačnými databázami sú Web of Science (ďalej iba WOS) spoločnosti ISI a Scopus spoločnosti Elsevier. Obe obsahujú webové rozhranie umožňujúce vyhľadať diela podľa zadaných kritérií. Ku každému dielu je možné zobraziť zoznam citujúcich diel. V bežnej praxi sa citácie vyhľadávajú práve takto, manuálne, prostredníctvom webového rozhrania. Takáto manuálna evidencia môže byť však prácna a zdĺhavá.
Obsah databáz WOS a Scopus nie je totožný. Do značnej miery sa síce prekrýva, ale nie úplne, čo dáva zmysel vyhľadávaniu v oboch databázach súčasne. Pri takomto vyhľadávaní je však potrebné ošetriť dva druhy problémov. Jedným sú duplicitné nálezy, ktoré sa vyskytli v oboch databázach súčasne a druhým je situácia keď autor cituje v diele iné dielo, ktorého je zároveň tiež autorom. Takáto citácia sa nazýva autocitácia. Autocitácie sa nepovažujú za relevantné pre hodnotenie diela.
Cieľom projektu je navrhnúť a implementovať aplikáciu umožňujúcu automatické vyhľadávanie ohlasov (citácií) na zadané diela. Používateľ zadá požiadavku vo forme bibliografického zoznamu diel, na základe ktorej sa vykoná vyhľadávanie v databázach WOS a Scopus. Systém následne (v čo najväčšej miere automaticky) odstráni duplicitné záznamy a autocitácie. Citácie na zadané diela budú následne vo vhodnej forme prezentované používateľovi.
Zadanie projektu
Publikačná činnosť patrí k významným ukazovateľom hodnotenia práce vedeckých pracovníkov a pracovísk. Tiež je jedným z faktorov ovplyvňujúcim prideľovanie finančných prostriedkov MŠ SR jednotlivým vysokým školám a univerzitám. Z toho dôvodu sa jej sledovaniu a evidencii venuje najmä v poslednom období značná pozornosť. Jednou z dôležitých častí informačného systému evidujúceho publikačnú činnosť organizácie, je aj databáza ohlasov na publikačnú činnosť. Pod pojmom ohlas rozumieme citáciu, recenziu alebo umeleckú kritiku na publikované dielo.
Citácia je forma skráteného odkazu umiestnená v zátvorkách vnútri textu, alebo pripojená k textu ako poznámka v dolnej časti strany, na konci kapitoly, príp. na samom konci textu. Citácia umožňuje identifikovať publikáciu, z ktorej bola prevzatá alebo parafrázovaná myšlienka a označuje presné umiestnenie takejto myšlienky alebo výňatku v zdrojovej publikácii.
V praxi býva budovanie databázy ohlasov pracné, pritom existujú renomované elektronické informačné zdroje, ktoré môžu slúžiť ako zdroj pre vyhľadanie citácií.
Cieľ projektu:
- Pre zadanú množinu publikácií vyhľadanie ohlasov na uvedené publikácie v databázach vhodných pre zber ohlasov (napr. Web of Science z produkcie Thomson Scientific a databáza SCOPUS z produkcie Elsevier, ISI Proceedings, prípadne z ďalších zdrojov).
- Relevantné záznamy harvestovať a ukladať do databázy ako samostatné bibliografické záznamy s možnosťou exportu v MARC formát (UNIMARC, MARC21 v XML i ISO2709).
- Ďalšou úlohou je vytvoriť webovú službu, ktorá by na základe zadanej publikácie vrátila všetky relevantné ohlasy. Druhá možnosť ako toto riešiť je snažiť sa vytvoriť priamo ws ktorá by využívala federatívne vyhľadávanie a následne deduplikáciu.
Pri vyhľadávaní záznamov je nutné využívať buď súbory autorít s variantnými formami mien autora, alebo analyzovať zdroj a na základe skutočného mena uvedeného v publikácii vytvárať algoritmicky tieto variantné formy mena, nakoľko v citačných zdrojoch sú tieto mená častokrát uvádzané nesprávne a rovnako tomu môže byť aj pri názvoch publikácií.
Jednotlivé kroky:
- Analýza vhodnej metódy prístupu do uvedených elektronických informačných zdrojov
- Vypracovanie a odskúšanie metodiky na spoľahlivé vyhľadanie zadaného záznamu publikačnej činnosti v externom zdroji. Vyhľadanie nebude úplne priamočiare, nakoľko napr. názov publikácie alebo spôsob zápisu autora v externom zdroji nemusí byť úplne totožný (napr. autor môže byť zapísaný v inom tvare atď.)
- Eliminácia autocitácií (keď autor v článku cituje dielo, kde je jedným z autorov)
- Implementácia MARC formátov
- Tvorba a zdokumentovanie webovej služby na získanie ohlasov k danej publikácii z uvedených zdrojov
- Tvorba webového rozhrania.
Riešenie by malo využívať databázový systém Caché, prípadne integračný nástroj Ensebmle a malo by umožňovať používateľom zadať jednotlivo svoje dielo, prípadne importovať ich diela vo formáte ISO690, výstupom by mali byť citácie k jednotlivým dielam z uvedených zdrojov.