Magyar társadalomtudományi folyóiratok hivatkozási listáinak adatbázisba szervezése és az adatok hálózati kiszolgálása
Angol cím
Construction of database for web based searchable reference lists of periodicals published in Hungary for social sciences and humanities
magyar kulcsszavak
társadalom- és humánt tudományok, adatbázis, hivatkozások, webes felület
angol kulcsszavak
social sciences, humanities, database, references, web surface
megadott besorolás
Nyelvtudomány (Bölcsészet- és Társadalomtudományok Kollégiuma)
45 %
Ortelius tudományág: Számítógépes nyelvészet
Informatika (Műszaki és Természettudományok Kollégiuma)
45 %
Ortelius tudományág: Alkalmazott informatika
Közgazdaságtudomány (Bölcsészet- és Társadalomtudományok Kollégiuma)
10 %
Ortelius tudományág: Statisztika
zsűri
Publikációs bizottság
Kutatóhely
HUN-REN Nyelvtudományi Kutatóközpont
projekt kezdete
2010-01-01
projekt vége
2010-12-31
aktuális összeg (MFt)
9.718
FTE (kutatóév egyenérték)
0.00
állapot
lezárult projekt
magyar összefoglaló
A humán és társadalomtudományi referencia-adatbázis létrehozása sürgető feladat, amit hazai aktorokon kívül senki más nem fog megvalósítani. Az MTA Nyelvtudományi Intézetének nyelvtechnológiai és adatbázis építő valamint kezelő háttere jó alapot ad az online webes felületen hozzáférhető és lekérdezhető adatbázis létrehozására. A pályázat sikere megalapozhatja egy összeurópai lefedésű hasonló, de többnyelvű adatokat is kezelni tudó referencia-adatbázis megvalósítását. A jelen pályázat egy 24 hónapos fejlesztés első szakasza, amelyet követnie kell egy hasonló időtartamú, de már a nagymennyiségű adatot webes kiszolgálással elérhetővé tevő második fázisnak. (A jelen rovat nem tesz lehetővé hosszabb idejű tervezést. A csatolt kutatási terv a teljes projektet tartalmazza.) Jelen fejlesztéshez terveink szerint az MTA és a Magyar Rektori Konferencia támogatását is meg kívánjuk nyerni.
angol összefoglaló
The task of creating a database for references in the social sciences and humantities in Hungary is timely and urgent. It cannot be expected to be resolved by actors outside Hungary. The Research Institute for Linguistics of HAS has the requisite background in language technology and database management, so it provides sufficient basis to produce an online web-based interactive database. The achivements attained as a result of this project may serve as ideal base to buiild a similar, but all-European database on multilingual references. The current project is the first 12-month phase of a 24-month development, to be followed by a project of similar length realizing the objective of creating the web-based online database (as specified in the full project proposal attached). This project will hopefully be supported also by the Hungarian Academy of Sciences and the Rectors’ Conference.
Zárójelentés
kutatási eredmények (magyarul)
A pályázat ideje alatt feltérképeztük a hazai társadalomtudományi folyóiratokat, valamint eletkronikus formában begyűjtöttük a folyóiratok számait. A folyóiratlista összeállításakor előzetes számításokat végeztünk a folyóiratok által tartalmazott hasznos (azaz hivatkozást tartalmazó) cikkeire, tanulmányaira vonatkozóan. A 193 folyóirat általunk elérhető számainak összegyűjtése után becsléseink szerint az összegyűjtött folyóiratok hasznos tanulmányinak száma 35 000 körül mozog majd.
Az adatok tárolásának kialakításához az internetes publikáció jellegzetességeit, a méretezhetőség, az üzemeltethetőség, a programozhatóság és a hatékony lekérdezés szempontjait vettük figyelembe. A tárolandó tételek száma a már rendelkezésre álló adatok alapján százezres nagyságrendű, a referenciális kapcsolatok és a keresési funkciók miatti indexeléssel milliós nagyságrendű rekordszámmal kalkulálunk.
Megkezdődött a hivatkozások kigyűjtése is, amely két szövegfeldolgozási eljáráson alapszik. Amennyiben a szöveg nincs „szövegszerű állapotban”, (azaz pdf) optikai szövegfelismerő szoftverrel szöveggé kell alakítani. A szövegfájlból (txt, doc, rtf, html) egy következő lépésben ki lehet nyerni a hivatkozást, amit szegmentálni kell.
kutatási eredmények (angolul)
In the project we surveyed the periodicals of the social sciences and humantities in Hungary (193 in all) and harvested all individual issues in electronic format. According to our estimates these issues contain c. 35.000 articles with references. We made the core of the database with respect to a number of specificities (eg. scalability, efficiency of queries, programming). Because of the indexing of the referential connections we calculate with more than one million records. We also started the collection of references making use of two text processing methods: by OCR and simple text mining. After having located the references in text files, we proceed to parse them.