Information Technology (Council of Physical Sciences)
45 %
Ortelius classification: Applied informatics
Economics (Council of Humanities and Social Sciences)
10 %
Ortelius classification: Statistics
Panel
Publications Panel
Department or equivalent
HUN-REN Hungarian Research Centre for Linguistics
Starting date
2010-01-01
Closing date
2010-12-31
Funding (in million HUF)
9.718
FTE (full time equivalent)
0.00
state
closed project
Summary in Hungarian
A humán és társadalomtudományi referencia-adatbázis létrehozása sürgető feladat, amit hazai aktorokon kívül senki más nem fog megvalósítani. Az MTA Nyelvtudományi Intézetének nyelvtechnológiai és adatbázis építő valamint kezelő háttere jó alapot ad az online webes felületen hozzáférhető és lekérdezhető adatbázis létrehozására. A pályázat sikere megalapozhatja egy összeurópai lefedésű hasonló, de többnyelvű adatokat is kezelni tudó referencia-adatbázis megvalósítását. A jelen pályázat egy 24 hónapos fejlesztés első szakasza, amelyet követnie kell egy hasonló időtartamú, de már a nagymennyiségű adatot webes kiszolgálással elérhetővé tevő második fázisnak. (A jelen rovat nem tesz lehetővé hosszabb idejű tervezést. A csatolt kutatási terv a teljes projektet tartalmazza.) Jelen fejlesztéshez terveink szerint az MTA és a Magyar Rektori Konferencia támogatását is meg kívánjuk nyerni.
Summary
The task of creating a database for references in the social sciences and humantities in Hungary is timely and urgent. It cannot be expected to be resolved by actors outside Hungary. The Research Institute for Linguistics of HAS has the requisite background in language technology and database management, so it provides sufficient basis to produce an online web-based interactive database. The achivements attained as a result of this project may serve as ideal base to buiild a similar, but all-European database on multilingual references. The current project is the first 12-month phase of a 24-month development, to be followed by a project of similar length realizing the objective of creating the web-based online database (as specified in the full project proposal attached). This project will hopefully be supported also by the Hungarian Academy of Sciences and the Rectors’ Conference.
Final report
Results in Hungarian
A pályázat ideje alatt feltérképeztük a hazai társadalomtudományi folyóiratokat, valamint eletkronikus formában begyűjtöttük a folyóiratok számait. A folyóiratlista összeállításakor előzetes számításokat végeztünk a folyóiratok által tartalmazott hasznos (azaz hivatkozást tartalmazó) cikkeire, tanulmányaira vonatkozóan. A 193 folyóirat általunk elérhető számainak összegyűjtése után becsléseink szerint az összegyűjtött folyóiratok hasznos tanulmányinak száma 35 000 körül mozog majd.
Az adatok tárolásának kialakításához az internetes publikáció jellegzetességeit, a méretezhetőség, az üzemeltethetőség, a programozhatóság és a hatékony lekérdezés szempontjait vettük figyelembe. A tárolandó tételek száma a már rendelkezésre álló adatok alapján százezres nagyságrendű, a referenciális kapcsolatok és a keresési funkciók miatti indexeléssel milliós nagyságrendű rekordszámmal kalkulálunk.
Megkezdődött a hivatkozások kigyűjtése is, amely két szövegfeldolgozási eljáráson alapszik. Amennyiben a szöveg nincs „szövegszerű állapotban”, (azaz pdf) optikai szövegfelismerő szoftverrel szöveggé kell alakítani. A szövegfájlból (txt, doc, rtf, html) egy következő lépésben ki lehet nyerni a hivatkozást, amit szegmentálni kell.
Results in English
In the project we surveyed the periodicals of the social sciences and humantities in Hungary (193 in all) and harvested all individual issues in electronic format. According to our estimates these issues contain c. 35.000 articles with references. We made the core of the database with respect to a number of specificities (eg. scalability, efficiency of queries, programming). Because of the indexing of the referential connections we calculate with more than one million records. We also started the collection of references making use of two text processing methods: by OCR and simple text mining. After having located the references in text files, we proceed to parse them.