social history, automated text analytics, natural language processing, nlp
megadott besorolás
Demográfia (Bölcsészet- és Társadalomtudományok Kollégiuma)
100 %
Ortelius tudományág: Demográfia
zsűri
Társadalom
Kutatóhely
Szociológiai Intézet (HUN-REN Társadalomtudományi Kutatóközpont)
résztvevők
Berend Gábor Gulyás Attila Kiss László Kmetty Zoltán Ring Orsolya Szabó Martina Katalin Vidács László
projekt kezdete
2019-12-01
projekt vége
2024-06-30
aktuális összeg (MFt)
25.755
FTE (kutatóév egyenérték)
9.27
állapot
aktív projekt
Zárójelentés
kutatási eredmények (magyarul)
Az OTKA kutatásunk a pályázatban jelzett munkatervnek megfelelően zárult.
A pályázott projekt egyik legfontosabb és leghosszabb feladata az volt, hogy az 1945 és 1989 között megjelent újságokat, amelyek digitalizálása képformátumban történt meg korábban, a későbbiekben mások által is alkalmazható automatizált algoritmusok segítségével folyószöveggé alakítsuk. Ez azért is okozott különleges kihívást, mert az újságok egy része sokszor hasábokba tördelt formátumban közölték a cikkeket, azonban a hasábokat és az azonos cikkekhez tartozó szövegrészeket a számítógéppel automatikusan felismertetni egy kompex probléma.
Összesen öt újság, különböző időszakokra vonatkozó korpusza készült el, nevezetesen a Pártéletet, a Magyar Nemzet, a Népszabadság és a Beszélő, továbbá a Magyar Népköztársaság hivatalos lapjában, a Magyar Közlönyben megjelent jogszabályokat is elemeztük.
A kutatás során a vállalásainknak megfelelően nem csak a technikai hátteret fejlesztettük le az 1945 és 1989 közötti sajtó algoritmikus elemzéséhez, hanem azon – bemutatva a lehetséges elemzési irányokat és mintát adva a természetesnyelv-feldolgozásban rejlő lehetőségekre – társadalomtörténeti tudományos elemzéseket is végeztünk, amelyeket publikáltunk is.
A pályázatunknak egy fontos célja volt, hogy eredményeinket olyan kutatók számára is használhatóvá tegyük, akik nem rendelkeznek az NLP-hez szükséges speciális tudással. A vonatkozó weboldal elkészült és elérhető a https://digithist.com/ internetes oldalon.
kutatási eredmények (angolul)
Our OTKA research was completed according to the work plan indicated in the proposal.
One of the most important and longest lasting tasks of the proposed project was to convert newspapers published between 1945 and 1989, which had been digitised in image format before, into a running text using automated algorithms that could be applied by others in the future. This posed a particular challenge because some of the newspapers often published articles in a columnar format, but automatically recognising columns and sections of text belonging to the same article by computer is a complex problem.
A total of five newspapers, covering different periods, were analysed, namely Pártélet, Magyar Nemzet, Népszabadság and Beszélő, as well as legislation published in the official gazette of the Hungarian People's Republic, Magyar Közlöny.
In line with our commitments, we not only developed the technical background for the algorithmic analysis of the press between 1945 and 1989, but also carried out and published social-historical scientific analyses of the press, showing possible directions of analysis and providing a model for the potential of natural language processing.
An important aim of our application was to make our results usable for researchers who do not have the specific knowledge required for NLP. The corresponding website has been created and is available at https://digithist.com/.
Kiss László és Ring Orsolya: A „Kádár-korszak” jogszabályalkotása az adatok tükrében (1956. november – 1989. október), Jog-Állam-Politika 2022/4. szám (elfogadva, megjelenés alatt), 2022
Kiss László - Ring Orsolya: A Kádár-korszak „arcai”. Magyar politikusok médiareprezentációja 1957 és 1989/90 között., Politikatudományi Szemle 2022/4. szám (elfogadva, megjelenés alatt), 2022
Kiss László: A humor, mint a közpolitika tükre. A Ludas Matyi propagandatevékenysége 1945-90 között, Korall 2023/4, 2023