Text analytics and Social Media research  Page description

Help  Print 
Back »

 

Details of project

 
Identifier
128981
Type FK
Principal investigator Kmetty, Zoltán
Title in Hungarian Szöveg analitika és közösségi média kutatás
Title in English Text analytics and Social Media research
Keywords in Hungarian Adattudomány, Big Data, Közösségi média, szöveg analitika
Keywords in English Data Science, Big Data, Social Media, Text analytics
Discipline
Sociology (Council of Humanities and Social Sciences)100 %
Ortelius classification: Societal behaviour
Panel Society
Department or equivalent Institute of Empirical Studies (Eötvös Loránd University)
Participants Boros, Krisztián
Mogyorósi, Pálma
Németh, Renáta
Stefkovics, Ádám
Tarnói, Csenge
Vancsó, Anna
Váry, Dániel
Starting date 2018-09-01
Closing date 2022-02-28
Funding (in million HUF) 11.480
FTE (full time equivalent) 4.73
state closed project
Summary in Hungarian
A kutatás összefoglalója, célkitűzései szakemberek számára
Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára.

Ha nagy mennyiségű adathoz szeretnénk jutni, a Survey kutatások mellett ma már más megoldásokat is használhatunk. Egy ilyen lehetséges új út, a digitális térben keletkező adatok felhasználása. A digitális adatok egy részét a felhasználók osztják meg, tweetek vagy posztok formájában, a kedvenc helyeiket megjelölve, reagálva egymásra a közösségi médiában, értelmezve a híreket, kommentálva a barátaik posztjaira. A digitális adatok másik fele azonban nem szándékosan keletkezik, ilyen például a felhasználók geo-lokációjának rögzítése az okostelefonok által. Kétségkívül az egyik legizgalmasabb digitális adatforrás a közösségi média. A közösségi média elemzése egy folyamatosan fejlődő iparág. Ennek az adat-tengernek a kiaknázása csak most kezdődik, ami azt jelenti, hogy jelenleg több a kérdésünk, mint a válaszunk. Mik a legjobb módszerek a közösségi média adatok elemzésére? Mennyire általánosíthatók az eredmények? Mi a következménye annak, hogy egy algoritmusok által szabályozott környezetben keletkeznek az adatok? A tervezett projekt ezekre a kérdésekre igyekszik majd válaszolni egy kísérleti Facebook vizsgálat segítségével, valamint nyilvános oldalakon található Facebook posztok elemzésén keresztül. A kutatás abban is új tudást hoz majd, hogy mik a leginkább ígéretes szövegelemzési módszerek ezen a területen.

Mi a kutatás alapkérdése?
Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek.

Magyarországon jelenleg megközelítőleg 5.2 millió ember használja a Facebookot, ami azt jelenti, hogy az aktív internethasználók közel 90%-nak van profilja a közösségi oldalon. Ennek ellenére kevés olyan kutatás van, ami FB adatokra épül, a közösségi média aktivitást felhasználó kutatások jellemzően inkább Twitter adatokból indulnak ki. Ezzel a trenddel szakítva, a projektünk arra próbál választ adni, hogyan használhatók fel a Facebook adatok a társadalom-kutatásokban. A projektben a következő célokat tűzzük ki:
Módszertani keretrendszer: Kidolgozunk egy olyan módszertani keretrendszert, ami lehetővé teszi a közösségi média adatok hatékony elemzését.
A nyilvános oldalakon elérhető FB adatok megbízhatósága: A nyilvános oldalakon posztolt FB adatokat (ezeket megvásároljuk a projektben) összehasonlítjuk a kísérleti FB kutatásunk adataival. Ez az összehasonlítás lehetővé teszi a különböző adatforrások közötti hasonlóságok és különbségek azonosítását, ami a posztolási szokásokról nagyon fontos információkat fog nekünk szolgálni, valamint arra is lehetőséget ad, hogy a nyilvános oldalakon található FB adatok kutatási szempontból vett megbízhatóságát is meg tudjuk vizsgálni.
Szöveganalitika: Különböző szöveganalitikai módszereket fogunk tesztelni, hogy kiválaszuk a közösségi média elemzés során leginkább használható megoldásokat. A célunk egy olyan módszertani keretrendszer kidolgozása is ami abban segít, hogy milyen szöveganalitikai módszereket lehet és érdemes kombinálni ahhoz, hogy a legtöbbet kihozzunk az adatainkból.

Mi a kutatás jelentősége?
Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának!

A digitális adatrögzítés, a közösségi média, az IoT és összességében az egész digitalizáció olyan mennyiségű adatot produkál, ami korábban elképzelhetetlen volt. Egy teljesen új világot nyitott az adat alapú tudomány előtt, aminek a lehetőségei és a határai még nem is igazán láthatóak. A legtöbb közösségi médiát használó kutatás a Twitterre támaszkodik, a Facebook ilyen célú felhasználása igen ritka, ami két okra vezethető vissza. Egyrészről a Twitter struktúrája jóval egyszerűbb, a tweetek rövidek, és a felhasználó lehetséges aktivitása formái végesek, legalábbis a Facebookhoz képest. Másrészről sokkal egyszerűbb Twitter adatokhoz jutni, a nyilvános API-án keresztül. A Facebook esetében a nyilvános oldalakon posztolt aktivitást le lehet tölteni (a Graph API-n keresztül), de felhasználók oldaláról nem tölthetők le a posztok, még akkor sem, ha azok nyilvánosak a beállításuk szerint. A mi kutatásunk azáltal, hogy egy egyedi adatgyűjtési startégiát követ, a felhasználók aktivitásának egy nehezen elérhető részére enged rálátást. Ez az adatforrás rengeteg új módszertani és elméleti ismerettel fog majd minket gazdagítani.

Az újfajta digitális adatforrás csak újabb elemzési módszerekkel vizsgálható sikeresen. Az adat mennyiség már magában nagy kihívást jelent – nem véletlen hívják Big Data-nak ezt az adatkört. És nem csak sok adatról beszélünk, hanem alapvetően strukturáltalan és standardizálatlan adatokról. Ebből következően a hagyományos módszerek egy része ebben a paradigmában nem használható, más módszereket pedig újra fel kell fedezni. Mivel az egyik legnagyobb kihívás az ennek a nagy mennyiségű strukturáltalan adatnak a klasszifikációja és megmagyarázása, a szöveganalitikai megoldások elengedhetetlenül fontosak ezen a területen. A felhasználó által generált tartalom teli van izgalmas lehetőségekkel, de ahhoz, hogy kutatási célra alkalmassá tegyük a közösségi médiában vagy máshol található strukturáltalan szövegeket a legújabb szöveganalitikai megoldásokhoz kell nyúlnunk. A kutatásunk ezen a területen is szeretne új eredményeket felmutatni.

A kutatás összefoglalója, célkitűzései laikusok számára
Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára.

A társadalomtudományok az elmúlt 50-70 évben elsősorban kérdőíves kutatásokat használtak arra, hogy a társadalom működéséről adatokat gyűjtsenek. De adatok gyűjtése manapság már nemcsak ilyen kérdőíves kutatásokkal lehetséges. Az egyik legígéretesebb új adatforrás a társadalom digitális lábnyoma, és ezen belül is a közösségi média.
A Facebook a világ legnagyobb közösségi oldala, és folyamatosan növekszik tovább.
2017-t harmadik negyedévében 2.07 milliárd legalább havonta aktív felhasználója volt az oldalnak, és ebből 1.37 milliárdan használták napi szinten az oldalt. Extrém mennyiségű adat keletkezik folyamatosan az oldalon, de a társadalomtudósok ezt az adatforrást mégsem használják nagyon ki. Ahhoz, hogy ez változzon két kérdésre kell válaszolni:
hogyan lehet jól adatot gyűjteni a közösségi médiából
hogyan lehet ezt az adatot jól elemezni?

Közösségi média adatot gyűjteni kifejezetten nehéz, különösen a Facebook esetében. A projektünk egy első lépést tesz ebben az irányban egy kísérleti Facebook kutatás formájában. A kísérleti kutatás alapján olyan fontos módszertani kérdésekre tudunk majd válaszolni, amik nélkülözhetetlen akkor, ha a Facebookot mint társadalomkutatási eszközt szeretnénk használni.
Az szintén nem magától értetődő, hogyan elemezzük a Facebook adatokat hatékonyan, hiszen nagy mennyiségű strukturáltalan adattal kell megküzdenünk. Ahhoz, hogy egyáltalán megértsük ezt az adatfolyamot és elérjük a kutatási céljainkat, a legújabb szöveganalitikai módszerekre van szükségünk, valamint új eljárásoknak és elemzési stratégiáknak a kifejlesztésére. A kutatásunk ezen a területen is szeretne új eredményeket felmutatni.
Summary
Summary of the research and its aims for experts
Describe the major aims of the research for experts.

Surveys are not the only way to gather large amount of data. One of the new data sources is the digital footprint of the society. Part of these are user shared content, such as tweets or posts, about places people like; how they react or communicate to each other in the social media; how they interpret the news; what are they commenting about their friends’ activity; what makes a sport trendy – and there is also huge amount of non-intentionally data, such as the geo-location of people with smart-phones. One very interesting type of the digital data is information from social media. Social media analysis is constantly developing sector. The exploitation of this ocean of data has just started, which means that in these days, there are more questions than answers about the know-how. What are the best methods to analyse social media data? Is it possible to make the results generalizable? What are the consequences of the algorithmic environment which controls the data flow? The planned project would like to answer these questions based on an experimental Facebook study and by analysing publicly available Facebook activity data. The project will also add new insight what are the most promising text analytics methods in this research agenda.

What is the major research question?
Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments.

In Hungary, around 5.2 million people use FB, which means that nearly 90 percent of the active internet users have a profile on the social network. Hungarians mainly use FB to contact friends and relatives, but half of them use it as a news feed, so it plays an extremely important role in their everyday life, according to their level of knowledge and way of thinking. Even though, Facebook is not the target of researchers: a vast number of researches deal with Twitter data, but relatively few with FB data. Contrast with this trend, our project would like present how Facebook could be used in social science research. The following outputs are expected in the project:
Methodological framework: We will develop a methodological framework, which support the effective analysis of social media data
Reliability of digital data collected in public sites: Comparing purchased FB data and the data coming from the experimental pilot study, we will be able to analyse the difference between these data sources which give us plenty of new information on posting habits. This will give us also important insights about the reliability of public FB data. This direction of the research will also refine our analytical techniques on digital data and will also give us general knowledge about the limitations of social media data.
Text analytics: We will test different text analytical methods to choose the most efficient ones in the analysis of digital (especially Facebook) data. Here we will also develop a methodological framework, which helps in the combination of different text analytic techniques to get the most out of the data.

What is the significance of the research?
Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field.

Digital data recording, social media, IoT, and the entire digitalization produce such amount of data that was unimaginable in the past. It opens entirely new perspectives for data science, but its potential and limitations are hard to see know. Most research based on social media data, deals with Twitter data, and relatively few with FB data. This phenomenon comes from two sources. On one hand, it is easier to structure Twitter data: tweets are short and the number of possible actions a user can do is rather limited – compared to FB. On the other hand, it is much easier to get data from Twitter, through its API-s. In the case of FB, contents of the public sites are possible to download (through its Graph API), but contents of pages of users are prohibited to gather, even if these contents and activities are public and not private. Our planned Facebook study by using different way of data collection, could provide us a unique dataset of the user’s activity. This will give us new insight on various methodological and theoretical topics.

This new type of data sources implies new analytical methods too. The size of the data alone presents new challenges – enough to think of the widely used expression, ‘big data.’ Also, we do not talk only about a lot of data, but also often about really unstructured and unstandardized data. Due to these problems, some of the standard methods cannot be used, some have to be reinvented. As the most outstanding challenge is the classification and explanation of this huge amount of unstructured data, automatized text (and also picture and video) analytics are getting inevitably important. The user-generated online content is full of opportunities, but if we would like to transform social media or other text-based digital content to structured, standardized and thus analysable data, these new methods are essential for us. Our project will make future contribution on this field too.

Summary and aims of the research for the public
Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others.

As a standard method, surveys were used to collect large empirical data on the field of social sciences in the last 50-70 years. However, surveys are not the only way to gather large amount of data. One of the new data sources is the digital footprint of the society. Social media is one of the most interesting data source of the digital world.
Facebook (FB) is the biggest social media site in the word and it is growing continuously. There were over 2.07 billion monthly active FB users in 2017 (Q3), and 1.37 billion daily active users. In every minute 510 000 comments are posted and around 300k status are updated. An extremely huge amount of data arises continuously but it is rarely exploited by social scientist. To change this, we have to solve two problems: how to collect social media data, and how to analyse it effectively.
Collection of social media data is hard, especially in the case of Facebook. Our project will take an initial step here, by conducting an experimental FB study. Based on this study we could answer many important methodological questions which are inevitable if we would like to use FB as a social science research tool.
It is also not straightforward how to analyse FB data effectively. Here we have to deal with a huge amount of unstructured text data. To understand this data, we need to use the newest text analytics methods, and we need to develop new techniques and analytics strategies to reach our objectives. Our project will make future contribution on this field too.





 

Final report

 
Results in Hungarian
A projekt elsődleges célkitűzése az volt, hogy technikai és tartalmai oldalról megvizsgálja az adatdonációs megközelítés társadalomtudományi használhatóságát. A projekt keretében tervezett komplex adatfelvételt a terveknek megfelelően az első évben megvalósítottuk, a módszertani keretrendszert több nemzetközi konferencián bemutattuk. Az adatok a KDK repozitóriumában elérhetők a vezető kutató engedélyével. Az adatgyűjtésre épülő tartalmi elemzések két témát érintettek, a zenei stílust, valamint a depresszió azonosíthatóságát. Mindkét esetben nemzetközi konferenciákon mutattuk be az eredményeket, a tanulmányok Q2 lapokban jelentek meg. Célként tűztük ki a projekt kezdetekor, hogy megvizsgáljuk hogyan viszonyulnak a külső adatforrásból beszerzett Facebook adatok az adatdonáció során elérhetővé vált adatokhoz. A kutatás korai szakaszában világossá vált, hogy a különböző adatforrások nem elemezhetők ugyanabban a kutatási keretben, más típusú kérdések megválaszolására alkalmasak az adatdonációból származó adatok és más típusú kérdések megválaszolására használhatók a Social Listening szolgáltatókon beszerezhető adatok. Utóbbi adatokra építve elsősorban a káromkodások kommentekben való megjelenését vizsgáltuk. Eredményeinket nemzetközi Q1 lapban publikáltuk.
Results in English
The project's primary objective was to investigate the technical and content-related usability of the data donation approach in the social sciences. The complex data collection planned under the project was implemented in the first year, and the methodological framework was presented at several international conferences. The data is available in the KDK repository with the permission of the principal investigator. The analyses based on the data collection addressed two themes, musical taste and the identifiability of depression in Social Media. The results were presented at international conferences in both cases, and the papers were published in Q2 journals. At the start of the project, we aimed to investigate how Facebook data obtained from external data sources could be compared with the data made available through data donation. It became clear that different data sources could not be analyzed in the same research framework. Data from data donation could answer different questions than data obtained from Social Listening providers. Building on the latter type of data, we have primarily looked at the presence of incivility in comments. Our results were published in an international Q1 journal.
Full text https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=128981
Decision
Yes





 

List of publications

 
Kmetty Zoltán, Bozsonyi Károly: Identifying Depression-Related Behavior on Facebook—An Experimental Study, SOCIAL SCIENCES 11: (3) p. 135., 2022
Waudby, J., Steer, B. A., Prat-Pérez, A., & Szárnyas, G.: Supporting Dynamic Graphs and Temporal Entity Deletions in the LDBC Social Network Benchmark's Data Generator., GRADES-NDA@ SIGMOD (pp. 8-1)., 2020
Kmetty Zoltán, Németh Renáta: How to measure musical preference on Facebook? Evidence from a mixed-method data collection, BULLETIN DE METHODOLOGIE SOCIOLOGIQUE, 2021
Szabó Gabriella, Kmetty Zoltán, K. Molnár Emese: Politics and Incivility in the Online Comments: What is Beyond the Norm-Violation Approach?, INTERNATIONAL JOURNAL OF COMMUNICATION 15: (2) pp. 1659-1684., 2021
Kmetty Zoltán: Új utak a társadalom megismerésében. A donáció alapú digitális adatgyűjtésben rejlő lehetőségek, METSZETEK - TÁRSADALOMTUDOMÁNYI FOLYÓIRAT 10: (3) pp. 6-26., 2022
Kelemen Sára Bernadett, Yang Zijian Győző, Kmetty Zoltán: Neme?, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XVIII. Magyar Számítógépes Nyelvészeti Konferencia, Szegedi Tudományegyetem, Informatikai Intézet (2022) pp. 573-585., 2022
Kmetty Zoltán, Knap Árpád: Trágárság mint érzelmi válasz a COVID-19-járvány idején, In: Szabó, Gabriella (szerk.) Érzelmek és járványpolitizálás. Politikai érzelemmenedzserek és érzelemszabályozási ajánlataik Magyarországon a COVID-19 pandémia idején., ELTE Eötvös Kiadó (2022) p. 173., 2022





 

Events of the project

 
2020-10-16 07:35:21
Résztvevők változása
2019-12-05 10:55:14
Résztvevők változása
2019-09-03 09:41:37
Résztvevők változása




Back »