Diplomová práca

Sentiment analýza a modelovanie tém spravodajských článkov pomocou teórie komplexných sietí

Svetové spravodajstvo odzrkadľuje aktuálne dianie vo svete a spoločnosti v ktorej žijeme. Vďaka jeho internetovej podobe majú dáta o spravodajských článkoch hojnú kvantitu a pohodlnú dostupnosť. Ich analýzou vieme identifikovať (najfrekventovanejšie) pojmy a témy ktoré sa spájajú s rôznymi zaujímavými oblasťami, vyhodnotiť sentiment s ktorým sa dané pojmy spomínajú a sledovať vývoj týchto atribútov v čase. Cieľom tejto práce je zamerať sa na kľúčové slová v spravodajských článkoch. Kľúčové slová modelujeme do komplexných sietí a pomocou teórie komplexných sietí ich následne analyzujeme. Navrhujeme postupy pre analýzu sentimentu, modelovanie tém a ich vizualizáciu, ktoré sú použiteľné pre ľubovoľnú množinu článkov. V rámci implementačnej časti práce vznikol aj softvérový nástroj na ktorom naše postupy demonštrujeme.


World news reflects current events in the world and the society we live in. Thanks to its web-based format, data about news articles is abundant in quantity and conveniently accessible. By analyzing them, we can identify the (most frequent) terms and topics that are associated with different areas of interest, evaluate the sentiment with which the terms are mentioned, and track the evolution of these attributes over time. The aim of this thesis is to focus on keywords in news articles. We model the keywords into complex networks and then analyze them using complex network theory. We propose procedures for sentiment analysis, topic modeling, and visualization which are applicable to any set of articles. In the implementation part of the thesis, we also develop a software tool on which we demonstrate our procedures.

Vedúci: doc. RNDr. Damas Gruska, PhD.
Stredisko: Katedra aplikovanej informatiky

Kalendár

November 2022

Výber témy a prediskutovanie základných cieľov a výskumného zámeru diplomovej práce. Dohodnutie pravidelných týždenných stretnutí.


December 2022

Hľadanie článkov a literatúry zameranej na analýzu sociálnych sietí a komplexných sietí. Zhodnotenie dostupných nástrojov na analýzu komplexných a sociálych sietí. Preštudovanie a preopakovanie výsledkov bakalárskej práce.


Január 2023

Štúdium nazbieranej literatúry a zoznamovanie sa s nástrojmi a knižnicami na analýzu. Diskusia o použití ChatGPT na tvorbu kľúčových slov z príspevkov a štúdium sentimentu.


Február 2023

Konzultácie o konkrétnejšich cieľoch a výber sociálnych sietí (Twitter, Instagram, Facebook...). Charakterizácia a forma analýzy. Skúšanie šablón pre vstupy pre ChatGPT a študovanie jeho obmedzení.


Marec 2023

Refaktorizácia kódu bakalárskej práce. Vytvorenie frameworku pre implementačnú časť práce. Štúdium a testovanie základných funkcií knižníc a packageov.


Apríl 2023

Stiahnutie a konfigurácia LATEX šablóny pre diplomové práce. Zoznamovanie sa s LATEX jazykom. Vytvorenie web stránky a naplnenie jej obsahu.


Máj 2023

Vytvorenie prezentácie a odprezentovanie pokroku diplomovej práce.


Skuškové obdobie a letné prázdniny 2023

Zamýšlanie sa nad preorientovaním sa zo sociálnych sietí na spravodajské články. Štúdium potrebnej literatúry a zdrojov. Analyzovanie dopadov tejto zmeny.


October 2023

Návrh, implementácia, meranie a testovanie postupov pre sentiment analýzu. Písanie východiskovej kapitoly práce. Návrh členenia práce: kapitoly, sekcie, podsekcie...


November 2023

Návrh, implementácia, meranie a testovanie postupov pre extrakciu kľúčových slov. Pokračovanie písania východiskovej kapitoly práce.


December 2023

Vytvorenie druhej prezentácie a odprezentovanie ďalšieho pokroku diplomovej práce.

Zdroje

  • [1] Mark Newman. Networks. Oxford University Press, 2018.
  • [2] Mária Markošová a Peter Náther. Prednáškové prezentácie z predmetu komplexné siete (2-AIN-154). Univerzita Komenského – Fakulta matematiky, fyziky a informatiky, Bratislava.
  • [3] Edita Máčajová. Prednáškový materiál z teórie grafov (2-INF-174). Univerzita Komenského – Fakulta matematiky, fyziky a informatiky, Bratislava, 2021.
  • [4] Kristína Dvorská. Analýza vytvárania sociálnych sietí a ich vlastností (Bakalárska práca). Univerzita Komenského – Fakulta matematiky, fyziky a informatiky, Bratislava, 2021.
  • [5] Marek Ciglan a Michal Laclavík. Detekcia komunít v komplexných sieťach. Ústav informatiky SAV, 2013.
  • [6] NetworkX Developers. NetworkX dokumentácia. 2022. https://networkx.org/documentation/stable
  • [7] Eric Weisstein. Wolfram MathWorld – The web's most extensive mathematics resource. 2023. https://mathworld.wolfram.com
  • [8] Lukáš Jirovský. Teorie grafů ve výuce na střední škole (Diplomová Práce). Univerzita Karlova v Praze – Matematicko-fyzikální fakulta, 2010.
  • [9] Beáta Stehlíková. Prednáškový materiál z predmetu analýza sociálnych sietí (2-EFM-155). Univerzita Komenského – Fakulta matematiky, fyziky a informatiky, Bratislava, 2020.
  • [10] Nichol Castro a Cynthia Siew. Contributions of modern network science to the cognitive sciences: Revisiting research spirals of representation and process. Proceedings of the Royal Society A: Mathematical, Physical and Engineering Sciences, 2020.
  • [11] Wayne Zachary. An Information Flow Model for Conflict and Fission in Small Groups. Journal of Anthropological Research, 1977.
  • [12] Ivan Despot. Memgraph's guide for NetworkX library. 2022. https://networkx.guide
  • [13] Mark Newman. Modularity and community structure in networks. Proceedings of the National Academy of Sciences, 2006.
  • [14] Béla Bollobás. Random Graphs. Academic Press Inc., 1985.
  • [15] Kristína Dvorská. Analýza socialných sietí (Diplomová práca). Univerzita Komenského – Fakulta matematiky, fyziky a informatiky, Bratislava, 2023.
  • [16] Ernesto Estrada. The structure of complex networks: theory and applications. Oxford University Press, 2012.
  • [17] Jeffrey Travers a Stanley Milgram. An Experimental Study of the Small World Problem. Sociometry, 1969.

Implementácia

  • Python programovací jazyk
  • Link na zdrojové súbory TU!