Analisi dei social media con i Word Embedding: uno studio sulle echo chamber e le filter bubble

Sanna, Leonardo

Echo chambers have often been analyzed in social media studies as dysfunctions of communication fostering the polarization of debates and the spreading of conspiracy theories in the so-called “fake news debacle” (Del Vicario et al. 2016, Zollo et al 2017). On the other hand, from a linguistic perspective, very little research has been conducted on these themes. The same applies also for the filter bubble theory (Pariser 2011). This metaphor, used to describe algorithmic personalization, represents a phenomenon that is indeed difficult to study as it entails the analysis of user experience. The aim of this thesis is to illustrate a methodological approach for a linguistic enquiry of these two phenomena, using a combination of word embedding (Mikolov et al. 2013) and corpus-based discourse analysis (e.g. Baker et al 2013, Hunston 2007). In particular, for the echo chambers the aim of this methodology is to overcome the traditional computational social sciences approaches that analyse user interaction on social media. Instead, the idea is to investigate the linguistic dimension of echo chambers, exploring them as ideological structures (Eco 1968) that are observable when ideological conflict occurs (Rogers 2018). We experimented this approach by investigating the mediatic discourse on COVID-19 in the Coronavirus Corpus and in the Public Coronavirus Twitter Data Set (Bondi and Sanna 2021, in press). The analysis focused on the semantic and pragmatic status of the word hoax, which emerged as a keyword in the comparison between the two datasets. Our study showed that echo chambers can be studied as they emerge from linguistic markers of ideological conflict, such as hoax, instead of focusing on online behavior. We adopted the same methodology for the filter bubble analysis (Sanna, Compagno 2020). In this case, the analysis has been conducted on two different datasets, one collected on Facebook (Hargreaves et al. 2018) and the other on YouTube. The corpora used within these two experiments were meant to investigate the effects of algorithmic personalization on political information diet. In a nutshell, in both experiments we simulated a political preference with an online behavior, collecting evidence of what was then selected by the algorithms. The experiments highlighted that algorithmic personalization has a noticeable impact on the political debate (Cinelli et al. 2021); on the one hand, our experiments confirmed that political content is treated unevenly by social media algorithms, showing users mostly content that supports their political views. On the other hand, we gained for the first time evidence that this personalization has a remarkable effect on the linguistic dimension, affecting in particular the semantic framing and the inferential paths proposed to each user group, as well as the selection of the most relevant topics.

Le echo chambers, negli studi sui social media, sono state spesso considerate e analizzate come disfunzioni della comunicazione, ovvero processi che favoriscono la polarizzazione del dibattito e la diffusione di teorie del complotto (Del Vicario et al. 2016, Zollo et al 2017). Da una prospettiva prettamente linguistica, al momento poche ricerche sono state fatte in merito, e lo stesso vale per la teoria della filter bubble (Pariser 2011). Questa metafora, utilizzata per descrivere la personalizzazione algoritmica, rappresenta un fenomeno effettivamente difficile da studiare in quanto comporta l'analisi dell’esperienza individuale di ciascun utente. Lo scopo di questa tesi è quello di illustrare un approccio metodologico per un'indagine linguistica di questi due fenomeni, utilizzando una combinazione di word embedding (Mikolov et al. 2013) e corpus-based discourse analysis (es. Baker et al 2013, Hunston 2007). In particolare, per le echo chambers l'obiettivo di questa metodologia è quello di superare i tradizionali approcci delle scienze sociali computazionali che analizzano l'interazione degli utenti sui social media. L'idea è invece quella di indagare la dimensione linguistica delle echo chambers, esplorandole come strutture ideologiche (Eco 1968) osservabili quando si verifica un conflitto ideologico (Rogers 2018). Questo approccio è stato sperimentato indagando il discorso mediatico sul COVID-19 utilizzando due corpora: un corpus di news riguardo la pandemia (Corpus Coronavirus) e il Public Coronavirus Twitter Data Set. L'analisi si è concentrata sullo status semantico e pragmatico della parola “hoax” ( bufala), che è emersa come parola chiave nel confronto tra i due dataset. Il nostro studio ha dimostrato che le echo chambers possono essere studiate facendole emergere dai marcatori linguistici del conflitto ideologico, come hoax, invece di concentrarsi sul comportamento online. Abbiamo adottato la stessa metodologia per l'analisi delle filter bubble (Sanna, Compagno 2020). In questo caso, l'analisi è stata condotta su due diversi dataset, uno raccolto su Facebook (Hargreaves et al. 2018) e l'altro su YouTube. I corpora utilizzati all'interno di questi due esperimenti avevano lo scopo di indagare gli effetti della personalizzazione algoritmica, osservando l’impatto della filter bubble sulla dieta informazionale. In entrambi gli esperimenti è stata simulata una preferenza politica con un comportamento online, raccogliendo dati su cosa venisse effettivamente selezionato e mostrato agli utenti. Gli esperimenti hanno evidenziato che la personalizzazione algoritmica ha un impatto notevole sul dibattito politico e potrebbe favorire la creazione di echo chambers (Cinelli et al. 2021); da un lato, i nostri esperimenti hanno confermato che i contenuti politici sono trattati in modo non uniforme dagli algoritmi dei social media, mostrando agli utenti soprattutto contenuti che supportano le loro opinioni politiche. Inoltre, abbiamo ottenuto per la prima volta l'evidenza che questa personalizzazione ha un effetto notevole sulla dimensione linguistica, influenzando in particolare il framing semantico e i percorsi inferenziali proposti a ciascun gruppo di utenti, così come la selezione degli argomenti più rilevanti.

Analisi dei social media con i Word Embedding: uno studio sulle echo chamber e le filter bubble / Leonardo Sanna , 2022 Nov 18. 34. ciclo, Anno Accademico 2020/2021.