Header Ads

COME SI FA L'ANALISI STATISTICA DI UN TESTO?

Dai dati si può costruire conoscenza. Questo lo sanno tutti. Ma oggi abbiamo una tecnologia con cui trattare i dati che è veramente straordinaria, anche se confrontata con un solo decennio fa. Così tutti vogliono diventare data scientist, poiché molte aziende richiedono proprio questa figura professionale. Tuttavia, se tornassimo a parlare e a scrivere in italiano, scopriremmo che un data scientist non è nient'altro che uno statistico. E la Statistica è esattamente la disciplina che fornisce i principali metodi di trattamento dei dati. E ciò vale anche per i dati testuali.

Quando pensiamo a dei testi, ad esempio a dei romanzi, ci verrebbe da dire che solo gli studiosi di scienze umane e sociali sono capaci di comprenderli a fondo. E questo è decisamente vero. Tuttavia, da pochi decenni, esiste una disciplina scientifica, denominata "Analisi statistica dei dati testuali", che utilizza le potenzialità di software specifici con metodi statistici (in parte anche elaborati ad hoc) per dare una mano ai ricercatori. "L'analisi statistica dei dati testuali muove dall'idea che il ricercatore o la ricercatrice non abbia letto o non abbia potuto leggere integralmente l'insieme dei testi che sono oggetto di studio" scrive Arjuna Tuzzi, professoressa ordinaria di Statistica sociale all'Università degli studi di Padova, nel libro: "Fondamenti di analisi dei dati testuali", pubblicato da Carocci nel 2024.

E' importante mettere in chiaro che cosa significhi effettuare un'analisi quantitativa su un testo. E la professoressa Tuzzi lo scrive chiaramente: "leggere da lontano (distant reading) lo stesso testo con la mediazione di un'analisi quantitativa è come esplorare un terreno sorvolandolo con un drone". Naturalmente la quantità di testo talvolta è troppo estesa per essere letta in modo tradizionale, e allora ben venga l'analisi dei dati testuali, che rientra comunque nella strategia di "ascoltare i dati per poter produrre conoscenza".

Arjuna Tuzzi struttura la propria opera per gradi: prima spiega come costruire il corpus, poi come identificare e contare (non solo le parole), procede poi con la classificazione e la misurazione. Si tratta quindi di un manuale, in cui non mancano gli esempi svolti, e che si legge meglio se si ha già una preparazione statistica di base. Ma in fin dei conti, come spesso accade, basta essere curiosi e motivati.

Fondamenti di analisi dei dati testuali

scritto da Arjuna Tuzzi

e pubblicato da Carocci editore


Walter Caputo

Divulgatore specializzato in Scienze Statistiche