Funzionalità di TaLTaC
Il programma offre un insieme di funzioni di base che si prestano ad una ricerca qualitativa, o meglio ad una analisi di materiali tipicamente qualitativi con strumenti di natura quantitativa, propri della linguistica, dell’informatica e della statistica testuale.
Queste funzioni nel loro insieme costituiscono una “cassetta degli attrezzi” per svolgere le operazioni fondamentali di trattamento del linguaggio naturale e di ricerca ed estrazione d’informazioni dal testo, nonché per fare annotazioni sul vocabolario del corpus e categorizzazione automatica dei documenti, a partire da query semplici o complesse, predefinite o personalizzate.
Il programma è di tipo interattivo con classici menu di tipo windows.
TaLTaC permette all’analista di seguire una propria strategia di analisi e trascrive in un giornale di bordo la sequenza delle operazioni svolte, favorendo così la riproducibilità della prova.
Text Analysis
Le principali funzioni di TaLTaC2 finalizzate all’analisi di contenuto sono:
- normalizzare il testo, mediante standardizzazione delle grafie di parole e numeri, riconoscimento di nomi, toponimi, sigle, nonché principali locuzioni ed espressioni polirematiche;
- analizzare il vocabolario del corpus, calcolando: gamma delle frequenze, frequenze normalizzate, rango, indici di ricchezza lessicale, livello di soglia di frequenza per l’analisi delle corrispondenze;
- estrarre i poliformi più significativi (sequenze di significato compiuto) mediante individuazione dei segmenti ripetuti, calcolo dell’indice d’assorbimento e confronto con un lessico di poliformi, individuare le sequenze semanticamente rilevanti da riconoscere come “parole” (lessicalizzazione);
- condurre l’analisi lessicale del vocabolario, mediante riconoscimento automatico delle categorie grammaticali delle forme non ambigue; integrare in maniera semiautomatica la categorizzazione grammaticale, per le forme significative per l’analisi, previa analisi delle concordanze;
- categorizzare secondo classi semantiche predefinite le forme del vocabolario;
- effettuare la fusione automatica dei termini categorizzati – per lemmi o classi di categorie – con relativo ricalcolo delle frequenze, ottenendo liste di termini (es. insieme dei verbi o degli aggettivi) da confrontare con un altro lessico;
- estrarre le parole chiave del testo mediante il calcolo del sovra/sotto-utilizzo di un termine rispetto a un lessico di frequenza, assunto come riferimento (modello di linguaggio);
- calcolare la connessione lessicale fra due vocabolari di testi diversi di uno stesso Autore o relativi a due corpus confrontabili fra loro;
- effettuare calcoli di rango, dispersione e uso su tabelle lessicali di frequenza;
- esportare il vocabolario con tutte le annotazioni prodotte dall’analisi lessicale e con le sub-occorrenze secondo una o più variabili di partizione del corpus;
- ricostruire il testo, con la categorizzazione grammaticale o semantica al fine di sottoporlo a successive analisi di contenuto con altri software di tipo lessicometrico (Alceste, Lexico, IRaMuTeQ…).
Text Mining
Qui
di seguito si elencano le principali funzioni di TaLTaC2 finalizzate
–> al recupero ed estrazione di informazione
–> al popolamento di database strutturati a partire
da testi non strutturati
–> alla categorizzazione automatica di documenti
- navigazione del corpus mediante browser di visualizzazione dei documenti, a livello di intero record o di singole sezioni del testo, delle variabili a priori e a posteriori associate a ciascun documento
- analisi delle concordanze di forme, lemmi o lessemi e di segmenti (sequenze); concordanze di gruppo secondo categorie grammaticali o semantiche; estrazione dell’insieme dei co-testi di una parola o di una categoria
- strumenti di text mining sul vocabolario per la selezione di insiemi di forme; query semplici e complesse, configurazione di piani di lavoro, ossia sequenze di query ripetibili su altre sessioni di lavoro sullo stesso corpus o altri aventi la struttura analoga
- creazione di query predefinite per ricerche di tipo lessicale (classi di parole o terminologia)
- popolamento di campi in un database strutturato grazie alla funzionalità di tipo testuale di “Ricerca Entità”:
- –> operazioni di text mining di tipo testuale per localizzare “entità di interesse” nel testo: semplici occorrenze di parole o segmenti, classi di forme o lemmi, precategorizzate da punto di vista grammaticale o semantico, quasi-segmenti (sequenze di parole con ritardo massimo di un numero predefinito di elementi)
- –> studio di relazioni fra entità predefinite con generazione automatica di dizionari di espressioni e popolamento di campi in un database strutturato
- –> creazione di variabili testuali con modalità sconosciute a priori, ma definite da una regola
- costruzione di dizionari da fonti diverse, sia interne, sia esterne a TaLTaC2
- utilizzo di procedure ibride – dizionari + regole – per la categorizzazione automatica di documenti