Menu Close

Presentazione di TaLTaC

TaLTaC sta per Trattamento automatico Lessicale e Testuale per l’analisi del Contenuto.

[Copyright, 2000 – Sergio Bolasco, Francesco Baiocchi, Adolfo Morrone]

TaLTaC:

è un software ideato nel 1999 per l’analisi automatica del testo nella duplice logica di Text Analysis e di Text Mining (Bolasco, Morrone & Baiocchi, 1999) . Tale analisi consente di dare delle rappresentazioni del fenomeno studiato su base quantitativa sia a livello di unità di testo (parole) sia a livello di unità di contesto (documenti/frammenti), quindi come linguaggio utilizzato e come contenuti trattati nel testo. Per l’approccio seguito questo è possibile senza leggere materialmente la collezione di testi e quindi indipendentemente dalla dimensione del corpus, che può essere vastissima (milioni di parole).

ha origine dai risultati di ricerche svolte presso le Università degli Studi di Salerno e di Roma “La Sapienza” nel corso degli anni Novanta, coordinate da Sergio Bolasco, ordinario di Statistica presso il Dipartimento MEMOTEF della SAPIENZA ed è frutto della collaborazione di ricercatori e colleghi di varie università italiane e francesi. (Credits)

utilizza risorse sia di tipo statistico, sia di tipo linguistico, altamente integrate fra loro e personalizzabili dall’utente, e consente a due livelli, lessicale e testuale, da un lato l’analisi del testo (text analysis), dall’altro il recupero e l’estrazione d’informazione, secondo i principi del data mining e del text mining.

Con la versione 2.0 del programma, rilasciata nel novembre 2005, l’acronimo si è arricchito di una seconda C – TaLTaC2 – che intende sottolineare un’ulteriore finalità di ricerca: l’analisi del Corpus in quanto tale, ovvero lo studio di alcune sue caratteristiche, a prescindere dal contenuto. Il trattamento automatico, secondo un approccio lessicometrico, permette infatti di scoprire alcune costanti di un testo, una sorta di dna del corpus. 


A dicembre 2019, TaLTaC2 è presente in Italia in 120 dipartimenti universitari, in 48 centri di ricerca e istituzioni di interesse nazionale, nonché in alcune università straniere, per un totale di oltre 1200 licenze rilasciate. 
Dal 2000 al 2019 sono state svolte svariate attività di formazione sul software TaLTaC, con un totale complessivo di oltre 800 partecipanti; In particolare, 33 corsi di tutorial (corsi base e avanzati), 4 edizioni di una Scuola internazionale sui “Metodi di analisi dei dati testuali e text mining” e 4 corsi in due Master universitari di secondo livello rispettivamente in Data Science (Roma, Tor Vergata) e in Big Data (Roma, SAPIENZA).

TaLTaC2 è composto da un insieme di funzionalità e strumenti che consentono lo studio di qualsiasi tipo di dati di natura linguistica, raccolti in forma di collezione di testi come un unico Corpus, utilizzando le tecniche della “statistica testuale” (*). Questo approccio consente di studiare informazioni non strutturate presenti in una base documentale di ampie dimensioni (centinaia o migliaia di pagine, o file anche di 130MB), unitamente a informazioni strutturate (variabili quantitative o qualitative) contenute in un database ad essa associato. 

TaLTaC2 è predisposto sia nell’input che nell’output per l’utilizzo di altri software di text analysis e text mining, in particolare quelli tipici dell’approccio lessicometrico, quali Alceste, Hyperbase, Lexico, Spad, Sphinx, T-Lab, Tropes (vedi Link).

In generale, l’analisi svolta in TaLTaC2 permette di selezionare ed estrarre l’informazione più significativa dal corpus di testi analizzato (linguaggio peculiare, linguaggio rilevante, linguaggio specifico) e di operare secondo i principi del text mining mediante ricerche per parole chiave o per concetti.

I risultati ottenuti in TaLTaC possono interagire direttamente con altri software linguistici (Tree Tagger, Nooj-Intex) e statistici (IRaMuTeQ, Spad, Spss, Sas). 

La conoscenza del programma è facilitata dalla consultazione di una Guida on-line, di tipo ipertestuale, con consultazione in context (l’help si posiziona sull’argomento che si sta utilizzando). 

All’uscita di una nuova release vengono organizzati corsi di formazione per un uso completo del programma. Per segnalare il proprio interesse scrivere a corso@taltac.it e si è inseriti nella call del primo corso disponibile.

TaLTaC2 accetta in input

  • Un Corpus di testi che può provenire da un unico file, da una collezione di testi (anche migliaia di files) o da un file strutturato in campi. In quest’ultimo caso, la base documentale è inserita in una tabella di un database (ad es. un foglio excel), ove coesistono informazioni codificate (quali/quantitative) e testuali. 
    Ciascun documento del corpus può essere diviso in sezioni, sulle quali operare separatamente analisi di recupero ed estrazione dell’informazione. A ciascun documento si possono associare numerose informazioni strutturate, da mettere in relazione con le informazioni testuali.
  • Un testo categorizzato grammaticalmente con il software linguistico TreeTagger; il testo può essere scritto in italiano o inglese, francese, spagnolo e tedesco. Questo permette di trattare con TaLTaC testi in varie lingue.
  • Una o più liste di parole e/o inventari di sequenze (segmenti) provenienti da altri programmi di analisi testuale, in formato di files “txt” con tabulatore.
  • Una o più tabelle contenenti risorse statistico-linguistiche da utilizzare nelle sessioni di lavoro con TaLTaC. Tali risorse possono consistere in lessici di frequenza, in dizionari tematici o di lingua, in basi di conoscenza di vario tipo, nonché in metaliste in grado di catturare nel testo un “concetto” frutto dell’applicazione di sistemi ibridi di ricerca (dizionari + regole).

TaLTaC2 produce in output

  • Vari tipi di matrici:
     frammenti per forme (documenti x parole), nella quale possono essere associate anche le variabili strutturate disponibili a priori, e le variabili ricavate a posteriori dall’analisi testuale o dal text mining effettuati in TaLTaC;
    — forme per testi (parole x parti), contenente i profili di frequenza lessicali secondo le partizioni delle variabili strutturate prescelte, nonché le annotazioni relative alle varie unità selezionate (linguaggio peculiare, rilevante o specifico), oltre alle annotazioni grammaticali e semantiche;
    — co-occorrenze (parole x parole), contenente il numero di volte in cui due parole si associano, all’interno di un intervallo predefinito di testo;
  • Il corpus normalizzato e/o eventualmente etichettato, da sottoporre ad altre analisi con software diverso;
  • file (in formato “txt”) contenenti liste selezionate o dizionari di parole o espressioni.

A fine 2019 è rilasciata una prima nuova versione del software di tipo multi-piattaforma (Win, Linux, Mac) e multi-core, in uso sia locale sia remoto, finalizzata alla elaborazione dei Big-Data: TaLTaC4.0 . Si tratta di una release completamente diversa, frutto di una totale re-ingegnerizzazione del software, con adattamento del codice in linguaggio Python 3.7 che ha portato a migliori prestazioni paragonabili all’uso del PyPy con sintassi Python 2.7, ormai obsoleta.
Questa release è il risultato della collaborazione con il gruppo di ricerca del Prof. Giovanni De Gasperis, del Dipartimento di Ingegneria e Scienze dell’Informazione e Matematica dell’Università degli Studi dell’Aquila, e con la Prof.ssa Maria Francesca Romano della Scuola Superiore Sant’Anna di Pisa.

La versione T4.0_Beta, a fronte di ottime velocità di calcolo anche nella elaborazione mono-core, per il momento ha minori funzionalità della versione T2 del maggio 2019; ma analizzando  “very large corpora” -superiori a 150MB- è possibile esportare i risultati di: i) parsing su 3 layers, ii) tagging grammaticale, iii) sub-occorrenze, iv) confronto lessici, ed effettuare altre operazioni di analisi di tipo lessicale, nonché le concordanze. Tali risultati possono essere importati in T2.11 per ulteriori trattamenti. La versione T4.0_Beta possiede le stesse risorse disponibili in T2 e processa grammaticalmente testi sia in italiano che in inglese.

(*) Riferimenti bibliografici essenziali:

Bolasco S. (1997). L’analisi informatica dei testi, in L. Ricolfi (a cura di), La ricerca qualitativa, Nuova Italia Scientifica, Roma.
Bolasco S. (1999). L’analisi multidimensionale dei dati, Carocci Ed., Roma (cf. Cap. 7: Analisi dei dati testuali, pp. 179-248).
Bolasco S., Morrone A., Baiocchi F. (1999). A Paradigmatic Path for Statistical Content Analysis Using an Integrated Package of Textual Data Treatment, in M. Vichi, O. Opitz (eds.), Classification and Data Analysis. Theory and Application, Springer-Verlag, Heidelberg, pp. 237-246.
Bolasco S. (2002). Integrazione statistico-linguistica nell’analisi del contenuto, in B. Mazzara (a cura di), Metodi qualitativi in Psicologia Sociale. Prospettive teoriche e strumenti operativi, Carocci Ed., Roma, pp. 329-342.
Bolasco S. (2005). Statistica testuale e text mining: alcuni paradigmi applicativi, Quaderni di Statistica, Liguori Ed., 7, pp. 17-53.
Bolasco S. (2013). L’analisi automatica dei testi. Fare ricerca con il text mining, Carocci Ed., Roma, p. 410, (prefazione di Tullio De Mauro).
Cipriani R., Bolasco S. (a cura di), (1995). Ricerca qualitativa e computer, Franco Angeli, Milano.
Lebart L., Salem A. (1994). Statistique textuelle, Dunod, Paris.
Lebart L., Salem A., Berry J. (1998). Exploring textual data, Kluwer Academic Publisher, Dordrecht.


Per altri riferimenti vai a Materiali