Caratteristiche di TaLTaC 2.5/2.8/2.9

Caratteristiche di TaLTaC 2.9

Rispetto alla release 2.8, oltre alla correzione di alcuni bugs segnalati dagli utenti e al miglioramento dell’interfaccia nell’attivazione di funzioni base, si segnalano le seguenti caratteristiche:

Nuova disposizione di alcuni menu, con eliminazione di quelli inattivi e ristrutturazione delle principali funzioni secondo la logica di uso comunemente acquisito.
Attivato il collegamento ipertestuale fra tabella frammenti e Corpus Navigator (esplora il corpus): un doppio clic su un record della tabella frammenti apre la visualizzazione del corpus direttamente al frammento considerato.
Attivata la funzione di identificazione delle sezioni ex-post, ovvero dopo aver eseguito il parsing del corpus, con possibilità di selezionare alcune parole chiave identificanti l’inizio sezione e di correggere manualmente le sezioni non identificate.
Possibilità di sottoporre qualsiasi indice o lista di forme (non solo il vocabolario) a tagging grammaticale (PoS).
Possibilità di creare più campi “Scarto” nel Vocabolario per il calcolo del linguaggio peculiare, quindi si rende possibile il confronto con più lessici di riferimento.
Ripristinata, nel confronto tabelle, la possibilità di calcolare lo scarto utilizzando un campo Uso.
Confronto fra tabelle: nel caso in cui il confronto sia di tipo intersezione e coinvolga un lessico e la tabella vocabolario, la tabella risultato non verrà creata, ma verrà solamente creato il campo Scarto nel vocabolario (la casella Scrivi scarto nel vocabolario si spunterà automaticamente).
Aggiornamento delle liste di normalizzazione con centinaia di nuove “Named Entities” aggiornate al novembre 2008 e standardizzazione grafica di circa 700 forme con/senza trattino (cd-rom+cd rom+cdrom=<cd rom> come multiword).

Caratteristiche di TaLTaC 2.8

Rispetto alla release 2.5, oltre alla correzione di alcuni bugs segnalati dagli utenti e al miglioramento dell’interfaccia nell’attivazione di funzioni base, si segnalano le seguenti caratteristiche.

L’ampliamento di risorse statistico-linguistiche: il lessico di frequenza di Repubblica (Rep90) è stato quasi raddoppiato (oltre 100.000 entrate), il dizionario positivo-negativo è stato revisionato, sono ora disponibili altri dizionari tematici: figure parentali, crononimi, Nazionalità/Etnie.
Il file di normalizzazione con l’aggiornamento di polirematiche, locuzioni e nomi di personaggi, enti e società è aggiornato al 2008.
L’ampliamento della funzione di calcolo delle co-occorrenze. Le co-occorrenze vengono calcolate nell’ambito di un intorno di n parole che l’analista è libero di impostare. TaLTaC calcola le co-occorrenze esistenti nel corpus tra le forme (o classi semantiche) indicate in una lista predefinita o fra le parole con almeno “x” occorrenze. Inoltre permette di calcolare anche le collocazioni di tali co-occorrenze, ovvero la distribuzione della posizione (precedente/successiva) di ogni parola co-occorrente rispetto al termine pivot. In particolare, i risultati sono costituiti da:
  — la matrice delle co-occorrenze, una matrice quadrata di tipo Forme x Forme contenente le co-occorrenze rilevate tra ciascuna coppia di forme;
  — la lista delle co-occorrenze e delle collocazioni maggiormente significative, dimensionabile a piacere;
  — l’inventario delle poli-cooccorrenze, ovvero delle co-occorrenze che si realizzano, nell’intorno definito, fra tre o più forme.
La scrittura delle specificità anche su un file esterno in formato txt, che facilita la fruibilità dei risultati e ne ottimizza la presentazione nei report di ricerca.
La funzione del calcolo dell’indice TFIDF si è arricchita di un’ulteriore opzione che permette di ottenere risultati migliori in presenza di frammenti di lunghezza eterogenea.
La funzione Ricerca Entità è stata razionalizzata ed ampliata. E’ ora più immediato cogliere l’oggetto, l’ambito e i risultati della ricerca. Tra questi ultimi si segnala la possibilità di creare una nuova variabile contenente, per ogni frammento che soddisfa la richiesta, le n parole precedenti e/o successive all’entità ricercata. Tale funzione risulta utile, ad esempio, quando si vogliono raccogliere risposte fornite a domande presenti nei frammenti. Inoltre tutte le ricerche di entità, e le relative impostazioni, possono essere salvate in piani di lavoro testuali (Meta-query) allo scopo di essere riutilizzate in un secondo momento o su altri corpus. In questa prospettiva, ad esempio, l’intero processo di creazione e popolamento di variabili strutturate, create a partire dai dati testuali non strutturati, può essere replicato su un nuovo corpus con un unico comando, rilanciando una
meta-query.
La lista delle entità fornita dalla funzione Ricerca Entità mostra adesso anche la descrizione del frammento in cui ogni risultato è stato rinvenuto, al fine di migliorare l’interpretazione dei risultati.
Nella finestra Esplora Corpus la lista dei frammenti è ora ordinabile in base alla descrizione del frammento o, in alternativa, all’ordine di apparizione dei frammenti nel corpus (id_frammento), con lo scopo di facilitare la ricerca di ogni singolo frammento. E’ inoltre possibile esportare subito i frammenti estratti a partire da una ricerca di entità, anche in sottoinsiemi attraverso la gestione di filtri sulle variabili categoriali.
La selezione di un sub-corpus è completamente ridisegnata, con la possibilità di estrarre solo alcuni frammenti o alcune sezioni o una loro combinazione, non solo a partire da variabili categoriali ma anche da liste di frammenti, frutto di precedenti ricerche.
La funzione di ricostruzione del corpus è stata ridisegnata ed ampliata. È ora possibile riprodurre il corpus con un numero ed un assortimento di opzioni maggiore rispetto al passato, consentendo anche la modifica del formato del corpus, ad esempio da “collezione di file” in “file strutturato in campi”.
Il miglioramento dell’integrazione con il software TreeTagger. TaLTaC consente di importare file risultanti da un’elaborazione effettuata in una delle 5 lingue previste con il lemmatizzatore gratuito TreeTagger, mantenendo e gestendo le informazioni grammaticali fornite da quest’ultimo. Inoltre è possibile generare corpus parzialmente etichettati con TaLTaC nel formato richiesto da TreeTagger, al fine di migliorare le prestazioni e i risultati di quest’ultimo.

Caratteristiche di TaLTaC 2.5

Rispetto alla release 2.0 sono state implementate le seguenti nuove funzionalità

Guida in italiano contestuale. Premendo il tasto F1 la guida si aprirà direttamente alla pagina che illustra la funzione correntemente attiva.
Calcolo delle co-occorrenze a soglia di frequenza o sulla base di una lista predefinita.
Export della corrispondente matrice parole x parole.
Acquisizione di un testo interamente lemmatizzato con TreeTagger (https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/), grazie ad un’apposita funzione di import.
Una volta operato il parsing di un siffatto corpus non esistono più parole grammaticalmente ambigue.
Pertanto nel vocabolario per identificare univocamente una parola occorre considerare la tripla (forma, categoria grammaticale, lemma).
Possibilità di trattare testi lemmatizzati con TreeTagger in una delle seguenti 5 lingue: italiano, inglese, francese, spagnolo, tedesco ciascuna con relativi tagset di Part of Speach (PoS – categoria grammaticale) dell’idioma.
Potenziato il tagging semantico con possibilità di sviluppare risorse personalizzate (dizionari tematici) sia a partire da liste esterne sia da tabelle presenti nei DB di Taltac.
Tali tabelle possono contenere più modalità nel campo dell’etichetta.
In entrambi i casi, le fonti possono contenere non soltanto forme semplici ma anche poliformi da lessicalizzare.
Funzione di compilazione di metaliste, ossia di dizionari costituiti da fonti eterogenee: liste, tabelle, query predefinite, classi di unità lessicali già costituite (categorie grammaticali, semantiche o lemmi), entità aggiunte manualmente.
Tagging semantico da metaliste. Con questa funzione è possibile eseguire, con un unico comando, una categorizzazione semantica a partire da più fonti di diverso tipo (liste, tabelle, query predefinite, altre categorie).
Funzione di compilazione delle query predefinite.
Interfaccia disponibile in inglese per consentire l’uso internazionale di Taltac.
Le classi CATGR e CATAC possono essere utilizzate nella Ricerca Entità. Grazie a questi operandi è possibile individuare nel testo le occorrenze di tutte le parole appartenenti a una determinata categoria grammaticale.