Nuove caratteristiche di TaLTaC 2.10 / 2.11.2 (giugno 2019)
Rispetto alla release 2.9, oltre alla correzione di alcuni bugs segnalati dagli utenti, si segnalano le seguenti nuove funzionalità:
- Rinnovata la finestra della funzione di importazione di liste esterne, che adesso semplifica la definizione del tipo e del ruolo dei campi da importare. Sono stati inoltre aggiunti alcuni ruoli (forma grafica e lemma) e la possibilità di importare liste aventi sub-occorrenze relative a più partizioni.
- Esteso il calcolo dell’Analisi delle Specificità anche a tabelle diverse dal Vocabolario (selezioni o fusioni del Vocabolario, liste importate).
- Esiste la possibilità di esportare la tabella Frammenti x Forme in forma trasposta (Forme x Frammenti), allo scopo di ottenere tabelle con minor numero di colonne che possano essere aperte agevolmente in software che soffrono di un limite nel numero dei campi accettati. La stessa opzione è stata attivata anche per l’esportazione della matrice TFIDF.
- È stata aggiunta una nuova opzione di normalizzazione riguardante il riconoscimento dei verbi idiomatici. A partire da una risorsa linguistica comprendente oltre 5.000 forme canoniche di locuzioni verbali che possiedono un significato idiomatico (ovvero non letterale come, <tagliare la testa al toro>, <fare orecchie da mercante>, <abbassare la guardia>, <mettersi il cuore in pace>, <mettere bocca> ecc.), questo nuovo algoritmo permette di lessicalizzare e categorizzare tutte le flessioni di tali entità, compresa la possibilità di riconoscere forme pro-clitiche (<si metta il cuore in pace>) e/o con inserti (<mettersi per sempre il cuore in pace>). La procedura, data la sua complessità, richiede un tempo di elaborazione significativo, in funzione dell’ampiezza del corpus da analizzare e della potenza del processore utilizzato.
- Introduzione di un nuovo lessico di riferimento, il Lessico economico finanziario. È una risorsa di oltre 15.000 multiwords a carattere economico finanziario attestate in frequenza, con inoltre sub-frequenze e uso calcolati sia dal punto di vista delle fonti di provenienza dei testi (stampa specializzata stampa non specializzata, libri di testo, documenti, bilanci ecc.), sia dal punto di vista dei temi trattati (borsa, marketing, economia politica, economia aziendale ecc.).
- Nuovi dizionari di categorizzazione semantica:
– un dizionario enogastronomico che contiene 8.894 tra nomi di vini, portate, ingredienti, piatti e utensili/accessori legati alla gastronomia.
– un dizionario dei luoghi delle attività quotidiane che comprende oltre 5.000 locuzioni di luogo rilevate tra le descrizioni delle attività svolte durante la giornata (ad esempio: <a ballare>, <a caccia>, <in auto di mamma>, <in balcone>, <nel pianerottolo>, <verso la scuola> ecc.).
- Dal 2018 è disponibile una seconda risorsa linguistica: il dizionario di lingua inglese per il tagging grammaticale di corpus in inglese; la risorsa contiene 226.854 forme flesse per un totale di 183.017 lemmi. La corrispondente analoga risorsa per la lingua italiana, aggiornata nel 2019, contiene 543.207 forme flesse per un totale di 78.174 lemmi.
Nel 2019 è stata aggiornata nuovamente la risorsa “CUCS” di normalizzazione (liste di Named Entities : nomi, toponimi, personaggi ecc.) ed è stata operata una sua pulizia per un migliore riconoscimento delle parole del corpus ai termini da normalizzare.