|
Emanuela Cresti
Descrizione
Il progetto europeo C-ORAL-ROM è stato finanziato nel 2000 dall'EU nel V Programma Quadro (IST 2000 26228) e si è concluso nel 2004. Il progetto ha realizzato una raccolta di corpora di parlato spontaneo delle quattro principali lingue romanze (italiano, francese, portoghese, spagnolo) della consistenza di circa 123 ore pari a 772 testi di parlato e 1.200.000 occorrenze lessicali (300.000 occorrenze lessicali per ciascuna lingua). Alla realizzazione ha partecipato un consorzio europeo, coordinato dal Laboratorio Linguistico del Dipartimento di Italianistica (LABLITA) dell'Università di Firenze, diretto da Emanuela Cresti e Massimo Moneglia. Del consorzio hanno fatto parte, per la costituzione della risorsa linguistica: - il Centro de Linguística da Universidade de Lisboa (CLUL), diretto da Fernanda Bacelar do Nascimento; - il Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (LLI-UAM), diretto da Antonio Moreno Sandoval; - il gruppo di DÉscription Linguistique Informatisée sur Corpus (DELIC) dell'Università di Provenza, diretto da Jean Véronis. Hanno partecipato, inoltre, al progetto: - Pitch Instruments France (PIF) di Philippe Martin, che ha fornito lo Speech software per l'allineamento testo-audio e l'analisi acustica; - Evaluations and Language resources Distribution Agency (ELDA), che si occupa della distribuzione della risorsa; - Instituto Cervantes (IC), che si è occupato della disseminazione; - Istituto Trentino di Cultura (ITC-Irst), che ha validato i risultati, sviluppando tecnologie multilingui; - LOQUENDO, responsabile della validazione del tagging prosodico.
Il corpus C-ORAL-ROM è stato realizzato avendo presenti le necessità delle tecnologie del linguaggio e della ricerca linguistica corpus based. In particolare esso contribuisce: a) a rappresentare la varietà di atti linguistici realizzati nel parlato; b) all'induzione di modelli linguistici propri del parlato, specificamente a livello sintattico e prosodico. Ciascun sottocorpus è stato realizzato secondo criteri sociolinguistici e statistici di corpus design rivolti ad assicurare insieme rappresentazione della variazione del parlato spontaneo e comparabilità con gli altri sottocorpora romanzi. La sorgente acustica è associata ad una serie di files, che ne formano la struttura multimediale: - trascrizione ortografica in formato CHAT, implementato rispetto all'annotazione prosodica che segnala confini prosodici terminali e non terminali, in file .txt - metadati di ogni sessione in formato CHAT e formato IMDI; - sincronizzazione di ogni enunciato trascritto alla sorgente acustica, con il software WinPitch Corpus (di Philippe Martin), in file .xml.
Il grado di affidabilità del tagging prosodico realizzato nel corpus C-ORAL-ROM è stato validato sotto la direzione di LOQUENDO e i risultati della valutazione sono stati pubblicati . Il corpus è pubblicato in un'edizione multimediale criptata su DVD (testo sincronizzato alla sorgente sonora) pubblicata insieme ad un volume (E. Cresti - M. Moneglia (2005), C-ORAL-ROM. Integrated reference corpora for spoken romance languages. Amsterdam & Philadelphia: J. Benjamins). L'edizione è corredata di programmi per l'estrazione di concordanze (Contextes, di J. Veronis) e per l'analisi acustica (WinPitch Corpus, di Ph. Martin) e contiene i risultati di studi linguistici comparativi (dati relativi a strutture verbless, tipologia strutturale degli enunciati, indici di subordinazione e coordinazione) e misure del parlato nelle quattro risorse romanze (lunghezze medie relative all'unità tonale, all'enunciato, al turno). Una versione in 9 DVD, destinata alla ricerca avanzata e allo sfruttamento industriale è distribuita da ELDA. In questa forma il corpus è distribuito con dati non compressi e non criptati, e consente dunque computazione e accesso con qualsiasi strumento.
Pubblicazioni relative al progetto sono accessibili all'indirizzo: http://lablita.dit.unifi.it/coralrom/papers/index.html
Pagina web del progetto: http://lablita.dit.unifi.it/coralrom
|