|
Miriam Voghera
Annamaria Landolfi
Carmela Sammarco
Il Corpus AN.ANA.S._MT nasce dalla volontà di estendere gli standard di etichettatura AN.ANA.S. a lingue diverse dall’italiano per costruire e disporre di un sistema applicabile almeno alle lingue dell’Europa Occidentale e, in prospettiva, creare una Treebank multilingue.
Allo stato attuale, il corpus è costituito da testi di italiano, inglese e spagnolo parlato annotati sintatticamente, per un totale di circa 21300 parole.
Si tratta sia di conversazioni spontanee (faccia a faccia o radiotelevisive) che di dialoghi elicitati (map task, test delle differenze).
I testi sono stati etichettati servendosi della dtd AN.ANA.S. 4, di cui si fornisce la descrizione nel Manuale utente, scaricabile nella sezione Strumenti.
In questa sezione è possibile scaricare l’etichettatura sintattica in formato xml, apribile con il software XGate, di un campione di ogni tipo testuale e di ogni lingua.
In particolare:
• il testo di italiano spontaneo è tratto da una trasmissione radiofonica e fa parte della sezione “radiotelevisivo-nazionale” del Corpus CLIPS (RDdc_02Z);
• il testo di italiano elicitato è un test delle differenze e fa parte della sezione “dialogico-Napoli” del Corpus CLIPS (DGtdA01N);
• Il testo di inglese spontaneo è una conversazione privata ed è tratto dal corpus ICE (International Corpus of English) (S1A-012);
• Il testo di inglese elicitato è un test delle differenze e fa parte del corpus PraTiD (DGtdB01ENG);
• il testo di spagnolo spontaneo è tratto da una trasmissione radiofonica della varietà castigliana di Madrid;
• il testo di spagnolo elicitato è un test delle differenze e fa parte del corpus PraTiD (DGtdA01ES).
Dei testi parlati si fornisce:
• la trascrizione ortografica in formato txt, secondo gli standard CLIPS di cui riportiamo le norme di trascrizione, nella quale sono presenti anche tutte le informazioni relative alle condizioni di registrazione;
• l’etichettatura sintattica in formato xml, apribile con il software XGate;
• i files audio in formato wav.
|