Quaderni di Parlaritaliano

LOGIN

Tags Cloud

Corpus AN.ANA.S. Multilingue (AN.ANA.S._MT) PDF Stampa E-mail

 

Miriam Voghera

Annamaria Landolfi

Carmela Sammarco

Il Corpus AN.ANA.S._MT nasce dalla volontà di estendere gli standard di etichettatura AN.ANA.S. a lingue diverse dall’italiano per costruire e disporre di un sistema applicabile almeno alle lingue dell’Europa Occidentale e, in prospettiva, creare una Treebank multilingue.

Allo stato attuale, il corpus è costituito da testi di italiano, inglese e spagnolo parlato annotati sintatticamente, per un totale di circa 21300 parole.

Si tratta sia di conversazioni spontanee (faccia a faccia o radiotelevisive) che di dialoghi elicitati (map task, test delle differenze).

I testi sono stati etichettati servendosi della dtd AN.ANA.S. 4, di cui si fornisce la descrizione nel Manuale utente, scaricabile nella sezione Strumenti.

In questa sezione è possibile scaricare l’etichettatura sintattica in formato xml, apribile con il software XGate, di un campione di ogni tipo testuale e di ogni lingua.

In particolare:

• il testo di italiano spontaneo è tratto da una trasmissione radiofonica e fa parte della sezione “radiotelevisivo-nazionale” del Corpus CLIPS (RDdc_02Z);

• il testo di italiano elicitato è un test delle differenze e fa parte della sezione “dialogico-Napoli” del Corpus CLIPS (DGtdA01N);

• Il testo di inglese spontaneo è una conversazione privata ed è tratto dal corpus ICE (International Corpus of English) (S1A-012);

• Il testo di inglese elicitato è un test delle differenze e fa parte del corpus PraTiD (DGtdB01ENG);

• il testo di spagnolo spontaneo è tratto da una trasmissione radiofonica della varietà castigliana di Madrid;

• il testo di spagnolo elicitato è un test delle differenze e fa parte del corpus PraTiD (DGtdA01ES).

Dei testi parlati si fornisce:

• la trascrizione ortografica in formato txt, secondo gli standard CLIPS di cui riportiamo le norme di trascrizione, nella quale sono presenti anche tutte le informazioni relative alle condizioni di registrazione;

• l’etichettatura sintattica in formato xml, apribile con il software XGate;

• i files audio in formato wav.

 
 

Ricerca