Corpus AVIP-API PDF Stampa E-mail

 

Renata Savy
Claudia Crocco
Francesco Cutugno


Il corpus qui pubblicato è copia del DVD “API – Archivio del Parlato Italiano” distribuito dal CIRASS (ora esaurito).
API è un progetto PRIN 99 coordinato da Federico Albano Leoni.

La risorsa contiene:

1) L’insieme del materiale fonico raccolto in formato .wav:

a) dialoghi raccolti a Napoli (A01,B03, C02, C04, D01, D02), a Pisa (A03, B03, C03, D01, D02), a Bari (B02, C01, C02, D01, D02), di un dialogo raccolto a Brindisi sulla mappa D (solo audio); di un dialogo raccolto a Firenze sulla mappa B;
b) liste di parole (toponimi delle mappe) lette dagli stessi partecipanti ai dialoghi (solo audio);
c) parlato infantile raccolto a Napoli nei dialoghi P01, P02, P03, P04 (bambini normoudenti) e S01, S02, S03 (bambini sordi);
d) frasi lette raccolte a Pisa, finalizzate all’approfondimento di fenomeni specifici di natura postlessicale, come la gorgia.

2) La trascrizione ortografica dei materiali (in formato txt).

3) Di alcuni dialoghi e delle frasi lette è disponibile l’annotazione direttamente allineata al segnale tramite apposito software sviluppato dall'unità del Politecnico di Bari, che comprende l’etichettatura lessicale (wrd), l’etichettatura fonologica (standard – phm – e della varietà in questione- phb) , l’etichettatura fonetica (phn) e, limitatamente ad alcune porzioni, l’etichettatura prosodica in due versioni, una foneticamente orientata (ton) l’altra di tipo auto-segmentale (aut) fonologica;

4) Parte di questo materiale è stato analizzato anche dal punto di vista pragmatico e morfosintattico dalle unità delle Università del Piemonte Orientale e di Venezia. In particolare, sono disponibili:

a) i testi contenenti la cosiddetta ‘tokenizzazione’ in formato xml di una parte cospicua dei dialoghi del corpus, prodotti dall’unità di Venezia ed utilizzati come base di partenza per le successive annotazioni morfosintattiche e pragmatiche;
b) l’etichettatura morfosintattica per parti del discorso (Mfeats), semiautomatica e in formato xml, degli stessi dialoghi, prodotta dall’unità di Venezia;
c) un altro tipo di etichettatura in parti del discorso (Pos - parts of speech), sempre in formato xml, completamente manuale ed un’analisi delle coreferenze interne (crf) anch’essa manuale, già disponibile in AVIP e messa a punto dall’unità del Piemonte Orientale in via sperimentale su un solo dialogo;
d) l’annotazione testuale-pragmatica in formato xml secondo lo schema DialActs MapTask effettuata dall’unità del Piemonte Orientale, in via sperimentale e manualmente direttamente sulla trascrizione in AVIP, con procedure semiautomatiche e per livelli distinti (moves, games e transaction) collegati mediante attributo "href" ai files prodotti a Venezia in API.

5) Infine è presente un’analisi sintattica di alcune mosse pragmatiche presenti nel dialogo A01 di Napoli (mosse 'Explain' e mosse 'Instruct'); si tratta di un esperimento di analisi-cerniera tra l'annotazione pragmatica e quella prosodica, finalizzato ad uno studio pilota sui rapporti fra i tre livelli linguistici da cui sono scaturite alcune interessanti pubblicazioni.

6) Sono disponibili anche alcuni strumenti prodotti dai partecipanti al progetto:

a) un software di visualizzazione delle etichettature fonetiche dei dialoghi detto Segview, prodotto dall’unità di Bari;
b) un database formato ACCESS 2000, comprendente tutto il materiale etichettato elaborato dall’unità dell’Università di Napoli –Filologia moderna (API.mdb);
c) un programma per l’interrogazione del database AVIP-API (Query Generator);
d) un software di sillabazione semiautomatica che lavora sul segnale e uno che lavora sulle trascrizioni (prodotto dall'Università di Napoli);
e) un software per l’estrazione dei valori formantici (esterno a Segview)

7) Ogni fase ed attività prevede una ricca documentazione disponibile nella sezione documenti.

 

Consultazione del CORPUS AVIP-API