SpIt-MDb (Spoken Italian - Multilevel Database) PDF Stampa E-mail

 

Renata Savy
Claudia Crocco
Giusy Turco
Francesco Cutugno
Giuliana Clemente
Carmela Napoletano

 

SpIt-MDb è un corpus campione di dialoghi annotati a più livelli ed in diversi formati, convertito in un database interrogabile attraverso l’applicazione del toolkit AG-SpIt. (basato sulle tecniche AGTK di Bird&Liberman 2001).

Il campione è costituito da 3 dialoghi provenienti dal corpus CLIPS: 2 dialoghi Test delle Differenze registrati a Napoli e Roma (DGtdA01N; DGtdB04R) e 1 dialogo Map Task registrato a Palermo (DGmtB03P). I dialoghi sono stati trascritti in seno al progetto CLIPS e parzialmente annotati (le specifiche di trascrizione ed annotazione sono contenute in due documenti allegati al corpus, pubblicati nell’ambito di CLIPS).
Complessivamente il corpus comprende 842 turni dialogici annotati su 11 livelli diversi (per un totale di 11.738 files).

I files audio (WAV) sono accompagnati dai files delle annotazioni segmentali di CLIPS, che hanno le seguenti estensioni (e formato TIMIT):
- ACS (acustico);
- PHN (fonetico);
- STD (fonologico standard);
- WRD (lessicale);
- ADD (addizionale).

Altri file di annotazione sono stati aggiunti per il progetto Parlaritaliano ed hanno le seguenti estensioni (e formato TIMIT):
- SYL (sillabico);
- TU (Tone Units, phrasing prosodico) ;
- ACC (accentuale) ;
- INT (intonativo) ;
- INF (informativo).

Le specifiche per l’annotazione sillabica, prosodica e informativa sono contenute in 3 documenti allegati.

Alle annotazioni suddette si aggiunge, per ogni dialogo, un file di annotazione sintattica in formato XML (che segue la DTD:Ananas2.dtd, fornita insieme al corpus, e le specifiche di AN.ANA.S, con alcune modifiche appositamente realizzate e documentate nel file "Specifiche per AN.ANA.S 2"). L’intero corpus è stato parserizzato con il tool AG-SpIt. (presente sul sito nell’area STRUMENTI) per dare origine ad un Database (per ciascun dialogo) codificato interamente in XML. AG-SpIt consente infatti di allineare annotazioni time-aligned ad annotazioni testuali (time-independent). I filesDatabase completi: comprendono tutte le annotazioni Timit e le segmentazioni in CLA (clausole) e XP (sintagmi) dell’annotazione sintattica. Il Database è leggibile tramite AG-SpIt. che consente l’interrogazione incrociata di due o più livelli di analisi linguistica (si possono effettuare, ad esempio, interrogazioni su annotazione sintattica e prosodica; prosodica e informativa; sintattica, prosodica e informativa; sillabica e lessicale; sillabica, lessicale e fonetica; e così via…).
DGtdA01N_MDb, DGtdB04R_MDb, DGmtB03P_MDb costituiscono i Database completi: comprendono tutte le annotazioni Timit e le segmentazioni in CLA (clausole) e XP (sintagmi) dell’annotazione sintattica. Il Database è leggibile tramite AG-SpIt, che consente l’interrogazione incrociata di due o più livelli di analisi linguistica (si possono effettuare, ad esempio, interrogazioni su annotazione sintattica e prosodica; prosodica e informativa; sintattica, prosodica e informativa; sillabica e lessicale; sillabica, lessicale e fonetica; e così via…).