VoLIP: Voce del LIP
PDF Stampa E-mail

Il corpus VoLIP (Voce del LIP) è una risorsa linguistica che associa i file dei segnali audio alle trascrizioni ortografiche dei campioni del Corpus LIP e permette la ricerca nel corpus sia secondo criteri sociolinguistici sia secondo criteri lessicali e morfo-sintattici.

Il VoLIP permette di interrogare il corpus LIP e di ottenere come risultato la porzione di audio desiderata associata alla sua trascrizione ortografica.

Il VoLIP fornisce tutti i campioni del corpus LIP in files wav (Windows PCM, 22050Hz. 16 bit) correlati con:

  1. i metadati in formato IMDI;
  2. la trascrizione ortografica originale e la sua revisione.

Le interrogazioni

Sono possibili due tipi di interrogazioni: a) per metadati e b) per criteri lessicali e morfosintattici. I due tipi di interrogazione possono essere incrociati.

Sono possibili due tipi di interrogazione del corpus: A) per variabili di testo e di registro, in base all’annotazione dei metadati; B) per, in base al lessico di frequenza e all’analisi in parti del discorso.

La ricerca per metadati dà come risultato la trascrizione ortografica associata ai file audio di tutti i testi che presentano le caratteristiche richieste.

La ricerca per criteri lessicali e morfosintattici dà come risultato tutti i testi che presentano la voce ricercata (lessema o forma) che sarà evidenziata nella trascrizione ortografica e potrà essere ascoltata. Ogni lessema, forma o parte del discorso cercata è fornita con la frequenza di occorrenza per città e per genere di discorso.

 

Il Corpus LIP

Il Corpus LIP è stato raccolto nei primi anni ’90 per la creazione di un lessico di frequenza dell'italiano parlato (T. De Mauro, F. Mancini, M., Vedovelli, M. Voghera, Lessico di frequenza dell’italiano parlato, Milano, Etaslibri, 1993) e la sua dimensione è stata progettata per produrre un lessico di frequenza attendibile per i primi 3000 lemmi. E' composto, dunque, da circa 500.000 occorrenze di parole per circa 60 ore di registrazione.

Il corpus presenta varietà diafasiche, diatopiche e diamesiche.

Per quanto riguarda la variazione diafasica e diamesica, i testi sono suddivisi in 5 gruppi: A) conversazioni faccia a faccia; B) conversazioni telefoniche; C) scambi comunicativi bidirezionali con alternanza di turno predefinita, come interviste, dibattiti, interazioni in aule scolastiche, esami orali, ecc.; D) monologhi, come letture, sermoni, discorsi, ecc.; E) programmi radiofonici e televisivi. I testi contenuti nei gruppi A e B appartengono a registri sia formali sia informali, mentre i testi dei gruppi C, D ed E sono registrati prevalentemente in contesti pubblici, in cui si adottano registri formali.

Per quanto riguarda la variazione diatopica, i testi sono stati raccolti a Milano, Roma, Napoli e Firenze. Le prime tre città sono state scelte per la loro posizione geografica e per il numero di abitanti, perché Milano, Roma e Napoli sono le città più popolate d’Italia. Firenze è stata scelta per la sua grande importanza nella storia della lingua italiana.

Mentre il numero di campioni è variabile, il corpus presenta un numero totale di parole bilanciato per città e per situazione diafasica, come riportato nella tabella 1.

 

 

Conversazioni faccia a faccia

Conversazioni telefoniche

Interviste e dibattiti

Monologhi

Radio/TV

Totale

Milano

~25.000

~25.000

~25.000

~25.000

~25.000

~125.000

Firenze

~25.000

~25.000

~25.000

~25.000

~25.000

~125.000

Roma

~25.000

~25.000

~25.000

~25.000

~25.000

~125.000

Napoli

~25.000

~25.000

~25.000

~25.000

~25.000

~125.000

Totale

~100.000

~100.000

~100.000

~100.000

~100.000

~500.000

 

Per maggiori informazioni sulla costituzione del corpus e su come interrogarlo, si veda

Miriam Voghera, Claudio Iacobini, Renata Savy, Francesco Cutugno, Aurelio De Rosa, Iolanda Alfano, 2014. VoLIP: a searchable Italian spoken corpus, in Complex Visibles Out There. Proceedings of the Olomouc Linguistics Colloquium: Language Use and Linguistic Structure. Edited by Ludmila Veselovská and Markéta Janebová. Olomouc: Palacký University, 2014, pp. 628-640.

Scarica il PDF dell'articolo

Allegati:
FileDimensione del File
Scarica questo file (AUDIO E TRASCRIZIONE.doc)AUDIO E TRASCRIZIONE.doc110 Kb
Scarica questo file (Voghera et al. 2014_VoLIP.pdf)Scarica il PDF dell'articolo1772 Kb