|
Per saperne di più
Una risorsa linguistica per lo studio della variazione nella lingua italiana
Miriam Voghera
Francesco Cutugno
Claudio Iacobini
Renata Savy
VoLIP (Voce del LIP) è una risorsa linguistica che associa i file dei segnali audio alle trascrizioni ortografiche dei campioni del Corpus LIP e permette la ricerca nel corpus sia secondo criteri sociolinguistici sia secondo criteri lessicali e morfo-sintattici.
VoLIP è un progetto finanziato con fondi del Ministero dell’Istruzione, dell’Università e della Ricerca scientifica e tecnologica e sarà concluso nel 2012 con la pubblicazione della risorsa in versione definitiva.
Il Corpus LIP
Il Corpus LIP è stato raccolto nei primi anni ’90 per la creazione di un lessico di frequenza dell’italiano parlato (T. De Mauro, F. Mancini, M., Vedovelli, M. Voghera, Lessico di frequenza dell’italiano parlato, Milano, Etaslibri, 1993) e la sua dimensione è stata progettata per produrre un lessico di frequenza attendibile per i primi 3000 lemmi. E’ composto, dunque, da 500.000 occorrenze di parole per 60 ore di registrazione.
Il corpus presenta varietà diafasiche, diatopiche e diamesiche.
Per quanto riguarda la variazione diafasica e diamesica, i testi sono suddivisi in 5 gruppi: A) conversazioni faccia a faccia; B) conversazioni telefoniche; C) scambi comunicativi bidirezionali con alternanza di turno predefinita, come interviste, dibattiti, interazioni in aule scolastiche, esami orali, ecc.; D) monologhi, come letture, sermoni, discorsi, ecc.; E) programmi radiofonici e televisivi. I testi contenuti nei gruppi A e B appartengono a registri sia formali sia informali, mentre i testi dei gruppi C, D ed E sono registrati prevalentemente in contesti pubblici, in cui si adottano registri formali.
Per quanto riguarda la variazione diatopica, i testi sono stati raccolti a Milano, Roma, Napoli e Firenze. Le prime tre città sono state scelte per la loro posizione geografica e per il numero di abitanti, perché Milano, Roma e Napoli sono le città più popolate d’Italia. Firenze è stata scelta per la sua grande importanza nella storia della lingua italiana.
Mentre il numero di campioni è variabile, il corpus presenta un numero totale di parole bilanciato per città e per situazione diafasica, come riportato nella tabella 1.
|
|
Conversazioni
faccia a faccia
|
Conversazioni
telefoniche
|
Interviste e
dibattiti
|
Monologhi
|
Radio/TV
|
Totale
|
|
Milano
|
25,000
|
25,000
|
25,000
|
25,000
|
25,000
|
125,000
|
|
Firenze
|
25,000
|
25,000
|
25,000
|
25,000
|
25,000
|
125,000
|
|
Roma
|
25,000
|
25,000
|
25,000
|
25,000
|
25,000
|
125,000
|
|
Napoli
|
25,000
|
25,000
|
25,000
|
25,000
|
25,000
|
125,000
|
|
Totale
|
100,000
|
100,000
|
100,000
|
100,000
|
100,000
|
500,000
|
Poiché il corpus è stato originariamente raccolto per ricerche in ambito lessicale, le condizioni di registrazione e la qualità acustica delle sessioni sono disomogenee. La scala di qualità oscilla fra livelli alti e livelli bassi di chiarezza del segnale.
La struttura di VoLIP
Il VoLIP fornisce tutti i campioni del corpus LIP in files wav (Windows PCM, 22050Hz. 16 bit) correlati con:
1. i metadati in formato IMDI;
2. la trascrizione ortografica originale, già pubblicata in De Mauro et al. 1993, in file TXT.
Le interrogazioni
Sono possibili due tipi di interrogazione del corpus: A) per variabili di testo e di registro, in base all’annotazione dei metadati; B) per criteri lessicali e morfosintattici, in base al lessico di frequenza e all’analisi in parti del discorso. I due tipi di interrogazione possono essere incrociati.
Le voci dei metadati sono le seguenti: città, sesso, genere, sottogenere, soggetto, interattività, tipo di pianificazione, contesto sociale, struttura dell’evento, canale.
Tutte le interrogazioni hanno come risultato la trascrizione ortografica associata a file audio.
1. La ricerca di metadati dà come risultato tutti i testi che presentano le caratteristiche richieste; le interrogazionidi metadati possono essere incrociati con intertrogazioni lessicali e morfosintattiche.
2. La ricerca lessicale e morfosintattica dà come risultato tutti i testi che presentano la voce ricercata (forma della parola o lessema) e la voce specifica all’interno di una porzione di tempo precedente e successiva. Ogni lessema, forma o parte del discorso cercata è fornita con la frequenza di occorrenza per città e per registro.
|