Corpus LIPS PDF Stampa E-mail

 

Massimo Vedovelli
Alessandro Pallassini
Sabrina Machetti
Monica Barni
Carla Bagna
Simone Pieroni
Francesca Gallina


Il corpus LIPS raccoglie le trascrizioni dei testi tratti dall’archivio delle prove d’esame CILS - Certificazione di Italiano come Lingua Straniera dell’Università per Stranieri di Siena. Dall’archivio, che comprende tutte le prove dei candidati agli esami CILS a partire dalla prima sessione del 1993, sono state estratte circa 2000 prove di diversi candidati accomunati dal fatto di avere svolto almeno due prove in successione delle sei prove CILS tra il 1993 e il 2006. Attualmente, il corpus LIPS comprende circa 100 ore di parlato, che, una volta trascritto, ha superato le 700.000 occorrenze di forme di unità lessicali. Si tratta pertanto del più ampio corpus di apprendimento ad oggi esistente per l’italiano L2. I criteri adottati per l’implementazione del corpus LIPS nell’ambito del PRIN 2006 sono rimasti immutati rispetto al precedente progetto PRIN 2004 in seno al quale era stato creato il corpus LIPS.
Il corpus si compone delle prove di candidati che hanno svolto almeno due esami CILS con l’intento di confrontare l’evoluzione del processo di acquisizione lungo il continuum di apprendimento. In questo modo nel corpus possiamo individuare due, tre o addirittura quattro prove di un unico candidato, svolte all’estero o in Italia e relative a 2, 3 o anche 4 livelli di esame CILS, dal livello UNO- B1, il livello della iniziale autonomia comunicativa, al livello QUATTRO-C2, il livello della padronanza della competenza in L2, così come descritta anche dal Quadro Comune Europeo di Riferimento per le Lingue (Council of Europe, 2001). Grazie alla presenza nel corpus di prove di livello differente, possiamo potenzialmente confrontare la prova di livello iniziale di un candidato con la prova dello stesso candidato di livello più avanzato per osservare lo sviluppo della dimensione lessicale lungo il continuum di apprendimento. Nel corso del progetto PRIN 2006 sono state inserite nel corpus LIPS anche numerose prove CILS di livello A1 e A2, per seguire su uno spettro più ampio lo sviluppo della competenza linguistico-comunicativa e in particolare della competenza lessicale in italiano L2. L’aggiunta di prove relative ai livelli Pre-CILS, ovvero di quei livelli in cui non si è ancora raggiunta l’autonomia comunicativa, consente di monitorare i primi stadi del processo di apprendimento, quando le risorse linguistiche nella L2 sono ancora estremamente limitate, consentendo così di indagare quali sono i percorsi che segue l’avanzamento della competenza linguistico-comunicativa in italiano L2 dai livelli basici ai livelli di autonomia comunicativa.
Grazie alla presenza di prove di livello differente è possibile anche effettuare un confronto tra candidati diversi a uno stesso livello o a livelli differenti confrontando i processi di apprendimento in contesto spontaneo o guidato. Le prove che costituiscono il corpus sono infatti prove svolte nelle sedi CILS sia in Italia sia all’estero, precedute da processi di acquisizione spontanea o di apprendimento in contesti formali o meno a seconda anche del luogo in cui viene svolto l’esame. Si presume infatti che coloro che svolgono l’esame in Italia, anche se inseriti in contesti formali di apprendimento, hanno per il fatto stesso di trovarsi in Italia diverse occasioni di apprendimento spontaneo, che spesso candidati che vivono all’estero e svolgono lì la prova d’esame, magari senza alcuna esperienza in Italia, non hanno e pertanto vivono presumibilmente solo processi di apprendimento guidato.

Inoltre è possibile selezionare dal corpus candidati con L1 o altre caratteristiche individuali differenti per mettere a confronto le loro competenze linguistiche e soprattutto lessicali a partire dai tratti che li differenziano e svolgere così delle analisi incrociate tra fattori individuali di apprendimento e sviluppo della competenza linguistico-comunicativa e lessicale.
La selezione del corpus ha escluso la parte scritta dell’esame e ha preso in considerazione solo le due prove orali di ciascun esame, costituite rispettivamente da uno scambio bidirezionale faccia a faccia con presa di parola libera (dialogo) e scambio unidirezionale in presenza del destinatario (monologo). Oltre a queste due tipologie di genere testuale, che rappresentano le attività della parte orale dell’esame CILS, sono stati individuati anche altri generi di discorso, seguendo quanto già emerso nell’ambito della ricerca sul LIP. È stato infatti possibile riconoscere anche testi in cui il dialogo fosse interrotto a favore di parti monologiche, che pur essendo quantitativamente meno estese erano comunque riconoscibili per le proprie norme interne differenti da quelle dello scambio bidirezionale. È stato possibile individuare anche testi monologici in cui sezioni di dialogo hanno trovato spazio, anche se in misura ridotta, e quindi hanno attirato l’attenzione della nostra analisi rendendo necessaria un’ulteriore distinzione rispetto ai generi già individuati. Infine alcune prove in cui le parti monologiche erano quantitativamente equivalenti alle parti dialogiche sono state distinte ulteriormente dalle quattro tipologie di testi già riconosciuti. Sui cinque tipi di testo così focalizzati (dialogo, molologo, dialogo con inserzioni di monologo, monologo con inserzioni di dialogo e testi in cui dialogo e monologo si alternano in egual misura) è possibile svolgere dei confronti basati sulla distinzione tipologica, che possono quindi arricchire ulteriormente la nostra analisi lessicale del corpus basandola non solo sulla progressione per livelli, ma anche per genere testuale. Le prove del corpus rappresentano esempi di generi testuali più o meno formali/informali a seconda dell’input di ciascun testo e pertanto possono mettere in luce dati relativi anche alle diverse strategie di interazione e ai diversi registri utilizzati dagli stranieri.
Per quanto concerne le prove d’esame del corpus, sono state selezionate prove relative a sessioni d’esame differenti, che si sono svolte tra il 1993 e il 2005, per cui gli input delle varie prove sono eterogenei da una sessione all’altra e permettono così di basare il corpus su argomenti differenti. Per le caratteristiche intrinseche dell’esame CILS, si tratta comunque di input che attivano una produzione relativa ad argomenti di carattere generale, non specialistico, e quindi alla portata di tutti i candidati anche senza una preparazione specifica.

Essendo due le prove orali per ogni esame CILS, nel complesso il corpus sul quale ci basiamo è costituito da 2198 prove, divise secondo il genere testuale cui appartengono, ma che in generale dovrebbe essere per la prima prova un dialogo e per la seconda prova un monologo.
Le 2198 prove raccolte nelle audiocassette che appartengono all’archivio CILS sono state in seguito trascritte seguendo le norme di trascrizione già adottate per il LIP, cui si rimanda. L’attività di trascrizione ha prestato particolare attenzione al fine ultimo dell’analisi delle caratteristiche del parlato e in particolare dell’analisi lessicale, focalizzandosi quindi su alcuni elementi a trascurandone invece altri che sono invece più utili per altri tipi di analisi. Si sono così tralasciati in molti casi alcuni aspetti di maggiore pertinenza per analisi fonetiche, morfologiche o di altro genere, preferendo invece mettere in evidenza gli aspetti lessicali del corpus. Alcune delle prove sono state anche riportate in un database in formato digitale che permette un ascolto più nitido e quindi una trascrizione più precisa.
Una volta trascritte tutte le prove sono state suddivise secondo criteri differenti. Innanzitutto sono state raggruppate in base al genere testuale di appartenenza, creando così cinque gruppi diversi. In un secondo momento tutte le prove sono state suddivise a seconda della sede di esame per permettere di confrontare i risultati dei candidati che hanno svolto le prove solo all’estero, solo in Italia oppure sia all’estero sia in Italia. Infine le prove sono state raggruppate per livello, creando così sei raggruppamenti. Tali suddivisioni consentono di svolgere diverse analisi secondo parametri differenti e di incrociare quindi i risultati delle varie analisi.
Infine tutto il corpus è stato sottoposto a lemmatizzazione tramite l’applicazione di un annotatore grammaticale di tipo stocastico (Tree Tagger di Schmid), disponibile on line.
Dopo aver lemmatizzato l’intero corpus LIPS sono state estratte le liste di frequenza e di uso sia per il corpus globale, sia per i diversi sottocorpora che è stato possibile creare in base ai criteri di analisi individuati, ovvero in base al livello, alla sede d’esame, al genere testuale.