|
There are no translations available.
Massimo Vedovelli
Fabrizia Giuliani Laura Sprugnoli Paola Micheli Giuseppina Santoru Fiammetta Carloni Alessandro Pallassini Sabrina Machetti
Descrizione
Il progetto, che si è concluso nell'autunno 2006, è condotto da un'unità di ricerca dell'Università per Stranieri di Siena coordinata da Massimo Vedovelli e composta da ricercatori, tecnici e assegnisti di ricerca afferenti al Dipartimento di scienze dei linguaggi e delle culture e al Centro linguistico di ateneo.
Il progetto si basa su un corpus di parlato di italiano L2 costruito col fine di analizzare le caratteristiche dell'italiano parlato da apprendenti stranieri e le dinamiche interattive fra apprendenti/locutori stranieri e locutori italofoni.
I testi che compongono il corpus sono stati ricavati dall'archivio delle prove d'esame CILS - Certificazione di Italiano come Lingua Straniera dell'Università per Stranieri di Siena. Dall'archivio, che comprende tutte le prove dei candidati agli esami CILS a partire dalla prima sessione del 1993, sono state estratte 628 prove di diversi candidati accomunati dal fatto di avere svolto almeno due prove in successione delle sei prove CILS.
Attualmente il corpus è composto da circa 500.000 occorrenze su cui è già stata fatta una prima analisi lessicale per stilare una lista di frequenza e che costituiscono dati sull'apprendimento sia in contesto formale che informale. Il corpus può essere utilizzato secondo due direttrici: da un lato è possibile estrarre dei formari di italiano L2 e, dall'altro, il corpus può essere analizzato per indagare le strategie di interazione tra nativi e non nativi.
L'obiettivo del progetto è infatti l'indagine del parlato in italiano L2 e degli input e delle strategie di interazione in contesti di apprendimento spontaneo e formale, con particolare riferimento alla dimensione del lessico, che è stata al centro dell'interesse anche in vista del confronto con l'italiano parlato dai nativi, già oggetto in precedenza di altre analisi lessicali sul parlato. Tale obiettivo ha la doppia finalità anche di contribuire a una migliore conoscenza del parlato dell'italiano contemporaneo, estendendo il campo di quest'ultimo fino a comprendere anche il parlato degli stranieri. In tal modo si potranno ampliare le conoscenze sulle dinamiche evolutive dello spazio linguistico italiano, assumendo il peso di fattori di innovazione quali quelli costituiti dal contatto con le lingue dei gruppi immigrati.
L'indagine vuole misurare il peso di tratti specifici dell'apprendimento come l'input linguistico-comunicativo cui sono stati esposti gli apprendenti e i tratti specifici che l'apprendente manifesta nel suo parlato in conseguenza della propria competenza linguistica generale. Il risultato del processo di apprendimento risentirà pertanto di tratti generali, così come delle caratteristiche dell'input parlato al quale è esposto l'apprendente e che costituisce la fonte del suo progetto di elaborazione finalizzato allo sviluppo delle competenza linguistico-comunicativa nella L2. L'interesse del progetto è pertanto duplice: da un lato di carattere eminentemente teorico, teso a verificare il peso dei tratti che caratterizzano il parlato quale che sia la lingua che lo manifesta o quale che sia lo stato della competenza linguistica del locutore; dall'altro l'interesse è più specifico e pertiene la puntualizzazione dei fattori strutturali che orientano i processi di apprendimento della L2. Un simile interesse ha anche implicazioni applicative, ad esempio nella costruzione di efficaci percorsi di apprendimento in contesto formativo, e implicazioni descrittive e interpretative riguardo le dinamiche evolutive della condizione linguistica della società italiana attuale.
La selezione del corpus ha naturalmente escluso la parte scritta dell'esame CILS e ha preso in considerazione solo le due prove orali di ciascun esame, costituite rispettivamente da uno scambio bidirezionale faccia a faccia con presa di parola libera (dialogo) e uno scambio unidirezionale in presenza del destinatario (monologo). Oltre a queste due tipologie di genere testuale, che rappresentano le attività della parte orale dell'esame CILS, sono stati individuati anche altri generi di discorso, seguendo quanto già emerso nell'ambito della ricerca sul LIP. È stato infatti possibile riconoscere anche testi in cui il dialogo fosse interrotto a favore di parti monologiche, che pur essendo quantitativamente meno estese erano comunque riconoscibili per le proprie norme interne differenti da quelle dello scambio bidirezionale. È stato possibile individuare anche testi monologici in cui sezioni di dialogo hanno trovato spazio, anche se in misura ridotta, e quindi hanno attirato l'attenzione della nostra analisi rendendo necessaria un'ulteriore distinzione rispetto ai generi già individuati. Infine alcune prove in cui le parti monologiche erano quantitativamente equivalenti alle parti dialogiche sono state distinte ulteriormente dalle quattro tipologie di testi già riconosciuti. Sui cinque tipi di testo così focalizzati (dialogo, molologo, dialogo con inserzioni di monologo, monologo con inserzioni di dialogo e testi in cui dialogo e monologo si alternano in egual misura) è possibile svolgere dei confronti basati sulla distinzione tipologica, che possono quindi arricchire ulteriormente la nostra analisi lessicale del corpus basandola non solo sulla progressione per livelli, ma anche per genere testuale. Le prove del corpus rappresentano esempi di generi testuali più o meno formali/informali a seconda dell'input di ciascun testo e pertanto possono mettere in luce dati relativi anche alle diverse strategie di interazione e ai diversi registri utilizzati dagli stranieri.
Per quanto concerne le prove d'esame del corpus, sono state selezionate prove relative a sessioni d'esame differenti, per cui gli input delle varie prove sono eterogenei da una sessione all'altra e permettono così di basare il corpus su argomenti differenti. Per le caratteristiche intrinseche dell'esame CILS, si tratta comunque di input che attivano una produzione relativa ad argomenti di carattere generale, non specialistico, e quindi alla portata di tutti i candidati anche senza una preparazione specifica.
Le 1256 prove raccolte nelle audiocassette che appartengono all'archivio CILS sono state in seguito trascritte seguendo le norme di trascrizione già adottate per il LIP, cui si rimanda. L'attività di trascrizione ha prestato particolare attenzione al fine ultimo dell'analisi delle caratteristiche del parlato e in particolare dell'analisi lessicale, focalizzandosi quindi su alcuni elementi a trascurandone invece altri che sono invece più utili per altri tipi di analisi. Si sono così tralasciati in molti casi alcuni aspetti di maggiore pertinenza per analisi fonetiche, morfologiche o di altro genere, preferendo invece mettere in evidenza gli aspetti lessicali del corpus. Alcune delle prove sono state anche riportate in un database in formato digitale che permette un ascolto più nitido e quindi una trascrizione più precisa.
Dopo aver trascritto e suddiviso le prove si è proceduto a una prima analisi per compilare un formario dell'italiano degli stranieri. Tale operazione è stata svolta non solo per il corpus nel suo complesso, ma anche relativamente ai gruppi di prove suddivisi per livello e per genere testuale. Si sono così ottenute tre formari differenti.
Nel frattempo sono stati svolti alcuni test con diversi programmi di lemmatizzazione automatica per verificare la bontà di questi strumenti, cercando il programma che più si adattasse alle esigenze che nascono quando si tratta un corpus di italiano L2. Tale ricerca è stata comunque accompagnata dalla consapevolezza di dover in una seconda fase rivedere a mano la lemmatizzazione effettuata automaticamente, proprio per le caratteristiche intrinseche del corpus.
Per la realizzazione dei formari del parlato in italiano L2 è stato prodotto all'interno del gruppo di ricerca un software in grado di analizzare un testo di un parlante non nativo e capace di essere interrogato su dati relativi agli aspetti lessicali dell'italiano parlato da stranieri, stilando formari di parole e permettendo di incrociare i dati relativi a input di ricerca differenti. In questo modo il software che raccoglie tutto il corpus permette lo svolgimento di analisi lessicali differenziate anche su porzioni del corpus stesso.
È prevista la pubblicazione sul sito del corpus trascritto e delle prove che lo costituiscono in formato audio. Oltre alla pubblicazione del corpus si prevede di inserire nel sito anche i risultati delle analisi, con particolare riguardo alle liste di lemmi oggetto di possibili analisi ulteriori.
|