|
Miriam Voghera Giusy Turco
AN.ANA.S.L2 è il primo risultato di un progetto sullo sviluppo della sintassi dell’italiano come lingua seconda che nasce con l'obiettivo principale di confrontare le strutture sintattiche prodotte dagli apprendenti con quelle prodotte dai nativi. A tal fine, contemporaneamente alla realizzazione di un corpus dell’italiano parlato e scritto (Voghera et al. 2004, 2005) presso l'Università di Salerno, è stato creato un database di testi scritti da apprendenti guidati dell’italiano L2 (Turco 2005) adattando AN.ANA.S.L2 su un sistema di annotazione, AN.ANA.S.1 , utilizzato in un precedente progetto Treebank (Voghera et al. 2004, 2005). L’uso di un protocollo di etichettatura L2 in parte costruito sulla stessa struttura di annotazione per testi prodotti da nativi permette di svolgere un’analisi comparativa tra produzioni native e non native riducendo al minimo l'impiego di categorie appositamente progettate per la descrizione di testi di L2.
Com’è noto, le strutture più complesse da trattare dal punto di vista dell’annotazione nella sintassi di apprendenti sono quelle che in un certo senso ‘deviano’ rispetto al target nativo. A differenza di altri error taggers (Grange 2003; Dìaz-Negrillo and Fernandez-Dominguez 2006), AN.ANA.S.L2 offre il vantaggio non solo di individuare i vari tipi di deviazioni presenti in un testo ma anche quello di assegnare le strutture in questione a diversi livelli di segmentazione sintattica: livello di codifica testuale che comprende le unità , e livello di codifica sintattica che riguarda le unità di , e . Le deviazioni lessicali che colpiscono teste di sintagma sono codificate a livello di . Ciascun livello sintattico è provvisto di un tagset di attributi che serve a qualificare in maniera più dettagliata la natura e il tipo di deviazione, per esempio una struttura che presenti un inappropriato ordine di costituenti sarà trattata come deviazione a livello di clausola, una struttura che non abbia determinante invece come deviazione di sintagma e così via. In tal modo, questo sistema di etichettatura permette di usufruire di una ricca tassonomia di strutture non-target organizzate per livelli di gerarchia sintattica e, allo stesso tempo, di recuperare i tipi di deviazioni che si concentrano più frequentemente in ciascun livello.
AN.ANA.S.L2 si avvale dell’uso di XGate , disponibile nell’area STRUMENTI, un software manuale che permette di creare un database di testi in formato XML avvalendosi di una DTD (Document Type Definition), ossia di uno schema di regole grammaticali che definisce la struttura ad albero del testo. La DTD di AN.ANA.S.L2 esiste in un'unica versione: • AN.ANA.S. L2_scritto per l’annotazione di testi scritti. La DTD è scaricabile, così come il Manuale utente_ AN.ANA.S.L2 in cui sono dettagliatamente descritte.
PUBBLICAZIONI Turco, G. 2005. "The Intraclausal syntax in texts written by L2 learners of Italian". Tesi di Laurea. Università di Salerno. Turco, G, Voghera, M. 2008. From Text to Lexicon: The annotation of pre-target structures in an Italian learner corpus. Proceeding of the 3rd International Workshop in Corpus Linguistics: "Bootstrapping Information from Corpora in a Cross Linguistic Perspective", University of Florence, June 4-5th 2008. Turco, G. in preparazione. “Complessità sintattica nell’italiano scritto L2”.
|