LOGIN

Tags Cloud

CLIPS - Corpora e Lessici di Italiano Parlato e Scritto PDF Print E-mail
There are no translations available.

 

Federico Albano Leoni

Renata Savy 
Francesco Cutugno


Descrizione

Il progetto è stato realizzato con la partecipazione di diversi enti di ricerca e la preziosa collaborazione di numerosi studiosi e giovani ricercatori (per l'elenco si rimanda al sito ufficiale www.clips.unina.it)

Estratto dalla "Presentazione del progetto", a cura di Federico Albano Leoni.

 

Il progetto, come mostra il suo acronimo (Corpora e Lessici di Italiano Parlato e Scritto - CLIPS), era finalizzato alla messa a punto di strumenti per lo studio generale e per il trattamento automatico dell'italiano, tanto nella sua forma scritta quanto nella sua forma parlata.
Per quanto riguarda la sezione relativa al parlato, il progetto ha consentito di colmare una lacuna negli strumenti per lo studio dell'italiano dal punto di vista linguistico e da quello applicativo, in un momento in cui, da ambedue i punti di vista, l'interesse per la comunicazione parlata è in forte crescita [...].

Le lingue naturali sono caratterizzate da una fortissima variabilità in tutte le loro manifestazioni (Sobrero 1993; Berruto 1995), ed è noto da tempo che questa caratteristica si manifesta in modo drammatico proprio nel parlato (Brown 1990) [...]. Ogni nostro atto comunicativo si colloca in una determinata posizione rispetto alle seguenti variabili:
A) variabile regionale: il modo in cui parliamo dipende anche dalla nostra regione di provenienza;
B) variabile sociale: il modo in cui parliamo dipende anche dal nostro grado di istruzione, dal nostro mestiere, dall'ambiente sociale a cui apparteniamo;
C) variabile stilistica: il modo in cui parliamo dipende anche dalla situazione in cui ci troviamo di volta in volta;
D) variabile individuale: il modo in cui parliamo dipende anche da caratteristiche anatomiche e idiosincratiche di ciascuno di noi.

[...] Un corpus stratificato è dunque un corpus nel quale siano presenti, in proporzioni opportune che riflettano anche le varietà regionali, le diverse varietà della lingua parlata, da quella di laboratorio (parlato controllato di speakers professionisti), a quelle via via meno formali, fino alle varietà più spontanee, includendo voci maschili, voci femminili, nonché campioni di parlato telefonico e radiotelevisivo.
Un corpus di questo genere tende a coprire una gamma significativa dei possibili tipi di situazione comunicativa, dal punto di vista della fonologia, della prosodia, della morfologia, della sintassi e del lessico di base, e costituisce il punto di partenza per la descrizione dei modi concreti in cui avviene la comunicazione. Ma esso è anche la base a partire dalla quale diventa più agevole e economico predisporre gli strumenti per le applicazioni specifiche [...].

In questo quadro, si osservava per l'italiano una anomalia rispetto alla situazione di altre lingue di cultura. [...] Sobrero, nel suo contributo a un volume di Holtus e Radtke (1985) [...] poneva il problema molto serio della mancanza di un corpus complessivo che fornisse la base per lo studio del parlato in sé, in grado di coglierne tanto la naturalezza in atto, quanto la variabilità e l'indeterminatezza che lo caratterizzano.
Un passo deciso in questa direzione si ebbe nel 1993, con la pubblicazione del Lessico di frequenza dell'italiano parlato (De Mauro e altri 1993), computato a partire dal primo vero e proprio corpus di italiano parlato: un corpus pubblico, costruito secondo criteri espliciti e per finalità esplicite, stratificato sia dal punto di vista regionale (era stato raccolto materiale parlato a Milano, Firenze, Roma e Napoli), sia dal punto di vista delle varietà stilistiche (era articolato in conversazioni faccia a faccia di vario tipo, telefonate, parlato ufficiale o comunque pubblico, parlato radiotelevisivo). [...] Gli anni successivi, fino ad oggi, hanno visto la nascita di numerosi corpora di parlato per iniziativa di istituzioni e centri [...]
Il corpus CLIPS nasce, in questo quadro, con le caratteristiche di un corpus tendenzialmente generale e certamente molto stratificato.

Una breve descrizione della composizione e della storia del corpus è presente alla pagina Corpus CLIPS, nella'area DATI.

 
 

Search