Corpus CLIPS PDF Print E-mail
There are no translations available.

 

Renata Savy
Leandro D'Anna
Rosa Giordano
V. Caniparoli
Ester Paone
Federico Albano Leoni
Francesco Cutugno
Olga Maria Manfrellotti
Massimo Petrillo
Leonardo Lancia
Giovanni Rossi

 

Il corpus CLIPS è costituito da 100 ore di parlato suddivise in 5 sottocorpora:

a) Radiotelevisivo: contiene circa 16h e 30’ di parlato raccolto da trasmissioni radiofoniche e televisive di diverse tipologie;
b) Dialogico: contiene circa 48h e 15’ di parlato dialogico, raccolto tramite tecniche di elicitazione (Map-Task, Test delle differenze);
c) Letto: contiene 16h e 20’ di parlato costituito da lettura di frasi e liste di parole;
d) Ortofonico: contiene 3h e 40’ di parlato costituito da frasi lette da parlatori professionisti;
e) Telefonico: contiene 16h e 40’ di parlato telefonico raccolto con il metodo Wizard of Oz o tramite risponditore automatico.

Il corpus è stratificato diatopicamente: tutti i materiali (ad eccezione del corpus ortofonico) sono raccolti in 15 località diverse del territorio italiano, individuate sulla base di parametri sociolinguistici.

Il corpus è bilanciato per quel che riguarda le voci maschili e femminili.

Una percentuale pari al 30% del materiale è trascritta ortograficamente.
Una percentuale di circa il 10% è etichettata ai livelli acustico, fonetico, fonologico, lessicale.

Sono disponibili alcuni strumenti software per la visualizzazione e l’etichettaura dei dati del corpus e per alcune banali operazioni di editing.

E’ disponibile un database utilizzabile per alcune semplici interrogazioni sulle etichettature

Il corpus è accompagnato da una ricca documentazione riguardante le specifiche di trascrizione ed etichettatura e da manuali per l’utilizzo dei software.

La risorsa è disponibile direttamente e gratuitamente alle pagine del progetto www.clips.unina.it

Attachments:
FileFile size
Download this file (storia_di_clips.pdf)storia_di_clips.pdf53 Kb