Quaderni di Parlaritaliano

LOGIN

Tags Cloud

Il Corpus Stammerjohann. Recupero del primo corpus di italiano parlato raccolto a Firenze nel 1965 (Sottoprogetto del Progetto FIRB: Archivi dell'italiano orale in diacronia) PDF Print E-mail
There are no translations available.

 

Emanuela Cresti

Massimo Moneglia 
Antonietta Scarano 
Ida Tucci 
Massimo Aureli 
S. Signorini


Descrizione

Il Corpus Stammerjohann. Recupero del primo corpus di italiano parlato raccolto a Firenze nel 1965, per la costituzione di archivi dell'italiano orale in diacronia.

Sottoprogetto del Progetto FIRB: Archivi dell'italiano orale in diacronia.

Il progetto, parte del più complessivo progetto FIRB "Archivi dell'italiano orale in diacronia" (responsabile nazionale Nicoletta Maraschio) è stato svolto presso LABLITA, Dipartimento di Italianistica dell'Università di Firenze, sotto la direzione di Emanuela Cresti. Esso è dedicato al recupero del corpus Stammerjohann e alle modalità di strutturazione, annotazione e distribuzione della risorsa recuperata ai fini del suo utilizzo per scopi di ricerca linguistica.

Il corpus Stammerjohann (Stammerjohann, 1971) è una raccolta di parlato spontaneo italiano realizzata a Firenze nel 1965 con lo scopo dichiarato di registrare, più che esempi di varietà dialettali, "situazioni comunicative genuine". Da questo punto di vista il Corpus Stammerjohann è il primo corpus di parlato italiano. Il corpus è pari a 30 sessioni registrate di varie lunghezze (da pochi minuti a 10 ore) per complessive circa 41 ore di registrazione, alcune delle quali registrazioni di ambiente di molte ore, ed era stato trascritto dall'autore solo per piccoli campioni (Stammerjohann, 1971) e non era disponibile né per l'informazione acustica né testuale.

Il corpus, donato a LABLITA dall'autore, è stato trasferito in digitale utilizzando strumenti d'epoca, le sessioni sono state classificate secondo i parametri di variazione del parlato del corpus LABLITA e del corpus C-ORAL-ROM e successivamente il corpus è stato campionato, realizzando campioni di sessione omogenenei dal punto di vista del corpus design e della lunghezza.

Il campionamento è stato trascritto in formato CHAT dando luogo ad un corpus di circa 100.000 parole per 9 ore di parlato, che risulta pienamente confrontabile sia dal punto di vista del corpus design sia dal punto di vista dell'annotazione con le raccolte di parlato spontaneo contemporanee LABLITA e C-ORAL-ROM.

In particolare il corpus è stato archiviato per quanto riguarda i metadati in formato IMDI e le trascrizioni sono state annotate sia per parti del discorso (PoS), sia dal punto di vista prosodico (breaks prosodici terminali e non terminali), ed è allineato al suono per enunciati secondo gli standard LABLITA in file XML in formato WinPitch Corpus.

La risorsa è distribuita in rete al sito http://lablita.dit.unifi.it attraverso l'accesso ai metadati previa richiesta di licenza gratuita

Bibliografia

Le pubblicazioni relative al progetto sono:

M. MONEGLIA, A. SCARANO,  (in stampa), Il Corpus Stammerjohann. Il primo corpus di italiano parlato, in rete nella base dati di LABLITA. In Atti del Convegno "La comunicazione parlata". Napoli, 23-25 febbraio 2006.

A. SCARANO, S. SIGNORINI, (2005), Corpus linguistics and diachronic variability. A study on Italian spoken language corpora from the 1960s until nowadays. In Kabatek J., Pusch C. D. , Raible W. (a cura di), Romanistische Korpuslinguistik II: Korpora und diachrone Sprachwissenschaft / Romance Corpus Linguistics II: Corpora and Diachronic Linguistics, Tübingen, Narr, 191-202.

I. TUCCI, S. SIGNORINI, (2004), Il restauro e l'archiviazione elettronica del primo corpus di italiano parlato, il corpus Stammerjohann. In Atti delle Giornate del Gruppo di Fonetica Sperimentale - XIV, Viterbo, 4-6 dicembre 2003, Esagrafica, Roma, pp. 119-126.

 
 

Search