|
There are no translations available.
Emanuela Cresti Massimo Moneglia Marco Fabbri Alessandro Panunzi Antonietta Scarano Ida Tucci Sabrina Signorini Harro Stammerjohann
Il corpus Stammerjohann (Stammerjohann, 1971) è una raccolta di parlato spontaneo realizzata a Firenze nel 1965 con lo scopo dichiarato di registrare, più che esempi di varietà dialettali, ”situazioni comunicative genuine”. Le registrazioni sono state effettuate su un solo canale con microfono omnidirezionale. Il corpus è pari a 30 sessioni registrate di varie lunghezze (da pochi minuti a 10 ore) per circa 41:15:34 ore di registrazione, delle quali circa 26 ore derivano da registrazioni di ambiente di una stessa situazione (conversazioni libere in un salone di barbiere). Il corpus era stato trascritto dall’autore solo per piccoli campioni (Stammerjohann, 1971) e non era fino ad ora disponibile né per l’informazione acustica né, se si escludono i campioni pubblicati nell’articolo citato, per l’informazione testuale. Il corpus è stato donato a Emanuela Cresti perché fosse archiviato a LABLITA e poi diffuso nella comunità scientifica. Il corpus è stato trasferito in digitale nel 2001, curando più possibile la qualità del riversamento. Le 30 sessioni sono state classificate secondo i parametri di variazione del parlato adottati per la strutturazione del corpus LABLITA e del corpus Variazione diamesica Sessioni divise per canale: broadcasting, telefono, parlato naturale Variazione diafasica Sessioni del parlato naturale divise gerarchicamente per contesto sociale: privato, familiare, pubblico; per qualità dell’interazione: libero, regolato; per struttura dell’evento comunicativo: monologo, dialogo, conversazione;
Il corpus bilanciato consultabile LABLITA corrisponde al campionamento del corpus Stammerjohann. Corrisponde a 9h 18’ di registrazione, per un totale di circa 100.000 parole. Per il campionamento si è scelto per ogni sessione un campione del continuum che fosse il più possibile omogeneo, ovvero che potesse rappresentare in modo sufficiente una istanza di un evento comunicativo nell’universo ”lingua parlata”. A tal fine sono stati adottati in particolare tre criteri di campionamento: segmentazione del continuum in una unità testualmente coerenti, ovvero scelta in ogni sessione di campioni che: 1) manifestano sufficiente percepibilità del segnale, 2) condividono gli stessi metadati e gli stessi parlanti; 3) hanno sufficiente uniformità tematica; 4) non manifestano interruzioni significative nel flusso; lunghezza del campione selezionato in unità informative (campioni tra le 1500 e le 4500 parole, secondo il criterio C-ORAL-ROM); qualità acustica sufficiente all’analisi dell’F0 nella maggior parte del tracciato, e/o minor numero di sovrapposizioni. I campi "Situation", "Topic", e la classificazione della sessione nella struttura, riportati nei metadati di ogni campione, specificano nell’insieme i suoi tratti testuali caratteristici. L’informazione del corpus bilanciato consultabile LABLITA è stata trattata secondo gli standard di LABLITA (Cresti, 2000: Cresti & Moneglia 2005). Le trascrizioni, in formato CHAT, sono state taggate sia dal punto di vista prosodico (breaks prosodici terminali e non terminali) sia per parti del discorso (PoS). Le trascrizioni sono state allineate al suono per enunciati, con la generazione di file XML di allineamento, in formato WinPitch Corpus. Il PoS tagging è stato realizzato in automatico con il TreeTagger di Schmid (1994) nella sua versione per l’italiano e il tag-set utilizzato da questo strumento. Il PoS tagging di forma è associato al lemma e riportato in file plain text (schema di annotazione in-line). I testi di PoS tagging conservano l’intera informazione testuale della trascrizione, compresa la suddivisione in turni dialogici, l’annotazione prosodica e il numero seriale di ogni enunciato. Il campionamento di ogni sessione è costituito da 5 tipi di file aventi come nome la sigla del testo (di 4 o 5 caratteri): File nomesessione.wav windows PCM, con la sorgente acustica File nomesessione.RTF, con l’informazione testuale e il tagging prosodico File nomesessione_mask.txt, con i metadati in formato CHAT- lablita File nomesessione.xml, contenente i dati di sincronizzazione di ogni enunciato trascritto con il corrispettivo acustico. File nomesessione_tgd.txt, contenenti l’annotazione dl lemma e della parte del discorso per ogni forma trascritta I file di suono e di annotazione (nomefile.wav; nomefile.RTF; nomefile.xml nomefile_mask.txt; nomefile_tg.txt) sono inseriti in cartelle contrassegnate con il nome file all’interno di una struttura in directory che rispecchia il corpus design della risorsa.
La risorsa è distribuita dietro licenza gratuita per solo scopo di ricerca all’indirizzo: http://lablita.dit.unifi.it/corpora/descriptions/stam/index_html#distribuzione C-ORAL-ROM.
|