CoLFIS 


CoLFIS
Corpus e Lessico di Frequenza dell'Italiano Scritto Contemporaneo

Pier Marco Bertinetto°, Cristina Burani*, Alessandro Laudanna^, Lucia Marconi#,

Daniela Ratti#, Claudia Rolando# †, e Anna Maria Thornton§

° Scuola Normale Superiore, Pisa

* Istituto di Scienze e Tecnologie della Cognizione, CNR, Roma

^ Università di Salerno

# Istituto di Linguistica Computazionale, Unità Staccata di Genova, CNR, Genova

§ Università de L'Aquila

in memoriam

Il progetto

Lo scopo dell'iniziativa è stato la creazione di un corpus di riferimento dell'italiano scritto contemporaneo a partire da un insieme bilanciato di testi che rispecchiassero in maniera fedele le letture dell'italiano “medio”.

Per raggiungere questo obiettivo è stato necessario, attraverso un attento studio dei dati disponibili circa le tendenze dei lettori italiani, a partire dai dati ISTAT relativi alle letture preferite dagli italiani, raccogliere un insieme di testi caratteristici, in un determinato arco temporale (1992 – 1994), differenziati per tipologia (quotidiani, periodici, libri) e per argomento (politica, letteratura, sport, ecc.). Si è così raccolto un corpus di oltre tremilioni di occorrenze lessicali.

Per i quotidiani l'unità di riferimento scelta è stata l'articolo, spezzato solo nel caso fosse più lungo di mille occorrenze.

Per i periodici l'unità di riferimento nel campionamento è stata la pagina cercando di mantenere costante la proporzione tra parti iniziali, centrali e finali degli articoli.

Per i libri infine il campionamento è stato di tipo casuale sistematico: per ogni libro sono state prese due pagine a intervalli regolari dopo aver scelto la prima pagina in modo casuale. All'inizio di ogni testo sono stati inseriti codici identificativi di provenienza.

Il corpus di riferimento della lingua italiana scritta di CoLFIS è costituito da 3.798.275 occorrenze.

Il settore quotidiani di 1.836.119 occorrenze è suddiviso ulteriormente in tre testate: Il Corriere Della Sera, Repubblica, La Stampa.  In ogni testata le occorrenze sono suddivise in 9 sottosettori: economia, cronaca locale, cronaca mondana, cronaca nera, politica estera, politica interna, scienza, spettacolo e sport.

Il settore periodici di 1.306.653 occorrenze è suddiviso in 12 sottosettori: altro, arte scienza e tecnica, auto e nautica, bambini e ragazzi, casa e hobby, femminili, fotoromanzi, informazione generale, cronaca mondana, radio e televisione, sport, viaggi e ecologia.

Il settore libri di 655.503 occorrenze è suddiviso in 13 generi letterari: altro, arte, bambini, fantascienza, gialli e spionaggio, hobby e viaggi, narrativa classica, narrativa moderna, rosa, saggistica, scienze naturali e esatte, scienze sociali e umane, teatro e poesia.

I punti di forza di CoLFIS sono:

  • il bilanciamento delle fonti, che conferisce un carattere di non casualità alle rilevazioni numeriche estraibili dall'archivio lessicale; 
  • la sua ampiezza. Se è vero che le tecnologie informatiche hanno reso ormai relativamente agevole l'accesso a larghi corpora testuali, è altrettanto vero che non esistono molti altri esempi, di corpora di queste dimensioni interamente lemmatizzati. 

Le fasi per la realizzazione

Il lavoro di realizzazione di CoLFIS si è articolato in fasi distinte:

  • una prima fase organizzativa con il reperimento, la catalogazione, la strutturazione del materiale inerente al corpus;
  • una seconda fase implementativa rispetto ai testi, ha riguardato infatti la revisione del corpus con correzione dei testi, l’inserimento di identificativi di codifica per ciascun testo, la lemmatizzazione dei testi e la relativa verifica;
  • una terza fase implementativa di strumenti di analisi, si è implementato infatti algoritmi di analisi statistica per ricavare il lessico di frequenza e il formario .
  • una quarta fase implementativa di strumenti per l’estrazione e la visualizzazione dei dati del corpus. In particolare la creazione di strumenti utili all’ interrogazione del lessico di frequenza, del corpus non lemmatizzato, del corpus lemmatizzato .

Di seguito è possibile trovare la documentazione sui:  criteri-corpus-CoLFIS

Link Utili per il Download e per la Consultazione

Il progetto CoLFIS ha dato luogo a:

Le liste lessicali sono attualmente disponibili per il download gratuito anche presso:

http://www.istc.cnr.it/material/database/colfis/

Quest’opera è stata realizzata col finanziamento del CNR (Comitati Nazionali "Scienze e Tecnologie dell'Informazione" e "Scienze Storiche, Filosofiche e Filologiche". Finanziamento: Banca dati lessicale dell'Italiano scritto contemporaneo), che per molto tempo ha svolto una meritoria opera di sostegno alla ricerca italiana. Gli autori contano sulla collaborazione degli utenti per allargare e migliorare il servizio offerto, aumentandone le funzioni e la fruibilità.