Corpus e Lessico di Frequenza dell'Italiano Scritto ( CoLFIS )
Pier Marco Bertinetto°, Cristina Burani*, Alessandro Laudanna^*, Lucia Marconi+, Daniela Ratti+, Claudia Rolando+, e Anna Maria Thornton§
° Scuola Normale Superiore, Pisa * Istituto di Scienze e Tecnologie della Cognizione, CNR, Roma ^ Università di Salerno + Istituto di Linguistica Computazionale, Unità Staccata di Genova, CNR, Genova § Università de L'Aquila
Il corpus di riferimento è costituito da testi tratti da quotidiani del periodo 1992 - 1994 ('La Repubblica', 'La Stampa', 'Il Corriere della Sera'), periodici e libri, considerando tra i libri quelli letti per motivi scolastici o professionali. Consta di 3.798.275 ricorrenze lessicali, così ripartite:
quotidiani 1.836.119
periodici 1.306.653
libri 655.503
Nel campionare i testi, gli autori hanno ponderato i dati dell' ISTAT relativi alle letture preferite dagli italiani, per ottenere un corpus che fosse il più possibile rappresentativo di ciò che gli italiani effettivamente leggono.
Quest'opera è stata realizzata col finanziamento del CNR (Comitati Nazionali "Scienze e Tecnologie dell'Informazione" e "Scienze Storiche, Filosofiche e Filologiche". Finanziamento: Banca dati lessicale dell'Italiano scritto contemporaneo), che per molto tempo ha svolto una meritoria opera di sostegno alla ricerca italiana. Gli autori contano sulla collaborazione degli utenti per allargare e migliorare il servizio offerto, aumentandone le funzioni e la fruibilità.
Corpus e Lessico di Frequenza dell'Italiano Scritto ( CoLFIS )
Pier Marco Bertinetto°, Cristina Burani*, Alessandro Laudanna^*, Lucia Marconi+, Daniela Ratti+, Claudia Rolando+, e Anna Maria Thornton§
° Scuola Normale Superiore, Pisa * Istituto di Scienze e Tecnologie della Cognizione, CNR, Roma ^ Università di Salerno + Istituto di Linguistica Computazionale, Unità Staccata di Genova, CNR, Genova § Università de L'Aquila
Il corpus di riferimento è costituito da testi tratti da quotidiani del periodo 1992 - 1994 ('La Repubblica', 'La Stampa', 'Il Corriere della Sera'), periodici e libri, considerando tra i libri quelli letti per motivi scolastici o professionali. Consta di 3.798.275 ricorrenze lessicali, così ripartite:
quotidiani 1.836.119
periodici 1.306.653
libri 655.503
Nel campionare i testi, gli autori hanno ponderato i dati dell' ISTAT relativi alle letture preferite dagli italiani, per ottenere un corpus che fosse il più possibile rappresentativo di ciò che gli italiani effettivamente leggono.
Quest'opera è stata realizzata col finanziamento del CNR (Comitati Nazionali "Scienze e Tecnologie dell'Informazione" e "Scienze Storiche, Filosofiche e Filologiche". Finanziamento: Banca dati lessicale dell'Italiano scritto contemporaneo), che per molto tempo ha svolto una meritoria opera di sostegno alla ricerca italiana. Gli autori contano sulla collaborazione degli utenti per allargare e migliorare il servizio offerto, aumentandone le funzioni e la fruibilità.