La lemmatizzazione 


Criteri di lemmatizzazione


La lemmatizzazione, ovvero l’operazione di ricondurre ogni parola di un testo alla forma base o entrata di dizionario è un’operazione lunga e cmplessa sia perché attualmente ancora non si dispone di lemmatizzatori automatici totalmente efficienti sia perchè i criteri di lemmatizzazione scelti non sempre prevedono la complessità dei fenomeni di una lingua.
I criteri che vengono scelti sono lo specchio della grammatica a cui ciascuno di noi fa riferimento, sono norme a cui ci si attiene per portare a termine l’operazione. Le norme da noi scelte riflettono le convinzioni a cui è giunto, anche dopo accese discussioni, il gruppo di persone che ha lavorato al progetto del corpus; nel dichiararle esplicitamente pensiamo di poter mettere chiunque in condizione di usufruire del nostro lavoro nonostante i limiti imposti da tali convinzioni.
II corpus è stato lemmatizzato automaticamente con un lemmatizzatore gentilmente messo a disposizione gratuitamente dalla IBM Italia, attraverso la persona dell'Ing. Federico Mancini, poiché all’ epoca non si disponeva di un analizzatore di testi. Si tratta dello stesso lemmatizzatore che è stato utilizzato per la lemmatizzazione del corpus di parlato utilizzato per la produzione del LIP (De Mauro, Mancini, Vedovelli, Voghera 1994) a cui spesso si fa ovviamente riferimento. Il lemmatizzatore (descritto da Federico Mancini nel capitolo 4 del LIP) quindi ha operato seguendo le norme di lemmatizzazione esposte da Miriam Voghera nel capitolo 5.2 (pp. 89-96) del LIP.
Nel nostro gruppo di ricerca, non sempre ci siamo trovati concordi sulle scelte di lemmatizzazione insite nel LIP ma non abbiamo potuto modificare le opzioni che non ci soddisfacevano, perché l'IBM ci ha fornito solo gli eseguibili e non la fonte dei programmi.
E' stato però possibile apportare alcuni cambiamenti con procedure che hanno agito automaticamente e manualmente sull'output del lemmatizzatore. I principali cambiamenti operati sono stati tre:
1) unificare in un' unica categoria chiamata nomi propri tutte le forme che il lemmatizzatore classifica con i codici D, E, F, L. Questa scelta è stata operata per considerazioni teoriche e pratiche; in particolare, in queste categorie il lemmatizzatore dava luogo a frequenti errori di classificazione, per esempio categorizzando i nomi propri di persona come cognomi e viceversa; il raggruppamento di tutti i nomi propri sotto un unico codice ha permesso di ridurre gli interventi di correzione manuale necessari.
2)sostituire i codici A e O (abbreviazioni e esotismi) con il codice S (sostantivi). Essere un'abbreviazione o un esotismo è una proprietà di natura diversa da quella di appartenere a una determinata categoria grammaticale, inoltre le parole classificate come abbreviazioni ed esotismi sono quasi tutte funzionalmente dei sostantivi. Anche questa operazione ha permesso di ridurre la quantità di interventi di correzione manuale necessari.
3) trattare le polirematiche al cui interno occorrono altri elementi.

A ciascuna parola o occorrenza è stato associato un codice che la assegna alla classe grammaticale di appartenenza. I codici da noi usati per le diverse categorie grammaticali sono i seguenti:
Gli errori di stampa sono stati corretti.