Tuesday, October 6, 2009

Lista di parole italiane

In Linux, una volta installato il pacchetto aspell e il dizionario italiano aspell-it, ecco come ottenere una wordlist con tutte le parole, le forme verbali, i superlativi, etc (tecnicamente, nel gergo di aspell si dice "espansione dei flag degli affissi"). Si tratta di una lunga pipe, di cui spiego a lato la funzione dei vari pezzi
$ aspell -l it dump master | dump di tutto il dizionario di base
aspell -l it expand | espansione dei flag degli affissi
sed "s/[^ ]*'[^ ]* *//gi" | eliminazione delle forme elise (es. d'amore, bell'uomo, etc)
tr ' ' '\n' | per avere una parola per linea
sed '/^$/d' | eliminazione delle righe vuote
sort -fu >italian.wordlist ordinamento case insensitive, eliminazione duplicati e salvataggio in un file
Il risultato è un file di testo di circa 25 Mbytes, contenente poco meno di un milione e novecentomila parole!

Fate attenzione che gli autori hanno inserito una parola di 50 caratteri, la più lunga: CopyrightGianlucaTurconiDavidePrinaLicenzeLGPLoGPL. Se volete eliminarla, usate nella pipe un grep -v, ma ricordate che la licenza è la GPL!

Notate che vi sono anche molti numeri in lettere. Tolta quella di prima la parola più lunga è di 39 lettere e corrisponde ad un numero: quattromilaquattrocentocinquantaquattro.

No comments: