Idee:
- sotsiolingvistilist infot sisaldav sõnastik
- genereeritakse automaatselt korpuse põhjal
- esialgu sõnavormide põhine, pärast vaatab, kas tasub algvormidele taandada või mitte
- sisaldab: sõnavorm, kasutusnäited korpusest, sotsiolgv kasutusinfo: mehed-naised, vanus, levik, kasutajate keeleoskus, võib-olla mingi kombineeritud graafik: ajajoon pluss vanus pluss sugu pluss veel midagi
- kui lemmatiseerijale lisareegleid kirjutada, võib üritada ka analüüsi
- sõnavormid ka käsitsi üle vaadata, sagedusjärjestus ja sealt ülevalt alla
- mida teha variatsioonidega a la nummi-nummmi?
- kord kuus (vm intervalliga) uuendatakse korpuse põhjal. Korpust omakorda uuendatakse kord kuus – kui korpuseuuendus lõpeb, algab sõnastiku-uuendus. Seda intervalli peab natuke jälgima ja mingi mõistliku variandi välja töötama
- lõbu laialt nii endal kui teistel keeleuurijatel
- ja kui seda mingil põhjusel ei õnnestu lõpuni realiseerida, on ka need põhjused oluline tulemus
- morf. tasandi & ortograafia saab samuti jooksvalt sealt kätte
- ja kui see kõik töötab ja veel midagi teha tahaks, saab alati neile sõnadele kõiksugu automaatanalüüse tegema hakata