Shine it all around!

This blog contains some information, links, thoughts etc needed for my PhD research (the language of Internet communicaton)

Sõnastik 8 veebruar, 2008

Filed under: korpus — Anni @ 4:46 p.l.

Idee:

- sotsiolingvistilist infot sisaldav sõnastik

- genereeritakse automaatselt korpuse põhjal

- esialgu sõnavormide põhine, pärast vaatab, kas tasub algvormidele taandada või mitte

- sisaldab: sõnavorm, kasutusnäited korpusest, sotsiolgv kasutusinfo: mehed-naised, vanus, levik, kasutajate keeleoskus, võib-olla mingi kombineeritud graafik: ajajoon pluss vanus pluss sugu pluss veel midagi

- kui lemmatiseerijale lisareegleid kirjutada, võib üritada ka analüüsi

- sõnavormid ka käsitsi üle vaadata, sagedusjärjestus ja sealt ülevalt alla

- mida teha variatsioonidega a la nummi-nummmi?

- kord kuus (vm intervalliga) uuendatakse korpuse põhjal. Korpust omakorda uuendatakse kord kuus – kui korpuseuuendus lõpeb, algab sõnastiku-uuendus. Seda intervalli peab natuke jälgima ja mingi mõistliku variandi välja töötama

- lõbu laialt nii endal kui teistel keeleuurijatel :)

- ja kui seda mingil põhjusel ei õnnestu lõpuni realiseerida, on ka need põhjused oluline tulemus

- morf. tasandi & ortograafia saab samuti jooksvalt sealt kätte

- ja kui see kõik töötab ja veel midagi teha tahaks, saab alati neile sõnadele kõiksugu automaatanalüüse tegema hakata

 

Lisa kommentaar

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Muuda )

Twitter picture

You are commenting using your Twitter account. Log Out / Muuda )

Facebook photo

You are commenting using your Facebook account. Log Out / Muuda )

Connecting to %s

 
Follow

Get every new post delivered to your Inbox.