”Google Translate lisätään 10 uutta kieltä... ja se on hyvä uutinen millään tavalla sinulle sanoa se.” Jii-haa! Googlen kääntäjä on hauskin konekäännöspalvelu sitten verkosta poistuneen Kielikoneen demon. Täytyy kuitenkin myöntää, että ensikokeilujen perusteella Googlen raakakäännökset ovat yllättävän ymmärrettäviä joillakin asiateksteillä. Toimivatko tilastolliset menetelmät näin hyvin yhdistettyinä Googlen tekstimassoihin?
“But this is the end of the report. And so I am told by the seven brothers of Finland salon, and that no longer share with their lives from day to day and the stages here? It went by peaceful half-height up and rise down to peaceful night's rest many thousands of golden sun kiertoessa.”
Hajahuomioita tuotekehityksen parantamisesta, ohjelmistotuotannosta, lääkintälaitteiden kehittämisestä ja muistakin aiheista vuosina 2006–2015.
Näytetään tekstit, joissa on tunniste suomen kieli. Näytä kaikki tekstit
Näytetään tekstit, joissa on tunniste suomen kieli. Näytä kaikki tekstit
16.5.2008
3.1.2008
Haaveiletko, unelmoitko, rakennatko pilvilinnoja?
Jos joku kuitenkin eksyy synonyymisanastoon, nykykäyttäjästä tuntuu ehkä itsestään selvältä, että Word (ts. Lingsoftin sanasto) tunnistaa myös suomenkielisten sanojen taivutusmuodot ja osaa listata ehdotuksensa oikeassa muodossa. Tähän tarvitaan kuitenkin kahta kieliteknologian menetelmää: morfologista analyysia (taivutusmuotojen tunnistamista ja perusmuotoon palautusta) ja morfologista generointia (taivutusmuotojen tuottamista). Esimerkiksi sanan haaveiletko synonyymit tuottuvat seuraavasti:
- Morfologinen analyysi: Tunnista sana haaveiletko verbin haaveilla aktiivin preesensin yksikön toisen persoonan kysymysmuodoksi.
- Hae verbin haaveilla synonyymit, mm. rakentaa pilvilinnoja.
- Morfologinen generointi: Tuota ilmauksen rakentaa pilvilinnoja aktiivin preesensin yksikön toisen persoonan kysymysmuoto rakennatko pilvilinnoja.
9.3.2007
Hirviömäistä suomea
Kun ”maailman johtava Internet-rekrytointipalvelu” suomennetaan nopeasti ja halvalla, syntyy outoa jälkeä. En ole vieläkään jaksanut selvittää Monster.fi:n toimialaluokituksen mysteerejä: Onko ohjelmistokehitys tietotekniikkaa vai ”IT:tä”, vai tarkoittaako IT jotain uusmediahöhää kuten suomalaisen lehdistön jutuissa? ”Eläinlääkäri palvelut”, ”tietokone palvelut” ja ”ympäristö palvelut” ovat jo jotenkin hellyttäviä. Kai tässä luokituksessa on ollut järkeä amerikaksi, mutta järki on kadonnut lappeen Rannan Käännös Toimiston käsittelyssä.
En lupaa jättää ilmoitusta, jos Monsterin kieli korjataan vähemmän hirviömäiseksi, mutta ainakin lupaan harkita...
En lupaa jättää ilmoitusta, jos Monsterin kieli korjataan vähemmän hirviömäiseksi, mutta ainakin lupaan harkita...
Myykää Googlelle yhdyssanojen tunnistus
Väitin Googlen osaavan nykyään suomen kielen taivutusmuodot ja yhdyssanat, mutta ei se sentään yhdyssanoja osaa, ellei niihin ole lisätty tavutusvihjeitä, ja taivutusmuotojen tunnistus on myös aika vaillinainen. Joku voisi nyt myydä Googlelle paremman morfologiakomponentin; firma ei tosin ole aiemmin juurikaan panostanut kieliteknologiaan.
8.3.2007
Google osaa suomen taivutusmuodot
Tajusin juuri, että Google osaa nykyään suomen kielen taivutusmuodot ja yhdyssanat, ainakin jos sitä käyttää suomenkielisillä asetuksilla: jos annan esimerkiksi hakusanan konsultointi, Google löytää mm. sanat konsultoinnista ja kieliteknologiakonsultointia. Milloinhan tämä ominaisuus on lisätty? Näköjään se on ollut käytössä jo ainakin tammikuussa. Olen tainnut itse hakea viime aikoina tietoa enimmäkseen englanninkielisillä hakusanoilla, eikä Google itse ole pitänyt melua parannuksesta, vaikka ”suomalaisen ymmärtäminen” on yksi kilpailevan www.fi:n myyntivalteista.
Kukahan on tehnyt Googlelle morfologiapalikan? Yleensä valmistajan voi tunnistaa jonkin sanastossa olevan pienen erikoisuuden perusteella; pitääpä testailla...
Kukahan on tehnyt Googlelle morfologiapalikan? Yleensä valmistajan voi tunnistaa jonkin sanastossa olevan pienen erikoisuuden perusteella; pitääpä testailla...
1.2.2007
Suomen kielen sanalista
Kotimaisten kielten tutkimuskeskus on julkaissut LGPL-lisenssillä yli 94 000 tietuetta sisältävän nykysuomen sanalistan, jota voi käyttää tietokoneohjelmien ja suomenkielisten käyttöliittymien kehitystyössä. Lista sisältää myös taivutustiedot, muttei yhdyssanarajoja. (Kiitos vinkistä RW:lle!)
11.1.2007
Kieliteknologiaeläkeläinen muistelee: Ruotsalaisen saukon ongelma
Kielipalikoiden tekeminen Microsoftille oli ajoittain rankkaa työtä höyrypäisine pizza-cola-suklaakeksi-vetoisine koodausmaratoneineen ja öisine debuggauskeikkoineen, mutta oli siinä hauskatkin hetkensä (tai oudot, miten sen nyt ottaa).
Vuonna 1996 syntyi Meksikossa pieni skandaali espanjan kielen synonyymisanastosta, joka tarjosi mm. intiaanin synonyymiksi ihmissyöjää. Laineet löivät Suomeen asti, ja mekin jouduimme siivoamaan sanastojamme rasistisista tai muuten rumista sanoista. Periaatteena oli, että oikeinkirjoituksen tarkistin saa hyväksyä ruman sanan, muttei koskaan ehdottaa sellaista. Synonyymisanastossa taas pitää välttää loukkaavia synonyymiehdotuksia. Poliittisesti korrektia tavutusta ei sentään tarvittane. Merkitsimme talkoilla kaikki rumat sanat sanastoihimme ¤-merkillä (jolle oli tietysti keksitty oma painokelvoton nimi).
Vaikein kanto kaskessa olivat yhdyssanat, joissa viattomat osat saattavat muodostaa törkeän yhdistelmän. Koska sanastossamme yhdyssanat muodostettiin yleensä osista, yhdyssanoille piti rakentaa ihan oma sensuurimekanismi. Kohta pyörittelimme Microsoftin suomalaisen tuotepäällikön kanssa listaa, johon yritimme kerätä mahdollisimman monta törkeää yhdyssanaa. Opin pari ihan uuttakin solvausta.
Luulin jo puuhan olevan onnellisesti ohi, kunnes microsoftilaiset huomasivat yhden ruman otuksen päässeen läpi: oikeinkirjoituksen tarkistimen sai yhä ehdottamaan sanaa Per-saukko. Yritin selittää ongelman pois väittämällä, että ruotsalaisessa eläintarhassa voisi hyvin olla saukko nimeltä Per, mutta ei auttanut: Per-saukko piti päästää päiviltä. Ongelma tunnettiin myöhemmin nimellä the Swedish Otter Problem.
Vuonna 1996 syntyi Meksikossa pieni skandaali espanjan kielen synonyymisanastosta, joka tarjosi mm. intiaanin synonyymiksi ihmissyöjää. Laineet löivät Suomeen asti, ja mekin jouduimme siivoamaan sanastojamme rasistisista tai muuten rumista sanoista. Periaatteena oli, että oikeinkirjoituksen tarkistin saa hyväksyä ruman sanan, muttei koskaan ehdottaa sellaista. Synonyymisanastossa taas pitää välttää loukkaavia synonyymiehdotuksia. Poliittisesti korrektia tavutusta ei sentään tarvittane. Merkitsimme talkoilla kaikki rumat sanat sanastoihimme ¤-merkillä (jolle oli tietysti keksitty oma painokelvoton nimi).
Vaikein kanto kaskessa olivat yhdyssanat, joissa viattomat osat saattavat muodostaa törkeän yhdistelmän. Koska sanastossamme yhdyssanat muodostettiin yleensä osista, yhdyssanoille piti rakentaa ihan oma sensuurimekanismi. Kohta pyörittelimme Microsoftin suomalaisen tuotepäällikön kanssa listaa, johon yritimme kerätä mahdollisimman monta törkeää yhdyssanaa. Opin pari ihan uuttakin solvausta.
Luulin jo puuhan olevan onnellisesti ohi, kunnes microsoftilaiset huomasivat yhden ruman otuksen päässeen läpi: oikeinkirjoituksen tarkistimen sai yhä ehdottamaan sanaa Per-saukko. Yritin selittää ongelman pois väittämällä, että ruotsalaisessa eläintarhassa voisi hyvin olla saukko nimeltä Per, mutta ei auttanut: Per-saukko piti päästää päiviltä. Ongelma tunnettiin myöhemmin nimellä the Swedish Otter Problem.
Tilaa:
Blogitekstit (Atom)