Näytetään tekstit, joissa on tunniste kieliteknologia. Näytä kaikki tekstit
Näytetään tekstit, joissa on tunniste kieliteknologia. Näytä kaikki tekstit

20.7.2009

Synonyymit taipuvat myös englanniksi

Microsoft kertoo Office Natural Language Team -blogissaan, että Microsoft Office 2010:een on tulossa taivuttava englannin synonyymisanasto. Kauan siinä menikin! Vastaava suomen synonyymisanasto, josta kirjoitin aiemmin, on ollut mukana Officessa jo 1990-luvulta asti, mutta se taisi olla edellä aikaansa, eikä Microsoft tainnut ominaisuutta silloin liiemmälti hehkuttaakaan.

16.5.2008

Google puhuu suomi

Google Translate lisätään 10 uutta kieltä... ja se on hyvä uutinen millään tavalla sinulle sanoa se.” Jii-haa! Googlen kääntäjä on hauskin konekäännöspalvelu sitten verkosta poistuneen Kielikoneen demon. Täytyy kuitenkin myöntää, että ensikokeilujen perusteella Googlen raakakäännökset ovat yllättävän ymmärrettäviä joillakin asiateksteillä. Toimivatko tilastolliset menetelmät näin hyvin yhdistettyinä Googlen tekstimassoihin?

“But this is the end of the report. And so I am told by the seven brothers of Finland salon, and that no longer share with their lives from day to day and the stages here? It went by peaceful half-height up and rise down to peaceful night's rest many thousands of golden sun kiertoessa.”

1.4.2008

Salamyhkäinen kieliteknologiayritys

Tatu Ylönen opettaa ihmiskieltä koneelle”, kertoo Tietoviikko. Kieliteknologiaeläkeläisen mielestä otsikko on pöhkö, mutta aihe kiinnostava, varsinkin kun Tatu ei paljasta kunnolla aikeitaan. Aavistaako kukaan, mitä tämä uusi yritys aikoo tarkkaan ottaen tehdä?

Tutustuin uutisessa mainittuun New Generation Softwaren NDB-tekstitietokantaan 1990-luvulla, ja se vaikutti silloin teknisesti varsin hyvin mietityltä tuotteelta, vaikkei tainnutkaan sitten muodostua kaupalliseksi jymymenestykseksi.

(Anteeksi, ei aprillipilaa tänä vuonna. Tämä on vakavamielinen blogi.)

3.1.2008

Haaveiletko, unelmoitko, rakennatko pilvilinnoja?

Käyttääköhän kukaan Microsoft Wordin synonyymisanastoa (Word 2003: Työkalut > Kieli > Synonyymisanasto tai Vaihto+F7)? Epäilen sen kuuluvan siihen 80–90 prosenttiin ohjelman ominaisuuksista, joita tavallinen käyttäjä ei ole koskaan hoksannut tai edes kaivannut.

Jos joku kuitenkin eksyy synonyymisanastoon, nykykäyttäjästä tuntuu ehkä itsestään selvältä, että Word (ts. Lingsoftin sanasto) tunnistaa myös suomenkielisten sanojen taivutusmuodot ja osaa listata ehdotuksensa oikeassa muodossa. Tähän tarvitaan kuitenkin kahta kieliteknologian menetelmää: morfologista analyysia (taivutusmuotojen tunnistamista ja perusmuotoon palautusta) ja morfologista generointia (taivutusmuotojen tuottamista). Esimerkiksi sanan haaveiletko synonyymit tuottuvat seuraavasti:
  1. Morfologinen analyysi: Tunnista sana haaveiletko verbin haaveilla aktiivin preesensin yksikön toisen persoonan kysymysmuodoksi.
  2. Hae verbin haaveilla synonyymit, mm. rakentaa pilvilinnoja.
  3. Morfologinen generointi: Tuota ilmauksen rakentaa pilvilinnoja aktiivin preesensin yksikön toisen persoonan kysymysmuoto rakennatko pilvilinnoja.
Taivuttava synonyymisanasto sopii mielestäni myös esimerkiksi kieliteknologiatuotteita toisinaan vaivaavasta ongelmasta: kun tavallinen käyttäjä tutkii tuotetta, hänen on hyvin vaikea ymmärtää, miten paljon työtä sen tekeminen vaatii. Tässäkin tapauksessa itse synonyymisanaston lisäksi tarvitaan suomen kielen sanasto taivutusmalleineen ja ohjelmakoodi analysointia ja generointia pyörittämään. Mikä olisi taivuttavan synonyymisanaston oikea hinta?

8.12.2007

Vekkulia łǿkäłïśóìñтíà Windowsissa


Katselin kotikoneeni suomenkielisen Windows XP:ni tapahtumienvalvontaa ja törmäsin siellä mielenkiintoiseen virheilmoitukseen: ”Ťнé рěя-ύşĕг ƒįłŧęŗ рθбℓ ƒǿř śėŝ§íθл 2 çόυłđ ňοт вє āđðέð <7007,1>.”

Windowsin työpöytähaun ohjelmoijat ovat selvästi käyttäneet vanhaa kikkaa, jossa puuttuva käännös korvataan tilapäisesti vinkuraenglannilla, kun testataan, ettei missään käyttöliittymän osassa ole ”kovakoodattuja” englanninkielisiä tekstejä. Tuskin tämän olisi kuitenkaan pitänyt tuotteeseen asti päätyä.

15.6.2007

Hujambo, bwana!

Entinen työnantajani Lingsoft lisensoi hiljattain swahilin kielen tarkistimen Microsoftille. Tie kaupallistamiseen on ollut pitkä. Osallistuin itsekin hieman tarkistimen alkukehitysvaiheeseen 1990-luvulla, ja silloin se oli vain hauska kuriositeetti kielivalikoimassamme.

Swahilin tarkistimen purkittaminen uskottiin aikoinaan sattumalta saksan tiimimme vastuulle. Vasta jälkeenpäin keksin poliittisesti epäkorrektin selityksen valinnalle: swahilia puhuttiin myös Saksan Itä-Afrikassa.

29.5.2007

Saamen oikeinkirjoituksen tarkistus

Saamen kielen työkaluja kehittävä Divvun-projekti on julkaissut tänään pohjois- ja luulajansaamen oikeinkirjoituksen tarkistimiensa ensimmäiset beetaversiot. Ohjelmat toimivat Microsoft Officen Windows- ja Macintosh-versioissa.

5.4.2007

NEALT: Northern European Association for Language Technology

Pohjois-Euroopan kieliteknologien yhdistys NEALT (Northern European Association for Language Technology) on saanut vihdoin valmiiksi liittymislomakkeensa. Sivut ovat vielä hieman karut, ja Wiki on suunnitteilla ”tammikuuksi 2007”, mutta ehkä tämä poikii vähitellen jotain uutta, mielenkiintoista toimintaa. Jätin jo jäsenhakemukseni.

9.3.2007

Myykää Googlelle yhdyssanojen tunnistus

Väitin Googlen osaavan nykyään suomen kielen taivutusmuodot ja yhdyssanat, mutta ei se sentään yhdyssanoja osaa, ellei niihin ole lisätty tavutusvihjeitä, ja taivutusmuotojen tunnistus on myös aika vaillinainen. Joku voisi nyt myydä Googlelle paremman morfologiakomponentin; firma ei tosin ole aiemmin juurikaan panostanut kieliteknologiaan.

8.3.2007

Google osaa suomen taivutusmuodot

Tajusin juuri, että Google osaa nykyään suomen kielen taivutusmuodot ja yhdyssanat, ainakin jos sitä käyttää suomenkielisillä asetuksilla: jos annan esimerkiksi hakusanan konsultointi, Google löytää mm. sanat konsultoinnista ja kieliteknologiakonsultointia. Milloinhan tämä ominaisuus on lisätty? Näköjään se on ollut käytössä jo ainakin tammikuussa. Olen tainnut itse hakea viime aikoina tietoa enimmäkseen englanninkielisillä hakusanoilla, eikä Google itse ole pitänyt melua parannuksesta, vaikka ”suomalaisen ymmärtäminen” on yksi kilpailevan www.fi:n myyntivalteista.

Kukahan on tehnyt Googlelle morfologiapalikan? Yleensä valmistajan voi tunnistaa jonkin sanastossa olevan pienen erikoisuuden perusteella; pitääpä testailla...

3.2.2007

Tmi Mikko Silvonen

Kaikkea pitää kokeilla ainakin kerran, miksei siis myös yrityksen perustamista: kekseliäästi nimetty konsultointiyritys Tmi Mikko Silvonen on syntynyt. Vielä yksi suomalainen kieliteknologiafirma siis edellisten lisäksi! Kohta yrityksiä on enemmän kuin kieliteknologeja.

Tuskin tästä miljoonabisnestä heti tulee, sivutoiminen harrastus pikemminkin. Tarjotkaapa keikka, niin saan ostettua verkkotunnuksen. :) [No eihän tuo paljon maksanutkaan: www.mikkosilvonen.fi.]

1.2.2007

Suomen kielen sanalista

Kotimaisten kielten tutkimuskeskus on julkaissut LGPL-lisenssillä yli 94 000 tietuetta sisältävän nykysuomen sanalistan, jota voi käyttää tietokoneohjelmien ja suomenkielisten käyttöliittymien kehitystyössä. Lista sisältää myös taivutustiedot, muttei yhdyssanarajoja. (Kiitos vinkistä RW:lle!)

27.1.2007

Kalle Kotipsykiatri

Wikipediaan on ilmestynyt artikkeli Kalle Kotipsykiatrista, Commodore 64:ssä 1980-luvulla toimineesta mainiosta keskusteluohjelmasta. En muistanutkaan, että ohjelman oli kirjoittanut Jyrki J. J. Kasvi.

Ah, nostalgiaa... Olin nimittäin yksi artikkelissa mainituista MikroBitin toimituksen rikkoman Kallen korjaajista. Korjasin muistaakseni ainakin lauseiden muuntamisen minämuotoisista sinämuotoisiksi tyyliin ”Minulla on ongelma.” ”Miksi sanot, että sinulla on ongelma?”, joten tämä oli kaikkien aikojen ensimmäinen kieliteknologiaohjelmointityöni.

11.1.2007

Kieliteknologiaeläkeläinen muistelee: Ruotsalaisen saukon ongelma

Kielipalikoiden tekeminen Microsoftille oli ajoittain rankkaa työtä höyrypäisine pizza-cola-suklaakeksi-vetoisine koodausmaratoneineen ja öisine debuggauskeikkoineen, mutta oli siinä hauskatkin hetkensä (tai oudot, miten sen nyt ottaa).

Vuonna 1996 syntyi Meksikossa pieni skandaali espanjan kielen synonyymisanastosta, joka tarjosi mm. intiaanin synonyymiksi ihmissyöjää. Laineet löivät Suomeen asti, ja mekin jouduimme siivoamaan sanastojamme rasistisista tai muuten rumista sanoista. Periaatteena oli, että oikeinkirjoituksen tarkistin saa hyväksyä ruman sanan, muttei koskaan ehdottaa sellaista. Synonyymisanastossa taas pitää välttää loukkaavia synonyymiehdotuksia. Poliittisesti korrektia tavutusta ei sentään tarvittane. Merkitsimme talkoilla kaikki rumat sanat sanastoihimme ¤-merkillä (jolle oli tietysti keksitty oma painokelvoton nimi).

Vaikein kanto kaskessa olivat yhdyssanat, joissa viattomat osat saattavat muodostaa törkeän yhdistelmän. Koska sanastossamme yhdyssanat muodostettiin yleensä osista, yhdyssanoille piti rakentaa ihan oma sensuurimekanismi. Kohta pyörittelimme Microsoftin suomalaisen tuotepäällikön kanssa listaa, johon yritimme kerätä mahdollisimman monta törkeää yhdyssanaa. Opin pari ihan uuttakin solvausta.

Luulin jo puuhan olevan onnellisesti ohi, kunnes microsoftilaiset huomasivat yhden ruman otuksen päässeen läpi: oikeinkirjoituksen tarkistimen sai yhä ehdottamaan sanaa Per-saukko. Yritin selittää ongelman pois väittämällä, että ruotsalaisessa eläintarhassa voisi hyvin olla saukko nimeltä Per, mutta ei auttanut: Per-saukko piti päästää päiviltä. Ongelma tunnettiin myöhemmin nimellä the Swedish Otter Problem.

9.1.2007

Taas yksi kieliteknologiayritys

Vanhat työkaverini Pasi (Soikko-ohjelman tekijä) ja Eleonoora ovat pystyttäneet oikoluku- ja tavutusohjelmapajan nimeltä Sanalogia. On hämmästyttävää, miten monta kieliteknologiayritystä tämän kokoiseen maahan mahtuu (Lingsoft, Kielikone, Connexor, Master's Innovations...) ja miten päällekkäisiä tuotteita ne ovat usein kehittäneet. Antti Arppen artikkelin Ei yhtä ainoaa polkua mukaan Suomessa on kehitetty neljä suomen kielen lingvististä mallia, mutta Sanalogian ja Voikko-ohjelman käyttämät mallit nostavat luvun jo kuuteen.

25.9.2006

Office Natural Language Team Blog

Microsoft Officen kielipalikoiden tekijät perustivat kesällä blogin nimeltä Office Natural Language Team Blog. Se on mielenkiintoinen kurkistus Microsoftin omaan kieliteknologiatyöhön ja tulevien Office-versioiden ominaisuuksiin, vaikka kieliteknologiaa enemmän harrastaneen mielestä blogin tyylilaji voi olla turhan simppeli.

Microsoftin oman tuotannon lisäksihän Officen kielipalikoita tekevät useat alihankkijat, etunenässä entinen työpaikkani Lingsoft.