Hajahuomioita tuotekehityksen parantamisesta, ohjelmistotuotannosta, lääkintälaitteiden kehittämisestä ja muistakin aiheista vuosina 2006–2015.
Näytetään tekstit, joissa on tunniste kieliteknologia. Näytä kaikki tekstit
Näytetään tekstit, joissa on tunniste kieliteknologia. Näytä kaikki tekstit
20.7.2009
Synonyymit taipuvat myös englanniksi
Microsoft kertoo Office Natural Language Team -blogissaan, että Microsoft Office 2010:een on tulossa taivuttava englannin synonyymisanasto. Kauan siinä menikin! Vastaava suomen synonyymisanasto, josta kirjoitin aiemmin, on ollut mukana Officessa jo 1990-luvulta asti, mutta se taisi olla edellä aikaansa, eikä Microsoft tainnut ominaisuutta silloin liiemmälti hehkuttaakaan.
16.5.2008
Google puhuu suomi
”Google Translate lisätään 10 uutta kieltä... ja se on hyvä uutinen millään tavalla sinulle sanoa se.” Jii-haa! Googlen kääntäjä on hauskin konekäännöspalvelu sitten verkosta poistuneen Kielikoneen demon. Täytyy kuitenkin myöntää, että ensikokeilujen perusteella Googlen raakakäännökset ovat yllättävän ymmärrettäviä joillakin asiateksteillä. Toimivatko tilastolliset menetelmät näin hyvin yhdistettyinä Googlen tekstimassoihin?
“But this is the end of the report. And so I am told by the seven brothers of Finland salon, and that no longer share with their lives from day to day and the stages here? It went by peaceful half-height up and rise down to peaceful night's rest many thousands of golden sun kiertoessa.”
“But this is the end of the report. And so I am told by the seven brothers of Finland salon, and that no longer share with their lives from day to day and the stages here? It went by peaceful half-height up and rise down to peaceful night's rest many thousands of golden sun kiertoessa.”
1.4.2008
Salamyhkäinen kieliteknologiayritys
”Tatu Ylönen opettaa ihmiskieltä koneelle”, kertoo Tietoviikko. Kieliteknologiaeläkeläisen mielestä otsikko on pöhkö, mutta aihe kiinnostava, varsinkin kun Tatu ei paljasta kunnolla aikeitaan. Aavistaako kukaan, mitä tämä uusi yritys aikoo tarkkaan ottaen tehdä?
Tutustuin uutisessa mainittuun New Generation Softwaren NDB-tekstitietokantaan 1990-luvulla, ja se vaikutti silloin teknisesti varsin hyvin mietityltä tuotteelta, vaikkei tainnutkaan sitten muodostua kaupalliseksi jymymenestykseksi.
(Anteeksi, ei aprillipilaa tänä vuonna. Tämä on vakavamielinen blogi.)
Tutustuin uutisessa mainittuun New Generation Softwaren NDB-tekstitietokantaan 1990-luvulla, ja se vaikutti silloin teknisesti varsin hyvin mietityltä tuotteelta, vaikkei tainnutkaan sitten muodostua kaupalliseksi jymymenestykseksi.
(Anteeksi, ei aprillipilaa tänä vuonna. Tämä on vakavamielinen blogi.)
3.1.2008
Haaveiletko, unelmoitko, rakennatko pilvilinnoja?
Jos joku kuitenkin eksyy synonyymisanastoon, nykykäyttäjästä tuntuu ehkä itsestään selvältä, että Word (ts. Lingsoftin sanasto) tunnistaa myös suomenkielisten sanojen taivutusmuodot ja osaa listata ehdotuksensa oikeassa muodossa. Tähän tarvitaan kuitenkin kahta kieliteknologian menetelmää: morfologista analyysia (taivutusmuotojen tunnistamista ja perusmuotoon palautusta) ja morfologista generointia (taivutusmuotojen tuottamista). Esimerkiksi sanan haaveiletko synonyymit tuottuvat seuraavasti:
- Morfologinen analyysi: Tunnista sana haaveiletko verbin haaveilla aktiivin preesensin yksikön toisen persoonan kysymysmuodoksi.
- Hae verbin haaveilla synonyymit, mm. rakentaa pilvilinnoja.
- Morfologinen generointi: Tuota ilmauksen rakentaa pilvilinnoja aktiivin preesensin yksikön toisen persoonan kysymysmuoto rakennatko pilvilinnoja.
8.12.2007
Vekkulia łǿkäłïśóìñтíà Windowsissa
Katselin kotikoneeni suomenkielisen Windows XP:ni tapahtumienvalvontaa ja törmäsin siellä mielenkiintoiseen virheilmoitukseen: ”Ťнé рěя-ύşĕг ƒįłŧęŗ рθбℓ ƒǿř śėŝ§íθл 2 çόυłđ ňοт вє āđðέð <7007,1>.”
Windowsin työpöytähaun ohjelmoijat ovat selvästi käyttäneet vanhaa kikkaa, jossa puuttuva käännös korvataan tilapäisesti vinkuraenglannilla, kun testataan, ettei missään käyttöliittymän osassa ole ”kovakoodattuja” englanninkielisiä tekstejä. Tuskin tämän olisi kuitenkaan pitänyt tuotteeseen asti päätyä.
15.6.2007
Hujambo, bwana!
Entinen työnantajani Lingsoft lisensoi hiljattain swahilin kielen tarkistimen Microsoftille. Tie kaupallistamiseen on ollut pitkä. Osallistuin itsekin hieman tarkistimen alkukehitysvaiheeseen 1990-luvulla, ja silloin se oli vain hauska kuriositeetti kielivalikoimassamme.
Swahilin tarkistimen purkittaminen uskottiin aikoinaan sattumalta saksan tiimimme vastuulle. Vasta jälkeenpäin keksin poliittisesti epäkorrektin selityksen valinnalle: swahilia puhuttiin myös Saksan Itä-Afrikassa.
Swahilin tarkistimen purkittaminen uskottiin aikoinaan sattumalta saksan tiimimme vastuulle. Vasta jälkeenpäin keksin poliittisesti epäkorrektin selityksen valinnalle: swahilia puhuttiin myös Saksan Itä-Afrikassa.
29.5.2007
Saamen oikeinkirjoituksen tarkistus
Saamen kielen työkaluja kehittävä Divvun-projekti on julkaissut tänään pohjois- ja luulajansaamen oikeinkirjoituksen tarkistimiensa ensimmäiset beetaversiot. Ohjelmat toimivat Microsoft Officen Windows- ja Macintosh-versioissa.
5.4.2007
NEALT: Northern European Association for Language Technology
Pohjois-Euroopan kieliteknologien yhdistys NEALT (Northern European Association for Language Technology) on saanut vihdoin valmiiksi liittymislomakkeensa. Sivut ovat vielä hieman karut, ja Wiki on suunnitteilla ”tammikuuksi 2007”, mutta ehkä tämä poikii vähitellen jotain uutta, mielenkiintoista toimintaa. Jätin jo jäsenhakemukseni.
9.3.2007
Myykää Googlelle yhdyssanojen tunnistus
Väitin Googlen osaavan nykyään suomen kielen taivutusmuodot ja yhdyssanat, mutta ei se sentään yhdyssanoja osaa, ellei niihin ole lisätty tavutusvihjeitä, ja taivutusmuotojen tunnistus on myös aika vaillinainen. Joku voisi nyt myydä Googlelle paremman morfologiakomponentin; firma ei tosin ole aiemmin juurikaan panostanut kieliteknologiaan.
8.3.2007
Google osaa suomen taivutusmuodot
Tajusin juuri, että Google osaa nykyään suomen kielen taivutusmuodot ja yhdyssanat, ainakin jos sitä käyttää suomenkielisillä asetuksilla: jos annan esimerkiksi hakusanan konsultointi, Google löytää mm. sanat konsultoinnista ja kieliteknologiakonsultointia. Milloinhan tämä ominaisuus on lisätty? Näköjään se on ollut käytössä jo ainakin tammikuussa. Olen tainnut itse hakea viime aikoina tietoa enimmäkseen englanninkielisillä hakusanoilla, eikä Google itse ole pitänyt melua parannuksesta, vaikka ”suomalaisen ymmärtäminen” on yksi kilpailevan www.fi:n myyntivalteista.
Kukahan on tehnyt Googlelle morfologiapalikan? Yleensä valmistajan voi tunnistaa jonkin sanastossa olevan pienen erikoisuuden perusteella; pitääpä testailla...
Kukahan on tehnyt Googlelle morfologiapalikan? Yleensä valmistajan voi tunnistaa jonkin sanastossa olevan pienen erikoisuuden perusteella; pitääpä testailla...
3.2.2007
Tmi Mikko Silvonen
Kaikkea pitää kokeilla ainakin kerran, miksei siis myös yrityksen perustamista: kekseliäästi nimetty konsultointiyritys Tmi Mikko Silvonen on syntynyt. Vielä yksi suomalainen kieliteknologiafirma siis edellisten lisäksi! Kohta yrityksiä on enemmän kuin kieliteknologeja.
Tuskin tästä miljoonabisnestä heti tulee, sivutoiminen harrastus pikemminkin. Tarjotkaapa keikka, niin saan ostettua verkkotunnuksen. :) [No eihän tuo paljon maksanutkaan: www.mikkosilvonen.fi.]
Tuskin tästä miljoonabisnestä heti tulee, sivutoiminen harrastus pikemminkin. Tarjotkaapa keikka, niin saan ostettua verkkotunnuksen. :) [No eihän tuo paljon maksanutkaan: www.mikkosilvonen.fi.]
1.2.2007
Suomen kielen sanalista
Kotimaisten kielten tutkimuskeskus on julkaissut LGPL-lisenssillä yli 94 000 tietuetta sisältävän nykysuomen sanalistan, jota voi käyttää tietokoneohjelmien ja suomenkielisten käyttöliittymien kehitystyössä. Lista sisältää myös taivutustiedot, muttei yhdyssanarajoja. (Kiitos vinkistä RW:lle!)
27.1.2007
Kalle Kotipsykiatri
Wikipediaan on ilmestynyt artikkeli Kalle Kotipsykiatrista, Commodore 64:ssä 1980-luvulla toimineesta mainiosta keskusteluohjelmasta. En muistanutkaan, että ohjelman oli kirjoittanut Jyrki J. J. Kasvi.
Ah, nostalgiaa... Olin nimittäin yksi artikkelissa mainituista MikroBitin toimituksen rikkoman Kallen korjaajista. Korjasin muistaakseni ainakin lauseiden muuntamisen minämuotoisista sinämuotoisiksi tyyliin ”Minulla on ongelma.” ”Miksi sanot, että sinulla on ongelma?”, joten tämä oli kaikkien aikojen ensimmäinen kieliteknologiaohjelmointityöni.
Ah, nostalgiaa... Olin nimittäin yksi artikkelissa mainituista MikroBitin toimituksen rikkoman Kallen korjaajista. Korjasin muistaakseni ainakin lauseiden muuntamisen minämuotoisista sinämuotoisiksi tyyliin ”Minulla on ongelma.” ”Miksi sanot, että sinulla on ongelma?”, joten tämä oli kaikkien aikojen ensimmäinen kieliteknologiaohjelmointityöni.
11.1.2007
Kieliteknologiaeläkeläinen muistelee: Ruotsalaisen saukon ongelma
Kielipalikoiden tekeminen Microsoftille oli ajoittain rankkaa työtä höyrypäisine pizza-cola-suklaakeksi-vetoisine koodausmaratoneineen ja öisine debuggauskeikkoineen, mutta oli siinä hauskatkin hetkensä (tai oudot, miten sen nyt ottaa).
Vuonna 1996 syntyi Meksikossa pieni skandaali espanjan kielen synonyymisanastosta, joka tarjosi mm. intiaanin synonyymiksi ihmissyöjää. Laineet löivät Suomeen asti, ja mekin jouduimme siivoamaan sanastojamme rasistisista tai muuten rumista sanoista. Periaatteena oli, että oikeinkirjoituksen tarkistin saa hyväksyä ruman sanan, muttei koskaan ehdottaa sellaista. Synonyymisanastossa taas pitää välttää loukkaavia synonyymiehdotuksia. Poliittisesti korrektia tavutusta ei sentään tarvittane. Merkitsimme talkoilla kaikki rumat sanat sanastoihimme ¤-merkillä (jolle oli tietysti keksitty oma painokelvoton nimi).
Vaikein kanto kaskessa olivat yhdyssanat, joissa viattomat osat saattavat muodostaa törkeän yhdistelmän. Koska sanastossamme yhdyssanat muodostettiin yleensä osista, yhdyssanoille piti rakentaa ihan oma sensuurimekanismi. Kohta pyörittelimme Microsoftin suomalaisen tuotepäällikön kanssa listaa, johon yritimme kerätä mahdollisimman monta törkeää yhdyssanaa. Opin pari ihan uuttakin solvausta.
Luulin jo puuhan olevan onnellisesti ohi, kunnes microsoftilaiset huomasivat yhden ruman otuksen päässeen läpi: oikeinkirjoituksen tarkistimen sai yhä ehdottamaan sanaa Per-saukko. Yritin selittää ongelman pois väittämällä, että ruotsalaisessa eläintarhassa voisi hyvin olla saukko nimeltä Per, mutta ei auttanut: Per-saukko piti päästää päiviltä. Ongelma tunnettiin myöhemmin nimellä the Swedish Otter Problem.
Vuonna 1996 syntyi Meksikossa pieni skandaali espanjan kielen synonyymisanastosta, joka tarjosi mm. intiaanin synonyymiksi ihmissyöjää. Laineet löivät Suomeen asti, ja mekin jouduimme siivoamaan sanastojamme rasistisista tai muuten rumista sanoista. Periaatteena oli, että oikeinkirjoituksen tarkistin saa hyväksyä ruman sanan, muttei koskaan ehdottaa sellaista. Synonyymisanastossa taas pitää välttää loukkaavia synonyymiehdotuksia. Poliittisesti korrektia tavutusta ei sentään tarvittane. Merkitsimme talkoilla kaikki rumat sanat sanastoihimme ¤-merkillä (jolle oli tietysti keksitty oma painokelvoton nimi).
Vaikein kanto kaskessa olivat yhdyssanat, joissa viattomat osat saattavat muodostaa törkeän yhdistelmän. Koska sanastossamme yhdyssanat muodostettiin yleensä osista, yhdyssanoille piti rakentaa ihan oma sensuurimekanismi. Kohta pyörittelimme Microsoftin suomalaisen tuotepäällikön kanssa listaa, johon yritimme kerätä mahdollisimman monta törkeää yhdyssanaa. Opin pari ihan uuttakin solvausta.
Luulin jo puuhan olevan onnellisesti ohi, kunnes microsoftilaiset huomasivat yhden ruman otuksen päässeen läpi: oikeinkirjoituksen tarkistimen sai yhä ehdottamaan sanaa Per-saukko. Yritin selittää ongelman pois väittämällä, että ruotsalaisessa eläintarhassa voisi hyvin olla saukko nimeltä Per, mutta ei auttanut: Per-saukko piti päästää päiviltä. Ongelma tunnettiin myöhemmin nimellä the Swedish Otter Problem.
9.1.2007
Taas yksi kieliteknologiayritys
Vanhat työkaverini Pasi (Soikko-ohjelman tekijä) ja Eleonoora ovat pystyttäneet oikoluku- ja tavutusohjelmapajan nimeltä Sanalogia. On hämmästyttävää, miten monta kieliteknologiayritystä tämän kokoiseen maahan mahtuu (Lingsoft, Kielikone, Connexor, Master's Innovations...) ja miten päällekkäisiä tuotteita ne ovat usein kehittäneet. Antti Arppen artikkelin Ei yhtä ainoaa polkua mukaan Suomessa on kehitetty neljä suomen kielen lingvististä mallia, mutta Sanalogian ja Voikko-ohjelman käyttämät mallit nostavat luvun jo kuuteen.
25.9.2006
Office Natural Language Team Blog
Microsoft Officen kielipalikoiden tekijät perustivat kesällä blogin nimeltä Office Natural Language Team Blog. Se on mielenkiintoinen kurkistus Microsoftin omaan kieliteknologiatyöhön ja tulevien Office-versioiden ominaisuuksiin, vaikka kieliteknologiaa enemmän harrastaneen mielestä blogin tyylilaji voi olla turhan simppeli.
Microsoftin oman tuotannon lisäksihän Officen kielipalikoita tekevät useat alihankkijat, etunenässä entinen työpaikkani Lingsoft.
Microsoftin oman tuotannon lisäksihän Officen kielipalikoita tekevät useat alihankkijat, etunenässä entinen työpaikkani Lingsoft.
Tilaa:
Blogitekstit (Atom)