Tekoälyn hyödyntämä data, sen laatu ja lähde ovat oleellisia kysymyksiä, jotka nousevat yhä vahvemmin esiin tekoälyratkaisujen penetraation kasvaessa ja vakiintuessa. Tekoälyä kehittäville asiantuntijoille tämä on lähes päivänselvää, mutta ei välttämättä loppukäyttäjille.
Tekoälyn ja opetusdatan symbioosi
Tekoälyn taustalla pyörivien koneoppimisalgoritmien ja ennustemallien kyvykkyys ratkoa haasteita perustuu pitkälti mallien opetuksessa käytettyyn aineistoon ja sen laatuun.”Garbage-in garbage-out”-vertauskuva pitää edelleen hyvin kutinsa, olipa käytössä deep learning -neuroverkko tai klassinen lineaarinen regressiomalli. Ennustemallien ei voi olettaa tuottavan laadukasta informaatiota, jos mallien taustalla oleva data ei ole laadukasta.
Muutama esimerkki:
Olemme opettaneet neuroverkkomallin tunnistamaan sille syötetyistä kuvista, onko kuvassa kissa vai koira. Opetusaineistona on käytetty dataa, jossa on X kappaletta kuvia koirista ja kissoista. Neuroverkkomme luokittelutarkkuus opetusaineiston datalla voi hyvinkin olla lähes 100 %, mutta kun neuroverkolle syötetään sille täysin uusia kuvia, on tarkkuus todennäköisesti jotain aivan muuta. Uusia kissa- ja koirakuvia se todennäköisesti luokittelee edelleen kohtuullisen hyvällä tarkkuudella, mutta mitä tapahtuu, kun syötämme sille kuvan riikinkukosta?
Reaalimaailman esimerkit ongelmasta ovat hyvin räikeitä ja kiusallista pr-näkyvyyttä tuottavia. Kuten paljon julkisuutta saanut Microsoftin rasistinen Tay-chatbot tai Nikonin kameran kuvantunnistusjärjestelmä, joka ihmetteli miksi aasialaista syntyperää oleva kameran käyttäjä tuntui räpäyttelevän silmiään kuvissa (lue lisää esim. tästä).
Esimerkit nostavat esiin oleelliseen seikkaan: tekoälyalgoritmin toiminta on täysin symbioosissa sen datan kanssa, jolla se on opetettu. Jos opetusdata on pahasti vinoutunutta, olemme todennäköisesti ennemmin tai myöhemmin lirissä.
Etnografia avuksi
Jotta vältämme nolot farssit, meidän on oltava tarkkoina datasta, jolla opetamme tekoälyämme. Erään mielenkiintoisen näkökulman tähän tarjoaa etnografia – tiede, joka tutkii kansoja ja kulttuureita. Kontekstissamme kyse voisi olla dataetnografiasta, jonka tehtävänä on esittää esimerkiksi seuraavia kysymyksiä: Miten datasetti on syntynyt? Koska se on syntynyt? Mitä se pitää sisällään? Kuka/mikä taho sen on luonut? Kuka/mikä taho sitä päivittää?
Dataetnografia voi luoda läpinäkyvyyttä siihen, mitä tekoäly meille kertoo. Koska tekoäly on tullut jäädäkseen ja sen rooli yhteiskunnassamme jatkaa kasvuaan, on äärimmäisen tärkeää varmistaa, että loppukäyttäjillä on mahdollisuus perehtyä myös sen rakennuspalikoihin. Kiinnittämällä huomiota aineksiin, joista tekoälymme rakentuu, pystymme paremmin ymmärtämään tekoälyn logiikkaa ja siten myös luottamaan sen tekemiin päätöksiin.
En hämmästelisi, vaikka näkisimme tulevaisuudessa yritysten palkkalistoilla ihmisiä tittelillä dataetnografi. Koska valmista tekoälyteknologiaa ja -ratkaisuja on yhä helpommin saatavilla, ei yksittäisen yrityksen kannata välttämättä valjastaa sen kehittämiseen in-house-resursseja. Sen sijaan dataetnografin kaltainen rooli saattaa jatkossa hyvinkin olla yrityksessä kuin yrityksessä yksi kriittisistä tehtävistä.
Puhummepa jatkossa dataetnografiasta tai emme, oleellista on alkaa kiinnittää systemaattisesti huomiota tekoälyn hyödyntämään dataan ja sen laatuun. Mitä läpinäkyvämmäksi datan teemme, sitä paremmat mahdollisuudet tekoälyllä on oikean kilpailuedun luomiselle.
Mikäli tekoälyn mahdollisuudet kiinnostavat, ota rohkeasti yhteyttä Dagmarin analytiikkayksikköön.
Julkaisemme jatkossa tasaiseen tahtiin lisää blogauksia analytiikkayksikön arjesta ja projekteista. Mikäli et malta odottaa, olet lämpimästi tervetullut tutustumaan yksikköömme Lönnrotinkadulle – tarjolla on kahvia, algoritmien twiikkausta ja taatusti loistavaa juttuseuraa.