Tilaa lehti

Mainokset

FAULHABER GROUP

LASER2025

Tehokkaampaa tuotantoa ääniohjauksella

Yhteistyörobotiikka ja ihmisen ja robotin välinen yhteistyö herättävät kasvavaa kiinnostusta teollisuuden siirtyessä EU:ssa ja muuallakin massatuotannosta mukautuviin tilaustuotteisiin. Yhä monimutkaisemmat kokoamistehtävät eivät ole täysin automatisoitavissa, mutta myöskään täysin ihmisiin nojaava tuotanto ei ole taloudellisesti järkevää. Huomisen teollisuuden mahdollistamiseksi tarvitaan älykkäämpää yhteistyötä ihmisten ja robottien välillä.

Julkaistu:

Kommunikaatio ja vuorovaikutus ihmisen ja robotin välillä on keskeistä, jotta sekä ihmisen että robotin ominaisuuksia kyetään hyödyntämään parhaalla mahdollisella tavalla yhteistyötehtävissä. Yksi houkutteleva tapa parantaa yhteistyötä on ääniohjaus. Kaikista kommunikaation muodoista puhe on valtaosalle ihmisistä ehkä se kaikkein luonnollisin, ja lisäksi se vapauttaa käyttäjän kädet muihin työtehtäviin. Nykyisellään ääniohjausteknologia on kuitenkin teollisuudessa vielä harvinaista. Tampereen yliopiston JARVIS projektissa on hiljattain toteutettu kaksi diplomityötä, jotka pyrkivät löytämään uusia tapoja puheohjauksen hyödyntämiseen.

Kommunikointia molempiin suuntiin teollisessa kokoonpanotehtävässä

Ensimmäisessä diplomitöistä keskityttiin robotin puheohjaukseen ja laajemminkin ihmisen ja robotin väliseen yhteistyöhön puheella teollisessa kokoonpanotehtävässä. Työssä esitellään yhteistyörobottisovelluksen toteutus, jossa yhdistyvät puheentunnistus, TTS-toiminto (Text-to-speech), kappaleentunnistus sekä robotin ohjaus. Kappaleentunnistustoiminnon avulla robotti paikoittaa ja tunnistaa kappaleet, kun taas puheominaisuudet mahdollistavat kommunikoinnin robotilta ihmiselle ja ihmiseltä robotille. Sekä robotin ohjaus että järjestelmän eri osien välinen kommunikaatio on toteutettu ROS:lla (Robot Operating System), mikä mahdollistaa robottivalmistajasta riippumattoman toteutuksen. Puheominaisuudet toteutettiin tässä tapauksessa erilaisiin ääneen perustuviin käyttöliittymiin erikoistuneen suomalaisyritys Creoirin EdgeVUI-työkalun avulla.

Toteutettua järjestelmää testattiin erilaisissa kokoonpanoon liittyvissä tehtävissä. Tavallisten poiminta-, paikoitus- ja kappaleiden ojennustoimintojen lisäksi esiteltiin esimerkiksi ominaisuudet laaduntarkistukseen, dialogiin ja robotin ihmiselle antamiin ohjeisiin liittyen. Nämä osoittivat puheen hyödyllisyyden kommunikointitapana erilaisissa kokoonpanotehtävissä.

Kielimalliin perustuvan ääniohjauksen toiminta.

Kohti luonnollisempaa ääniohjausta tekoälyn avulla

Valmiin kaupallisen työkalun hyödyntämisessä ja puheominaisuuksien toteuttamisessa hieman perinteisemmällä tavalla oli omat vahvuutensa, kuten korkea toimintavarmuus ja verrattain pieni viive, mutta toisaalta komentojen tuli olla melko tarkasti ennalta määritettyjä. Jos puheohjausta haluttaisiin laajentaa muodollisesti avoimempaan suuntaan, tarvitaan teknologioita luonnollisen kielen ymmärtämiseen.

Yksi kiinnostava lähestymistapa löytyy viime vuosina räjähdysmäisesti yleistyneiden tekoälysovellusten, kuten ChatGPT:n taustalta. Nämä palvelut perustuvat suuriin kielimalleihin, joiden perusperiaate on ennustaa, miten niille annetun syötteen tulisi jatkua. Luonnollisen kielen lisäksi nämä mallit toimivat myös ohjelmointikielillä, mikä mahdollistaa niiden käyttämisen rajapintana puhekomentojen ja robotin välillä.

Toisessa Tampereen yliopistossa toteutetussa diplomityössä tutkittiin tätä mahdollisuutta, hyödyntäen StarCoder2-kielimallia ja puhetta tekstiksi muuntavaa Whisper-mallia. Järjestelmän toimintaperiaate perustuu Robotics at Googlen julkaisemaan Code as Policies -konseptiin, jossa kielimallille syötetään esimerkkejä robottikoodista, ja lopuksi äänikomento muotoiltuna kommentiksi. Malli pyrkii jatkamaan syötettä kirjoittamalla koodia, joka toteuttaa kommentin käskyn.

Malli voi myös hyödyntää käyttäjän tai jopa itsensä kirjoittamaa koodia, kuten valmiita funktioita, jos niiden käyttö on esitelty syötteen esimerkeissä. Tätä mahdollisuutta hyödyntäen toteutettiin “taitopankki”, johon käyttäjä voi itse ohjelmoida uusia taitoja, tai luoda niitä antamalla puhekomentoja robotille ja tallentamalla tulokset.

Lopputuloksena on järjestelmä, joka ymmärtää monipuolisia puhekomentoja ilman tarkkaa syntaksia, kunhan käsky on mahdollista toteuttaa esimerkeistä löytyvien perustoimintojen ja taitopankista löytyvien taitojen puitteissa. Lisäksi mallin luoman koodin tallentaminen taitoina luo mahdollisuuden opettaa järjestelmää tarpeen mukaan.