Belangrijkste afhaalrestaurants
- De dag nadert snel dat je door de computer gegenereerde spraak niet van echt kunt onderscheiden.
- Google heeft onlangs LaMDA onthuld, een model dat natuurlijkere gesprekken mogelijk maakt.
- Het produceren van menselijke spraak kost ook enorm veel verwerkingskracht.
Op dit moment is het gemakkelijk te zien wanneer je tegen een computer praat, maar dat kan snel veranderen dankzij recente ontwikkelingen in AI.
Google heeft onlangs LaMDA onthuld, een experimenteel model waarvan het bedrijf beweert dat het het vermogen van zijn gespreks-AI-assistenten zou kunnen vergroten en natuurlijkere gesprekken mogelijk zou maken. LaMDA streeft ernaar om uiteindelijk normaal over bijna alles te praten zonder enige vorm van voorafgaande training.
Het is een van een groeiend aantal AI-projecten waardoor je je zou kunnen afvragen of je met een mens praat.
"Mijn schatting is dat gebruikers binnen de komende 12 maanden zullen worden blootgesteld aan en wennen aan deze nieuwe, meer emotionele stemmen", James Kaplan, de CEO van MeetKai, een AI virtuele stemassistent en zoeken engine, zei in een e-mailinterview.
"Zodra dit gebeurt, zal de gesynthetiseerde spraak van vandaag voor gebruikers klinken zoals de spraak van de vroege jaren 2000 voor ons vandaag klinkt."
Stemassistenten met karakter
Google's LaMDA is gebouwd op Transformer, een neurale netwerkarchitectuur die is uitgevonden door Google Research. In tegenstelling tot andere taalmodellen is de LaMDA van Google getraind in echte dialoog.
Een deel van de uitdaging om natuurlijk klinkende AI-spraak te maken, is het open karakter van gesprekken, schreef Eli Collins van Google in een blogpost.
"Een gesprek met een vriend over een tv-show kan uitgroeien tot een discussie over het land waar de show is opgenomen, voordat er een debat ontstaat over de beste regionale keuken van dat land", voegde hij eraan toe.
De dingen gaan snel met robotspraak. Eric Rosenblum, een managing partner bij Tsingyuan Ventures, dat investeert in conversatie-AI, zei dat enkele van de meest fundamentele problemen in computerondersteunde spraak vrijwel zijn opgelost.
De nauwkeurigheid bij het verstaan van spraak is bijvoorbeeld al extreem hoog in services zoals transcripties gedaan door de software Otter.ai of medische aantekeningen gemaakt door DeepScribe.
"De volgende grens is echter veel moeilijker", voegde hij eraan toe.
"Begrip behouden van de context, een probleem dat veel verder gaat dan natuurlijke taalverwerking, en empathie, zoals computers die met mensen omgaan, moeten frustratie, woede, ongeduld enz. begrijpen. Aan beide problemen wordt gewerkt, maar beide zijn verre van bevredigend."
Neurale netwerken zijn de sleutel
Om levensechte stemmen te genereren, gebruiken bedrijven technologie zoals diepe neurale netwerken, een vorm van machine learning die gegevens classificeert via lagen, Matt Muldoon, Noord-Amerikaanse president bij ReadSpeaker, een bedrijf dat tekst-naar-spraaksoftware ontwikkelt, zei in een e-mailinterview.
"Deze lagen verfijnen het signaal en sorteren het in complexere classificaties", voegde hij eraan toe. "Het resultaat is synthetische spraak die griezelig klinkt als een mens."
Een andere technologie die in ontwikkeling is, is Prosody Transfer, waarbij het geluid van de ene tekst-naar-spraak-stem wordt gecombineerd met de spreekstijl van een andere, zei Muldoon. Er is ook transfer learning, waardoor er minder trainingsgegevens nodig zijn om een nieuwe neurale tekst-naar-spraak-stem te produceren.
Kaplan zei dat het produceren van mensachtige spraak ook enorme hoeveelheden verwerkingskracht kost. Bedrijven ontwikkelen neurale versnellerchips, dit zijn aangepaste modules die werken in combinatie met reguliere processors.
"De volgende stap hierin zal zijn om deze chips in kleinere hardware te plaatsen, zoals momenteel al wordt gedaan voor camera's wanneer AI voor zicht vereist is", voegde hij eraan toe. "Het zal niet lang meer duren voordat dit type computercapaciteit beschikbaar is in de koptelefoon zelf."
Een uitdaging bij het ontwikkelen van AI-gestuurde spraak is dat iedereen anders praat, waardoor computers het vaak moeilijk hebben om ons te verstaan.
"Denk aan de accenten van Georgia versus Boston versus North Dakota en of Engels je primaire taal is of niet", zei Monica Dema, die werkt aan voice search-analyse bij MDinc, in een e-mail. "Globaal denkend, is het kostbaar om dit te doen voor alle regio's van Duitsland, China en India, maar dat betekent niet dat het niet kan of niet kan."