Belangrijkste afhaalrestaurants
- Meta gebruikt AI om programma's te maken die emoties kunnen uiten in spraak.
- Het AI-team van het bedrijf zei dat het vooruitgang heeft geboekt bij het modelleren van expressieve vocalisaties, zoals lachen, geeuwen, gehuil en "spontaan geklets" in re altime.
- AI wordt ook gebruikt om verbeteringen in spraakherkenning mogelijk te maken.
Dankzij de kracht van kunstmatige intelligentie (AI) kun je binnenkort natuurlijker met je computer chatten.
Meta zei dat het aanzienlijke vooruitgang heeft geboekt in zijn inspanningen om meer realistische AI-gegenereerde spraaksystemen te creëren. Het AI-team van het bedrijf zei dat het vooruitgang heeft geboekt in het modelleren van expressieve vocalisaties, zoals lachen, geeuwen en huilen, naast "spontaan geklets" in re altime.
"In een bepaald gesprek wisselen mensen boordevol non-verbale signalen uit, zoals intonaties, emotionele expressie, pauzes, accenten, ritmes - die allemaal belangrijk zijn voor menselijke interacties", schreef het team in de recente blogpost. "Maar de huidige AI-systemen slagen er niet in om deze rijke, expressieve signalen op te vangen, omdat ze alleen leren van geschreven tekst, die vastlegt wat we zeggen, maar niet hoe we het zeggen."
Slimmere spraak
In de blogpost zei het team van Meta AI dat ze werken aan het overwinnen van de beperkingen van traditionele AI-systemen die non-verbale signalen in spraak niet kunnen begrijpen, zoals intonaties, emotionele uitdrukkingen, pauzes, accenten en ritmes. De systemen worden tegengehouden omdat ze alleen kunnen leren van geschreven tekst.
Maar het werk van Meta verschilt van eerdere inspanningen omdat zijn AI-modellen natuurlijke taalverwerkingsmodellen kunnen gebruiken om de volledige aard van gesproken taal vast te leggen. Meta-onderzoekers zeggen dat de nieuwe modellen AI-systemen in staat kunnen stellen het sentiment over te brengen dat ze willen overbrengen, zoals verveling of ironie.
"In de nabije toekomst zullen we ons concentreren op het toepassen van tekstloze technieken om nuttige downstream-applicaties te bouwen zonder dat hiervoor bronintensieve tekstlabels of automatische spraakherkenningssystemen (ASR) nodig zijn, zoals het beantwoorden van vragen (bijv. weer?"), "schreef het team in de blogpost. "Wij geloven dat prosodie in spraak kan helpen een zin beter te ontleden, wat op zijn beurt het begrijpen van de bedoeling vergemakkelijkt en de prestaties van het beantwoorden van vragen verbetert."
AI maakt begrip mogelijk
Computers worden niet alleen steeds beter in het communiceren van betekenis, maar AI wordt ook gebruikt om verbeteringen in spraakherkenning mogelijk te maken.
Computerwetenschappers werken al sinds 1952 aan computerspraakherkenning, toen drie onderzoekers van Bell Labs een systeem creëerden dat enkele numerieke cijfers kon herkennen, zei de chief technology officer van AI Dynamics, Ryan Monsurate, in een e-mail aan reddingsdraad. In de jaren negentig waren spraakherkenningssystemen commercieel verkrijgbaar, maar hadden nog steeds een foutenpercentage dat hoog genoeg was om het gebruik buiten zeer specifieke toepassingsgebieden zoals de gezondheidszorg te ontmoedigen.
"Nu deep learning-modellen ensemblemodellen (zoals die van Microsoft) in staat hebben gesteld om bovenmenselijke prestaties bij spraakherkenning te bereiken, hebben we de technologie om sprekeronafhankelijke verbale communicatie met computers op grote schaal mogelijk te maken," zei Monsurate. "De volgende fase omvat het verlagen van de kosten, zodat iedereen die Siri of de AI-assistenten van Google gebruikt, toegang heeft tot dit niveau van spraakherkenning."
AI is handig voor spraakherkenning omdat het in de loop van de tijd kan verbeteren door te leren, vertelde Ariel Utnik, de chief revenue officer en algemeen manager bij AI-spraakbedrijf Verbit.ai, aan Lifewire in een e-mailinterview. Verbit beweert bijvoorbeeld dat zijn interne AI-technologie achtergrondgeluiden en echo's detecteert en filtert, en luidsprekers transcribeert ongeacht het accent om gedetailleerde, professionele transcripties en bijschriften te genereren van live en opgenomen video en audio.
Maar Utnik zei dat de meeste huidige spraakherkenningsplatforms slechts 75-80% nauwkeurig zijn.
"AI zal de mens nooit volledig vervangen, aangezien de persoonlijke beoordeling door transcribenten, proeflezers en redacteuren noodzakelijk is om een eindtranscriptie van hoge kwaliteit en uiterst nauwkeurig te maken", voegde hij eraan toe.
Betere spraakherkenning kan ook worden gebruikt om hackers te voorkomen, zei Sanjay Gupta, de vice president global head of product and corporate development bij spraakherkenningsbedrijf Mitek Systems, in een e-mail. Onderzoek wijst uit dat binnen twee jaar 20 procent van alle succesvolle aanvallen op accountovernames gebruik zal maken van synthetische spraakversterking, voegde hij eraan toe.
"Dit betekent dat naarmate deep-fake-technologie geavanceerder wordt, we tegelijkertijd geavanceerde beveiliging moeten creëren die deze tactieken kan bestrijden, naast diepe vervalsingen van afbeeldingen en video's", zei Gupta. "Het bestrijden van spraakvervalsing vereist technologie voor het detecteren van levendigheid, die in staat is om onderscheid te maken tussen een live stem en een opgenomen, synthetische of computergegenereerde versie van een stem."
Correctie 2022-05-04: Correctie van de spelling van de naam van Ryan Monsurate in paragraaf 9.