Hoe AI computerspraak natuurlijker kan maken

Inhoudsopgave:

Hoe AI computerspraak natuurlijker kan maken
Hoe AI computerspraak natuurlijker kan maken
Anonim

Belangrijkste afhaalrestaurants

  • Bedrijven racen om manieren te vinden om computergegenereerde spraak realistischer te laten klinken.
  • NVIDIA heeft onlangs tools onthuld die het geluid van natuurlijke spraak kunnen vastleggen door je een AI te laten trainen met je eigen stem.
  • Intonatie, emotie en muzikaliteit zijn de kenmerken die computerstemmen nog steeds missen, zegt een expert.
Image
Image

Door de computer gegenereerde spraak klinkt misschien binnenkort een stuk menselijker.

Computeronderdelenmaker NVIDIA heeft onlangs tools onthuld die het geluid van natuurlijke spraak kunnen vastleggen door je een AI te laten trainen met je stem. De software kan ook de woorden van een spreker overbrengen met de stem van een andere persoon. Het maakt deel uit van een snel groeiend streven om computerspraak realistischer te maken.

"Geavanceerde spraak-AI-technologie stelt gebruikers in staat om natuurlijk te spreken, veel vragen in één zin te combineren en de noodzaak om details van de oorspronkelijke vraag constant te herhalen, "Michael Zagorsek, de chief operating officer van spraakherkenningsbedrijf SoundHound, vertelde Lifewire in een e-mailinterview.

"De toevoeging van meerdere talen, nu beschikbaar op de meeste spraak-AI-platforms, maakt digitale spraakassistenten toegankelijk in meer geografische gebieden en voor meer bevolkingsgroepen", voegde hij eraan toe.

Robospeech Rising

Amazon's Alexa en Apple's Siri klinken een stuk beter dan computerspraak van zelfs tien jaar geleden, maar ze zullen niet snel worden aangezien voor authentieke menselijke stemmen.

Om kunstmatige spraak natuurlijker te laten klinken, heeft het tekst-naar-spraakonderzoeksteam van NVIDIA een RAD-TTS-model ontwikkeld. Het systeem stelt individuen in staat om met hun stem een tekst-naar-spraakmodel (TTS) aan te leren, inclusief het tempo, de tonaliteit, het timbre en andere factoren.

Het bedrijf gebruikte zijn nieuwe model om meer conversatie-klinkende gesproken vertelling te bouwen voor zijn I Am AI-videoserie.

"Met deze interface kon onze videoproducent zichzelf opnemen tijdens het lezen van het videoscript en vervolgens het AI-model gebruiken om zijn spraak om te zetten in de stem van de vrouwelijke verteller. Met behulp van deze baseline-vertelling kon de producer de AI dan als een stemacteur-tweaking van de gesynthetiseerde spraak om specifieke woorden te benadrukken en het aanpassen van het tempo van de vertelling om de toon van de video beter uit te drukken ", schreef NVIDIA op haar website.

Harder dan het klinkt

Het natuurlijk laten klinken van door de computer gegenereerde spraak is een lastig probleem, zeggen experts.

"Je moet honderden uren van iemands stem opnemen om er een computerversie van te maken", vertelde Nazim Ragimov, de CEO van het tekst-naar-spraaksoftwarebedrijf Kukarella, aan Lifewire in een e-mailinterview. "En de opname moet van hoge kwaliteit zijn, opgenomen in een professionele studio. Hoe meer uren kwaliteitsspraak geladen en verwerkt, hoe beter het resultaat."

Text-to-speech kan worden gebruikt bij gaming, om mensen met een stembeperking te helpen of om gebruikers te helpen bij het vertalen tussen talen met hun eigen stem.

Intonatie, emotie en muzikaliteit zijn de kenmerken die computerstemmen nog steeds missen, zei Ragimov.

Als AI deze ontbrekende schakels kan toevoegen, zal door de computer gegenereerde spraak "niet te onderscheiden zijn van de stemmen van echte acteurs", voegde hij eraan toe. "Dat is een werk in uitvoering. Andere stemmen zullen kunnen concurreren met radiopresentatoren. Binnenkort zul je stemmen zien die kunnen zingen en audioboeken kunnen lezen."

Spraaktechnologie wordt steeds populairder in een groot aantal bedrijven.

"De auto-industrie heeft onlangs spraak-AI geadopteerd als een manier om veiligere en meer verbonden rijervaringen te creëren," zei Zagorsek.

"Sindsdien zijn spraakassistenten steeds alomtegenwoordig geworden omdat merken manieren zoeken om de klantervaringen te verbeteren en te voldoen aan de vraag naar eenvoudigere, veiligere, handigere, efficiëntere en hygiënischere methoden voor interactie met hun producten en diensten."

Gewoonlijk zet spraak-AI zoekopdrachten om in antwoorden in een tweestapsproces dat begint met het transcriberen van spraak in tekst met behulp van automatische spraakherkenning (ASR) en die tekst vervolgens in een model voor natuurlijke taalbegrip (NLU) invoert.

Image
Image

De aanpak van SoundHound combineert deze twee stappen in één proces om spraak in re altime te volgen. Het bedrijf beweert dat deze techniek stemassistenten in staat stelt de betekenis van gebruikersvragen te begrijpen, zelfs voordat de persoon klaar is met spreken.

Toekomstige ontwikkelingen op het gebied van computerspraak, waaronder de beschikbaarheid van een verscheidenheid aan connectiviteitsopties, van alleen embedded (geen cloudverbinding vereist) tot hybride (embedded plus cloud) en alleen cloud "zullen bedrijven in verschillende sectoren meer keuze bieden in termen van kosten, privacy en beschikbaarheid van verwerkingskracht, "zei Zagoresk.

NVIDIA zei dat zijn nieuws-AI-modellen verder gaan dan voice-overwerk.

"Tekst-naar-spraak kan worden gebruikt bij gaming, om mensen met een stembeperking te helpen, of om gebruikers te helpen bij het vertalen tussen talen met hun eigen stem", schreef het bedrijf. "Het kan zelfs de uitvoeringen van iconische zangers nabootsen, waarbij niet alleen de melodie van een nummer overeenkomt, maar ook de emotionele expressie achter de zang."

Aanbevolen: