Belangrijkste afhaalrestaurants
- DeepZen gebruikt AI (kunstmatige intelligentie) om verrassend realistische audioboeken van tekst te maken.
- De tech gebruikt echte menselijke stemacteurs om de bouwstenen te leveren.
- Amazon en Audible accepteren momenteel geen door de computer gegenereerde audioboeken.
DeepZen is een bedrijf dat computerstemmen maakt die worden gebruikt in audioboeken, gebaseerd op de echte stemmen van menselijke acteurs. De kwaliteit is angstaanjagend - gemakkelijk goed genoeg om uren achter elkaar naar te luisteren. De gimmick hier is de AI-component (kunstmatige intelligentie), die de tekst kan lezen en de juiste emotionele reactie kan afleiden op basis van de context. Het legt dan die emotie in de stem.
Het is indrukwekkend en erg handig. Maar willen we echt een gehomogeniseerde audioboekervaring? En hoe zit het met die stemacteurs?
"Vanuit het perspectief van de indie-uitgever is alles dat de kosten van de productie van audioboeken verlaagt, erg interessant", vertelde Rick Carlile, eigenaar van de onafhankelijke uitgever Carlile Media, via e-mail aan Lifewire.
"Maar die aantrekkingskracht gaat ervan uit dat het product van dezelfde kwaliteit zou zijn als traditionele verhalen. Ik denk niet dat we er nog honderd procent zijn. Begrijp me niet verkeerd, DeepZen is verbazingwekkend goed. enorme doorbraak, en de makers verdienen enorm veel lof en succes. Maar het is nog niet perfect."
Audio Dat is 'goed genoeg'
De beste manier om de kwaliteit van DeepZen te begrijpen, is door naar de samples te luisteren. Als je niet wist dat ze door de computer werden gegenereerd, zou je het je misschien niet eens realiseren. Alvast een tijdje niet. Laten we aannemen dat de AI van DeepZen perfect is en dat het nooit de emotionele tonen verkeerd interpreteert die het zou moeten raken.
Zelfs dan kan een mens meer genuanceerde en vaak verrassendere interpretaties bieden. Een acteur kan een onverwachte draai geven aan de woorden die een computer nooit zou overwegen. En in werkelijkheid is de AI-interpretatie zeker nog niet zo goed als die van een professionele stemacteur.
"Als iemand die aan films werkt en het meest recent in de wereld van audiovertelling, terwijl ik onder de indruk ben van de AI, weet ik zeker dat er diepe diepten van betekenis zijn die een machine niet kan interpreteren", professionele stem acteur Paul Cram vertelde Lifewire via e-mail.
"Zal er een golf van onbekende auteurs zijn die het gebruiken? Ik garandeer je dat dat zal gebeuren, want het is 'goed genoeg'."
Goed genoeg zijn, gecombineerd met het gemak en de kostenbesparingen, zou voldoende kunnen zijn om indie-uitgevers naar de dienst te drijven.
"Audioboeken kunnen tot $ 500 per voltooid uur audio kosten (veel meer voor een beroemdheidstem), en dat is exclusief de tijdskosten van beheer en administratie", zegt Carlile. "In staat zijn om die kosten te halveren door simpelweg een manuscript te uploaden naar een provider als DeepZen is buitengewoon aantrekkelijk."
Praatproblemen
Het is nog niet zo eenvoudig als je stemacteurs ontslaan en manuscripten uploaden naar DeepZen. Er is momenteel één belemmering voor eenvoudige audioboek-AI-oratie, en die komt van Amazon.
"Momenteel accepteert ACX, de route van de uitgeverij naar Audible en Amazon audioboekdistributie, geen audioboeken die niet door een mens zijn opgenomen", zegt Carlile.
Waarom? Kwaliteit. Hier is het FAQ-item van de website:
"Tekst-naar-spraak of andere geautomatiseerde opnames zijn niet toegestaan. Hoorbare luisteraars kiezen audioboeken voor de uitvoering van het materiaal, evenals het verhaal. Om aan die verwachting te voldoen, moet je audioboek door een mens zijn opgenomen."
Dit betekent dat door DeepZen gegenereerde audioboeken voorlopig niet meer verkrijgbaar zijn. Dit is pure speculatie, maar DeepZen lijkt een behoorlijk goede aanwinst voor Amazon, door het de dienst te laten verkopen en het uitsluitend voor Audible-boeken te houden. En zelfs als dat niet gebeurt, als de kwaliteit van computergegenereerde audioboeken zo goed is, dan lijkt er weinig reden om geen uitzondering op deze regel te maken.
Zou je het leuk vinden om naar audioboeken te luisteren die op deze manier zijn gemaakt? Als het gebeurt, zullen de meeste mensen het niet eens vermoeden. Sommigen geven misschien de voorkeur aan de perfectie van door de computer gegenereerde stemmen omdat ze vrij zijn van de vocale tics en gewoonten die soms kunnen afleiden. De technologie is ook geschikt voor videogames, tv- en radioadvertenties en elk ander scenario waarbij u een stemacteur inhuurt.
DeepZen-technologie zou ook een geweldige manier zijn om automatisch nieuwspodcasts te maken van geschreven artikelen, wat handig zou kunnen zijn voor het woon-werkverkeer.
En hoe zit het met die stemacteurs? Nou, er zal in ieder geval één kans zijn: ze kunnen gaan werken voor DeepZen.