AI kan nu je video's begrijpen door ze te bekijken

AI kan nu je video's begrijpen door ze te bekijken
AI kan nu je video's begrijpen door ze te bekijken
Anonim

Belangrijkste afhaalrestaurants

  • Onderzoekers zeggen dat ze AI kunnen leren video's te labelen door te kijken en te luisteren.
  • Het AI-systeem leert gegevens weer te geven om concepten vast te leggen die worden gedeeld tussen visuele en audiogegevens.
  • Het maakt deel uit van een poging om AI te leren om concepten te begrijpen die mensen gemakkelijk kunnen leren, maar die computers moeilijk te begrijpen zijn.

Image
Image

Een nieuw kunstmatige-intelligentiesysteem (AI) kan naar je video's kijken en luisteren en dingen die gebeuren een label geven.

MIT-onderzoekers hebben een techniek ontwikkeld die AI leert om acties vast te leggen die worden gedeeld tussen video en audio. Hun methode kan bijvoorbeeld begrijpen dat de handeling van een huilende baby in een video gerelateerd is aan het gesproken woord "huilen" in een geluidsfragment. Het maakt deel uit van een poging om AI te leren hoe ze concepten kunnen begrijpen die mensen geen moeite hebben om te leren, maar die computers moeilijk te begrijpen vinden.

"Het heersende leerparadigma, begeleid leren, werkt goed als je datasets hebt die goed beschreven en compleet zijn", vertelde AI-expert Phil Winder aan Lifewire in een e-mailinterview. "Helaas zijn datasets zelden compleet omdat de echte wereld de slechte gewoonte heeft om nieuwe situaties te presenteren."

Slimmere AI

Computers hebben moeite met het bedenken van alledaagse scenario's omdat ze gegevens moeten verwerken in plaats van geluid en beelden zoals mensen. Wanneer een machine een foto "ziet", moet het die foto coderen in gegevens die het kan gebruiken om een taak uit te voeren, zoals een beeldclassificatie. AI kan vastlopen wanneer invoer in meerdere formaten komt, zoals video's, audioclips en afbeeldingen.

"De belangrijkste uitdaging hier is, hoe kan een machine die verschillende modaliteiten op één lijn brengen? Als mensen is dit gemakkelijk voor ons", zei Alexander Liu, een MIT-onderzoeker en eerste auteur van een paper over het onderwerp, in een persbericht. "We zien een auto en horen dan het geluid van een voorbijrijdende auto, en we weten dat dit hetzelfde is. Maar voor machine learning is het niet zo eenvoudig."

Liu's team heeft een AI-techniek ontwikkeld die naar eigen zeggen leert gegevens te representeren om concepten vast te leggen die worden gedeeld tussen visuele en audiogegevens. Met behulp van deze kennis kan hun machine-learningmodel identificeren waar een specifieke actie plaatsvindt in een video en deze een label geven.

Het nieuwe model neemt onbewerkte gegevens, zoals video's en de bijbehorende tekstbijschriften, en codeert deze door functies of observaties over objecten en acties in de video te extraheren. Vervolgens brengt het die gegevenspunten in kaart in een raster, ook wel een inbeddingsruimte genoemd. Het model clustert vergelijkbare gegevens als afzonderlijke punten in het raster; elk van deze gegevenspunten, of vectoren, wordt vertegenwoordigd door een afzonderlijk woord.

Een videoclip van een persoon die jongleert, kan bijvoorbeeld worden toegewezen aan een vector met het label 'jongleren'.

De onderzoekers hebben het model zo ontworpen dat het slechts 1.000 woorden kan gebruiken om vectoren te labelen. Het model kan beslissen welke acties of concepten het in een enkele vector wil coderen, maar het kan slechts 1.000 vectoren gebruiken. Het model kiest de woorden waarvan het denkt dat ze de gegevens het beste vertegenwoordigen.

"Als er een video over varkens is, kan het model het woord 'varken' toewijzen aan een van de 1000 vectoren. Als het model vervolgens iemand het woord 'varken' hoort zeggen in een audioclip, het zou nog steeds dezelfde vector moeten gebruiken om dat te coderen, " legde Liu uit.

Jouw video's, gedecodeerd

Betere etiketteringssystemen zoals die ontwikkeld door MIT kunnen helpen om vooroordelen in AI te verminderen, vertelde Marian Beszedes, hoofd onderzoek en ontwikkeling bij biometriebedrijf Innovatrics, aan Lifewire in een e-mailinterview. Beszedes suggereerde dat de data-industrie AI-systemen kan bekijken vanuit een productieproces.

"De systemen accepteren onbewerkte gegevens als invoer (grondstoffen), verwerken deze voor, nemen ze op, nemen beslissingen of voorspellingen en outputanalyses (afgewerkte goederen), "zei Beszedes. "We noemen deze processtroom de 'datafabriek' en net als andere productieprocessen moet deze worden onderworpen aan kwaliteitscontroles. De data-industrie moet AI-bias als een kwaliteitsprobleem beschouwen.

"Vanuit het perspectief van de consument maken verkeerd gelabelde gegevens bijvoorbeeld het online zoeken naar specifieke afbeeldingen/video's moeilijker", voegde Beszedes eraan toe. "Met correct ontwikkelde AI kun je automatisch labelen, veel sneller en neutraler dan met handmatig labelen."

Image
Image

Maar het MIT-model heeft nog enkele beperkingen. Ten eerste was hun onderzoek gericht op gegevens uit twee bronnen tegelijk, maar in de echte wereld komen mensen veel soorten informatie tegelijkertijd tegen, zei Liu

"En we weten dat 1.000 woorden werken aan dit soort dataset, maar we weten niet of het kan worden gegeneraliseerd naar een reëel probleem", voegde Liu eraan toe.

De MIT-onderzoekers zeggen dat hun nieuwe techniek beter presteert dan veel vergelijkbare modellen. Als AI kan worden getraind om video's te begrijpen, kun je uiteindelijk misschien de vakantievideo's van je vriend overslaan en in plaats daarvan een door de computer gegenereerd rapport krijgen.

Aanbevolen: