Skip to main content

Google Duo verbetert gesprekskwaliteit met behulp van AI

Google Duo
(Image credit: Google)

Er is een grote kans dat je de afgelopen tijd een (video)gesprek door middel van een internetverbinding hebt gevoerd, en dat is waarschijnlijk ook deels te wijten aan de pandemie.

De kans is aanwezig dat al deze gesprekken vlekkeloos gingen, zonder glitches, vertraging of aanwezigen die wegvallen. De nieuwste ontwikkeling van de AI-tak van Google zou hier echter wat bij moeten helpen.

Google AI heeft, zoals het in een bericht op zijn blog publiceerde, een nieuwe audio-codec ontwikkeld, genaamd Lyra. Deze codec is gericht op het comprimeren van stemmen naar een lagere bitrate.

Tegen slechts 3kbps (jawel, kilobits per seconde) verbruikt Lyra significant minder data dan de meest gebruikte codec - de open source-variant Opus, die "transparante gesprekskwaliteit geeft, onherkenbaar van het origineel" tegen 32kbps, maar ook op latere bitrates gebruikt kan worden.

Uit resultaten van een studie van Google bleek dat de Opus-codec - die tegen 8kbps werkte - het moest onderdoen voor Lyra tegen 3kpbs, wat een reductie is van 60 procent als het op bandbreedte aankomt.

Google Duo

In de blogpost kondigde Google AI aan dat het "momenteel Lyra uitrolt [in Google Duo] om de kwaliteit van audiogesprekken en betrouwbaarheid in verbindingen met een heel lage bandbreedte te verbeteren."

Als je dus een gebruiker bent van Google Duo op Android of iOS, en je hebt al wel eens hinder van inconsistente internetverbindingen, dan kan je in de nabije toekomst significante verbeteringen opmerken in de kwaliteit en stabiliteit van jouw gesprekken. 

Er wordt niet vermeld wanneer de codec voor iedereen beschikbaar zal zijn, maar het wordt waarschijnlijk een update die achter de schermen plaatsvindt.

AI en de toekomst

De ontwikkelingen van Lyra zijn te danken aan Google AI's combinatie van bestaande codec-technologie en "vorderingen in machine learning met modellen die getraind werden met duizenden uren data." Deze data bevatten sprekers van meer dan 70 talen, die vrij beschikbaar zijn in open source-bibliotheken, om zo te verzekeren dat ze universeel toepasbaar zijn.

De blogduikt veel dieper in de details van hoe dit soort machine learning deze nieuwe technologie tot stand bracht, en bevat audiofragmenten om de verschillen tussen de originele audio, Lyra en andere codecs tegen lagere bitrates aan te tonen.

Het team is van plan om Lyra te blijven optimaliseren, en de kwaliteit en betrouwbaarheid te blijven verbeteren in de hoop dat de codec ook buiten de Google Duo-app wordt gebruikt. Dat zou inhouden dat ook andere VOIP- en videoconferentie-apps en -diensten in de toekomst met deze codec aan de slag zullen kunnen. 

De blogpost stelt ook dat het team is begonnen met "onderzoeken hoe deze technologieën tot een lage bitrate audio-codec voor algemeen gebruik kunnen leiden." Dit wil mogelijk zeggen dat ook andere audio, zoals bijvoorbeeld muziek, ook van deze verbeteringen gebruik kan maken.