Microsoft hat ein neues Text-to-Speech-KI-Tool, um uns zu begeistern - und zu ärgern

Ein Mann mit Kopfhörern, der einen Laptop benutzt.

(Bildnachweis: Shutterstock)

Das Jahr 2023 scheint das Jahr der künstlichen Intelligenz (KI) zu sein, und Microsoft ist das neueste Unternehmen, das in diese Entwicklung einsteigen will.

Forscher des Unternehmens haben ein Paper veröffentlicht, in dem eine neue Technologie beschrieben wird, die einen großen Sprung nach vorne bei Text-to-Speech-Tools bedeuten würde.

In einer Zusammenfassung des Papiers wird erklärt, wie die Technologie, die VALL-E genannt wird, "kontextbezogene Lernfähigkeiten entwickelt und verwendet werden kann, um qualitativ hochwertige personalisierte Sprache mit nur einer 3-sekündigen Aufnahme eines unbekannten Sprechers als akustische Aufforderung zu synthetisieren".

Microsoft VALL-E

In einfachen Worten bedeutet das, dass das Tool jetzt dank Metas EnCodec aufschlüsseln kann, was eine Person so klingen lässt, wie sie klingt, einschließlich der Phoneme und akustischen Codes, und einen Klang erzeugen kann, der den Klang der Person über die drei Sekunden der Beispielstimme hinaus besser nachahmt. Die frühen Stadien von VALL-E wurden durch die Analyse von über 60.000 Stunden englischsprachiger Sprachaufnahmen ermöglicht.

Der GitHub-Beitrag enthält eine Reihe von Beispielen, wie die Technologie eingesetzt werden kann, einschließlich der Beibehaltung von emotionalen Hinweisen und sogar Umgebungseffekten, wie z. B. das unzusammenhängende Geräusch, das typisch für ein Telefongespräch ist.

Das ist in einer Zeit, in der KI ethische Bedenken aufwirft, von denen wir früher nur geträumt (oder Albträume gehabt) haben, immer wichtiger.

In der Tat könnten alle möglichen Probleme auftreten, von falschen Aufnahmen, die eine Erlaubnis zu etwas geben (zum Beispiel bei Banken, die telefonbasierte Stimmerkennung zur Authentifizierung verwenden), bis hin zu noch viel Schlimmerem.

In der Schlussfolgerung heißt es, dass VALL-E "potenzielle Risiken bei der missbräuchlichen Nutzung des Modells birgt, wie z. B. die Fälschung der Stimmerkennung oder die Nachahmung eines bestimmten Sprechers. Benj Edwards von Ars Technica hat außerdem festgestellt, dass Microsoft den Code des Projekts noch nicht für andere zum Ausprobieren freigegeben hat, was darauf hindeutet, dass die potenziellen Risiken noch in Betracht gezogen werden.

Weitere technische Neuheiten gab es bis Sonntag auf der CES 2023 zu entdecken. Wir haben dir unsere 15 Highlights aufgelistet.

TOPICS

Hallöchen, ich bin Franzi.

Als Chefredakteurin bei TechRadar Deutschland bin ich unter anderem verantwortlich für die Bereiche Smartphones, Tablets und Fitness.

Wenn ich nicht gerade nach neuesten News für euch das Internet durchforste oder frisch gelaunchte Geräte teste, backe ich, tauche ein in die Welt von Azeroth, schmökere in Romanen auf meinem Kindle Paperwhite oder sitze mit einer Tasse Tee gemütlich auf dem Sofa, ganz im Sinne von Netflix & Chill. Dazu eine schlafende Katze auf dem Schoß und ich bin glücklich.

Du möchtest, dass dein Produkt bei uns vorgestellt wird oder hast Neuigkeiten, die wir unbedingt in die Welt hinausstreuen sollen? Dann melde dich am besten unter fschaub[at]purpleclouds.de.

Ich freue mich auf deine Nachricht!

Mit Unterstützung von