Das Jahr 2023 scheint das Jahr der künstlichen Intelligenz (KI) zu sein, und Microsoft ist das neueste Unternehmen, das in diese Entwicklung einsteigen will.

Forscher des Unternehmens haben ein Paper (Öffnet sich in einem neuen Tab) veröffentlicht, in dem eine neue Technologie beschrieben wird, die einen großen Sprung nach vorne bei Text-to-Speech-Tools bedeuten würde.

In einer Zusammenfassung des Papiers wird erklärt, wie die Technologie, die VALL-E genannt wird, "kontextbezogene Lernfähigkeiten entwickelt und verwendet werden kann, um qualitativ hochwertige personalisierte Sprache mit nur einer 3-sekündigen Aufnahme eines unbekannten Sprechers als akustische Aufforderung zu synthetisieren".

Microsoft VALL-E

In einfachen Worten bedeutet das, dass das Tool jetzt dank Metas EnCodec aufschlüsseln kann, was eine Person so klingen lässt, wie sie klingt, einschließlich der Phoneme und akustischen Codes, und einen Klang erzeugen kann, der den Klang der Person über die drei Sekunden der Beispielstimme hinaus besser nachahmt. Die frühen Stadien von VALL-E wurden durch die Analyse von über 60.000 Stunden englischsprachiger Sprachaufnahmen ermöglicht.

Der GitHub (Öffnet sich in einem neuen Tab)-Beitrag enthält eine Reihe von Beispielen, wie die Technologie eingesetzt werden kann, einschließlich der Beibehaltung von emotionalen Hinweisen und sogar Umgebungseffekten, wie z. B. das unzusammenhängende Geräusch, das typisch für ein Telefongespräch ist.

Das ist in einer Zeit, in der KI ethische Bedenken aufwirft, von denen wir früher nur geträumt (oder Albträume gehabt) haben, immer wichtiger.

In der Tat könnten alle möglichen Probleme auftreten, von falschen Aufnahmen, die eine Erlaubnis zu etwas geben (zum Beispiel bei Banken, die telefonbasierte Stimmerkennung zur Authentifizierung verwenden), bis hin zu noch viel Schlimmerem.

In der Schlussfolgerung heißt es, dass VALL-E "potenzielle Risiken bei der missbräuchlichen Nutzung des Modells birgt, wie z. B. die Fälschung der Stimmerkennung oder die Nachahmung eines bestimmten Sprechers. Benj Edwards von Ars Technica (Öffnet sich in einem neuen Tab) hat außerdem festgestellt, dass Microsoft den Code des Projekts noch nicht für andere zum Ausprobieren freigegeben hat, was darauf hindeutet, dass die potenziellen Risiken noch in Betracht gezogen werden.

