Neues aus dem Forschungsbereich von Microsoft – ein Forschungsteam hat nun angekündigt, dass die Sprach-KI mit dem Namen „Vall-E“ eine hochwertige Leistung vollbringen soll. Mit dieser KI soll es möglich sein, eine Stimme 1:1 zu imitieren, nur indem man „Vall-E“ mit einer dreisekündigen Audioaufnahme füttert. Laut Microsoft ist die KI in der Lage, die Stimme aus dem Beispiel exakt zu imitieren und kann im Grunde genommen jeden Satz bilden, der gewünscht ist. Der Haken bei der Sache ist aktuell noch, dass die 3 Sekundenstimmprobe aus dem Trainingsdatensatz der KI stammen muss.
„Vall-E“ hat ein hartes Trainingsprogramm hinter sich
In diesem neuen Werk von Microsoft steckt bereits eine Menge Training, denn Microsoft hat bekannt gegeben, dass man gemeinsam mit Meta ein Trainingsprogramm aus der Audiobibliothek Librilight zusammengestellt hat. Mit diesem nutzte „Vall-E“ über 60.000 Stunden englische Sprache von über 7.000 Sprechern und Sprecherinnen zum Training.
Gefahr wegen verbrecherischer Verwendung – Codes nicht veröffentlicht
Aktuell hat sich Microsoft dazu entschlossen, den Code des neuen hauseigenen Text-to-Speech-KI-Modells noch nicht zu veröffentlichen. Man befürchtet, dass die KI dazu verwendet werden könnte, verbrecherischen Tätigkeiten nachzukommen. Hierfür wäre sicherlich Potenzial vorhanden und daher gilt es für die Zukunft, entsprechende Sicherheitsmaßnahmen einzufügen, um zu verhindern, dass das neue Text-to-Speech-KI-Modell von Microsoft für solche Fälle genutzt wird.
Für den Moment scheint Microsoft mit „Vall-E“ eine extrem lernfähige KI geschaffen zu haben, welche von der Forschungsabteilung Microsofts mit Stolz angekündigt wurde. Es bleibt abzuwarten, in welchen Bereichen Planungen vorhanden sind, um „Vall-E“ mit Nutzen einzusetzen.
Als kleine Randnotiz ist natürlich noch die Namensähnlichkeit zu der Disney-Figur und dem gleichnamigen Film „WALL-E“ zu nennen, welche einem durchaus sofort ins Auge springt.
via