Microsofts digitaler Sprachassistent, Cortana, hat sich als allgegenwärtiger digitaler Helfer im Alltag nicht durchsetzen können. Dies liegt zwar auch an der fehlenden Präsenz der Redmonder im mobilen Bereich. Viel mehr lässt sich mittlerweile aber auch ein allgemeines Problem von Sprachassistenten feststellen: Cortana, Siri, Google Assistant und Alexa sind weder besonders schlau, noch wollen Menschen in jeder Lebenssituation mit ihnen kommunizieren.
Digitale Assistenten: Einfache Fragen, einfache Antworten
Alexa, der digitale Assistent von Amazon, ist fester Bestandteil unseres Wohnzimmers. Wir fragen täglich das Wetter ab, stellen Timer, spielen Musik. Einfache Befehle befolgt Alexa gut.
Doch was ist wenn man etwas komplexere Aufgaben stellt? Beispielsweise, wenn der Inhalt einer E-Mail zusammengefasst werden soll. Diese Fähigkeit besitzt aktuell kein Sprachassistent.
Microsoft hat nun ein Verfahren entwickelt, um auch komplexere Aufgaben durch digitale Sprachassistenten ausführen zu lassen. Als Beispiele führen die Redmonder vornehmlich Szenarien aus dem Produktivbereich an. Dies passt zur neuen Ausrichtung Cortanas, die in Zukunft als Business-Assistent fungieren soll.
Smarter Kommunikationsassistent
Im Patent heisst es wörtlich:
Es werden Methoden, Systeme und Computerprogramme für einen intelligenten Kommunikationsassistenten mit Audioschnittstelle vorgestellt. Eine Methode beinhaltet eine Operation zum Abrufen von Nachrichten, die an einen Benutzer adressiert sind. Die Nachrichten stammen von einer oder mehreren Nachrichtenquellen, wobei jede Nachricht aus Nachrichtendaten besteht, die Text enthalten. Das Verfahren umfasst ferner Operationen zum Analysieren der Nachrichtendaten, um eine Bedeutung jeder Nachricht zu bestimmen, zum Erzeugen einer Bewertung für jede Nachricht auf der Grundlage der jeweiligen Nachrichtendaten und der Bedeutung der Nachricht und zum Erzeugen einer textlichen Zusammenfassung für die Nachrichten auf der Grundlage der Nachrichtenbewertungen und der Bedeutung der Nachrichten. Auf der Grundlage der textlichen Zusammenfassung wird eine Sprachzusammenfassung erstellt, und die Sprachzusammenfassung wird dann an einen mit dem Benutzer verbundenen Sprecher gesendet. Die Audioschnittstelle ermöglicht es dem Benutzer außerdem, verbal Aktionen für die Nachrichten anzufordern.
Nachrichtendaten, beispielsweise einer E-Mail, können analysiert und anschliessend zusammengefasst werden. Damit lassen sich auch komplexere Aufgabenstellungen durch den digitalen Assistenten lösen.
Ambient Devices werden immer häufiger im Leben der Menschen eingesetzt, wie z.B. Freisprecheinrichtungen im Auto, intelligente Kopfhörer, digitale Assistenten ohne Display, Bluetooth-Headsets, etc. Als Folge davon werden sprachbasierte Schnittstellen immer üblicher. Verbale Interaktionen sind einfach, um einfache Fragen zu stellen (z.B. wie spät es ist, wie hoch die Temperatur ist, wer Don Juan geschrieben hat, erinnern Sie mich daran, den Ofen anzuschalten), aber schwierig zwei nehmen lange Nachrichten, wie z.B. E-Mails, auf.
Es gibt viele Situationen, in denen die Benutzer keinen einfachen Zugang zu einem elektronischen Gerät mit Display haben und der Benutzer den Status der Kommunikation überprüfen möchte, z.B. neue E-Mails, neue Textnachrichten, neue Beiträge in sozialen Netzwerken, etc. Häufig beinhalten die Kommunikationen eine Textkomponente und es ist sehr einfach, diese Art von Kommunikation zu konsumieren, wenn ein Display verfügbar ist, aber viel schwieriger, auf diese Inhalte über Audiokommunikation zuzugreifen. Es ist viel schwieriger, Nachrichten, die jemandem „vorgelesen“ werden, zu verarbeiten, als einfach nur die Nachrichten zu lesen, weil es das Gehirn viel stärker in Anspruch nimmt, die Nachrichten anzuhören als sie zu lesen.
Wenn ein Benutzer z.B. joggt, ist es nicht einfach, ein Display zu lesen, aber der Benutzer kann auf Nachrichten hören. Leider können einige Nachrichten (z.B. E-Mail-Nachrichten) lang sein und allein das Lesen dieser langen Nachrichten durch ein elektronisches Gerät kann sehr lange dauern und eine große Konzentration erfordern. Außerdem kann der Versuch, ein Display beim Joggen zu lesen, katastrophale Folgen haben, wie z.B. einen Unfall oder das Fallenlassen und Beschädigen des Telefons.
Solche Anwendungen würden Microsofts digitalen Assistenten nützlich machen. Zum Einen würde er schlauer sein als bisher. Zum Anderen wäre ein klares Anwendungsszenario geschaffen – aus meiner Sicht ist dies eine maßgebliche Voraussetzung für die Nutzung solcher Helfer.
Was sagt ihr dazu: Würdet ihr Cortana auf solche Weise nutzen wollen?
Würde Cortana sofort nutzen, wenn sich Windows wieder am mobilen Markt zeigen würde.
Ich an Weihnachten zu Google: Hey Google, Spiele Weihnachtsmusik.
Google : OK, ich spiele von Spotify Weihnachtsmusik für Kinder ab!
Ich: Google Stop!
Und greife wieder zum Handy.
Erst mal das leichte gut beherrschen und nicht nur durch Zufall. Dann auf die komplexen Themen schauen. Mein Eindruck ist, dass die Assistenten alle noch am Anfang sind. Manchmal scheint es ganz gut zu gehen aber mir scheint ist dann auch nur gut geraten. Mehr nicht.
Verwarnung
-Mod
¿????????¿
Für was eine Verwarnung?
Das Problem ist nicht, dass die Technik nicht weit genug wäre , sondern eher , dass sie Daten benötigen. Unsere Daten.
Wollen wir wirklich unsere Mails, unsere Verwaltung, Notizen und vieles mehr über fremde Systeme bedienen? Wollen wir wirklich explizite Daten teilen?
Ich nutze zb sehr gerne Siri in Kombi mit Kurzbefehle , doch nie in Bereichen, die ich nie mit anderen teilen würde.
Sicherheit und Anonymität kommt immer vor Bequemlichkeit.
Solange man den Quark komplett deaktivieren kann, soll es mir eigentlich egal sein. Allerdings, wenn man hier liest „Alexa, der digitale Assistent von Amazon, ist fester Bestandteil unseres Wohnzimmers“, könnte es einem schon angst und bange werden. Jedoch kenne ich in meinem umfangreichen Bekanntenkreis nicht einen, der sich freiwillig seine Wohnung verwanzen würde. Insofern ist es vielleicht doch noch nicht ganz zu spät. Wenn dann allerdings solche Begründungen herhalten müssen, wie „Fragen zu stellen (z.B. wie spät es ist, wie hoch ist die Temperatur, erinnern Sie mich daran, den Ofen anzuschalten)“ oder „Es gibt viele Situationen … beim Joggen neue… Weiterlesen »
OK Boomer 😉
Dann hast du hoffentlich auch keinen Computer und kein Smartphone im Wohnzimmer. Im Gegensatz zu Alexa leuchtet dort nämlich kein blauer LED-Ring, während das Mikrofon-Array aktiv ist und Daten nach Amazon zur Auswertung übermittelt.
Ohje …
Mit wenigen Ausnahmen ist die Spracherkennung immer deaktiviert und muss vom User erst aktiviert werden.