Der Fokus von Microsoft liegt seit jeher im Business-Bereich. Dort können die Redmonder ihre Stärken ausspielen. Bereits vor einiger Zeit hatte Microsoft Prototypen für smarte Mikrofone für Konferenzen und Meetings präsentiert. Auch wir hatten bereits Patente für einen portablen Lautsprecher entdeckt. Microsoft abreitet jedoch auch an entsprechender Software, um Meetings einfacher und produktiver zu gestalten.
Siehe dazu: Cortana-Lautsprecher à la Echo Dot? Microsoft patentiert Design für portablen Speaker
Automatisierte Protokolle und mehr
Im vorliegenden Patent beschreibt Microsoft ein intelligentes Konferenzsystem, welches per Gesichts- und Spracherkennung die einzelnen Teilnehmer identifizieren kann und die jeweiligen Aussagen zuordnen kann. Damit wird ein Protokoll des Meetings erstellt, welches anschließend weiterbearbeitet und von den Teilnehmern genutzt werden kann. Dazu heißt es:
A method for facilitating a remote conference includes receiving a digital video and a computer-readable audio signal. A face recognition machine is operated to recognize a face of a first conference participant in the digital video, and a speech recognition machine is operated to translate the computer-readable audio signal into a first text. An attribution machine attributes the text to the first conference participant. A second computer-readable audio signal is processed similarly, to obtain a second text attributed to a second conference participant. A transcription machine automatically creates a transcript including the first text attributed to the first conference participant and the second text attributed to the second conference participant. Transcription can be extended to a variety of scenarios to coordinate the conference, facilitate communication among conference participants, record events of interest during the conference, track whiteboard drawings and digital files shared during the conference, and more generally create a robust record of multi-modal interactions among conference participants.
Ein Verfahren zum Ermöglichen einer Remote-Konferenz beinhaltet das Empfangen eines digitalen Videos und eines computerlesbaren Audiosignals. Eine Gesichtserkennungsmaschine wird betrieben, um ein Gesicht eines ersten Konferenzteilnehmers im digitalen Video zu erkennen, und eine Spracherkennungsmaschine wird betrieben, um das computerlesbare Audiosignal in einen ersten Text zu übersetzen. Eine Attributionsmaschine ordnet den Text dem ersten Konferenzteilnehmer zu. Ein zweites computerlesbares Audiosignal wird ähnlich verarbeitet, um einen zweiten Text zu erhalten, der einem zweiten Konferenzteilnehmer zugeordnet wird. Eine Transkriptionsmaschine erstellt automatisch ein Transkript, das den ersten Text, der dem ersten Konferenzteilnehmer zugeordnet ist, und den zweiten Text, der dem zweiten Konferenzteilnehmer zugeordnet ist, enthält. Die Transkription kann auf eine Vielzahl von Szenarien ausgedehnt werden, um die Konferenz zu koordinieren, die Kommunikation zwischen den Konferenzteilnehmern zu erleichtern, interessante Ereignisse während der Konferenz aufzuzeichnen, Whiteboard-Zeichnungen und digitale Dateien zu verfolgen, die während der Konferenz ausgetauscht werden, und generell eine zuverlässige Aufzeichnung der multimodalen Interaktionen zwischen den Konferenzteilnehmern zu erstellen.
In Kombination mit bereits bekannten Patenten und Ideen von Microsoft, ergibt sich ein interessantes Bild, welches Microsoft von einer modernen und smarten Businessbranche zeichnet. Wie immer gilt jedoch, keine der hier beschriebenen Lösungen müssen in einem fertigen Produkt münden.
Wie findet ihr den hier beschriebenen Ansatz? Nutzt ihr bereits intelligente Konferenzsysteme?
Quelle: patentscope