Enterprise Software lernt das Zuhören
Spracherkennung macht erst als Netzwerkanwendung Sinn

IT-ManagementIT-ProjekteNetzwerk-ManagementNetzwerke

Die Sprachtechnologie von Microsoft und die Fortschritte bei sprecherunabhängigen Systemen sind – na ja, “Gesprächsthema” in der Industrie. Ob der vielen neuen Möglichkeiten ist Autor Bill Pechey gar nicht sprachlos.

Zahlreiche Neuentwicklungen bei der Spracherkennung

Enterprise Software lernt das Zuhören

Die IT-Industrie scheint wie die Londoner Busse zu funktionieren – ganze Ewigkeiten passiert nichts und dann kommen mehrere Neuentwicklungen auf einen Schlag. Diesmal geht es um die Spracherkennung. Das Unternehmen Nuance hat die Markteinführung der Spracherkennungssoftware Dragon Naturally Speaking, Version 9 angekündigt. Microsoft zog nach einer katastrophalen Demonstration seiner eigenen Sprachtechnologie mit einer beeindruckenden Präsentation nach, die bei der SpeechTEK-Messe perfekt funktionierte (die nächste SpeechTek findet übrigens im Februar 2007 in San Francisco statt).

Ich habe selbst frühere Versionen beider Produkte verwendet, und wenn man vorsichtig damit umgeht und gute Mikrophone verwendet, kann man exzellente Ergebnisse erzielen. Dragon 9 konnte ich noch nicht ausprobieren, aber die Leute, dies es getan haben, meinen, es sei ein großer Schritt nach vorn. Die Genauigkeit ist wohl besser, und erstmals verfügt es über einen sprecherunabhängigen Modus – das heißt, es muss nicht auf jede einzelne Sprecherstimme trainiert werden. Wenn dieses Feature gut funktioniert, dann eröffnet es einen enormen Bereich von Anwendungsmöglichkeiten für die Spracherkennung.


Sprechübungen in Vista

Enterprise Software lernt das Zuhören

Ich muss zugeben, dass ich immer gedacht habe, man sollte die sprachliche Kommunikation mit seinem Computer vermeiden – oder dies zumindest nur tun, wenn man allein ist.

Microsoft stimmt dem wohl nicht zu, denn seine Sprachtechnologie wird in Windows Vista integriert sein, und ich erwarte, dass es diesbezüglich einigen Rummel geben wird, wenn Vista eingeführt wird. Ich hoffe, es kommt nicht noch schlimmer als mit den Handies in der Eisenbahn.

Für mich ist überraschend, wie viel Hirnschmalz und Geld derzeit in die Forschung zur Spracherkennung gesteckt wird. Viele Großunternehmen beschäftigen ganze Teams damit, ebenso nicht wenige Universitäten. Wenn es dabei nicht darum geht, mit seinem PC zu reden, worum geht es dann? Die Antwort könnte bei den vernetzten Anwendungen liegen.


Verteilte Spracherkennung in großen Netzen

Enterprise Software lernt das Zuhören

DasEuropäische Institut für Telekommunikationsnormen (ETSI) hat ein Projekt mit Namen Aurora zur Entwicklung von Normen für Verteilte Spracherkennung (DSR- Distributed Speech Recognition) in mobilen Netzwerken. Es geht darum, dass ein Teil der Erkennungsmaschine auf mobilen Geräten läuft und die Sprache auf ein zentrales Gerät für die Spracherkennung überträgt. Das scheint mir wesentlich vernünftiger zu sein, denn es ist einfach natürlicher in sein Handy zu sprechen als zu seinem Laptop.

ETSI meint, dass eine Anwendungsmöglichkeit darin besteht, seine Eindrücke von einem Meeting zu diktieren und sie dann per E-Mail an den PC zu schicken. Die Aufbereitung kann dann erfolgen, wenn man wieder ins Büro oder Hotelzimmer zurückkommt. Ist doch genial! Und man kann sich noch ganz andere tolle Dienste vorstellen, die in verschiedene Arten von vernetzten Servern integriert werden könnten.

Wie der beliebte SpinVox-Dienst bewiesen hat, ist es oft viel besser, Sprachmitteilungen in schriftlicher Form zu erhalten. Ein gutes zentralisiertes Spracherkennungsgerät könnte es Unternehmen ermöglichen, ähnliche Dienste auf ihren Netzwerken laufen zu lassen, insbesondere wenn die sprecherunabhängigen Systeme wirklich nur um die Ecke sind.


Vernetzt ergeben sich neue Möglichkeiten

Enterprise Software lernt das Zuhören

Der Office Communications Server 2007 von Microsoft (das VoIP&Gadgets-Blg hat einen schönen Bericht dazu geschrieben) könnte da eine Unterstützung bieten, weil Spracherkennung darin integriert sein wird.

Bill Gates meint, dass Spracherkennung sich im nächsten Jahrzehnt etablieren wird – könnte stimmen, aber vielleicht eher bei vernetzten Anwendungen als nur in bloßem Dialog mit einem Einzel-PC. Auf jeden Fall könnten Unternehmen jetzt darüber nachdenken, ob gute Spracherkennung die Effektivität ihrer Systeme verbessern kann.

Der Autor:
Bill Pechey ist einerseits Autor für die britische IT Week, andererseits Mitglied im Telekommunikationsgremium der Standard-Organisation IEEE. Bei IT Week und IT im Unternehmen nimmt er regelmäßig Stellung zu aktuellen technischen und (die Technik betreffenden) politischen Entwicklungen.