Dragon Naturally Speaking 11 im Test

Software-Hersteller, deren Programm die Versionsnummern jenseits der »Zehn« erreicht hat, haben häufig ein Problem. Die Software ist weitgehend ausgereift, bietet alle nur denkbaren Features und muss eigentlich nicht weiterentwickelt werden. Trotzdem will der Hersteller natürlich weiterhin Geld verdienen und muss die Kundschaft daher alle zwei Jahre zum Kauf einer neuen Version bewegen. Diese ist zwar kaum mehr als ein besseres Servicepack der Vorversion, muss aber als völlig neues Produkt angepriesen werden. Dementsprechend bewerben Hersteller ihre neuen Versionen mit der vollmundigen Ankündigung allerneuester Features, deutlichster Leistungssteigerungen und noch garantiert intuitiver Bedienoberflächen.

Etwas von dieser Problematik ist auch bei der Spracherkennungssoftware Dragon Naturally Speaking 11 von Nuance zu spüren. Gegenüber der Version 10 gibt es durchaus sinnvolle Neuerungen, aber nicht so viele, als dass man das Gefühl hätte, man säße vor einem wirklich runderneuerten Programm.

Dragon-Randleiste ergänzt das Hilfe-System

Neu ist beispielsweise die Dragon-Randleiste im Hilfe-System. Diese gewährt dem Einsteiger schnelleren Zugriff auf Informationen zu Sprachbefehlen oder anderen Funktionen. Die Optik dieser Randleiste und überhaupt des ganzen Hilfe-Bereichs passt aber nicht so ganz zur Dragon-Bedienleiste und wirkt wie ein Fremdkörper. Im Test zeigte sich möglicherweise auch ein Bug. Platziert man nämlich die Bedienleiste am unteren Bildschirmrand und verankert sie dort, dann schrumpft das Fenster von Word 2007 plötzlich zur halben Höhe zusammen und alle Icons auf dem Windows-Desktop rutschen ebenfalls nach oben. Das ist nicht schlimm, aber lästig. Schlimm ist auch nicht, dass noch eine oder zwei Meldungen auf Englisch daherkommen. Es herrschte wohl große Eile bei der Lokalisierung. Insgesamt gewinnt man den Eindruck, dass die Bedienoberfläche in Version 11 rein optisch nicht mehr so stimmig ist wie in den Vorversionen.

Was nicht heißt, dass Naturally Speaking 11 schlecht zu bedienen wäre. Mit seiner schmalen Bedienleiste und den sparsamen Menüs waren bereits die Vorversionen sehr logisch aufgebaut und wunderbar einfach zu bedienen. Das ist auch in der aktuellen Version nicht anders.

»Suche nach Hamburg, Reeperbahn«

Verbessert wurden daneben die Sprachbefehle. So kann der Anwender Aufgaben, die er normalerweise in mehreren Schritten durchführt, in einem einzigen Befehl zusammenfassen. Das ist praktisch und macht sogar Spaß. So kann man zum Beispiel während des Diktierens sagen: “Suche in Google nach Hamburg, Reeperbahn”. Sofort öffnet sich die Startseite von Google mit den entsprechenden Ergebnissen. Oder “Suche in Amazon nach Thilo Sarrazin” und der Bestseller des Ex-Bundesbankers erscheint in der Bücherliste von Amazon.

Wie schon bei allen Vorversionen kann der Anwender den PC mit Sprachbefehlen steuern. Das funktioniert im Test recht zuverlässig und macht anfangs auch Spaß. Sinnvoll ist es hauptsächlich für Anwender, die aus gesundheitlichen Gründen darauf angewiesen sind, die Programme per Sprachbefehl zu steuern. Man kann Programme öffnen oder schließen, Fenster minimieren, zwischen Fenstern wechseln oder durch Texte scrollen.

Sprachbefehle sind schnell erlernt

Auch das Markieren und Formatieren im Text lässt sich mündlich erledigen. Die entsprechenden Befehle wie »Mach das fett« sind schnell erlernt. Die Navigation innerhalb von Programmen geht ebenfalls via Sprachkommando. Das alles funktioniert mit einer gewissen Übung leidlich zuverlässig, allerdings natürlich nicht ganz so schnell wie mit Maus und Tastatur, weil die Algorithmen erst mal gesprochene Kommandos wie “Starte Internet Explorer” oder “Bild nach unten” analysieren und umsetzen müssen.

Das Gros der Anwender wird sich deshalb vermutlich auf die Kernkompetenz von Dragon Naturally Speaking konzentrieren, das Diktieren. Hier liegt deshalb auch der Fokus im Test.

Testaufbau: Zehn Texte mit unterschiedlichem Schwierigkeitsgrad

Getestet wurde auf einem Windows-7-Rechner mit AMD Athlon-X2-CPU (5600+) und 3 Gigabyte Arbeitsspeicher. Der Test zeigt, wie sich das Programm unter realistischen Bedingungen auf einem Durchschnittsrechner bewährt. Auf schnellen Highend-Rechnern mit aktuellen Quadcore-Prozessoren arbeitet die Software deutlich schneller und flüssiger.

Die ITespresso.de-Tester nutzt dabei eine bereits gut trainierte Software, die an Sprechweise und Wortschatz des Anwenders angepasst ist. Denn es geht nicht um die Leistung nach drei Übungsdiktaten, sondern darum, welche Erkennungsraten bei längerer Benutzung möglich sind.

»Sehr geehrter Herr …, Hi und Ciao …«

Es werden insgesamt zehn Texte diktiert. Die Auswahl der Texte spiegelt das typische Diktier-Profil eines professionellen Anwenders wieder. Tagsüber schreibt er geschäftliche E-Mails an Geschäftspartner und Kollegen. Daneben produziert er Fachtexte wie beispielsweise interne Gutachten oder Produktbeschreibungen für seine Firma. Zwischendurch verschickt er schnell eine private Nachricht an einen Freund. In der Freizeit führt er ein eigenes Weblog, beteiligt sich an Diskussionen in Internet-Foren und schreibt gelegentlich CD- oder Buch-Rezensionen auf Amazon. Mit dieser Auswahl ist eigentlich das ganze Spektrum der Textproduktion abgedeckt. Neben dem simplen Geschäftsbrief, gibt es auch Texte mit vielen Fachwörtern und Texte, die sehr salopp formuliert oder mit modischen Anglizismen oder Slang-Ausdrücken gespickt sind. Eine echte Herausforderung für die Spracherkennung. Und noch eine Gemeinheit hält der Test bereit. Als Fehler gezählt wird alles, was korrigiert werden muss. Ausnahmen sind nur Eigennamen, die auch ein Mensch nicht auf Anhieb richtig schreiben kann.

Erkennungsrate zwischen 90 und 99 Prozent

Die Testergebnisse bringen keine große Überraschung. Wie schon bei den Vorgängerversionen erreichen Geschäftsbriefe mit Standard-Vokabular sehr gute Erkennungsraten von bis zu 99 Prozent, wohingegen private Mails und umgangssprachlich formulierte Einträge in Weblogs deutlich mehr Fehler produzieren. Im schlimmsten Fall, einer CD-Rezension, lag die Fehlerquote bei 10 Prozent.
Die durchschnittliche Erkennungsrate von Naturally Speaking 11 über alle zehn Diktate hinweg lag im Test bei 95 Prozent (siehe Diagramm). Das ist kein schlechter Wert. Eine durchschnittliche Erkennungsrate ab 95 Prozent bedeutet, dass das Diktieren für Anwender, die nicht gerade geübte Zehnfinger-Tipper sind, durchaus Vorteile hat. Vorausgesetzt, sie sind bereit, sich einzuarbeiten und die Aussprache neuer Wörter kontinuierlich zu trainieren.

Sicherlich wäre es möglich gewesen, durch eine etwas »freundlichere« Auswahl der Texte die Programme im Test auf noch bessere Erkennung zu trimmen. Das Testergebnis dürfte aber die zu erwartenden Ergebnisse im realen Diktieralltag wiederspiegeln.

Diktieren per Voice Recorder

Der Test von ITespresso.de sollte aber auch zeigen, ob die Version 11 beim Diktieren weniger Fehler macht als die Vorversion. Um hier einen exakten Vergleich der Erkennungsleistung zu ermöglichen, greift der Tester zu einem Trick. Die Diktate werden auf ein digitales Aufnahmegerät (Teac Tascam DR-07) gesprochen und abgespeichert. Anschließend bekommen sowohl die Vorgängerversion als auch Naturally Speaking 11 die im Aufnahmegerät gespeicherten Diktate vorgespielt. Angeschlossen wird das Gerät über die Mikrofonbuchse der Soundkarte. Für die Spracherkennung ist das so, als würde der Anwender per Mikrofon diktieren. Somit bekommen beide Versionen von Naturally Speaking das identische Diktat vorgesetzt. Unterschiede, die sich ergeben, weil der Anwender einzelne Wörter bei jedem Diktat anders ausspricht oder anders betont, sind damit ausgeschlossen. Nur so können die Unterschiede in der Erkennungsleistung der Programme festgestellt werden.

Naturally Speaking 11 erkennt etwas besser als Vorversion

Das Ergebnis fällt für die Version 11 nicht besonders schmeichelhaft aus. Während die Vorversion auf eine durchschnittliche Erkennungsrate von 94,4 Prozent kommt, erreicht die aktuelle Version 95,1 Prozent. Das ist immerhin eine leichte Verbesserung.

Warum schafft Naturally Speaking 11 keine höhere Erkennungsrate? Gerade bei kurzen, einsilbigen Wörtern ist das Training noch lange keine Garantie dafür, dass das Wort beim nächsten Mal erkannt wird. So wird beispielsweise das Musik-Genre »Funk« hartnäckig als »Frank« erkannt. Tipp: Bei solchen unbekannten Wörtern hilft es, vorher schnell in den Buchstabiermodus zu gehen. Schwierigkeiten hat Naturally Speaking 11 auch mit Wörtern, die sich nur durch einen einzigen Buchstaben unterscheiden. »Leben« oder »loben«, »liegen« oder »legen«, »ihm« oder »ihn«, diese feinen Unterschiede führen die Technik an ihre Grenzen.

Sprache ist unendlich komplex

Damit bestätigt auch die neueste Version der Spracherkennung die Erfahrung, dass selbst gravierende Verbesserungen bei den Algorithmen und der Rechenleistung in der Praxis oft nur geringe Fortschritte bringen. Die Sprache mit ihren zahllosen Wortkombinationen und Fachbegriffen sowie den Mode- oder Szene-Ausdrücken ist schon vielfältig genug. Hinzu kommen Faktoren wie die persönliche Aussprache und die Betonung des Anwenders. Dies macht Sprache nahezu unendlich komplex und unberechenbar. Da haben derzeit auch die intelligentesten Algorithmen und die rechenstärksten PCs keine Chance.

Behelfen kann man sich beispielsweise dadurch, dass man sich beim Diktieren auf ein Themenfeld beschränkt. Je berechenbarer und beschränkter der Wortschatz, desto perfekter arbeiten die Algorithmen.

Schließlich wollten die Tester noch wissen, ob sich bei den Textsorten, bei denen das Programm schlecht abgeschnitten hatte, durch Training etwas verbessern lässt. Deshalb wurden alle Begriffe, die das Programm nicht erkannt hatte, trainiert und dem Wortschatz hinzugefügt. Beim nächsten Diktat dieser Texte erwies sich Naturally Speaking 11 als recht gelehrig und machte deutlich weniger Fehler. So sind auch bei schwierigen Texten mit der Zeit Erkennungsraten von etwa 96 Prozent möglich.

Weitere Features
Bei der Installation von Naturally Speaking 11 macht der Anwender zuerst die üblichen Routinen durch, also Registrierungsnummer eingeben, übers Internet aktivieren und nach Updates für das Programm suchen. Sind bereits Version 9 oder 10 installiert, dann übernimmt Version 11 die Benutzerdaten. Das heißt, der Anwender kann sofort mit einem trainierten System loslegen. Empfehlenswert ist es allerdings, das Mikrofon noch einmal einzurichten, um eine optimale Soundqualität zu erzielen.

Naturally Speaking bietet die Möglichkeit, vorhandene Texte auf der Festplatte auf neues Vokabular hin zu analysieren und Vokabeln zu trainieren. Eine sehr empfehlenswerte Vorgehensweise, da sich die Erkennungsrate so wirksam steigern lässt. Am besten gleich nach den ersten Probediktaten durchführen.

Die aktuelle Version ist kompatibel zu Microsofts Office 2010. Spracheingabe ist aber prinzipiell in allen Textprogrammen oder Editoren möglich.

Das Headset ist gegenüber der Vorgängerversion 10 ein Rückschritt. Während diese noch über eine große Hörmuschel und einen stabilen Kopfbügel verfügte, wirkt das neue Headset deutlich billiger. Die Qualität des Mikrofons und damit der Audioaufnahme muss dies allerdings nicht beeinträchtigen.

Einige Verbesserungen fanden auch unter der Haube statt. So unterstützt die Software jetzt Aufnahmen mit einer Abtastrate von 22, statt 11 kHz. Durch die verbesserte Klangqualität wird theoretisch auch die Erkennungsleistung gesteigert. Wenn beim Diktieren das Mikrofon verrutscht und infolgedessen die Tonqualität sinkt, gibt Dragon ein Warnzeichen aus.

Anwender mit einem modernen Dual- oder Quadcore-Prozessor von Intel oder AMD könnten ebenfalls profitieren, da die Software speziell auf Mehrkernprozessoren optimiert ist.

Im Test fiel auf, dass Naturally Speaking 11 teilweise langsamer reagierte als die Vorversion. Insbesondere beim Ein- oder Ausschalten des Mikrofons kam es gelegentlich zu Verzögerungen. Diese Probleme dürften allerdings auf sehr schnellen Intel-Rechnern der neuesten Generation mit 4 GByte Arbeitsspeicher nicht auftreten.

Ebenso wie die Vorgängerversion arbeitet Naturally Speaking 11 auf Wunsch auch mit digitalen Diktiergeräten. Der Anwender muss dafür allerdings das Diktiergerät oder den digitalen Recorder als Audioquelle einrichten.

Fazit

Die vielbeschworene Erkennungsrate von »bis zu 99 Prozent« bleibt auch bei der neuesten Version die Ausnahme. Es gelingt nur im Einzelfall diese Traumrate zu erzielen und zwar bei Texten, die sozusagen in »Standard-Deutsch« abgefasst sind. Schwierig wird es immer dann, wenn die Diktate viele Fachausdrücke enthalten, besonders umgangssprachlich formuliert sind, fremdsprachige Begriffe oder Anglizismen bringen oder mit Slang- oder Szene-Ausdrucken gespickt sind. In solchen Fällen geht die Erkennungsrate drastisch nach unten. Hier hilft nur regelmäßiges Training oder der Buchstabier-Modus. Zudem kann man eine so genannte »Genauigkeitsoptimierung« starten, die den Wortschatz und Benutzerprofil analysiert und optimiert. Wer sich die Mühe macht, neue Begriffe konsequent zu trainieren, wird nach einiger Zeit gute Ergebnisse erzielen.
ITespresso.de-Logo Gut
Dragon Naturally Speaking 11 Premium
Hersteller: Nuance
Preis: 199 Euro