Spracherkennung Naturally Speaking 13 im Praxistest

Karriere

Die Version 13 von Naturally Speaking von Nuance verspricht höhere Erkennungsraten und verbesserte Bedienung als der Vorgänger. Der Praxistest von ITespresso zeigt, ob es gelungen ist, ein sehr gutes Programm noch mal zu verbessern – und ob die Software trotzdem noch Fehler macht.

Mehr Produktivität, effizienteres Arbeiten und komfortable Bedienung – so lautet fast immer das Versprechen bei Desktop-Software. Egal, ob Office-Programm oder Multimedia-Suite, alle locken mit mehr Produktivität.

Die Gemeinde der Textarbeiter und Vielschreiber weiß, dass es eine Software gibt, die dieses Versprechen tatsächlich erfüllt: Spracherkennung. Vor allem für Menschen, die das Zehn-Finger-System nicht beherrschen und sich deshalb ständig vertippen, ist Spracherkennung am PC ein wahrer Segen.

Das Diktieren hat gleich mehrere Vorteile. Weil Menschen in der Regel schneller sprechen als schreiben, sind die Texte schneller fertig, die Software hält auch mit Schnellsprechern mühelos Schritt. Da man sich beim Sprechen nicht vertippen kann, gibt es auch keine Schreibfehler, man muss also nicht ständig korrigieren. Und ganz nebenbei schont man die mausmüden Hände.

Einsteiger in die Spracherkennung sollten das gut strukturierte Lernprogramm durcharbeiten.
Einsteiger in die Spracherkennung sollten das gut strukturierte Lernprogramm durcharbeiten.

Das einzige kommerziell erhältliche Spracherkennungsprogramm in Deutschland ist Dragon Naturally Speaking von Nuance. In der Regel kommt alle zwei Jahre eine neue Version des Programms, das seit 1997 auf dem Markt ist. Nun hat Nuance Dragon Naturally Speaking 13 auf den Markt gebracht. ITespresso hat die Software einem ausführlichen Praxistest unterzogen und dabei die leistungsfähigere Version Premium gewählt. Die unterstützt auch die Zusammenarbeit mit Diktiergeräten.

Bei der Version 13 sind die Entwickler ihrer bisherigen Strategie treu geblieben und haben darauf verzichtet, das Programm mit unnötigen Extra-Features zu überladen. Stattdessen haben sie sich auf die Verbesserung der Erkennungsgenauigkeit konzentriert und nebenbei der Bedienoberfläche eine neue Optik gegeben.

Bedienleiste in Schwarz

Dementsprechend ist das Design der schmalen Bedienleiste von Naturally Speaking 13 schön modern und knackig geworden. Die schwarze Leiste lässt sich nach Belieben auf dem Bildschirm platzieren, während des Diktats schrumpft sie zu einem kleinen Rechteck zusammen. Fährt man mit der Maus darüber, öffnet sich die ganze Leiste mit allen Menüpunkten. Ein eingeschaltetes Mikrofon wird durch ein grünes Icon symbolisiert, das ausgeschaltete Mikrofon erscheint in Rot.

Schick: Die schwarze Bedienleiste der neuen Version von Naturally Speaking.  Während des Diktats wird die Leiste automatisch kleiner.
Schick: Die schwarze Bedienleiste der neuen Version von Naturally Speaking. Während des Diktats wird die Leiste automatisch kleiner.

Wem die moderne Bedienleiste nicht gefällt, der kann auf die Bedienleiste der Vorversionen umschalten. Die wirkt zwar optisch schon etwas bieder, ist aber funktional identisch und genauso übersichtlich.

Eines der wenigen neuen Features ist die Möglichkeit, die integrierten Mikrofone von Notebooks zu benutzen. Die Software erkennt automatisch das Mikrofon im Notebook, der Anschluss eines externen Headsets erübrigt sich so gesehen. Allerdings dürfte ein Headset letztlich eine bessere Erkennungsgenauigkeit bringen.

Das erste Diktat

Installation und Inbetriebnahme dauern bei Spracherkennung naturgemäß etwas länger als bei anderen Programmen, da man das Mikrofon einrichten und ein Benutzerprofil anlegen muss. Dafür diktiert man einige Minuten einen vom Programm vorgegebenen Text. Danach analysiert die Software die typische Sprechweise des Nutzers und erstellt das Benutzerprofil. Anschließend kann man mit dem ersten Diktat loslegen.

Es ist schon verblüffend, wie leistungsfähig die Spracherkennungstechnologie geworden ist: Mit Naturally Speaking 13 gelingen auf Anhieb und nach nur wenigen Minuten Ersttraining fast fehlerfreie Diktate. Diktiert wird entweder in ein einfaches Textverarbeitungsfenster namens Dragon Pad oder direkt in die Textverarbeitung auf dem PC, also beispielsweise Word 2010.

Erkennungsgenauigkeit verbessern

Um die Erkennungsrate noch zu steigern, sollte man ein zusätzliches Training absolvieren, bei dem zwei längere Texte vorgelesen werden müssen. Die Prozedur dauert etwa 20 Minuten und ist recht mühsam, für die Verfeinerung des Benutzerprofils aber unerlässlich.

Von Zeit zu Zeit sollte man die Optimierung des Sprachmodells und der Diktatdaten starten.
Von Zeit zu Zeit sollte man die Optimierung des Sprachmodells und der Diktatdaten starten.

Die Erkennungsrate lässt sich noch weiter verbessern, wenn man bereits vorhandene Texte vom Programm analysieren lässt und dabei unbekannte Wörter trainiert und in den persönlichen Wortschatz aufnimmt. Das ist vor allem dann empfehlenswert, wenn man immer Texte aus demselben Themenbereich diktiert, in denen auch dieselben Vokabeln auftauchen. Anwender, die schon mit Version 11 oder 12 gearbeitet haben, sollten das dafür erstellte Benutzerprofil in die aktuelle Version 13 importieren.

Daneben bietet Naturally Speaking weitere Optionen, um die Erkennungsgenauigkeit zu verbessern. So gibt es die “akustische und Sprachmodell-Optimierung”, bei der vorhandene Diktate, das Training und die jeweiligen Korrekturen des Nutzers analysiert werden, um das Benutzerprofil zu optimieren. Zusätzlich kann man neue Wörter hinzufügen und trainieren und das Benutzerwörterbuch editieren. Diese Optionen sollte man regelmäßig nutzen, Naturally Speaking dankt durch erhöhte Erkennungsgenauigkeit.

Verbesserte Erkennungsrate

Wie steht es nun mit der Erkennungsrate? Hier hat die Version 13 im Vergleich zur Vorversion einen deutlichen Sprung nach vorne gemacht. Im Praxistest mit zehn unterschiedlichen Texten aus verschiedenen Themengebieten und mit unterschiedlichem Schwierigkeitsgrad erreicht die aktuelle Version 13 nach ausführlichem Training eine durchschnittliche Erkennungsrate von sehr guten 98,3 Prozent. Bei der Vorgängerversion lag die Erkennungsrate noch bei 96,5 Prozent.

Bei der Auszählung der Fehler wurden exotische Eigennamen, spezielle Fachvokabeln, Slang-Ausdrücke oder Anglizismen nicht mitgezählt. Die Erkennungsrate bezieht sich also auf den “offiziellen” Wortschatz, den man auch im Duden findet. Was in der Praxis bedeutet, dass tatsächlich mehr Wörter zu korrigieren sind, als die ermittelte Erkennungungrate von 98,3 Prozent vermuten lässt. Trotzdem ist das ein ausgezeichnetes Ergebnis.

Etwas lästig ist nur, dass die Software beim Diktat offensichtlich kein scharfes ß kennt und Wörter wie “Straße” oder “gemäß” konsequent mit Doppel-s schreibt, obwohl diese im Vokabular mit “ß” aufgelistet sind. An der Textverarbeitung Word 2010 kann es nicht liegen, im Test trat das Problem auch in anderen Textprogrammen auf.

Auch die Korrektur und Formatierung des Textes erfolgt bequem und zuverlässig per Sprachbefehl.
Auch die Korrektur und Formatierung des Textes erfolgt bequem und zuverlässig per Sprachbefehl.

Wer sich beim Diktieren auf einem bestimmten Themenbereich konzentriert, gleichzeitig Wortschatz und Eigennamen trainiert, dürfte die 99-Prozent-Marke bei der Erkennungsgenauigkeit erreichen. Umgekehrt gilt: Ständige Themenwechsel, ständig neue Eigennamen und Fremdwörter schmecken Naturally Speaking gar nicht. Wer also beispielsweise einen Blog über Digitalfotografie und einen über E-Bikes betreibt, und zusätzlich noch private E-Mails und Facebook-Messages per Spracherkennung diktiert, wird weniger gute Ergebnisse erzielen, weil der Sprachstil einfach zu unterschiedlich ist. Bei Texten mit besonders fiesem Wortschatz driftet die Erkennungsrate schon mal Richtung 93 Prozent. Beim derzeitigen Stand der Technik ist einfach nicht mehr drin.

Die Grafik zeigt die Erkennungsraten in zehn Diktaten von Naturally Speaking 13 (Rot) im Vergleich zur Vorgängerversion 12 (Blau). Die aktuelle Version erreicht eine deutlich höhere Genauigkeit.
Die Grafik zeigt die Erkennungsraten in zehn Diktaten von Naturally Speaking 13 (Rot) im Vergleich zur Vorgängerversion 12 (Blau). Die aktuelle Version erreicht eine deutlich höhere Genauigkeit.

Das Testverfahren

Um die Vergleichbarkeit der Erkennungsrate zwischen Naturally Speaking 13 und der Vorgängerversion Naturally Speaking 12 zu gewährleisten, wurden alle Diktate zuerst mit einem guten Audiorecorder (Tascam DR-07) aufgenommen. Dann verbindet ein 3,5-Millimeter-Klinkenkabel die Line-out-Buchse des Recorders mit dem Mikrofoneingang der Soundkarte im PC. Bei der Wiedergabe der Diktataufnahme fließen die Audiosignale also genauso in den PC, als würde man ins Mikrofon sprechen.

Um sicherzustellen, dass die Spracherkennung keinen Unterschied zwischen der Spracheingabe via Headset und dem Audiosignal vom Recorder bemerkt, wird das Diktat noch einmal via Headset gesprochen und geprüft, ob die Fehler an derselben Stelle auftreten. Dieses Testverfahren gewährleistet, dass beide Versionen der Spracherkennung mit dem akustisch identischen Diktat gefüttert werden, die Ergebnisse also vergleichbar sind.

Mit Befehlen wie "Cursor vor [Wort]" positioniert man den Mauszeiger.
Mit Befehlen wie “Cursor vor [Wort]” positioniert man den Mauszeiger.

Markieren und korrigieren per Sprachbefehl

Wer zum ersten Mal mit Naturally Speaking arbeitet, sollte nach der Installation das gut strukturierte Lernprogramm durcharbeiten, das schon mit einigen praktischen Übungen aufwartet. Bei der Arbeit mit dem Programm ist es außerdem sinnvoll, das “Lerncenter” in den ersten Wochen offen zu halten.

Wenn es nicht automatisch mit Naturally Speaking startet, öffnet man es einfach mit dem Befehl “Was kann ich sagen?”. Das “Lerncenter” hält eine Befehlsliste und weitere Hilfen bereit. Am besten platziert man den virtuellen Helfer am Rand des Bildschirms und liest auf diese Weise die verfügbaren Befehle direkt ab.

Im Prinzip ist die Arbeit mit Naturally Speaking recht einfach und intuitiv. Das Mikrofon schaltet man bequem mit den Befehlen “geh schlafen” beziehungsweise “wach auf” auf Standby beziehungsweise ein. Komplett ein- und ausschalten kann man das Mikrofon durch die Plus-Taste auf der numerischen Tastatur.

Eine Schwierigkeit beim Diktieren stellen immer wieder Zahlen oder Buchstaben dar. Doch auch hier gibt sich das Programm keine Blößen. Zahlen werden zuverlässig erkannt. Wer ganz sicher gehen will, schaltet im Menü “Modi” auf “Zahlen”, dann ist die Erkennung automatisch auf Ziffern eingestellt. Komplizierte Eigennamen oder Abkürzungen diktiert man am besten im “Buchstabiermodus”.

Cool: Die Websuche nach bestimmten Begriffen kann man direkt aus der Textverarbeitung heraus starten.
Cool: Die Websuche nach bestimmten Begriffen kann man direkt aus der Textverarbeitung heraus starten.

Auch sonst gestaltet sich die Arbeit mit dem Programm recht intuitiv. Das zuletzt Gesagte löscht man mit dem Sprachbefehl “Streich das” wieder. Will man nach dem Diktat bestimmte Wörter löschen, sagt man einfach “lösch [Wort]”. Irrtümliche Befehle werden mit “rückgängig machen” korrigiert.

Auch das Korrigieren funktioniert gut. Man sagt einfach “markier [Wort]”, dann öffnet sich das Korrekturmenü. Schwierige Wörter, die auch später wieder auftauchen, lassen sich im Korrekturmenü gleich trainieren und zum Wortschatz hinzufügen. Das Navigieren im Dokument mit Befehlen wie “gehe zum Zeilenanfang” oder “geh einen Absatz nach oben” oder “Cursor vor [Wort]” funktioniert im Test ebenfalls schnell und zuverlässig.

Auf gleiche Weise funktioniert das Formatieren von Wörtern, Zeilen oder Absätzen. Mit einiger Übung geht das leicht von der Hand, oder besser gesagt, von den Lippen. Eine Wohltat für alle, denen die Hände von zu viel Mausklicks schmerzen.

Den PC per Sprachbefehl steuern

Das Steuern des PCs, also das Starten und Beenden von Programmen, funktioniert nicht ganz so zuverlässig wie die Arbeit an Texten und ist auch vergleichsweise träge. Manchmal dauert es ein oder zwei Sekunden, bis ein aufgerufenes Programm startet oder ein Navigier-Befehl ausgeführt wird. Das mag daran liegen, dass Steuerbefehle in der Regel sehr kurz sind und anders als beim Diktieren kein sprachlicher Kontext vorhanden ist, aus dem die Software schnell folgern könnte, was gemeint ist.

Anweisungen wie “öffne Windows Explorer” oder “Fenster schließen” werden aber in der Regel schnell erkannt. Innerhalb der Programme bewegt man sich ebenfalls zügig durch Menüs und Optionen. Will man beispielsweise in Word auf das Menü “Ansicht” gehen, sagt man “Klick Ansicht”. Das funktioniert zuverlässig. Nur der Befehl “Klick Datei” wird komischerweise nicht ausgeführt.

Will man E-Mails diktieren, öffnet Naturally Speaking ein eigenes Diktierfenster.
Will man E-Mails diktieren, öffnet Naturally Speaking ein eigenes Diktierfenster.

Insgesamt funktioniert die Steuerung von Programmen im Test nicht ganz so zuverlässig, wie das Diktieren und Bearbeiten von Texten. Nach einer gewissen Einarbeitungszeit kommt man aber auch hier zu guten Ergebnissen.

Cool ist die Funktion zum Suchen im Web. Der Anwender sagt beispielsweise mitten in einem Word-Diktats “Suche im Web nach Espressomaschine “. Prompt öffnet sich die Suchmaschine und präsentiert die entsprechenden Suchergebnisse zum Begriff “Espressomaschine”.

Beim Steuern der Programme ist es empfehlenswert, in der Option “Modi” auf “Befehle” zu klicken, dann weiß das Programm, dass es sich bei der Spracheingabe nicht um ein Diktat handelt und spart sich schon mal eine Rechenoperation.

Vorsicht bei der PC-Steuerung

Neulinge in der Spracherkennung sollten sich erst einmal auf das Diktieren von Texten beschränken. Erst, wenn man ein Gefühl dafür bekommen hat, wie das Programm auf Eingaben reagiert, sollte man den nächsten Schritt tun, im Dokument navigieren und es bearbeiten. Hat man auch darin eine gewisse Übung, folgt der nächste Schritt, das Steuern des PCs.

Das schrittweise Vorgehen ist schon alleine deshalb sinnvoll, weil sonst durchaus ein Malheur passieren kann. Beispielsweise könnte man unbeabsichtigt das E-Mail-Programm starten und Mails verschicken. Das Risiko ist sicherlich nicht sonderlich groß, aber Vorsicht ist hier die Mutter der pannenfreien PC-Nutzung. Deshalb sollten es gerade Anfänger bei der PC-Steuerung langsam angehen.

Aufnahme mit dem Diktiergerät

Ein sehr praktisches Feature bei Naturally Speaking 13 Premium ist die Unterstützung von externen Audiorecordern oder Diktiergeräten. Auch diese müssen vor dem ersten Einsatz trainiert werden. Dazu legt man das Gerät als zweite Diktierquelle an und spricht damit einen kurzen Text ein. Die Audiodatei kopiert man anschließend auf den PC und lässt sie von Naturally Speaking analysieren.

Danach kann man die Texte völlig unabhängig vom PC unterwegs ins Diktiergerät sprechen. Die Audiodatei wird über den USB-Anschluss auf den PC übertragen. Im Menü “Aufnahme umsetzen” ruft man die Audiodatei auf und während man gemütlich eine Tasse Kaffee trinkt, setzt Naturally Speaking die Aufnahme in Text um. Die Erkennungsrate ist dabei genauso hoch wie beim Direkt-Diktat ins Headset. Voraussetzung ist allerdings, dass der Nutzer ebenso deutlich wie beim Direktdiktat spricht und keine Hintergrundgeräusche wie Straßenlärm oder Hundegebell die Aufnahme verhunzen.

Die Hauptschwierigkeit beim Diktieren liegt vielfach gar nicht in der Technik. Viele Nutzer sind das Diktieren nicht gewohnt und haben daher Schwierigkeiten, beim spontanen Sprechen druckreife Sätze zu formulieren. Mit etwas Übung gelingt aber auch das zunehmend besser. Anders als Office-Programme, bei denen man nur wissen muss, welcher Knopf zu drücken ist, benötigt das komplexe Zusammenspiel von menschlicher Sprache und Software-Algorithmen eine gute Portion Geduld und Beharrlichkeit, bis es wirklich flutscht.

Das Diktiergerät Olympus DM-550 wurde von Nuance für den Einsatz mit Spracherkennung zertifiziert.
Das Diktiergerät Olympus DM-550 wurde von Nuance für den Einsatz mit Spracherkennung zertifiziert.

Dragon Naturally Speaking 13 Premium kostet 169 Euro, die einfache Home-Version ist bereits für 99 Euro erhältlich. Diese unterstützt allerdings nicht den Einsatz von Diktiergeräten. Außerdem gibt es für 249 Euro eine Wireless-Version mit Bluetooth-Headset. Ebenfalls 249 Euro kostet die Mobile-Version, bei der ein Diktiergerät von Philips beiliegt. Wer bereits ein gutes Diktiergerät hat, benötigt diese Version aber nicht. Eine Liste kompatibler Audiorecorder und Diktiergeräte findet sich auf den Supportseiten von Nuance. Zusätzlich gibt es eine Smartphone-App, mit der man das iPhone oder Android-Smartphone als externes Mikrofon verwenden kann.

Fazit: Bisher beste Spracherkennung

Version 13 von Dragon Naturally Speaking ist ein gelungenes Upgrade. Gegenüber der Vorgängerversion wurde die ohnehin sehr bedienfreundliche Oberfläche verbessert und optisch modernisiert. Die Erkennungsrate macht zwar keinen Quantensprung, hat sich aber dennoch spürbar verbessert.

Wer bereits ein gut trainiertes Naturally Speaking 12 nutzt, benötigt das Upgrade nicht unbedingt, für Vielschreiber lohnt es sich aber dank der verbesserten Erkennungsgenauigkeit. Für Neueinsteiger in Spracherkennung ist Dragon Naturally Speaking 13 eine klare Kaufempfehlung wert.

Tipp der Redaktion: Im ITespresso-Praxisratgeber zum Thema Spracherkennung und dem Test der Vorgängerversion Naturally Speaking 12 finden Sie weitere Hilfen beim Einstieg in un der Nutzung der Spracherkennung.