Test: Mobil diktieren mit Dragon Naturally Speaking 12

MobileMobile OS

Nicht perfekt, aber schon sehr gut. Mit diesen Worten könnte man die Leistung von Nuances neuer Version 12 des Spracherkennungsklassikers Dragon Naturally Speaking zusammenfassen. Version 1 war schon 1997 erschienen. Damals waren die Fähigkeiten der Spracherkennung noch sehr beschränkt, der Anwender musste langsam und abgehackt sprechen.

Seit ein paar Jahren ist Spracherkennung – auch dank der enormen Rechenleistung aktueller Mehrkern-Prozessoren – so gut, dass der Anwender ganz ungezwungen und beliebig schnell sprechen kann. Bei einfachen Diktaten erkennt die Software fast alles, bei schwierigeren bringt sie zumindest eine brauchbare Textgrundlage auf dem Bildschirm.

Falsch erkannte Wörter werden direkt in der Textverarbeitung korrigiert.

Inklusive Diktiergerät von Philips

Dieser Test soll klären, ob das Update von der Vorversion sich lohnt und wie gut die Zusammenarbeit mit einem Diktiergerät funktioniert. Im Test ist deshalb die “Premium Mobile Edition” inklusive Diktiergerät von Philips für 249 Euro.

Bereits die Vorgängerversionen waren schon ziemlich komplett ausgestattete Softwarepakete. Die Zahl der Neuerungen hält sich deshalb in Grenzen. Die Entwickler der Version 12 haben sich darauf konzentriert, die Erkennungsleistung zu verbessern. Laut Hersteller ist die “anfängliche Erkennungsgenauigkeit um 18 Prozent” besser als bei der Vorgängerversion.

Viel wichtiger für den Anwender ist aber die Erkennungsrate, zu der das System nach dem Training und dem Aufbau des persönlichen Wortschatzes fähig ist. Nützlich dabei: Wie schon in der Vorgängerversion kann man die Erkennungsrate verbessern, indem man Textdokumente einlesen und analysieren lässt und dann neue Begriffe in das Vokabular integriert.

Den Bedienkomfort verbessern soll eine neue Technologie namens Smartformat, die von selbst die Vorlieben des Nutzers bei der Formatierung erkennt, dazu gehören beispielsweise auch Schreibweisen von Abkürzungen oder Nummerierungen.

Für die Installation von Dragon Naturally Speaking 12 muss man etwa eine Stunde einkalkulieren, inklusive Einrichtung des Mikrofons und Übernahme eines vorhandenen Benutzerprofils aus der Vorversion.

App für iOS und Android

Nützlich ist die Unterstützung für Headset-Mikrofone mit Breitband Bluetooth-Verbindung. Damit kann der Anwender in ein drahtloses Mikrofon sprechen und ist nicht mehr durch das Kabel an den PC gebunden. Für Besitzer von Apples iPhone und Android-Handys gibt es eine App, mit der sich das Smartphone zum schnurlosen Mikrofon umfunktionieren lässt.

Die weiteren Neuerungen sind eher zweitrangig. So klingt die Stimme in der Text-to-Speech-Funktion jetzt noch natürlicher und diverse Leistungsassistenten und Möglichkeiten zur Personalisierung der Software sollen ebenfalls helfen, das Programm noch effizienter einzusetzen.

Unterstützt werden daneben auch die Webmaildienste GMail und Hotmail. Dabei kann der Anwender nicht nur innerhalb des Textfeldes diktieren, sondern auch die gängigsten Formatierungen und Befehle der Mailprogramme per Sprachbefehl aufrufen.

Für Nutzer von Apples iPhone und Android-Smartphone gibt es eine App, die das Handy in ein drahtloses Mikrofon verwandelt (Foto: Nuance)

Bewährte Bedienoberfläche

Bei der Bedienoberfläche haben sich die Entwickler dankenswerterweise zurückgehalten und nur wenig geändert. Anwender, die bisher schon mit Naturally Speaking gearbeitet haben, werden sich in der bewährt einfachen und logisch aufgebauten Bedienoberfläche sofort zurechtfinden.

Bei den ersten Probediktaten nach Installation und Ersttraining hinterlässt die Version einen recht positiven Eindruck: Die Software reagiert etwas schneller als die Vorgängerversion und ist auch in der Erkennungsgenauigkeit eine Spur besser. Doch nachprüfbare Ergebnisse bringt natürlich nur ein exakter Test.

Um beide Versionen vergleichen zu können, werden die Texte nicht einfach hintereinander diktiert. Die Ergebnisse wären unzuverlässig, weil ein menschlicher Sprecher es nicht schafft, einen Text zweimal hintereinander völlig identisch zu sprechen. Allzu leicht passiert es, dass man beim zweiten Diktat die Wörter anders betont, langsamer oder schneller spricht oder einfach nur schlampiger ausspricht. Das würde die Vergleichbarkeit der Ergebnisse beeinträchtigen. Deshalb greift der ITespresso-Tester zu einem besonderen Kniff.

Naturally Speaking analysiert vorhandene Dokumente und fügt dem Vokabular neue Wörter hinzu.

Identisches Diktat vom Audiorecorder

Alle Diktate werden mit einem guten Audiorecorder (Tascam DR-07) aufgenommen. Dann verbindet ein 3,5-Millimeter-Klinkenkabel die Line-out-Buchse des Recorders mit dem Mikrofoneingang der Soundkarte im PC. Bei der Wiedergabe der Diktataufnahme fließen die Audiosignale also genauso in den PC, als würde man ins Mikrofon sprechen. Um sicherzustellen, dass die Spracherkennung keinen Unterschied zwischen der Spracheingabe via Headset und dem Audiosignal vom Recorder merkt, wird das Diktat noch einmal via Headset gesprochen und geprüft, ob die Erkennnungsfehler an derselben Stelle auftreten.

Diktate mit dem Philips Voice Tracer liefern ebenso gute Ergebnisse wie die konventionelle Spracheingabe über das Headset.

Exakter Vergleich der Erkennungsraten

So bekommen beide Versionen Dragon Naturally Speaking 11 und 12 das klanglich absolut identische Audiosignal als Diktat serviert. Das erlaubt einen genauen Vergleich der Erkennungsraten von Version 11 und Version 12.

Im Test werden zehn Texte aus unterschiedlichen Themen mit unterschiedlichen Schwierigkeitsgraden verwendet. Das Spektrum reicht vom einfachen Geschäftsbrief über die flapsig geschriebene E-Mail an die Kollegen und den Blog-Eintrag bis hin zum sachlichen Fachtext.

Die zehn Texte sollen nicht nur verschiedene Schwierigkeitsgrade und Sprachstile darstellen, sondern ganz realistisch den Diktier-Alltag eines PC-Anwenders abbilden. Auf diese Weise zeigen sich auch die Grenzen der Leistungsfähigkeit der Spracherkennungs-Algorithmen viel deutlicher, als wenn man dem Programm mit simplen Geschäftsbriefen schmeichelt.

Verbesserte Erkennungsrate

Der Vergleich der Erkennungsraten mit der Vorgängerversion bringt keine großen Überraschungen. Die neue Version 12 arbeitet etwas genauer und zuverlässiger als Version 11, andererseits sind die Unterschiede eher gering.

Von der 100-Prozent-Erkennung ist auch die Version 12 noch sehr weit entfernt. Die menschliche Sprache, ihre verschiedenen Stile und Ausdrucksmöglichkeiten sind am Ende doch zu komplex, als dass sie mit einem noch so gut programmierten Stück Software vollständig beherrscht werden könnte.

Die Erkennungsraten von Version 12 (blau) und 11 (rot) im Vergleich. Die Version 12 ist bei fast allen Texten etwas besser, ein fehlerfreies Diktat wird aber nur bei sehr einfachen Texten erreicht.

Diktiergerät von Philips

In der Mobile Version legt Nuance ein Diktiergerät von Philips bei. Sogar ein kleines Mikrofon zum Anklemmen ans Hemd oder die Krawatte liegt dem Philips Voice Tracer LF H0662 bei. Das Diktiergerät erfüllt seinen Zweck, die Audioqualität ist für Spracherkennung ausreichend.

Im Test zeigen die Diktate mit dem Voice Tracer dieselben Ergebnisse wie über das Headset. Dabei wird der Recorder per USB-Kabel an den PC angeschlossen und die entsprechende Audiodatei übertragen. In der Spracherkennung öffnet man die Datei über “Extras”, “Aufnahme umsetzen”. Dann erscheint das Diktat nach einigen Sekunden wie von Geisterhand auf den Bildschirm geschrieben.

Aufnahmen mit Hintergrundgeräuschen

Der Mikrofoneingang des Voice Tracer für das externe Mikro produziert ein vernehmbares Rauschen. An die Audioqualität eines guten Diktiergeräts, wie etwa dem Olympus DM-550, kommt der Voice Tracer natürlich nicht heran, als mobile Ergänzung für das direkte Diktieren am PC taugt das Gerät aber allemal.

Anwender, die ihre Texte oder Notizen oft in einer Umgebung mit vielen Hintergrundgeräuschen einsprechen, und seien es nur die zwitschernden Vögel im Garten, sollten sich die Anschaffung eines höherwertigen Aufnahmegeräts überlegen. Bei solchen Audiorecordern lässt sich die Richtcharakteristik des eingebauten Mikrofons steuern oder ein externes Mikro mit Windschutz und starker Richtcharakteristik anschließen. So werden störende Hintergrundgeräusche links und rechts vom Sprecher ausgeblendet.

Formatieren, Navigieren, Surfen

Neben der Kernkompetenz des Programms, dem Diktieren, beherrscht Naturally Speaking noch einige andere Kunststücke. Per Sprachbefehl kann der Anwender auch im Dokument navigieren, indem er etwa Kommandos wie “gehe zum Ende”, “gehe zum Anfang” oder “Cursor vor <Wort>” spricht. Im Test funktioniert das tadellos. Auch das Markieren und Formatieren von Wörtern funktioniert weitgehend zuverlässig. Man sagt beispielsweise “Markier <Wort>” und kann dies dann beispielsweise mit Befehlen wie “Schreib das fett” oder “Unterstreich das” formatieren.

Daneben lässt sich Naturally Speaking ebenso wie die Vorgängerversionen auch zum Steuern des PCs, also zum Aufrufen von Programmen, Wechseln zwischen Fenstern und zum Schließen von Programmen verwenden. Das funktioniert relativ gut, meistens ist man dann aber mit Maus und Enter-Taste doch schneller.

Das Headset besitzt zwei Ohrmuscheln, eine hätte genügt.

Das gleiche gilt für das Surfen im Web. Es funktioniert zwar, wegen der Kürze der Befehle hat Software aber wenig Audiodaten zur Verfügung und missversteht deshalb auch das ein oder andere Kommando. Mit der Maus surft man deshalb in aller Regel schneller als mit Sprachbefehlen.

Nicht ganz überzeugen kann übrigens das mitgelieferte Headset. Es ist nämlich mit zwei Ohrmuscheln ausgestattet, damit kann man zwar in Stereo hören, für Spracherkennung ist das überflüssig, man hat nur ein zweites Schaumstoffpolster, das aufs Ohr drückt. Daneben ist auch das zweiadrige Kabel des Headsets eine Spur zu steif.

Neu in Version 12: Das interaktive Lernprogramm für Einsteiger

Fazit: Sinnvolles Update, Diktierspaß für Einsteiger

Für Anwender, die sehr viel und regelmäßig mit Spracherkennung arbeiten, ist ein Upgrade auf die neue Version nicht zwingend, aber durchaus sinnvoll, zumal ein eventuell vorhandenes Benutzerprofil problemlos übernommen wird.

Wer bisher noch nicht mit Spracherkennung gearbeitet hat und sie ausprobieren will, etwa, weil er das Zehn-Finger-Tippen nicht beherrscht, wird überrascht sein, wie leistungsfähig die Erkennungsalgorithmen sind und, wie schnell und mühelos auch längere Texte entstehen. Wer beispielsweise täglich einen Weblog zu befüllen hat, wird Naturally Speaking zu schätzen wissen.

Eine Warnung zum Schluss. Richtig Spaß am Diktieren oder an der PC-Steuerung wird nur der haben, der die Software am Anfang geduldig trainiert und sein persönliches Sprachprofil aufbaut.

Einen Überblick über die verschiedenen Versionen gibt es auf der Webseite von Nuance. Hier findet sich beispielsweise auch eine Home-Version für 99 Euro oder eine Premiumversion ohne Diktiergerät für 149 Euro.

Lesen Sie auch :