Ratgeber Spracherkennung: Rettung für Drei-Finger-Tipper

KarriereKomponentenMobileWorkspace

Spracherkennung gibt es nicht nur für Apples iPhone. Die Spracherkennung am PC ist seit Jahren ausgereift und eine große Hilfe beim Verfassen langer Texte. ITespresso erklärt, worauf es ankommt – und wie man damit sogar beim Spaziergang im Park produktiv arbeitet.

Beim Thema Spracherkennung denken viele sofort an Apples Spracherkennung Siri für das iPhone. Oder die Sprachsteuerung in Googles Android. Und gerade hat auch Microsoft für Windows Phone eine Spracherkennung namens Cortana angekündigt. Die Möglichkeiten der mobilen Spracherkennung sind allerdings recht begrenzt. Sie wird genutzt, um bestimmte Handyfunktionen zu steuern, Apps zu starten, Kontakte oder Termine abzurufen oder Abfragen in Google zu starten.

Die Spracherkennung für PC oder Notebook ist demgegenüber seit einiger Zeit in den Hintergrund geraten. Entsprechende Programme gibt es aber seit etwa 20 Jahren. Vor allem Dragon Naturally Speaking vom Marktführer Nuance ist ein ausgereiftes, bedienfreundliches und leistungsfähiges Programm. Beim Diktieren am PC zeigt die Software, mittlerweile in der Version 12.5, ihre Stärken. Der Anwender diktiert damit mühelos längere Texte mit umfangreichem Wortschatz.

Die Menüleiste von Dragon Naturally Speaking am oberen Rand sollte immer sichtbar bleiben.
Diktieren direkt in der Textverarbeitung. Die Menüleiste von Dragon Naturally Speaking (am oberen Rand) sollte immer sichtbar bleiben.

Erfahrene Nutzer von Naturally Speaking werden regelmäßig von Interessierten gefragt, ob sich der Einsatz von Spracherkennungs-Software denn lohne, man würde das auch gerne mal ausprobieren. Das ist eine der Fragen, auf die es keine befriedigende Antwort gibt. Doch statt zu sagen “das kommt darauf an”, kann man einige Faktoren nennen, die bei der Entscheidung für oder gegen Spracherkennung hilfreich sind.

1. Mit zehn Fingern tippen

Hersteller von Spracherkennungssoftware behaupten gerne, dass man beim Diktieren am PC schneller sei als die ausgebildete Sekretärin mit perfektem Zehnfingersystem. Das gilt aber nur, solange man der Software keine unbekannten Eigennamen oder fremden Begriffe zumutet. Dragon Naturally Speaking 12 hat in einem Praxistest von ITespresso Erkennungsraten von durchschnittlich 95 Prozent erzielt. Das bedeutet, dass von 100 Wörtern immerhin fünf Wörter falsch erkannt wurden und deshalb korrigiert werden müssen.

Wie gut die Erkennung ist, hängt ganz wesentlich vom diktierten Wortschatz ab. Wenn der nicht auf dem Niveau eines einfachen Geschäftsbriefs liegt, muss der Anwender immer wieder mit falsch erkannten Wörtern rechnen. Daraus ergibt sich die Schlussfolgerung, dass für einen Zehn-Finger-Tipper der Umstieg auf Spracherkennung nicht sehr viel bringt.

Anders ist das natürlich bei der großen Masse der PC-Anwender, die mit fünf oder sechs Fingern vor sich hin tippen und und dabei noch regelmäßig danebenhauen. Hier bringt Spracherkennung einen echten Vorteil. Noch größer ist der Vorteil für Anwender, die nicht rechtschreibsicher sind. Denn der Wortschatz der Software ist mit der Rechtschreibung im Duden abgeglichen, insofern gibt es nicht nur keine Tippfehler oder Buchstabendreher, sondern auch keine falsch geschriebenem Wörter.

Fazit: Je schlechter die Tippkenntnisse, desto mehr bringt Spracherkennung

Will man in einem Mailprogramm wie Mozilla Thunderbird diktieren, öffnet sich dieses Eingabefenster von Naturally Speaking. Das Diktat wird anschließend in das Textfenster von Thunderbird übertragen.
Will man in einem Mailprogramm wie Mozilla Thunderbird diktieren, öffnet sich dieses Eingabefenster von Naturally Speaking. Das Diktat wird anschließend in das Textfenster von Thunderbird übertragen.

2. Texte und Wortschatz

Wer Texte mit den immer gleichen Begriffen und den immer gleichen Formulierungen produziert, kann sich mit der Serienbrieffunktion oder Textbausteinen gut behelfen. Spracherkennung bringt hier wenig.

Den größten Gewinn bringt Spracherkennung für Anwender, die häufig Texte aus dem gleichen Themenfeld mit ähnlichem Wortschatz diktieren, dabei aber sehr variabel formulieren. Begriffe, die Naturally Speaking nicht kennt, werden einmal trainiert und dann immer wieder korrekt erkannt. Das trifft auf Anwender zu, die als Gutachter in einem bestimmten Fachbereich arbeiten, oder auf Experten, die an einem Projekt arbeiten und täglich E-Mails an Kollegen im Team schicken.

Schwierig wird es hingegen wieder, wenn der Anwender ständig neue Themenfelder beackert und jedes Mal andere Fachbegriffe, sowie fremdsprachliche Ausdrücke, Anglizismen oder viele Eigennamen diktiert. Dann ist die Software schnell überfordert.

Fazit: Eine ausgewogene Mischung aus variablem Schreibstil und weniger variablem Wortschatz ist ideal für Spracherkennung.

Das Optionsmenü von Naturally Speaking ist für die Grundeinstellungen zuständig.
Das Optionsmenü von Naturally Speaking ist für die Grundeinstellungen zuständig.

3. Ergonomie

Es gibt sie ja, die robusten Zeitgenossen, die jeden Tag zehn Stunden am PC oder Notebook sitzen, dabei Hunderte Mausklicks ausführen, Tausende von Tasten betätigen, und auch nach Jahren noch keine Beschwerden spüren. Für diese Menschen ist die ergonomische Erleichterung, die das Diktieren am PC bringen soll, gar nicht notwendig.

Anders verhält es sich mit den Kollegen, die schon am Freitagmittag durch Schmerzen an den Händen spüren, dass wieder eine arbeitsreiche Woche hinter ihnen liegt. In diesem Falle ist Diktieren eine große Entlastung. Die Hände müssen sich nicht mehr beim Tippen verkrampfen und können sich ausruhen.

Ergonomie, Wortschatz und Tippkenntnisse – das sind also die drei entscheidenden Kriterien, anhand derer jeder selbst einschätzen kann, ob das Diktieren am PC sich für ihn lohnt oder nicht. Der ideale Kandidat für Spracherkennung produziert frei formulierte Texte mit jeweils ähnlichem Wortschatz, ist nicht besonders gut im Tippen, hat Schwierigkeiten bei der Rechtschreibung und Schmerzen in der Hand.

Einarbeitungszeit und Training

Dragon Naturally Speaking gehört nicht zu den Programmen, bei denen man nach der Installation sofort loslegen kann. Ohne Einarbeitungszeit geht es nicht. Wichtig ist am Anfang, das Programm auf die persönliche Sprechweise und den Wortschatz zu trainieren.

Dragon Naturally Speaking bietet dazu die Möglichkeit, bereits vorhandene Texte oder auch Texte aus E-Mails zu analysieren und dem Wortschatz neue Begriffe hinzuzufügen. Danach funktioniert das Diktieren aber erstaunlich gut. Nachfolgend einige Tipps, um die Arbeit mit Spracherkennung zu optimieren.

Leise sprechen

Es ist sicher kein Schaden, beim Diktieren deutlich zu sprechen. Es ist aber nicht nötig, besonders laut oder besonders langsam zu sprechen. Die Lautstärke wird in der Software von selbst angeglichen und die Wortflut von Schnellsprechern landet einfach im Arbeitsspeicher, bis sich die Erkennungsalgorithmen ihrer annehmen. Wer viel diktiert und dabei intuitiv lauter spricht als nötig, beansprucht nur die Stimmbänder und wird schnell heiser.

Nicht jedes Wort trainieren

Oftmals verwendet man in einem Text Eigennamen oder Fachausdrücke, die das Programm nicht erkennt, die aber nur in diesem einen Text vorkommen. Solche Wörter sollte man nicht trainieren. Das bläht den Wortschatz nur unnötig auf. Behelfen kann man sich, indem man für diese Eigennamen oder Fachausdruck einen gängigen Namen als Platzhalter diktiert. Diesen kann man dann in der Textverarbeitung durch die Funktion “Suchen und Ersetzen” umwandeln lassen.

Die praktische Plus-Taste

Ein Druck auf die Plus-Taste im numerischen Tastenblock schaltet in Dragon das Mikrofon ein und aus.

Tee trinken und Dragon bei der Arbeit zusehen: DRAGON NATURALLY SPEAKING wandelt auch Sprachdiktate, die in einer Audiodatei gespeichert sind, in Text um. Die Erkennungsgenauigkeit ist ebenso gut wie beim Direktdiktat am PC.
Tee trinken und Dragon bei der Arbeit zusehen: Naturally Speaking wandelt auch Sprachdiktate, die in einer Audiodatei gespeichert sind, in Text um. Die Erkennungsgenauigkeit ist ebenso gut wie beim Direktdiktat am PC.

Sichtbare Menüleiste

Die Menüleiste von Dragon sollte immer sichtbar sein und nicht etwa durch andere Programme abgedeckt. Allzu leicht passiert es nämlich, dass das Mikrofon aus Versehen eingeschaltet wird, und das Programm dann gefährliche Kapriolen schlägt, etwa, wenn man während der Arbeit am PC mit einem Kollegen spricht.

Benutzerprofil sichern

Der persönliche Wortschatz und das Benutzerprofil sollte man regelmäßig auf einem externen Medium speichern. Denn darin stecken in der Regel viele Stunden Training, die bei einem Festplatten-Crash unweigerlich verloren wären.

Bessere Hardware

Der Hersteller Nuance legt der Software auch ein Headset bei. Trotzdem kann sich die Anschaffung eines besseren Mikrofons und der Einbau einer Soundkarte lohnen. Standard-PCs haben in der Regel ein Soundmodul auf dem Mainboard. Dessen Klangqualität kann jedoch nicht mit der einer Soundkarte mithalten. Schon eine Soundkarte für 50 Euro kann die Aufnahmequalität deutlich heben und damit auch die Erkennungsrate verbessern.

Das schnurlose DECT-Headset Jabra Pro 930 wurde im Nuance-Labor getestet und für gut befunden. Es kostet in Onlineshops ungefähr 150 Euro (Foto: Jabra)
Das schnurlose DECT-Headset Jabra Pro 930 wurde im Nuance-Labor getestet und für gut befunden. Es kostet in Onlineshops ungefähr 150 Euro (Foto: Jabra).

Dasselbe gilt auch für das Mikrofon. Auf den Supportseiten von Nuance findet sich eine Reihe von externen Mikrofonen, die für die Arbeit mit der Spracherkennung empfohlen werden.

Das Mikrofon muss dabei gar nicht extrem hochwertig sein. Alles was die Software benötigt, ist ein klares, rauschfreies Audiosignal, das den Algorithmen einen sauberen Audiostream ohne Störgeräusche liefert. Es ist nicht nötig, irgendein hochwertiges und sündteures Headset mit Studiotechnik anzuschaffen.

Drahtlos diktieren

Mit einem drahtlosen Mikrofon wird der Anwender völlig unabhängig vom PC. Die Dragon-Version Premium Wireless für 249 Euro hat bereits ein kabelloses Bluetooth-Headset im Lieferumfang. Ein drahtloses Headset bringt auch ergonomisch einen großen Vorteil. Man ist nicht mehr gezwungen, am Schreibtisch zu sitzen, sondern kann herumlaufen oder sich auf die Couch fläzen.

Das Sennheiser Headset DW Pro 1 arbeitet mit der Funktechnik DECT und wurde von Nuance für den Einsatz mit Dragon Naturally Speaking 12 getestet und für gut befunden. Damit kann man auch in mehreren Metern Entfernung vom  PC diktieren. Durch die Geräuschunterdrückung ist es laut Sennheiser auch für die Arbeit in geräuschvoller Umgebung geeignet. Das Headset kostet um die 300 Euro (Foto: Sennheiser)
Sennheiser Headset DW Pro 1. Damit kann man auch in mehreren Metern Entfernung vom PC diktieren. Preis: circa 300 Euro (Foto: Sennheiser).)

Gipfel des Komforts: Diktiergerät

Noch einen Schritt weiter führen Diktiergeräte und mobile Audiorekorder. Damit kann man sogar dann texten, wenn der PC gar nicht in Reichweite oder ausgeschaltet ist. Nach dem Diktat schließt man das Diktiergerät an den Rechner an, überträgt die Audiodatei und lässt Dragon die Audiodatei in Text umwandeln. Bei der Dragon-Version Premium Mobile liegt ein Diktiergerät bei. Im Prinzip funktioniert aber auch jedes andere Diktiergerät, das gute Aufnahmequalität bietet.

Meistens ist man bei Geräten ab 50 Euro klangtechnisch auf der sicheren Seite. Beim Kauf ist aber darauf achten, dass das Gerät eine USB-Schnittstelle zum PC hat, sonst sind die Audiodaten nicht auf den Rechner übertragbar.

Für gute Diktiergeräte bekannt ist beispielsweise Olympus. Aber auch Sony hat passende Produkte. Diktiergeräte von Philips werden auf der Website nicht mehr gelistet, sind aber noch in vielen Onlineshops erhältlich.

Einen Test desSony-Diktiergeräts ICD-SX712 finden Sie hier.

Die Diktiergeräte aus der Notetaker-Serie VN von Olympus arbeiten auch mit der Spracherkennungssoftware Dragon Naturally Speaking zusammen. Das Modell VN-731 kostet im Bundle mit Dragon Naturally Speaking 90 Euro. Das Spitzenmodell der Serie VN-733PC kostet 70 Euro und bietet gegenüber dem VN-731 zusätzliche Features wie Rauschunterdrückung oder sprachgesteuerten Aufnahmestart. Das Foto zeigt das Modell VN-732 für 60 Euro. (Foto: Olympus)
Die Diktiergeräte aus der Notetaker-Serie VN von Olympus arbeiten auch mit der Spracherkennungssoftware Dragon Naturally Speaking zusammen. Das Modell VN-731 kostet im Bundle mit Dragon Naturally Speaking 90 Euro. Das Spitzenmodell der Serie VN-733PC kostet 70 Euro und bietet gegenüber dem VN-731 zusätzliche Features wie Rauschunterdrückung oder sprachgesteuerten Aufnahmestart. Das Foto zeigt das Modell VN-732 für 60 Euro (Foto: Olympus).

Allerdings sind die klasssischen Diktiergeräte in der Preisklasse bis 100 Euro meistens nur für die Nutzung in Innenräumen geeignet. Wer sich seine Texte gerne mal in frischer Luft ausdenkt, benötigt ein hochwertigeres Gerät. Im Unterschied zu klassischen Diktiergeräten bieten gute mobile Audiorecorder noch bessere Stereomikrofone und mehr Einstellmöglichkeiten für die Aufnahme.

Der Anwender kann die Aufnahmequalität in Form verschiedener Bitraten einstellen und insbesondere die Richtcharakteristik anpassen. Umgebungsgeräusche wie etwa Vogelzwitschern blendet man aus, indem man das Mikrofon beispielsweise auf “eng” oder “Zoom” stellt, je nachdem welche Bezeichnungen der jeweilige Hersteller verwendet. Auch hier wird man bei Herstellern wie Olympus oder Sony fündig.

Bleibt das Problem mit dem Wind. Der macht im Freien normalerweise jede Aufnahme unbrauchbar. Um Windgeräusche auszublenden, ist also zumindest ein Windschutz aus Schaumstoff nötig. Wenn der Hersteller des Audiorecorders spendabel ist, legt er den Windschutz gleich mit bei. Die einfachen Schaumstoffhauben filtern allerdings nur sehr leichte Brisen weg. Wer auch bei normalem oder etwas stärkerem Wind draußen arbeiten will, muss sich einen Fell-Windschutz zulegen, das sind die zotteligen Mikrofon-Ungetüme die man auch von TV-Reportern kennt.

Sonys ICD-SX733D kostet 250 Euro. Nicht billig, aber dafür ist die aktuelle Version 12 von Dragon Naturally Speaking im Lieferumfang enthalten. Außerdem ist die Aufnahmequalität des Geräts laut Sony so gut, dass er sich auch für Musikaufnahmen eignet. Ohne Spracherkennungs-CD kostet der Recorder 200 Euro (Foto: Sony).
Sonys ICD-SX733D kostet 250 Euro. Nicht billig, aber dafür ist die aktuelle Version 12 von Dragon Naturally Speaking im Lieferumfang enthalten. Außerdem ist die Aufnahmequalität des Geräts laut Sony so gut, dass es sich auch für Musikaufnahmen eignet. Ohne Spracherkennungs-CD kostet der Recorder 200 Euro (Foto: Sony).

Dann steht der Textproduktion an der frischen Luft nichts mehr im Wege. Die Schwierigkeit bei der Arbeit mit Diktiergeräten besteht allenfalls darin, dass man das Geschriebene nicht sieht und also gewissermaßen blind schreibt. Auch das erfordert Übung. Dafür muss man kein Notebook und kein Tablet mehr mitschleppen. Ein Audiorecorder in der Hemdtasche genügt. Und wer einmal beim Spaziergang im Park seinen Text gesprochen hat und dann am Schreibtisch zusieht, wie Dragon die Aufnahme Wort für Wort in Text umwandelt, der will auf diesen Komfort nie wieder verzichten.