Ratgeber Spracherkennung: Rettung für Drei-Finger-Tipper
Beim Thema Spracherkennung denken viele sofort an Apples Spracherkennung Siri für das iPhone. Oder die Sprachsteuerung in Googles Android. Und gerade hat auch Microsoft für Windows Phone eine Spracherkennung namens Cortana angekündigt. Die Möglichkeiten der mobilen Spracherkennung sind allerdings recht begrenzt. Sie wird genutzt, um bestimmte Handyfunktionen zu steuern, Apps zu starten, Kontakte oder Termine abzurufen oder Abfragen in Google zu starten.
Die Spracherkennung für PC oder Notebook ist demgegenüber seit einiger Zeit in den Hintergrund geraten. Entsprechende Programme gibt es aber seit etwa 20 Jahren. Vor allem Dragon Naturally Speaking vom Marktführer Nuance ist ein ausgereiftes, bedienfreundliches und leistungsfähiges Programm. Beim Diktieren am PC zeigt die Software, mittlerweile in der Version 12.5, ihre Stärken. Der Anwender diktiert damit mühelos längere Texte mit umfangreichem Wortschatz.
Erfahrene Nutzer von Naturally Speaking werden regelmäßig von Interessierten gefragt, ob sich der Einsatz von Spracherkennungs-Software denn lohne, man würde das auch gerne mal ausprobieren. Das ist eine der Fragen, auf die es keine befriedigende Antwort gibt. Doch statt zu sagen “das kommt darauf an”, kann man einige Faktoren nennen, die bei der Entscheidung für oder gegen Spracherkennung hilfreich sind.
1. Mit zehn Fingern tippen
Hersteller von Spracherkennungssoftware behaupten gerne, dass man beim Diktieren am PC schneller sei als die ausgebildete Sekretärin mit perfektem Zehnfingersystem. Das gilt aber nur, solange man der Software keine unbekannten Eigennamen oder fremden Begriffe zumutet. Dragon Naturally Speaking 12 hat in einem Praxistest von ITespresso Erkennungsraten von durchschnittlich 95 Prozent erzielt. Das bedeutet, dass von 100 Wörtern immerhin fünf Wörter falsch erkannt wurden und deshalb korrigiert werden müssen.
Wie gut die Erkennung ist, hängt ganz wesentlich vom diktierten Wortschatz ab. Wenn der nicht auf dem Niveau eines einfachen Geschäftsbriefs liegt, muss der Anwender immer wieder mit falsch erkannten Wörtern rechnen. Daraus ergibt sich die Schlussfolgerung, dass für einen Zehn-Finger-Tipper der Umstieg auf Spracherkennung nicht sehr viel bringt.
Anders ist das natürlich bei der großen Masse der PC-Anwender, die mit fünf oder sechs Fingern vor sich hin tippen und und dabei noch regelmäßig danebenhauen. Hier bringt Spracherkennung einen echten Vorteil. Noch größer ist der Vorteil für Anwender, die nicht rechtschreibsicher sind. Denn der Wortschatz der Software ist mit der Rechtschreibung im Duden abgeglichen, insofern gibt es nicht nur keine Tippfehler oder Buchstabendreher, sondern auch keine falsch geschriebenem Wörter.
Fazit: Je schlechter die Tippkenntnisse, desto mehr bringt Spracherkennung
2. Texte und Wortschatz
Wer Texte mit den immer gleichen Begriffen und den immer gleichen Formulierungen produziert, kann sich mit der Serienbrieffunktion oder Textbausteinen gut behelfen. Spracherkennung bringt hier wenig.
Den größten Gewinn bringt Spracherkennung für Anwender, die häufig Texte aus dem gleichen Themenfeld mit ähnlichem Wortschatz diktieren, dabei aber sehr variabel formulieren. Begriffe, die Naturally Speaking nicht kennt, werden einmal trainiert und dann immer wieder korrekt erkannt. Das trifft auf Anwender zu, die als Gutachter in einem bestimmten Fachbereich arbeiten, oder auf Experten, die an einem Projekt arbeiten und täglich E-Mails an Kollegen im Team schicken.
Schwierig wird es hingegen wieder, wenn der Anwender ständig neue Themenfelder beackert und jedes Mal andere Fachbegriffe, sowie fremdsprachliche Ausdrücke, Anglizismen oder viele Eigennamen diktiert. Dann ist die Software schnell überfordert.
Fazit: Eine ausgewogene Mischung aus variablem Schreibstil und weniger variablem Wortschatz ist ideal für Spracherkennung.
3. Ergonomie
Es gibt sie ja, die robusten Zeitgenossen, die jeden Tag zehn Stunden am PC oder Notebook sitzen, dabei Hunderte Mausklicks ausführen, Tausende von Tasten betätigen, und auch nach Jahren noch keine Beschwerden spüren. Für diese Menschen ist die ergonomische Erleichterung, die das Diktieren am PC bringen soll, gar nicht notwendig.
Anders verhält es sich mit den Kollegen, die schon am Freitagmittag durch Schmerzen an den Händen spüren, dass wieder eine arbeitsreiche Woche hinter ihnen liegt. In diesem Falle ist Diktieren eine große Entlastung. Die Hände müssen sich nicht mehr beim Tippen verkrampfen und können sich ausruhen.
Ergonomie, Wortschatz und Tippkenntnisse – das sind also die drei entscheidenden Kriterien, anhand derer jeder selbst einschätzen kann, ob das Diktieren am PC sich für ihn lohnt oder nicht. Der ideale Kandidat für Spracherkennung produziert frei formulierte Texte mit jeweils ähnlichem Wortschatz, ist nicht besonders gut im Tippen, hat Schwierigkeiten bei der Rechtschreibung und Schmerzen in der Hand.
Einarbeitungszeit und Training
Dragon Naturally Speaking gehört nicht zu den Programmen, bei denen man nach der Installation sofort loslegen kann. Ohne Einarbeitungszeit geht es nicht. Wichtig ist am Anfang, das Programm auf die persönliche Sprechweise und den Wortschatz zu trainieren.
Dragon Naturally Speaking bietet dazu die Möglichkeit, bereits vorhandene Texte oder auch Texte aus E-Mails zu analysieren und dem Wortschatz neue Begriffe hinzuzufügen. Danach funktioniert das Diktieren aber erstaunlich gut. Nachfolgend einige Tipps, um die Arbeit mit Spracherkennung zu optimieren.
Leise sprechen
Es ist sicher kein Schaden, beim Diktieren deutlich zu sprechen. Es ist aber nicht nötig, besonders laut oder besonders langsam zu sprechen. Die Lautstärke wird in der Software von selbst angeglichen und die Wortflut von Schnellsprechern landet einfach im Arbeitsspeicher, bis sich die Erkennungsalgorithmen ihrer annehmen. Wer viel diktiert und dabei intuitiv lauter spricht als nötig, beansprucht nur die Stimmbänder und wird schnell heiser.
Nicht jedes Wort trainieren
Oftmals verwendet man in einem Text Eigennamen oder Fachausdrücke, die das Programm nicht erkennt, die aber nur in diesem einen Text vorkommen. Solche Wörter sollte man nicht trainieren. Das bläht den Wortschatz nur unnötig auf. Behelfen kann man sich, indem man für diese Eigennamen oder Fachausdruck einen gängigen Namen als Platzhalter diktiert. Diesen kann man dann in der Textverarbeitung durch die Funktion “Suchen und Ersetzen” umwandeln lassen.
Die praktische Plus-Taste
Ein Druck auf die Plus-Taste im numerischen Tastenblock schaltet in Dragon das Mikrofon ein und aus.
Sichtbare Menüleiste
Die Menüleiste von Dragon sollte immer sichtbar sein und nicht etwa durch andere Programme abgedeckt. Allzu leicht passiert es nämlich, dass das Mikrofon aus Versehen eingeschaltet wird, und das Programm dann gefährliche Kapriolen schlägt, etwa, wenn man während der Arbeit am PC mit einem Kollegen spricht.
Benutzerprofil sichern
Der persönliche Wortschatz und das Benutzerprofil sollte man regelmäßig auf einem externen Medium speichern. Denn darin stecken in der Regel viele Stunden Training, die bei einem Festplatten-Crash unweigerlich verloren wären.
Bessere Hardware
Der Hersteller Nuance legt der Software auch ein Headset bei. Trotzdem kann sich die Anschaffung eines besseren Mikrofons und der Einbau einer Soundkarte lohnen. Standard-PCs haben in der Regel ein Soundmodul auf dem Mainboard. Dessen Klangqualität kann jedoch nicht mit der einer Soundkarte mithalten. Schon eine Soundkarte für 50 Euro kann die Aufnahmequalität deutlich heben und damit auch die Erkennungsrate verbessern.
Dasselbe gilt auch für das Mikrofon. Auf den Supportseiten von Nuance findet sich eine Reihe von externen Mikrofonen, die für die Arbeit mit der Spracherkennung empfohlen werden.
Das Mikrofon muss dabei gar nicht extrem hochwertig sein. Alles was die Software benötigt, ist ein klares, rauschfreies Audiosignal, das den Algorithmen einen sauberen Audiostream ohne Störgeräusche liefert. Es ist nicht nötig, irgendein hochwertiges und sündteures Headset mit Studiotechnik anzuschaffen.
Drahtlos diktieren
Mit einem drahtlosen Mikrofon wird der Anwender völlig unabhängig vom PC. Die Dragon-Version Premium Wireless für 249 Euro hat bereits ein kabelloses Bluetooth-Headset im Lieferumfang. Ein drahtloses Headset bringt auch ergonomisch einen großen Vorteil. Man ist nicht mehr gezwungen, am Schreibtisch zu sitzen, sondern kann herumlaufen oder sich auf die Couch fläzen.
Gipfel des Komforts: Diktiergerät
Noch einen Schritt weiter führen Diktiergeräte und mobile Audiorekorder. Damit kann man sogar dann texten, wenn der PC gar nicht in Reichweite oder ausgeschaltet ist. Nach dem Diktat schließt man das Diktiergerät an den Rechner an, überträgt die Audiodatei und lässt Dragon die Audiodatei in Text umwandeln. Bei der Dragon-Version Premium Mobile liegt ein Diktiergerät bei. Im Prinzip funktioniert aber auch jedes andere Diktiergerät, das gute Aufnahmequalität bietet.
Meistens ist man bei Geräten ab 50 Euro klangtechnisch auf der sicheren Seite. Beim Kauf ist aber darauf achten, dass das Gerät eine USB-Schnittstelle zum PC hat, sonst sind die Audiodaten nicht auf den Rechner übertragbar.
Für gute Diktiergeräte bekannt ist beispielsweise Olympus. Aber auch Sony hat passende Produkte. Diktiergeräte von Philips werden auf der Website nicht mehr gelistet, sind aber noch in vielen Onlineshops erhältlich.
Einen Test desSony-Diktiergeräts ICD-SX712 finden Sie hier.
Allerdings sind die klasssischen Diktiergeräte in der Preisklasse bis 100 Euro meistens nur für die Nutzung in Innenräumen geeignet. Wer sich seine Texte gerne mal in frischer Luft ausdenkt, benötigt ein hochwertigeres Gerät. Im Unterschied zu klassischen Diktiergeräten bieten gute mobile Audiorecorder noch bessere Stereomikrofone und mehr Einstellmöglichkeiten für die Aufnahme.
Der Anwender kann die Aufnahmequalität in Form verschiedener Bitraten einstellen und insbesondere die Richtcharakteristik anpassen. Umgebungsgeräusche wie etwa Vogelzwitschern blendet man aus, indem man das Mikrofon beispielsweise auf “eng” oder “Zoom” stellt, je nachdem welche Bezeichnungen der jeweilige Hersteller verwendet. Auch hier wird man bei Herstellern wie Olympus oder Sony fündig.
Bleibt das Problem mit dem Wind. Der macht im Freien normalerweise jede Aufnahme unbrauchbar. Um Windgeräusche auszublenden, ist also zumindest ein Windschutz aus Schaumstoff nötig. Wenn der Hersteller des Audiorecorders spendabel ist, legt er den Windschutz gleich mit bei. Die einfachen Schaumstoffhauben filtern allerdings nur sehr leichte Brisen weg. Wer auch bei normalem oder etwas stärkerem Wind draußen arbeiten will, muss sich einen Fell-Windschutz zulegen, das sind die zotteligen Mikrofon-Ungetüme die man auch von TV-Reportern kennt.
Dann steht der Textproduktion an der frischen Luft nichts mehr im Wege. Die Schwierigkeit bei der Arbeit mit Diktiergeräten besteht allenfalls darin, dass man das Geschriebene nicht sieht und also gewissermaßen blind schreibt. Auch das erfordert Übung. Dafür muss man kein Notebook und kein Tablet mehr mitschleppen. Ein Audiorecorder in der Hemdtasche genügt. Und wer einmal beim Spaziergang im Park seinen Text gesprochen hat und dann am Schreibtisch zusieht, wie Dragon die Aufnahme Wort für Wort in Text umwandelt, der will auf diesen Komfort nie wieder verzichten.