Test: Diktieren mit Sony ICD-SX712
Mobile Aufnahmegeräte finden seit einigen Jahren immer mehr Abnehmer. Vor allem die enormen Speicherkapazitäten von SD-Karten und die verbesserte Technik bei Mikrofonen und Geräteelektronik sorgen dafür, dass die Winzlinge mittlerweile sehr ansehnliche Aufnahmen produzieren.
Die mobilen Diktathelfer lassen sich in drei Klassen teilen:
• Einfache elektronische Notizbücher (bis 50 Euro), mit denen man schnell und unkompliziert Gesprächsnotizen oder Bemerkungen festhalten kann.
• Klassische Diktiergeräte mit gehobener Klangqualität und Funktionen zum Sortieren und Bearbeiten der Aufnahmen (bis 150 Euro). Diese Geräte dienen als universell einsetzbarer Recorder und eignen sich bereits für die Zusammenarbeit mit Spracherkennung am PC.
• Mobile PCM-Recorder mit sehr guter Klangqualität, variablen Mikrofoneinstellungen, manueller Aussteuerungsmöglichkeit, Anschluss für externe Mikros und weiteren Funktionen (150 bis 300 Euro). Diese Geräte taugen auch für Podcasts, Musik- oder Geräuschaufnahmen. Eine Hauptanwendung ist die Spracherkennung.
Sonys neuer »Linear PCM Recorder ICD-SX712DB« gehört in die letztgenannte Kategorie, was sich auch am Preis von 249 Euro zeigt. In diesem Preis ist aber schon eine CD mit Dragons Naturally Speaking Version 10.1 mitinbegriffen. Für Anwender, die nur einen vielseitigen Recorder für den Büroalltag oder Podcasts suchen, gibt es den SX712 ohne Naturally Speaking schon ab 150 Euro.
Neue Features
Der ICD-SX712 ist der Nachfolger des ICD-SX800DR. Beide sind für die Zusammenarbeit mit Dragon Naturally Speaking konzipiert. Im Gegensatz zum Vorgänger, der noch mit drei Mikrofonen geprotzt hat, kommt das neue Modell mit zwei Mikros aus. Das ist allerdings kein Nachteil, denn der Neue ist auch mit nur zwei Mikros nicht schlechter. Im Gegensatz zum SX800DR hat der SX712 auch eine Buchse für den Anschluss eines externen Mikrofons.
Neu ist auch die Intelligent Noise Cut Funktion zur Reduzierung der Außengeräusche. Sie ergänzt den Low-Cut-Filter, der tiefe Frequenzen unterdrückt und so die Sprachverständlichkeit verbessert.
Aluminiumgehäuse gegen Körperschall
Ein wesentlicher Vorteil gegenüber dem Vorgänger ist das Aluminiumgehäuse. Bewegte man beim SX800DR während der Aufnahme die Finger auf dem Gerät, ergab das sofort hässliche Knarzgeräusche. Bei der Nutzung für die Spracherkennung sind die Aufnahmen damit unbrauchbar. Das Aluminiumgehäuse des ICD-SX712 ist hier wesentlich unempfindlicher. Vorsichtige Handhabung während der Aufnahme ist trotzdem dringend anzuraten.
Für Nutzer, die häufig längere Gespräche oder Vorträge aufzeichnen, gibt es die Funktion Trackmarkierung. Damit fügt man den Aufnahmen an bestimmten Stellen Markierungen hinzu, so kann man bei der Wiedergabe schnell zwischen den vordefinierten Stellen hin und her wechseln.
Konferenzen, Interviews und Live-Musik
Das ICD-SX712 ist ein vielseitiges Aufnahmegerät für den Geschäftsalltag. Man kann Konferenzen aufnehmen, Gespräche und Interviews aufzeichnen oder unterwegs eine Sprachnotiz ins Mikro sprechen. Je nach Situation wählt der Anwender am Gerät die Parameter für Klangqualität, Mikrofonempfindlichkeit und Aufnahmecharakteristik. Typische Situationen wie »Besprechung«, »Interview«, »Musik« und »Sprachnotiz« sind bereits vorkonfiguriert, lassen sich aber im einzelnen auch noch individuell anpassen.
Auch für Anwender, die in ihrer Freizeit gerne Live-Musik, interessante Geräusche oder »Atmo« für ihr Hobby-Video aufnehmen wollen, hat der SX712 einiges zu bieten. Musik nimmt der Recorder SX712 unkomprimiert mit 44,1 kHz und 16 Bit auf (PCM, WAV) auf – nominell also in CD-Qualität.
Außerdem lassen sich die Aufnahmen manuell aussteuern, eine empfehlenswerte Option vor allem bei Aufnahmen mit großem Dynamikumfang, in denen sehr laute sich mit sehr leisen Passagen abwechseln.
Kein Ersatz für semiprofessionelle Recorder
Das mit den »Aufnahmen in CD-Qualität«, mit denen der Hersteller wirbt, ist natürlich nicht ganz ernst zu nehmen. Der Recorder-Winzling ist kein Ersatz für einen ambitioniertes Recorder, den sich Videofilmer oder Hobbymusiker anschaffen würden. Wer so etwas braucht, sollte sich bei Herstellern wie Tascam (DR-100), Olympus (LS-20M), Marantz (PMD-661) oder eben auch Sony (PCM-D50) umsehen.
Im Longplay-Modus nimmt der Recorder über 750 Stunden auf, das reicht also auch für längere Konferenzen. Natürlich ist dann die Klangqualität durch die MP3-Komprimierung eingeschränkt. Aber selbst im besten Stereo High Quality-Modus hat der zwei Gigabyte fassenden Flash-Speicher genug Platz für einige Stunden. Zudem lässt sich der Speicher durch Micro SD-Karten erweitern.
Das Display ist den Abmessungen des Geräts entsprechend sehr klein, durch die grafischen Symbole und das Steuerkreuz als Haupt-Bedienelement ist es allerdings weitgehend intuitiv zu bedienen. Praktisch ist auch die sprachgesteuerte Aufnahme. Damit startet die Aufnahme automatisch, wenn man ins Mikrofon hinein spricht und schaltet auf Pause, wenn einem nichts mehr einfällt.
Gutes, rauschfreies Tonsignal
Im ITespresso.de-Test wurden die Aufnahmen per USB-Kabel auf den PC überspielt und dann über den Mediaplayer wiedergegeben. Im PC steckt die Soundkarte Creative Soundblaster Audigy 2, die wesentlich besseren Sound aufweist als die üblichen Onboard-Soundchips. Die Aufnahmen selbst wurden mit dem AKG-Kopfhörer K501 abgehört, der eine unverfärbte und detailreiche Wiedergabe gewährleistet.
Als Beispielaufnahmen wurden ganz verschiedene Situationen gewählt. Eine Unterhaltung im Büro, ein Gespräch im Park, eine Gruppe singender Kindergartenkinder, eine Sprachnotiz im Straßencafé neben einer belebten Kreuzung und schließlich das Konzert einer Nachwuchs-Rockband im Club.
Der ICD-SX712 produziert in allen Situationen ein sauberes und rauschfreies Tonsignal. Sind die Mikrofone zusammengesteckt, dann erscheint die Stimme sehr nah und präsent. In der Einstellung »Sprachnotiz« werden Hintergrundgeräusche wirksam ausgeblendet, man hört den Sprecher so, als säße dieser allein in einem geschlossenen Raum, selbst, wenn die Aufnahme im Freien stattgefunden hatte.
Nur an einer stark befahrenen Straßenkreuzung stößt die Technik an ihre Grenzen. Die Sprecherstimme ist zwar immer noch sehr klar zu hören, der Hintergrundlärm ist allerdings sehr deutlich vernehmbar.
Bei auseinandergezogenen Mikros und in der Einstellung »Musik« oder »Besprechung« wird der Klang spürbar räumlicher und gibt Stimmen und Geräusche aus allen Seiten wieder.
Doch wie gut arbeitet der Sony mit der Spracherkennungsprogramm Dragon Naturally Speaking zusammen?
Traumhafter Komfort: Arbeiten im Garten
Das Diktieren über ein mobiles Aufnahmegerät bietet im Prinzip einen traumhaften Komfort bei der Arbeit. Erstens ist man nicht mehr über Headset und Kabel direkt mit dem PC verbunden, sondern kann sich frei bewegen. Das könnte man zur Not auch, indem man ein Headset mit Funk benutzt.
Doch beim Diktiergerät kommen weitere Vorteile hinzu. Während das Funk-Headset nur einen begrenzten Radius hat, ist der Anwender mit dem Diktiergerät völlig unabhängig vom PC. Man könnte also mit dem mobilen Recorder im Stadtpark spazieren gehen und dabei seine Texte ins Mikrofon sprechen. Zuhause angekommen, überträgt man die Aufnahmen via USB-Kabel auf den PC. Die Spracherkennungs-Software wandelt die gesprochene Aufnahme Zeile für Zeile in Text um.
Und noch einen Vorteil bietet der Recorder. Da die Aufnahme direkt als Datei auf der Festplatte landet, wird der klangverschlechternde Weg über Mikrofoneingang und Soundkarte vermieden. So könnte also die Erkennungsrate über ein Diktiergerät prinzipiell sogar besser sein, als die mit Headset.
Der Testaufbau
Der ITespresso.de-Test vergleicht die Ergebnisse beim Diktieren via Recorder mit denen beim Direkt-Diktat am PC. Als Software kommt die neueste Version Dragon Naturally Speaking 11 zum Einsatz, die laut Hersteller noch bessere Ergebnisse als die Vorgängerversion bringt. Nach monatelangem Gebrauch am PC ist das Programm bereits ausgiebig trainiert.
Als Grundlage für den Vergleich zwischen Diktiergerät und Headset dienen zehn sehr unterschiedliche Textbeispiele. Darunter eine geschäftliche E-Mail, eine private Chat-Message, zwei Rezensionen für Amazon, einige Fachtexte sowie der Text einer Pressemitteilung. Dementsprechend groß ist auch das stilistische Spektrum, es reicht von Umgangssprache über Normaldeutsch und Fachdeutsch bis hin zur Feuilleton-Sprache.
Erkennungsrate zwischen 97 und 98 Prozent
Die Texte wurden bewusst so gewählt, dass sie nicht nur die Fähigkeiten, sondern auch die Grenzen der Spracherkennungstechnologie aufzeigen. Diese kommt inzwischen zwar bestens mit Geschäftsbriefen und Fachtexten zurecht, aber Umgangssprache, Anglizismen oder Einsilber wie die Anrede »Hi« lassen auch die intelligentesten Algorithmen scheitern. Die Beispieltexte entsprechen dem, was ein typischer Vielschreiber Tag für Tag produziert und geben deshalb auch ein realistisches Bild davon, wie gut oder wie schlecht diese Aufgaben mit Spracherkennung zu bewältigen sind.
Die durchschnittliche Erkennungsrate mit Headset liegt beim Erstdiktat bei etwa 95 Prozent, und nach Fehlerkorrektur und Wortschatz-Training zwischen 97 und 98 Prozent.
Erreicht der Sony ICD-SX712 die gleiche Erkennungsqualität oder schneidet er vielleicht sogar besser ab als das Direkt-Diktat? Um das herauszufinden, werden die Texte gleichzeitig in Headset-Mikrofon und Diktiergerät gesprochen. Zusätzlich läuft zu Vergleichszwecken noch ein weiteres Aufnahmegerät mit, das Olympus DM-550, ebenfalls ein hochwertiger Recorder mit ähnlichen Features und vergleichbarer Aufnahmequalität.
Da das Diktat bei diesem Testaufbau nur einmal vorgelesen, aber dreimal aufgenommen wird, bekommt Dragon die jeweils identische Tonspur geliefert. Abweichungen aufgrund unterschiedlicher Aussprache oder Betonung beim Sprechen sind somit ausgeschlossen.
Die Ergebnisse sind identisch
Das Ergebnis nach zehn Diktaten überrascht. Zwischen dem Direkt-Diktat am PC und dem Diktat mit dem Sony sind praktisch keine Unterschiede feststellbar. Beide Varianten produzieren die gleichen Fehler an den gleichen Stellen und erzielen am Ende die identische Erkennungsrate. Das gilt übrigens auch für das Olympus DM-550, das zum Vergleich mitgelaufen war. Im Test beträgt die durchschnittliche Erkennungsrate über alle Diktate hinweg 97,5 Prozent (siehe Grafik).
Grenzen der Spracherkennung
Der Sony ICD-SX712 bringt beim Diktieren also dieselben Ergebnisse wie das Direkt-Diktat via Headset am PC. Dass die überlegene Klangqualität des mobilen Aufnahmegeräts keine noch bessere Erkennungsleistung zur Folge hat, liegt an den verwendeten Textbeispielen. Diese sind vom Wortschatz her so schwierig, dass die Software zwangsläufig Fehler macht.
Die Mängel in der Erkennungsleistung sind also auf die Spracherkennung zurückzuführen und nicht auf die Aufnahmegeräte.
Nicht zu Unrecht hat das Gerät von Nuance, dem Hersteller von Dragon Naturally Speaking, die Höchstwertung von sechs Sternen bekommen.
Ohne Windschutz geht es nicht
Die Schlussfolgerung daraus: Wer viel texten muss, kann hierfür auch getrost ein Diktiergerät verwenden und beispielsweise unterwegs seine Texte ins Mikrofon sprechen. Durch die ausgeprägte Richtcharakteristik der Mikrofone und Features wie Tieffrequenz-Filter (Low Cut) werden Hintergrundgeräusche wirksam ausgeblendet – solange diese nicht zu laut sind.
Ein Windschutz sollte bei der Benutzung im Freien aber auf jeden Fall verwendet werden.
Wer mehr Informationen zum Thema mobile Aufnahmegeräte sucht, dem sei die Seite Audiotranskription.de empfohlen.
Fazit: Gelungene Vorstellung
Fazit: Sieht gut aus, ist einfach zu bedienen, bietet alle Optionen für verschiedene Aufnahmesituationen und bringt hervorragende Aufnahmequalität – Sonys ICD-SX712 gibt sich keine Blößen. Als vielseitiges Aufnahmegerät im Geschäftsalltag und vor allem in der Kombination mit Spracherkennung leistet das Gerät gute Dienste.
ICD-SX712 Digitaler Voice Recorder
Hersteller: Sony
Internet: www.sony.de
Preis: 249 Euro
Note: sehr gut
Leistung (50 %): sehr gut
Bedienung: (25 %): sehr gut
Ausstattung (25 %): sehr gut
Technische Daten
Integrierter Speicher: 2 Gigabyte Flash
Speicherkarten: Micro-SD/M2
Mikrofon: 2-Wege Stereomikrofon
Aufnahmeformat: Lineares PCM/MP3 (320/192/128/48/8 kbps)
Wiedergabeformat: MP3/AAC/WMA/WAV/LPEC
Akku: AAA x 2
Anschlüsse:Kopfhörer, USB 2.0, Mikrofon (3,5 mm Klinke)
Abmessungen (BxHxT): 30,8 x 119,3 x 14,9 mm
Gewicht: 70 Gramm
Ausstattung: NiMH Akku, USB-Kabel, Standfuß, Transporttasche, Windschutz, PC-Software Digital Voice Editor, Dragon Naturally Speaking, Version 10.1