Office-Dateiformate
Ende der Office-Steinzeit

Office-AnwendungenSoftware

Die neuen Büro-Suiten sichern Office-Dokumente im XML-Format. Sun und Open-Office.org setzen auf Open Document, Microsoft dagegen auf Open XML. Der Praxis-Artikel erklärt, welche Vorteile Anwender durch die neuen Dateitypen haben.

Schlacht um Dokumente

Office-Dateiformate

Klein, kompatibel, sicher – das sind die Charakteristika der neuen Office-Dateien. Alle wichtigen Hersteller von Büro-Anwendungen nutzen künftig XML-basierte Files zum Sichern von Inhalten. Ein Standard ist trotzdem nicht in Sicht. Denn schon haben sich zwei Lager gebildet. Das Open-Document-Format wird von IBM, Sun (Star Office) und OpenOffice.org unterstützt. Dagegen setzt Microsoft auf einen eigenen XML-Typ. Office 2007 wird so genannte Open-XML-Files lesen und schreiben, Open Document jedoch nicht unterstützen.

Was auf dem Markt als Schlacht um Dokumente ausgetragen wird, ist von der technischen Seite her nahe beieinander. Grundlage beider File-Typen ist die Extensible Markup Language (XML). Alle alphanumerischen Inhalte der Dokumente – Texte, Tabellen oder Präsentationen – sind in XML-Dateien gespeichert. Alle anderen Dokumenten-Teile wie etwa Grafiken, OLE- oder VBA-Objekte sind davon strikt getrennt. Weitere XML-Dateien zu dem Dokument können zusätzliche Informationen (Metadaten) enthalten, etwa Formatvorlagen-Definitionen, Kommentare, Speicherpfade, Autor oder Zeichenzahlen.


Weniger Speicherplatz nötig

Office-Dateiformate

Zusammengehalten werden die unterschiedlichen Dateiteile sowohl bei Open Document als auch Open XML von einem ZIP-Container, der das eigentliche Dokument bildet. Bei beiden Dateitypen handelt es sich um komprimierte Archive. Das senkt den Speicherbedarf der Daten. Die ohnehin schon schlanken XML-Inhalte werden nochmals gestaucht. Die Office-Applikationen konvertieren eingebundene Bilder während des Speicherns in ein Platz sparendes Grafikformat. Danach schrumpft die ZIP-Komprimierung die Bilder verlustfrei.

Im PCpro-Test wurden die Files um 50 bis 90 Prozent ihrer ursprünglichen Größe zusammengestaucht, wenn sie in den neuen Formaten abgelegt werden.


Sicher abgelegt, jederzeit zu öffnen

Office-Dateiformate

Mehr Datensicherheit verspricht der vom ZIP-Algorithmus her bekannte CRC-Prüfwert (Cyclic Redundancy Check). Er stellt die Integrität jeder Datei im Archiv sicher. CRC reagiert sehr präzise auf Modifikationen der gepackten Daten. Selbst wenn ein Teil des ZIP-Archivs fehlerhaft sein sollte, kann der User die übrigen Daten immer noch verwenden.

Beruhigend im Büro-Alltag: Ist ein mit Star Office (ODT, Open Document Text) oder Microsoft Word (DOCX. Word Open XML) erstelltes Dokument einmal gespeichert, kann sich der User darauf verlassen, dass die Inhalte durch einen bewährten Algorithmus geprüft und sicher abgelegt sind. Getrennte Datenhaltung, Komprimierung und CRC-Prüfung bringen aber noch weitere Vorteile. Da Windows über eine Entpackroutine verfügt, ist der ZIP-Algorithmus ein Pluspunkt. So lassen sich die Office-Files notfalls auch ohne Spezial-Software verarbeiten. Der Nutzer muss nur im Dateimanager die Endung des Dokuments – ODT oder DOCX – in ZIP ändern. Dann kann man die Datencontainer im Explorer oder mit einem Packtool wie eine komprimierte Datei durchsuchen.

In reinen XML-Files – etwa Content.XML in der ODT – ist der gesamte Text aus der OpenOffice.org-Datei gesichert. Per Copy and Paste lässt er sich beispielsweise in andere Programme wie den Texteditor übertragen, ohne dass Writer aus der freien Office-Suite auf einem PC installiert sein muss. Mit einem PHP-Script und der Erweiterung PclZip können die Inhalte auch automatisch aus größeren Dokumenten-Mengen extrahiert werden. Die Möglichkeit, komplette Inhalte oder nur Teile aus Office-Files auszulesen, ist ein Vorteil für Firmen, in denen die Daten von Dokumentenmanagement-Systemen automatisch verarbeitet werden. Das wird dank XML immens vereinfacht.


Datenzugriff trotz Dateifehlern

Office-Dateiformate

Die Unterschiede zwischen Open Document und Microsofts Open XML beginnen auf der Ebene der Dateibestandteile: Open Document fasst alle Inhalte, also Text, Kopfzeilen und zum Beispiel Fußnoten, in einer Datei zusammen. Microsoft nimmt bei Open XML ebenfalls solche Daten aus der zentralen XML-Datei heraus, die Word 2007 im DOCX-Container unter dem Namen Document.XML gespeichert. Zudem enthält DOCX etwa Endnotes.XML, Footnotes.XML und Header.XML. Darin befinden sich aber nicht die Inhalte, sondern lediglich die Definitionen für die Fußnoten oder Kolumnentitel.

Aus Sicht des Anwenders kann dieser Unterschied zwischen den Formaten durchaus Konsequenzen haben. Denn in defekten oder nur teilweise geladenen Office-Files der neuen Generation können zum Beispiel die eingebetteten Bilder verloren gehen, ohne dass die eigentlichen Inhalte beschädigt sind. Damit wird das Wiederherstellen korrupter Teilinformationen möglich. Microsofts Open XML kann dank der noch strikteren Trennung zwischen Inhalt und Format einen Vorteil gegenüber Open Document verbuchen.

Das Zusammenfassen von Formatdefinitionen in Open Document führt zu einem sparsameren Umgang mit Speicherplatz als bei der Microsoft-Konkurrenz. So sind Open-XML-Files im Schnitt doppelt bis dreimal so groß wie die Open-Document-Pendants.


Kein Konvertierzwang für Dateien

Office-Dateiformate

Um die konkurrierenden Dateiformate in den neuen Office-Suiten durchzusetzen, gehen die Hersteller verschiedene Wege. Die Open-Document-Fraktion – bestehend aus den Entwicklern von OpenOffice.org sowie Koffice, Sun, Novell, Oracle und IBM – verwendet den Dateityp als Standard. Das Konvertieren in bisherige Formate ist allerdings ebenso möglich wie das Ändern der Voreinstellungen. Writer von OpenOffice.org schreibt dann statt ODT immer DOC.

Das gleiche Prinzip gilt für Office 2007 und Open XML: Als Default ist das XML-Format eingestellt. Im Kompatibilitätsmodus lesen und sichern Word, Excel und Powerpoint aber auch die alten, binären Dateien. Damit Benutzer älterer Microsoft-Tools Open-XML-Files öffnen können, soll es zum Start von Office 2007 Konvertiertools geben. User von Office 2000, XP und 2003 werden damit Open XML lesen und schreiben können.

Obwohl Microsoft verspricht, die Open-XML-Definitionen lizenzfrei zugänglich zu machen, unterscheidet dieser Aspekt das Format von Open Document. Dessen Vorschriften liegen bereits offen und Entwickler können sie in eigene Tools einbinden. Gebühren erhebt die Vereinigung OASIS (Organization for the Advancement of Structured Information Standards) dafür nicht.


Gratis-Tools für offene Dokumente

Office-Dateiformate

Früchte trägt die Verfügbarkeit des Open-Document-Standards auch abseits der Office-Suiten. So haben Nutzer bereits Tools entwickelt, die die Bandbreite künftiger Anwendungen aufzeigen. An Open Document Converter (AODC, PCP-Code: OPENDOC) wandelt Open-Document-Dateien in HTML-Seiten um. ODF Reader (PCP-Code: OPENDOC) zeigt Open-Document-Texte im Fenster des Browsers Firefox 1.5 an. Noch im Entwicklungsstadium befindet sich das Plug-in OpenOpenOffice (oder O3). Es erlaubt Benutzern von Microsoft Office künftig das Bearbeiten von Open-Document-Dateien.

Auch wenn sich hier der Formatkrieg zwischen Open Document und Open XML anbahnt: Gewinner sind die User. Denn die gemeinsame Grundlage der Dateitypen, XML, führt letztendlich zu mehr Sicherheit beim Umgang mit den Office-Dokumenten.