Content Management System für die Website
Pflegeleichte Inhalte

Allgemein

Je größer ein Web-Auftritt, desto komplizierter wird seine Pflege. Internet Professionell zeigt Ihnen, wie Sie problemlos auf ein Content-Management-System portieren.

Übersicht und Aktualität

Content Management System für die Website

Auch wenn am Anfang der Firmenauftritt oder ein Intranet meist mit einer relativ einfachen Visitenkarte beginnt, so wächst der Online-Auftritt in der Regel stetig. Es kommen ständig neue Informationen hinzu, und damit einhergehend steigt meist auch die Zahl der Mitarbeiter, die Daten für das Web oder Intranet aufbereiten. So erfreulich natürlich das Wachsen des Web-Auftritts ist, desto schwerer wird es, die einzelnen Seiten zu pflegen und die Übersicht über den eigenen Web-Auftritt zu behalten.

Abhilfe schafft hier ein Content-Management-System (CMS), welches mittlerweile auch in kleinen und mittelständischen Unternehmen immer häufiger Einzug hält. Grundlagen zu dieser Thematik sowie einen Wegweiser mit ausführlichen Informationen, wie Sie im Dschungel der Anbieter das richtige CMS für Ihren Web-Auftritt finden, konnten Sie bereits in der Mai-Ausgabe der Internet Professionell in einem ausführlichen Beitrag lesen.

Im jetzigen Beitrag liegt der Schwerpunkt darauf, wie Sie Ihren vorhandenen Web-Auftritt auf ein Content-Management-System portieren. Dabei erfahren Sie, wie bei einer Portierung konkret vorzugehen ist und was es dabei zu beachten gilt. Abgerundet wird das Ganze anhand eines realen Beispiels, das Ihnen einen Einblick in einen realen Fall aus der Praxis vermittelt.


Content-Management-System?

Content Management System für die Website

Bevor es im Einzelnen um die Auswahl eines Content-Management-Systems und vor allem auf die Portierung vorhandener Inhalte geht, ist es erst einmal wichtig, zu klären, was genau ein solches System überhaupt ist. Wie funktioniert es und wie ist es aufgebaut?

Eine wesentliche Eigenschaft eines Content-Management-System ist die Entkoppelung von Content und Programmierung. Durch Verwendung so genannter Templates, also Webseiten-Vorlagen, sind die Informationen nicht mehr statisch in die Webseiten eingebunden. So speichert ein CMS keine vollständigen Webseiten, sondern lediglich einzelne Bestandteile davon. Erst beim Aufruf einer Webseite wird der Content aus einer Datenbank ausgelesen, mit dem Webseite-Template verknüpft und dann als endgültige Webseite an den anfragenden Client ausgeliefert.

Zwar spricht man heutzutage meist nur noch generell von Content-Management-Systemen ? auch in diesem Beitrag verwenden wir diese Bezeichnung. Bei einem CMS für Webseiten handelt es sich jedoch genau genommen um ein Web-Content-Management-System, kurz WCMS. Der Oberbegriff CMS bezeichnet eine Gattung von Software, die eine darstellungsunabhängige Erstellung und Verwaltung von Informationen und deren Ausgabe in verschiedenen Formaten ermöglicht.


Komponenten eines CMS

Content Management System für die Website

Der Aufbau eines Content-Management-Systems ist in den meisten Fällen gleich und besteht in der Regel aus sechs festen Komponenten. Diese bilden das Grundgerüst eines CM-Systems.

Die zentrale Komponente eines Content-Management-Systems ist das so genannte Asset-Management ? zuständig für Verwaltung aller digitalen Assets, also der Gegenstände. So werden die eigentlichen Inhalte einer Webseite getrennt von der eigentlichen Darstellung medienneutral erfasst und gespeichert.

Eine weitere ebenso wichtige Komponente ist das Workflow-Management. Diese ermöglicht das zentrale Arbeiten mit den verwalteten Assets durch mehrere Mitarbeiter. Basierend auf definierten Zugriffsrechten schafft die Workflow-Komponente eine Arbeitsumgebung, die den Zugriff mehrerer Nutzer auf die Vielzahl von vorhandenen Dokumenten steuert.

Die beiden Komponenten Zugriffs- und Benutzerverwaltung arbeiten eng zusammen. Die über die Benutzerverwaltung erfassten oder aus einem anderen System importierten User erhalten entsprechend ihrer Rolle im Workflow Rechte im System. So lässt sich beispielsweise festlegen, dass ein Grafiker lediglich Zugriff auf die gespeicherten Bilder haben soll oder etwa ein Redakteur nur Beiträge des in seinen Zuständigkeitsbereich fallenden Ressorts bearbeiten darf.

Ob Import von Alt-Daten oder der Export von gespeicherten Informationen ? die Import- und Exportschnittstellen eines Content-Management-Systems spielen eine zentrale Rolle. Besonders der XML-Standard setzt sich hier immer mehr durch und sollte bei jedem Content-Management-System Standard sein. Aber auch andere Schnittstellen bringen Vorteile: So lassen sich beispielsweise bei bestimmten CM-Systemen gespeicherte Webseiten als Adobe-Indesign-Dateien exportieren.


Problem: vorhandene Inhalte

Content Management System für die Website

Vorhandene Inhalte sollten bei einer Portierung einer Seite in ein Content-Management-System natürlich nicht neu erfunden werden. Haben Sie sich für die Anschaffung eines Content-Management-Systems Ihrer Wahl entschieden, heißt es, die Alt-Daten in das neue System zu übernehmen. Ziel ist es daher, die existierenden Informationen aus anderen Medien und Formaten sowohl fehlerfrei als auch effektiv zu übernehmen. Bei den bestehenden Daten kann es sich beispielsweise um Datenbankbestände sowie um Word- und Quark-Xpress-Dokumente handeln. Aber auch Gedrucktes möchte man unter Umständen in das CMS übernehmen. Zudem stehen meist noch statische HTML-Dateien des vorherigen Web-Auftritts zur Verfügung, deren Inhalte man nicht ebenfalls erneut eingeben möchte.

Abhängig von der Menge und dem Strukturierungsgrad der zu übernehmenden Daten können verschiedene Lösungsansätze zum Einsatz kommen: Diese reichen vom recht unpraktischen Abschreiben über das Kopieren per Zwischenablage bis hin zum Einsatz vollautomatisierter Import-Skripts.


Bestandsaufnahme

Content Management System für die Website

Im ersten Schritt steht eine Bestandsaufnahme der zu übernehmenden Daten an. Dabei gilt es einige Fragen zu klären, welche für das weitere Vorgehen entscheidend sind.

So hängt das passende Lösungskonzept zur Übernahme von Alt-Dateien unter anderem von der vorhandenen Datenmenge ab. Bei kleineren Webpräsenzen oder bei einer übersichtlichen Sammlung von Word-Dokumenten ist es meist die einfachste und schnellste Lösung, die Informationen einfach per Copy and Paste in den Editor des Content-Management-Systems zu übernehmen. So ist diese Lösung beispielsweise bei rund 100 vorhandenen Seiten in Verbindung mit einem Praktikanten, der die konkrete Ausführung vornimmt, vielleicht nicht gerade die edelste, aber dafür auf jeden Fall mit Abstand die einfachste Lösung.

Bei größeren Datenbeständen ab rund 500 Seiten sollte man sich überlegen, einen Entwickler mit dem Daten-Import zu betrauen. Aber auch hier ist zu bedenken, dass die automatisiert importierten Daten meist nicht absolut fehlerfrei übernommen werden.

Hier gilt es durchzurechnen, was im Endeffekt billiger kommt: gleich einen oder mehrere Praktikanten alle Alt-Daten per Copy and Paste einpflegen zu lassen, oder einen Entwickler darauf anzusetzen und die importierten Daten danach von einem Praktikanten entsprechend nachbearbeiten zu lassen. Diese Rechnung fällt je nach Alt-Datenbestand unterschiedlich aus.


Automatisierter Import

Content Management System für die Website

Entscheidet man sich dafür, einen Entwickler zu betrauen, damit dieser entsprechende Import-Skripts programmiert, so entscheidet die Strukturierung der Alt-Daten über den notwendigen Aufwand. Je gleichmäßiger und zuverlässiger die Strukturen der vorhandenen Daten sind, desto leichter ist es, für den Import einen entsprechenden Algorithmus zu finden, welcher eine niedrige Fehlerrate aufweist.

Sehen wir uns den Import mittels Skripts einmal an einem Beispiel an: Bei einem vorhandenen statischen Web-Angebot mit HTML-Dateien in einer Verzeichnisstruktur ist der Content je HTML-Seite in einem Div -Element der Klasse Content sowie der Titel ordentlich im Title
-Tag abgelegt. Mit einem Import-Skript könnte man nun die bereits vorhandenen Inhalte problemlos und ohne großen Aufwand in ein Content-Management-System integrieren. Hierfür lässt sich dann folgender Algorithmus anwenden:

> Gehe rekursiv vom Root-Verzeichnis durch alle
Verzeichnisse.

> Das CMS erstellt über die API für jedes Verzeichnis
einen Strukturpunkt.

> Für jede gefundene HTML-Datei wird eine neue
Seite im CMS angelegt.

> Die Datei wird eingelesen, und mit Pattern-Matching-
Funktionen werden der Title und das Div-Tag geparst
und der Seite im CMS zugewiesen.


Allrounder XML

Content Management System für die Website

Befinden sich die Alt-Daten bereits in einem anderen Content-Management-System oder einem anderweitigen Datenbestand, welcher mit einer XML-Export-Schnittstelle ausgerüstet ist, so liegen die Daten bereits in einer gut strukturierten Form vor. Ein XML-Parser kann diese Daten in der Regel problemlos einlesen und verarbeiten. Viele Content-Management-Systeme besitzen einen XML-Import, mit dem über eine XSL-Transformation die Export-Dateien in das erwartete Import-Schema transformiert und dann anschließend importiert werden.

Ebenfalls praktisch ist es, wenn die Daten bereits in einer relationalen oder XML-basierten Datenbank vorliegen. Es kann mitunter sinnvoll sein, die Daten gar nicht erst in das Content-Management-System zu importieren, sondern mit Templates im alten Datenbestand abzufragen und einzubetten. Dieses Vorgehen ist nur dann sinnvoll, wenn die Inhalte nicht zwingend im Content-Management-System bearbeitet werden müssen, sondern ohnehin von anderen Applikationen verwaltet werden.


Import anhand eines Beispiels

Content Management System für die Website

Das im Folgenden dargestellte reale Projekt zeichnete sich dadurch aus, dass große Mengen Legacy-Daten zu übernehmen waren. Anhand des Beispiels mit dem CMS Contentserv 3.1 ist ein guter Vergleich der diskutierten Strategien möglich.

Bei diesem Projekt eines öffentlichen Auftraggebers sollte eine in Quark Xpress vorliegende Loseblattsammlung mit über 500 Seiten durch ein Team von 24 Redakteuren synchron redaktionell überarbeitet werden. Zusätzlich sollte während der Bearbeitung das Dokument öffentlich übers Internet zugänglich werden, und abschließend sollten parallel zur Webversion die Inhalte wieder in Quark Xpress reexportiert, nachgesetzt und gedruckt werden. Das Projekt wurde dabei mit dem Content-Management-System Contentserv 3.1 (
www.contentserv.de
) durchgeführt.

Bei diesem Projekt mussten zunächst die Inhalte der bestehenden Loseblattsammlung fehlerfrei importiert werden. Die Fehlerfreiheit der Inhalte war hier eine zusätzliche Sonderbedingung, da diese nach redaktioneller Überarbeitung wieder in den Druck gehen mussten.

Es lag hier also die zusätzliche Problematik des Rückwärtsexports vor. Während bei Online-Angeboten Fehler auch später noch meist ohne Kosten zu beheben sind, hätte eine Neuauflage eines bereits gedruckten Werkes unter Umständen hohe Kosten und Aufwand verursacht. Erschwert wurde die Situation durch die Tatsache, dass die Original-Daten in Quark Xpress vorliegen, welches mit HTML, Word und RTF leider nicht gerade durch eine Vielzahl von verfügbaren Export-Formaten besticht.


Copy and Paste nicht sinnvoll

Content Management System für die Website

Bei 514 Seiten war die einfache Lösung via Copy and Paste natürlich nicht durchführbar. In Tests stellte sich zudem heraus, dass viele Formatierungen nicht korrekt übernommen wurden und eine Nacharbeit erforderlich werden würde. Dies hätte zudem zu einer zwar menschlichen, aber dennoch unvertretbaren Fehlerrate geführt.

Als Nächstes bot sich an, die Quark-Xpress-Dateien als HTML abzuspeichern und diese Dateien anschließend mit einem PHP-Skript und Pattern-Matching weiterzuverarbeiten. Jedoch stellte sich hierbei heraus, dass die Seiten mit freien und nur teilweise verknüpften Textboxen erstellt wurden ? daher konnte nicht einmal der gesamte Text auf einmal als HTML- oder Word-Datei gespeichert werden.


Halbautomatisches Verfahren

Content Management System für die Website

Nach diversen Versuchen erwies sich das folgende Verfahren als das effektivste: Ein Praktikant markierte jeweils eine verbundene Textbox und sicherte den Inhalt der Box als HTML-Datei, wobei der Titel der Seite Informationen über die Menüposition im Internet-Angebot mitbekam. Auf diese Weise entstanden im Beispielprojekt aus den über 500 Quark-Xpress-Seiten rund 230 HTML-Seiten mit einer großteils zuverlässigen Strukturierung.

Entwickler programmierten ein PHP-Skript, das diese Seiten in einem mehrstufigen Prozess parste, Inhalte extrahierte und mit Hilfe der Seitentitel über die Contentserv-PHP-API Seiten anlegte und die Inhalte in die Datenbank schrieb. Ein Praktikant überprüfte anschließend die importierten Inhalte durch einen Vergleich mit dem ursprünglichen gedruckten Werk. Zu guter Letzt wurden die freigegebenen Inhalte noch durch die Redakteure des Auftraggebers kontrolliert und abgenommen.


Aufwand für den Import

Content Management System für die Website

Insgesamt wurden bei diesem Projekt die 500 Seiten von zwei Praktikanten, einer Grafikerin, drei Entwicklern, einem Projektmanager sowie 24 Redakteuren des Auftraggebers bearbeitet und gesichtet. Damit ein solches umfangreiches Projekt nicht im Chaos endet, wurde mit dem Workflow-Modul von Contentserv ein siebenstufiger Prozess definiert, welcher mit einem konsequenten Rechte-Management hinterlegt wird. Schließlich konnte dann die Webversion online gestellt werden.

Im Folge-Schritt wurde dann in einem kopierten Mandanten des Projekts die Überarbeitung der Inhalte fortgeführt, um die nächste Version fertig zu stellen. Diese Inhalte wurden dann für den Druck in Adobe Indesign über das XML-Plug-in von Contentserv wieder reimportiert und standen daraufhin sowohl im Print als auch im Web zur Verfügung. Das Beispiel zeigt deutlich, dass selbst der Import von proprietären Dateien in ein Content-Management-System problemlos möglich ist. Dennoch sollte man beachten: Je proprietärer das Format und die Strukturierung der vohandenen Alt-Dateien, desto mehr Aufwand ist für den Import von vorhandenen Dateien nötig.