XML und die Internetsuche
Internet-Suche: Warum Standards hier nicht funktionieren

E-CommerceMarketing

XML bietet sich geradezu an, um die Suche im Internet zu vereinfachen. Die Daten sind strukturiert und genau definiert, so dass alle Informationen gewissermaßen schon sortiert für die Suche vorliegen. Johann Glas komentiert, warum es trotzdem nicht geht.

“Tchaikovsky” beweist: XML hilft nicht immer

XML und die Internetsuche

Das ist Ihnen sicherlich auch schon passiert. Sie suchen ein Online-Biografie über Tschaikowsky und bekommen als Suchergebnis Angebote über seine Werk auf CD oder MP3. Man erfährt auch nützliche Dinge, wie zum Beispiel, dass es eine “Tschaikovski”-Musikschule gibt oder Neuigkeiten aus dem Gewerbe der Büstenmanufakturen.

Mit XML wäre das viel einfacher. Würden die Suchmaschinen mit XML arbeiten, würde man nach Eintippen von “Tschaikowsky” sofort auf den richtigen Seiten landen.

Dieser schönen Suchwelt stehen mehrere Hindernisse im Weg. Obwohl es natürlich grundsätzlich zu verwirklichen wäre. So sind zum Beispiel immer noch ältere Browser im Betrieb, die mit XML nichts anfangen können. Auch wenn es gute Produkte zum Nulltarif gibt, diesen Mitbürgern ein neues Programm aufzudrängen wäre trotzdem undemokratisch.

Uns fehlen wieder einmal die Standards. Nicht der XML-Standard selbst, sondern die Standards für die Tags. Hier müssten sich die Industriezweige zusammenraufen und gewissermaßen eine Schreibvereinbarung anbieten, um eine gezielte Suche zu erlauben. Einige haben schon angefangen. Aber wenn es richtig losgeht: Das Gerangel der Platzhirsche über die Deutungshoheit kann man sich gut vorstellen. Sollten sie sich trotzdem schnell einigen, ähnelt das ganze dann mehr einer Datenbankabfrage – was es ja auch ist – als einer Textsuche, wie wir es gewöhnt sind. Das bedeutet für Sie: Tags auswendig lernen! Viel Spaß!


Sprachprobleme bei der Internet-Suche

XML und die Internetsuche

Damit fangen die Probleme erst an. Wer legt zum Beispiel die Sprache selbst fest? Natürlich bietet sich das Englische an. Damit sind aber die meisten Deutschen überfordert. Eine einfache Suche nach “author Hemingway” oder “composer Chaikovzky” stellt für die meisten sicher kein Problem dar. Aber mal ehrlich – kennen Sie sämtliche englische Fachausdrücke der Motorenteile Ihres Wagens?

Und selbst wenn man es sich mit der Bezeichnersprache einfach macht und sich auf Englisch einigt – auf die Suchmaschinen selbst kommt jede Menge Arbeit zu. Sie müssen sämtliche Tag-Kollektionen der verschiedenen Branchen besitzen, verwalten und für die Suche anwenden können. Und wenn in diesen Tag-Kollektionen identische Bezeichner vorkommen, sind wir wieder am Anfang – nur zielgenauer.

Was ist mit den teilweise sehr interessanten Ideen, die mangels eindeutiger Definition und Zuordnung ungerechterweise immer in Grab-Rubriken wie “Sonstiges” oder “Verschiedenes” landen? Und ein weiteres Problem ist dem aufmerksamen Leser sicher schon aufgefallen: Was tun mit “Tschaikovskij”? Wenn man den Bibliothekaren glauben darf, die ja mit diesem Problemen schon seit Jahrhunderten zu tun haben, gibt es für den Namen dieses Komponisten 32 Schreibweisen, übertroffen nur von Mao-Tse-Tung. Auch diese Tatsache muss von den Suchmaschinen berücksichtigt werden.

Man darf gespannt sein, welche Lösung uns die Entwickler anbieten können. Ansätze und Sichtweisen hat etwa die Computerlinguistin Dr. Rosemary Stegmann schon in unserem Artikel “Was kommt nach Google?” beschrieben – Standards wie XML sind in den von ihr beschriebenen Forschungsansätzen aber offenbar nicht vorgesehen. Das hat wohl seine Gründe.


Der Autor

XML und die Internetsuche

Johann Glas ist ein PC-Professionell-Mann der ersten Stunde und arbeitete 1990 bis 1993 als zweiter Redaktionsmitarbeiter von Ziff-Davis Europa. Als stellvertretender Chefredakteur und Spezialist für Netzwerkthemen prägte er Fachzeitschrift PC Professionell mit.

Ausflüge in die Firmenvernetzung, Forschung und in die Finanzbranche machen Glas zu einem Allrounder – sein gesammeltes Know-how stellt er als Autor und Berater zur Verfügung.