Suche für die Website
Eigener Suchdienst

DeveloperE-CommerceIT-ProjekteMarketingSoftware

Webseiten werden im Lauf der Zeit immer komplexer ? schnell kommt der Wunsch nach einer eigenen Suchmaschine auf. Internet Professionell zeigt, wie Sie eine solche einrichten.

Service für Besucher

Suche für die Website

Jeder Betreiber einer Website kennt das Problem: Im Lauf der Zeit erweitert sich die Präsenz ständig um neue Seiten und Inhalte. Irgendwann ist dann der Punkt gekommen, an der eigene Web-Auftritt zu umfangreich wird und der Überblick dahin ist.

Die einfachste und eleganteste Lösung für dieses Problem ist die Einrichtung einer lokalen Suchmaschine auf dem eigenen Server. So können die Besucher Ihrer Seiten bequem nach hinterlegten Daten und Informationen suchen.
Für die automatische Indizierung und lokale Suche von Webseiten gibt es mittlerweile zahlreiche Programme und Tools. Die Entscheidung für ein Tool hängt vom Einsatzzweck sowie von den technischen Gegebenheiten ab.

Internet Professionell zeigt Ihnen im Folgenden verschiedene Möglichkeiten auf, wie Sie eine eigene Suchmaschine auf Ihren Webseiten integrieren, mit der Sie und Ihre Seitenbesucher stets den Überblick wahren.


Eigener Linux-Server

Suche für die Website

Steht Ihnen eine Linux-basierte Webpräsenz mit Systemzugriff zur Verfügung, wie beispielsweise bei einem dedizierten Server, empfiehlt sich der Einsatz der Suchmaschine ht://Dig, vereinfacht als HtDig bezeichnet. Ihre Vorzüge: Das unter der GNU General Public License (GPL) veröffentlichte Programm läuft unter diversen Linux- und Unix-Systemen und erlaubt neben dem Indizieren der eigenen Seiten auch das Scannen beliebiger Webserver im Internet. Damit lässt sich ein Index von sämtlichen Servern einer Firma erstellen, aber auch beliebige andere Webserver im Internet lassen sich einbinden, beispielsweise die von Kooperationspartnern.

Dennoch eignet sich HtDig trotz seiner Funktionen nicht als globale Suchmaschine wie beispielsweise Google. Für HtDig gilt das Motto: klein, aber fein. Obwohl es sich dabei um eine kleine Suchmaschine handelt, kann sich jedoch der Funktionsumfang durchaus sehen lassen. So ermöglichen unter anderem verschiedene Filter das Ein- oder Ausschließen bestimmter URLs oder Dateitypen. Suchbegriffe lassen sich über Boolean-Operatoren miteinander verknüpfen, verschiedene Suchalgorithmen wie komplette Wörter oder Wortteile können kombiniert werden. Zudem lässt sich die Suchmaschine erweitern, beispielsweise zur Suche in PDF-Dateien.

Die Suchergebnisse von HtDig werden nach Relevanz sortiert. Hierbei wird in erster Linie die Anzahl der Treffer pro Seite einbezogen. Etwaige vorhandene Meta-Tags im Quelltext der Webseiten erhalten eine höhere Gewichtung. Die Suchmaschine bietet zudem die Möglichkeit, beliebige Meta-Tags zu definieren, welche dann bei einer Suche beachtet werden sollen.

Im Gegensatz zu zahlreichen anderen Suchsystemen greift HtDig nicht direkt über das Dateisystem auf die zu durchsuchenden Informationen zu. Hierzu verwendet HtDig einen HTTP-Client. Diese Eigenschaft ermöglicht es auch, neben dem eigenen Webserver fremde Seiten zu indizieren.

An dieser Stelle gehen wir nicht näher auf die Einrichtung der Suchmaschine HtDig ein. In der Ausgabe 9/2003 von Internet Professionell finden Sie einen ausführlichen Workshop zu diesem Thema.


Server unter Windows

Suche für die Website

Neben HtDig für Linux-Systeme gibt es selbstverständlich auch eine Lösung für das kommerzielle Pendant Windows. Mit Hilfe des in Windows integrierten Indexdienstes richten Sie mit wenigen Handgriffen eine eigene Suchmaschine ein. Der Indexdienst ist in den Windows-Versionen 2000/2003 sowie XP enthalten und gestattet es, den Internet Information Server mit einer Volltextsuche auszustatten. Beim Indexdienst handelt es sich um einen Windows-Service, welcher ständig im Hintergrund läuft und dabei vorhandene Dateien indiziert. Der Dienst speichert diese Indizes ab und aktualisiert sie bei Bedarf. Das Praktische dabei: Ist der Dienst einmal installiert, verrichtet er klanglos seinen Dienst und erfordert keine weiteren Einstellungen. Zudem durchsucht der Indexdienst nicht nur einfache Textdateien, sondern kommt auch mit Dateien aus den Office-Paketen von Microsoft zurecht.

Den Indexdienst starten Sie über die Anwendung zum Verwalten von Diensten. Die Konfiguration erledigen Sie in der Computerverwaltung unter Dienste und Anwendungen. Neben dem Indizieren der gesamten Festplatte unterstützt der Dienst auch so genannte Kataloge. Einzelne Verzeichnisse können Sie Katalogen zuordnen und die Suche später auf einen oder mehrere Kataloge beschränken. Vor allem bei mehreren virtuellen Servern auf einer Maschine benötigen Sie die Kataloge, um die Suchergebnisse der einzelnen Web-Auftritte zu trennen.

Die Indizierung allein reicht noch nicht aus ? Sie möchten den Index natürlich auch auf Ihrer Homepage zum Durchsuchen anbieten. Auf einem Windows-Server mit dem Internet Information Server empfiehlt sich der Einsatz eines ASP-Skripts. Noch dazu ist dies die einfachste Möglichkeit, über eine Webseite auf den Indexdienst zuzugreifen. Eine detaillierte Beschreibung des entsprechenden ASP-Skripts würde den Rahmen dieses Beitrags sprengen. Im Microsoft Developer Network finden Sie jedoch detaillierte Informationen zur Nutzung des Indexdienstes mit ASP.


Kidnapping von Google

Suche für die Website

Die Suchmaschine Google bietet die Möglichkeit, die Suche auf eine bestimmte Webseite beziehungsweise Domain einzugrenzen. Wieso also den Suchriesen nicht einfach für die Suche nach Inhalten auf der eigenen Webseite nutzen? So steht Ihnen eine effektive Search-Engine zur Verfügung, welche zugleich zahlreiche Extras bietet, beispielsweise das Durchsuchen von Dateien im PDF-Format. Ein weiterer Pluspunkt: Diese Möglichkeit der Suche lässt sich auch auf einfachen Shared-Hosting-Präsenzen nutzen, bei denen Sie keinen Zugriff auf das Dateisystem haben. Auch Skriptsprachen wie PHP sind nicht erforderlich.

Die auf eine bestimmte Seite beschränkte Suche können Sie leicht ausprobieren. Um beispielsweise auf der Webseite von Internet Professionell nach allen Seiten mit dem Begriff »Linux« zu suchen, geben Sie bei Google folgenden Suchbegriff ein: linux site:testticker.de

Damit die Nutzung der Search-Engine von Google überhaupt funktioniert, müssen Sie als Seitenbetreiber erst einmal dafür sorgen, dass die Suchmaschine Ihre Online-Präsenz kennt und auch indiziert. Falls nicht ohnehin bereits geschehen, melden Sie Ihre Seiten bei Google an.

Natürlich ist es noch höchst unpraktisch und vor allem unprofessionell, wenn Sie die Besucher Ihre Seite darauf hinweisen, dass sie bei Google Ihre Seiten durchsuchen können. Viel schöner ist doch, wenn man die Suche direkt von Ihrer Seite aus durchführen kann. Hierzu bauen Sie ein entsprechendes Feld für die Suchabfrage in Ihre Webseiten ein, in folgendem Beispiel wieder anhand der Webseite der Internet Professionell:


"http://www.google.de/search">

maxlength=255 value="">


value="testticker.de">

VALUE="Seite durchsuchen">

Die Google-Lösung ist zwar bequem und mit wenig Arbeit verbunden, hat jedoch auch einige Nachteile. So kann es bei Änderungen auf Ihren Seiten mitunter einige Zeit dauern, bis auch Google Ihre Seite wieder indiziert hat und die Suchergebnisse entsprechend anpasst. Auch haben Sie keinen Einfluss auf die Darstellung der Ergebnisse und auf die tatsächlich indizierten Seiten.


Google und PHP

Suche für die Website

Oben gezeigtes Suchbeispiel mit Hilfe der Suchmaschine Google hat den Nachteil, dass Sie die Ausgabe der Seite nicht beeinflussen können. Sie erhalten mit dieser Lösung zwar eine ausgereifte Suche, jedoch passt das Layout der Google-Ausgabeseiten nur selten zum Erscheinungsbild der eigenen Webseite.

Wer zwar Google nutzen möchte, aber mehr Einfluss auf die Ausgabe der Ergebnisse haben möchte, braucht eine andere Lösung: die Google-API. Um die API des Suchriesen nutzen zu können, benötigen Sie einen Account, den Sie kostenlos eröffnen können. Mit Hilfe der API können Sie nun auf den Google-Index zugreifen und die Suchausgaben individuell nutzen.

Um die API zu nutzen, benötigen Sie entsprechende Skripts für den Zugriff und zur Anpassung der Ergebnisse. An dieser Stelle bietet sich die Nutzung der beliebten Skriptsprache PHP an.

Da nicht jeder über ausreichende Programmierkenntnisse verfügt oder die Zeit hat, sich ein solches Skript selbst zu basteln, können Sie auf bereits vorgefertigte Skripts zurück greifen, wie zum Beispiel das Search-Engine-Skript von Digital Point Solution (www.digitalpoint.com/tools/search). Das Skript setzt PHP ab der Version 3.0 voraus. Eine Datenbank oder Ähnliches ist dabei nicht erforderlich.


Eigene Skripts

Suche für die Website

Wer nicht auf Google setzen möchte und keinen eigenen Server mit Systemzugriff besitzt oder sich nicht gleich in eine vergleichsweise komplizierte Lösung wie HtDig einarbeiten möchte, sollte auf eines der zahlreichen verfügbaren Skripts zurückgreifen. Auf einschlägigen Seiten wie Hotscripts.com finden sich eine Fülle von Skripts in verschiedenen Programmiersprachen zum Durchsuchen des eigenen Web-Auftritts.

Ein interessantes Beispiel ist das Tool PhpMySearch (web4.hm/phpmysearch/phpmysearch_de.html). Die Suche basiert auf PHP und MySQL und läuft sowohl auf Linux- als auch auf Windows-Systemen. Das Skript wird lediglich per FTP auf den Server geladen und anschließend über den Webbrowser konfiguriert.

Besonderes Feature: Das PHP-Skript durchsucht neben den üblichen Internet-Formaten auch Dateien in den Formaten PDF, DOC, XLS sowie Staroffice. Veraltete Dokumente werden automatisch erkannt und aus der Datenbank gelöscht. Die Besucher Ihrer Webseiten bekommen also nur die aktuellsten Informationen angezeigt.

PhpMySearch ist für die private und nichtgewerbliche Nutzung sowie gemeinnützige Organisationen und Vereine kostenlos, eine gewerbliche Nutzung kostet rund 20 Euro.


Zahlreiche Möglichkeiten

Suche für die Website

Für die Suche nach Informationen auf der eigenen Webseite stehen zahlreiche Möglichkeiten zur Auswahl. Für welche Art und Weise der Suche man sich letztendlich entscheidet, hängt vor allem davon ab, auf welcher technischen Plattform der eigene Web-Auftritt basiert und welchen Kenntnisstand der Webmaster in Sachen Programmierung vorweisen kann.

Wer einen dedizierten Server sein eigen nennt, kann auf professionelle Lösungen wie beispielsweise HtDig zurückgreifen, die mit umfangreichen Such- und Indizierungsfunktionen aufwarten können. Auch in Sachen Anpassung und Konfiguration haben Sie bei dieser Lösung eine Menge Freiheiten.

Besitzer einer Shared-Hosting-Webpräsenz können entweder die Google-Suche über ein vergleichsweise einfaches Formular einbinden oder über ein Skript direkt auf die Google-API zugreifen. Auch die Nutzung von Skripts mit eigener Indizierung stellt eine praktische Alternative dar.

So kann die Webseite problemlos wachsen ? mit einer eigenen Suchmaschine behalten die Besucher und auch Sie selbst stets den Überblick und finden zeitnah die gewünschten Informationen. Wenn Sie ein Content-Management-System einsetzen, sind Sie ohnehin auf der sicheren Seite ? viele CMS bringen bereits eine entsprechende Suchfunktion mit.


Fazit

Suche für die Website

Je komplexer eine Website wird, desto schwieriger wird die Suche nach gewünschten Informationen. Als Lösung bietet sich eine lokale Suchmaschine für den eigenen Webauftritt an.

Besitzer einer Shared-Hosting-Präsenz können auf eines der zahlreichen verfügbaren Skripte zurückgreifen. Wer einen dedizierten Server unter Linux oder Windows sein Eigen nennt, kann seine Webpräsenz um eine umfangreiches Suchmaschine mit zahlreichen Funktionen ergänzen.

Eine weitere Alternative ist die Nutzung einer großen bekannten Suchmaschine wie Google.