TU Darmstadt lässt Computer Menschen besser verstehen

ForschungInnovation

Eine vom Ubiquitous Knowledge Processing (UKP) Lab an der TU Darmstadt entwickelte Software erkennt Texte, die mit anderen Worten etwas Ähnliches aussagen. Dazu nutzen die Wissenschaftler unter anderem maschinenlesbare Wörterbücher. Dennoch funktioniert das Verfahren auch bei unbekannten Daten.

Das Ubiquitous Knowledge Processing (UKP) Lab an der TU Darmstadt hat eine Software entwickelt, mit der Computer die Bedeutung von Texten verstehen und darauf aufbauen zuverlässig ähnliche Aussagen erkennen können – auch, wenn sie in völlig anderen Worten ausgedrückt werden. An dieser Aufgabe arbeiten die Darmstädter Forscher schon seit 2006.

Professorin Iryna Gurevych (Bild: Bild: Katrin Binner)
Professorin Iryna Gurevych (Bild: Bild: Katrin Binner)

Angefangen haben sie mit der damals gerade angesagten “semantischen Suche”. Das war naheliegend, schließlich kennt das Problem jeder Webnutzer: Suchmaschinen liefern ausschließlich Fundstellen, die exakt den Suchbegriffen entsprechen. Die Bedeutung der Suchanfrage erschließen sie sich nicht. Surfer müssen sich daher exakte und abstrakte Suchanfragen einfallen lassen – und erhalten trotzdem größtenteils irrelevante Informationen.

Im Rahmen des Forschungsprojekts “Semantisches Information Retrieval” (SIR) hatten es sich die Wissenschaftler der TU Darmstadt schon damals auf die Fahnen geschrieben, das ändern zu wollen. Projektleiterin Iryna Gurevych erklärte damals: “SIR soll es dem Nutzer erlauben, Suchanfragen in natürlicher Sprache zu stellen, aus denen das System dann die Suchbegriffe automatisch herausfiltert.”

Als Beispiel nannten die Forscher damals die Anfrage “Ich suche Rezepte für Kuchen, die kein Obst enthalten”. Mit dieser oder ähnlichen Anfragen könne keine Suchmaschine der Welt sinnvoll umgehen – woran sich übrigens in den vergangenen Jahren nicht viel geändert hat, wie ein aktueller Blick auf Google (siehe Bild unten) zeigt. Auch die computergerechter formulierte Anfrage “Rezept Kuchen kein Obst” führt nur zu tausenden von Fundstellen, in denen der Nutzer relevante Informationen immer noch wie eine Nadel im Heuhaufen suchen muss. Und viele interessante Fundstellen – etwa Muffin- oder Guglhupf-Rezepte – bleiben gleich außen vor.

Lösen wollten die Darmstädter das, indem sie das System mit Wissen über die Bedeutung von Wörtern ausstatten. Dadurch könne es es dem Nutzer dann auch Seiten liefern, die nicht nur die Suchbegriffe selbst, sondern auch verwandte Wörter enthalten, also nicht nur “Kuchen”, sondern auch “Muffins” oder “Guglhupf”.

Computer und Menschen verstehen sich immer noch nicht richtig – wie die Suche nach Rezepten für Kuchen ohne Obst zeigt (Screenshot: ITespresso).

Die aktuell vorgestellte Software geht aber einige Schritte weiter: Bei ihr geht es nicht nur um die Verknüpfung von verwandten Worten oder Begriffen, sondern ganzer Texte. Für Computer sind freie Texte im Regelfall nicht mehr als eine Folge bestimmter Zeichen.

Die Bedeutung dieser Zeichenketten, deren “Semantik”, die sich Menschen – zumindest Muttersprachlern – problemlos erschließt, bleibt ihnen dagegen verborgen. Daher konnten Computer bislang auch nicht erkennen, wenn zwei Texte den gleichen Sachverhalt mit anderen Worten beschreiben.

Um Rechnern beizubringen, dass etwa bei einem Hochwasser ein “sinkender Wasserstand” die gleiche Bedeutung hat wie die Aussage, “der Pegel hat seinen Scheitelpunkt überschritten”, haben die Informatiker des UKP Lab eine Software entwickelt und diese mit Hilfe eines maschinellen Lernverfahrens trainiert.

Anhand konkreter Texteigenschaften erschließt die Software die Bedeutung eines Textes und bestimmt aus einer Fülle von möglichen Indikatoren semantisch ähnliche Texte – auch wenn diese sich auf der Ebene der Zeichenketten, also der konkreten Worte, stark unterscheiden.

Dazu nutzen die Wissenschaftler unter anderem maschinenlesbare Wörterbücher, sogenannte “Wortnetze” sowie komplexe Modelle, die Texte in einem hochdimensionalen mathematischen Vektorraum repräsentieren und vergleichen. “Unser System funktioniert nicht nur auf bestimmten Daten, sondern ist mittlerweile auch auf vorab unbekannten Daten sehr solide einsetzbar”, sagt Professorin Iryna Gurevych.

Die Software bietet zahlreiche Anwendungsmöglichkeiten: Unter anderem könnten Leser Empfehlungen für thematisch verwandte Dokumente erhalten. Auch die Freitextantworten in groß angelegten Umfragen oder internationalen Kompetenzmessungen wie der PISA-Studie könnten mit deutlich geringerem Aufwand ausgewertet werden.

Anklicken um die Biografie des Autors zu lesen  Anklicken um die Biografie des Autors zu verbergen