IBMs Supercomputer Watson könnte frischen Wind in den Enterprise-Sektor bringen

Im Februar dieses Jahres hat IBMs Supercomputer-Projekt Watson eine Reihe von Spezialausgaben der amerikanischen Quizshow Jeopardy gewonnen und dabei die beiden menschlichen Mitrater weit hinter sich gelassen.
Obwohl der Supercomputer am Schluss einer Sendung darauf tippte, dass Toronto eine amerikanische Stadt sei, hat das ehrgeizige Supercomputer-Projekt gezeigt, wie viel die Computerlinguistik (engl. Natural Language Processing, NLP) bei großzügigem Einsatz von Zeit und Geld leisten kann.
Watson wurde auf Twitter für den Toronto-Ausrutscher mit Häme bedacht, aber, um dies einmal in Perspektive zu setzen (was nur recht und billig ist, da wir hier über Computerlinguistik sprechen): Tatsache ist, dass Watson einen großen Vorsprung vor seinen Mitspielern hatte und nicht mehr verlieren konnte. Und der Computer wusste das.
Die kommerzielle Nutzung von Watson
Craig Rhinehart, bei IBM verantwortlich für die Abteilung ECM Produktstrategie, Compliance und Discovery, sagt, dass die Technologie, die bei Watson zum Einsatz kommt, nämlich »Deep Q&A« (Question and Answer, dt. Frage und Antwort), sich unmittelbar und spürbar auf den Enterprise-Sektor auswirken wird, da das Datenvolumen auf unserem Planeten mit einer rasanten Geschwindigkeit anwächst und nun beängstigende, kaum mehr zu bewältigende Dimensionen annimmt.
Diese Daten können zum Beispiel generiert werden durch unzählige Kundenkontaktpunkte – es könnte sich dabei um die aufgezeichneten Kundengespräche in einem Callcenter, schriftliche Kommunikation, E-Mail, Anmeldungen auf Webseiten und sogar Facebook handeln.
Dieses nicht-strukturierte Datenmaterial, das in Humansprache, nicht in einer für Computer verwertbaren Form vorliegt, macht zirka 80 Prozent der Daten aus, die in Großkonzernen gespeichert sind, sagt Rhinehart.
Innerhalb dieser Masse an Daten liegen wertvolle Informationen verborgen, die mithilfe von Computerlinguistik erschlossen werden können. Dadurch können Trends und Erkenntnisse ans Tageslicht gebracht werden, die Unternehmen als Entscheidungsbasis dienen.
»Es gibt eine unglaublich große Anzahl an innovativen Ideen rund um das Konzept unstrukturierter Daten und für uns stellt Watson eine Zeitenwende dar, einen Durchbruch bei einer großen Herausforderung«, sagte Rhinehart. Bei natürlichen Sprachen ist der Kontext der alles dominierende Faktor– bei Jeopardy kommen häufig Wortwitze und Wortspiele vor und dieser gleitende Übergang zwischen Wortbedeutungen stellt für einen Computer, der auf präzise Befehle angewiesen ist, eine Herausforderung dar.
»Watson verarbeitet Rohdaten, Text und natürliche Sprache, damit wir verstehen können, was darin enthalten ist. Dann legt Watson diese Informationen in einer Informationsbank ab – ich nenne es so, da es kein besseres Wort dafür gibt, aber einfach etwas, das unstrukturierte Daten verwaltet und aufbewahrt, so dass es im richtigen Kontext abgerufen werden kann.«
»Sobald diese Wissensbasis aufgebaut ist, kann man anfangen, Fragen zu stellen und man wird Antworten erhalten, denen der Computer unterschiedliche Plausibilitätsstufen zugeordnet hat.«
Wissensdurst
Watsons Informationsbank für Jeopardy enthielt rund 200 Millionen Seiten an Daten, darunter das Gesamtwerk von Shakespeare und die Wikipedia. Hunderte von Algorithmen haben seine Informationsbank nach möglichen Antworten durchsucht.
Dann haben Hunderte weiterer Algorithmen nach einschlägigen Belegen gesucht und noch weitere Algorithmen haben jede Antwort auf Basis der Belege beurteilt, was schließlich zur Erstellung einer Plausibilitätsbewertung führte.
Bei Jeopardy geschieht all dies innerhalb von drei Sekunden – diese Geschwindigkeit ist nötig, damit Watson noch vor den Mitspielern die Antworten geben kann. Beim Einsatz in einem Unternehmen, das auf einen bestimmten Markt ausgerichtet ist, werden diese schnelle Verarbeitungsgeschwindigkeit und dieses breite Wissen nicht benötigt.
»Die wirklich gute Nachricht ist, dass die Anpassung an eine Branche weit weniger Zeit benötigt. Der Wissensumfang ist geringer, da es sich um einen Fachbereich handelt«, sagt Rhinehart. »Nehmen wir zum Beispiel das Gesundheitswesen. Welchen Informationen vertrauen Ärzte und medizinisches Fachpersonal heutzutage, um darauf aufbauend Entscheidungen in ihrem Fachgebiet zu treffen?«
»Man könnte dann analog zu diesen Informationen entsprechende Wissensbündel erstellen, damit man Fragen stellen und Informationen erhalten kann, genauso, wie wir das in der Quizshow gemacht haben.«
Juristen könnten ebenfalls von einer Technologie profitieren, bei der, ähnlich wie bei Watson, auf eine umfangreiche, geschlossene Datenbank zugegriffen wird, die mit Informationen zu Themen wie Rechtsstreits, Schutz geistigen Eigentums, Erstellen von Verträgen oder dem Aushandeln einer Übernahme gefüttert wurde.
Entscheidungen fällen
Rhinehart unterstreicht, dass Watson in der kommerziellen Variante ein Hilfsmittel im Entscheidungsfindungsprozess sein wird, kein Tool für die Suche.
»Der Benutzer muss seine Frage auf einige wenige Schlüsselbegriffe verkürzen«, sagt er, wobei diese aus dem Kontext gerissen werden könnten.
»Bei Watson übernimmt die Technik die Hauptarbeit – man kann eine Frage in Humansprache stellen und Watson wird die Frage dekodieren, den Kontext bewahren und relevante, potenzielle Antworten liefern, inklusive Plausibilitätsbewertung.«
Daher könnten sich die Nutzer darauf konzentrieren, Entscheidungen zu fällen und müssten nicht ihre Zeit damit verbringen, die Ergebnisse zu sichten, die eine Suchmaschine ihnen geliefert hat, um dadurch Belege für ihre Annahmen zu finden.
Irgendwo in der Zukunft
Für den Enterprise-Sektor ist ein reiner Watson-Computer, der Entscheidungen fällt, noch Zukunftsmusik, sagt Rhinehart, aber die Analyseverfahren für Content, die bei IBM zum Einsatz kommen, nutzen im Kern dieselbe Technik, die auch bei der Analyse von Humansprache verwendet wird.
Das japanische Telekommunikationsunternehmen NTT zum Beispiel durchsuchte Kundendaten in Form von Callcenter-Aufzeichnungen, Nachrichten auf Anrufbeantwortern, E-Mails und schriftlichen Mitteilungen, um sich ein Gesamtbild davon zu machen, was Kunden der Firma mitteilen wollten.
Darauf basierend erschlossen sich dem Unternehmen neue Möglichkeiten, Umsätze zu erhöhen und die Kundenabwanderung zu verringern. Als Ergebnis dieser Analyse führte NTT ein Kunden-Treueprogramm ein und half Kunden, Roaming-Gebühren zu sparen, indem das Unternehmen Leihstationen in Flughäfen errichtete, an denen Kunden Handys ausleihen, im Ausland benutzen und anschließend auf dem Rückweg wieder abgeben konnten.
Die Polizei in New York konnte einen Raubüberfall aufklären, da die Polizisten mithilfe von Content-Analyse-Programmen die Daten aus den Untersuchungsberichten im Detail auswerten konnten. Und ähnliche Technologieansätze, wie sie auch bei Watson zum Einsatz kommen, feiern große Erfolge im US-Gesundheitswesen.
Content-Management und -analyse sind natürlich wichtige Geschäftsbereiche für IBM. Das Unternehmen schätzt, dass jeden Tag 15 Petabyte an neuen Informationen erzeugt werden, wobei 80 Prozent davon unstrukturiert sind. Daher ist eine Technik, die diese Daten interpretieren kann, sicherlich von großem Wert.
Natürlich spielt bei einem Projekt wie Watson die Eitelkeit auch eine Rolle, aber wenn IBMs Schätzung, dass 80 Prozent der 15 Petabyte an neuen Informationen, die täglich erzeugt werden, unstrukturiert sind, richtig ist, dann ist das Potenzial dieser Technik offensichtlich.
Rhinehart sagt: »Unsere Strategie in diesem Bereich lautet, unseren Kunden dabei zu helfen, diese Daten zu verwalten, diese Daten wirksam zu nutzen und entsprechende Richtlinien zu erstellen. Egal, ob es um die Analyse von Social Media oder um Apps auf Watson-Basis geht – wir liefern die Tools, um Kunden zu helfen, dies umzusetzen und auf Probleme aus dem Business-Bereich anzuwenden, die sie lösen müssen.«