Aus Big Data geschäftlichen Nutzen ziehen

Big DataData & StorageKarriereOpen SourceSoftware
IBM Big Data Schema V3

Eine aktuelle Befragung von rund 3.000 CIOs weltweit durch IBM ergab, dass für 83 Prozent der IT-Entscheider die Nutzung von Analytics und Business Intelligence im IT-Betrieb zu den wichtigsten strategischen Wachstumsplänen der nächsten drei bis fünf Jahre zählt. Analysten der IDC gehen davon aus, dass die Menge der Daten im Unternehmen in diesem Zeitraum um 650 Prozent anwachsen wird.  Die schlechte Nachricht: 80 Prozent davon werden unstrukturiert sein. Laut IDC wird das Datenwachstum von 2009 bis 2020 beim Faktor 44 liegen, die Anzahl der Files wird sogar um den Faktor 67 anwachsen. So soll das weltweite Datenvolumen von 1,2 ZettaByte (2010) auf 35 ZettaByte innerhalb von zehn Jahren ansteigen.

IBM plant Investitionen von 100 Millionen US-Dollar für die Entwicklung von Technologien und Services, mit denen sich die immer schneller wachsenden Datenmengen in Echtzeit analysieren und für optimale Geschäftsentscheidungen nutzen können. Mit ihnen sollen IT-Verantwortliche die Nutzung der schnell wachsenden Datenmassen aus Mobilgeräten, Transistoren, RFID-Chips und Social Media mit effizienten Server- und Speichersystemen umsetzen können.

Interview mit Wilfried Hoge, Leading Technical Sales Professional bei IBM Deutschland.

ITespresso.de: Herr Hoge, könnten Sie uns zunächst erklären, was unter Big Data zu verstehen ist?

Wilfried Hoge: Big Data ist ein großes Schlagwort, das man jetzt überall liest. Eine eindeutige Definition gibt es nicht, aber was wir darunter verstehen, ist zum einen, dass die Datenmenge derzeit explodiert. Das Thema Big Data suggeriert auch, dass wir es mit vielen Daten zu tun haben. Aber was noch viel wichtiger ist, ist die Tatsache, dass die Struktur der Daten ganz anders ist als früher. Früher haben wir uns auf Datenquellen beschränkt, die wir aus relationalen Datenbanken erhalten haben. Diese Daten aus Tabellen haben wir gut verarbeiten können. Jetzt sind ganz andere Datenquellen relevant, beispielsweise Internet, Informationen, die aus dem wissenschaftlichen Bereich kommen, Social Media, Blogs und E-Mails.

Worin liegen die Ursachen für diesen überproportional starken Anstieg der Datenmengen?

Es gibt zwei große Treiber für diese Daten und diese große Datenmenge: Das sind zum einen maschinengenerierte Daten, wie zum Beispiel Messzähler für die Stromzähler, die im 15-Minuten-Takt Daten in den Haushalten erzeugen. Und natürlich viele Menschen, die Informationen zur Verfügung stellen, in Form von Blogs, E-Mails usw. Diese Daten sind jetzt der Schatz, der sozusagen gehoben werden muss. Unternehmen können mit dieser Technologie beispielsweise die Kundenzufriedenheit analysieren.

IBM Big Data Schema
Geschäftsnutzen bringt eine Big-Data-Technologie nur, wenn sie vollständig in die Informationsarchitektur des Unternehmens integriert ist.

Die Autovermietungsgesellschaft Hertz zum Beispiel verwendet die Big-Data-Technologie von IBM, um bestimmte Informationen von den einzelnen Standorten auszuwerten. Ein anderes Beispiel aus der Praxis ist das schnelle Erkennen von lebenswichtigen Situationen bei der Intensivpflege am Institute of Technology der Universität Ontario. In einem anderen Projekt der Columbia University geht es um die Analyse des Zustands von Herzinfarktpatienten geht. Das Marineinstitut in Irland setzt die Technologie für die Vorhersage von Wassermustern zur optimalen Planung von Windkraftwerken ein. Und die British Library führt ein Webarchiv-Projekt durch, bei dem Anwender Risikoentscheidungen auf Basis von Echtzeitinformationen treffen können.
Nutzen aus großen, unstrukturierten Datenmengen zu ziehen war mit den bisherigen Technologien nicht möglich. Welchen Ansatz verfolgt IBM beim Thema Big Data?

Eine solche Technologie muss geeignet sind, die drei wichtigsten Dimensionen von Big Data zu beherrschen, nämlich Variety, Velocity und Volume, also 3 Vs. Unter Variety verstehen wird die Verarbeitung der Komplexität von relationalen, also einfach strukturieten Daten wie auch von nicht-relationalen, also komplex strukturierten Datentypen. Unter Velocity verstehen wir die Analyse von Daten genau zu dem Zeitpunkt, wo sie entstehen. Mit Volume ist die effiziente Skalierung großer Datenmengen gemeint.

Das heißt wir brauchen eine Technologie, die das alles macht. Zur Umsetzung benötigen wir zwei verschiedene Techniken, um den drei genannten Dimensionen von Big Data gerecht zu werden: Zum einen Streaming Analytics, bei der die Daten während der Entstehung analysiert werden, und zum anderen Internet Scale Analytics, bei der große Datenmengen gespeichert und flexibel analysiert werden. Wenn Sie sich das bildlich vorstellen wollen, dann ist Streaming Analytics die Analyse eines Flusses und Internet Scale Analytics die Analyse eines Ozeans.

Big-Data-Technologie muss die drei Dimensionen Variety, Velocity und Volume (V3) beherrschen.

Das Produkt InfoSphere BigInsights kann in Form der Basic Edition kostenfrei im Internet heruntergeladen werden und enthält diejenigen Komponenten, die man benötigt, um ein Hadoop-basiertes System zum Laufen zu bringen.

Die Enterprise Edition enthält Erweiterungen wie Schnittstellen zu relationalen Datenbanken, die Data-Warehouse-Integration, Provisioning-Werkzeuge und Security-Mechanismen. Eine wichtige Rolle spielt dabei GPFS (General Parallel File System) als hochskalierbares geclustertes paralleles Dateisystem, die die Handhabung extrem großer Datenbestände ermöglicht. Man muss wissen, dass Open-Source-Software enthält in der Regel keine Security enthält, sodass jeder alles machen kann. Das geht aber nicht im Unternehmen, wo die Daten geschützt werden müssen.

Interview mit Sebastian Welter, Expert Content Management und Analytics bei IBM Deutschland

ITespresso.de: Herr Welter, könnten Sie zunächst erläutern, welche Rolle »Watson« innerhalb von IBM einnimmt?

Sebastian Welter: Watson ist für sich genommen ein Projekt eines unserer großen Forschungszentren. Das allgemeine Ziel unserer Forschung, neue Wege zu finden, wie wir mit Computertechnologie Probleme in allen Bereichen des Lebens und der Geschäftswelt lösen können, war natürlich auch Maßgabe für die Entwicklung eines Systems wie Watson – Thematik: Informationsexplosion.

IBM Watson
Watson ist ein Workload-optimiertes System für komplexe Analytik, basierend auf IBM-Power7-Prozessoren und Deep-QA-Software.

David Ferrucci, der Chefentwickler von Watson, wurde für das Projekt zum IBM Fellow ernannt, die höchste Auszeichnung, die ein IBMer erhalten kann. Übrigens gibt es nie mehr als rund 80 Personen weltweit, die diesen Titel tragen dürfen. Träger zeichnen sich durch außerordentliche technologische Leistungen aus.

Und welche Funktionen genau übernimmt Watson bei der Datenanalyse?

Watson stellt als System eine neue Anwendung im Bereich der Datenanalyse – speziell Text-Analytics, also erkennen von Texten mittels Natural Language Processing (NLP) um auf dieser Grundlage algorithmische Auswertungen zu betreiben, dar. Auszeichnend und unterscheidend von den meisten Lösungen und Systemen, die sich mit Analytik beschäftigen, ist die Deep-QA-Technologie.

Bei den meisten momentanen Analytics-Lösungen geht es darum Texte oder Daten algorithmisch aufzuarbeiten, zu aggregieren, Konzepte, Kontexte, Zusammenhänge, etc zu finden. Letztlich werden aber nur aufbereitete Daten als Antwort an den Anwender gegeben. Watson stellt mit seinem Deep-QA Approach hier den Anspruch als Expertensystem mit Menschen direkt zu interagieren und ‘echte’ Antworten auf Fragen zu liefern.

Welche konkreten Beispiele gibt es für die Datenanalyse in Unternehmen und Organisationen?

Die meisten Beispiele aus dem Bereich Datenanalyse beziehen sich heute auf den oben angesprochenen Bereich der nicht-QA Lösungen. Es geht um die intelligente Aufbereitung von Daten, um Zusammenhänge zu finden, die sonst nicht sichtbar gewesen wären. Technologien aus dem Deep-QA findet in Ansätzen immer mehr Eingang in die Lösungen.

So wird beispielsweise »simple« Text-Analytics verwendet um umfangreiches Aktenmaterial im Staatsanwaltschaftlichen Betrieb aufzubereiten und automatisch Personen, Orte, Firmen, Summen, etc. zu extrahieren. Anwender bekommen die agreggierten Daten in ihren Zusammenhängen präsentiert und können von dort aus auch wieder an die richtigen Stellen im Aktenmaterial gelangen. Auf diese Weise wird das manuelle Aufarbeiten von großen Textmengen unnötig.

Eine europäische Bank verwendet Analytics in Verbindung mit Suchmaschinen-Technologien, um automatisiert Betrugsfälle, Fishing-Seiten und geplante Hacker-Attacken proaktiv zu suchen und zu erkennen. Die Bank hat damit die Möglichkeit Risiken von sich und ihren Kunden abzuwenden.

Eine großer Telefonprovider verwendet Content Analytics, um alle Anfragen, die auf verschiedenen Wegen die Firma erreichen, auf Verhalten hin zu analysieren, dass auf einen möglichen Kündigungswunsch des Kunden hindeutet. Gleichzeitig werden die beim Analysieren von Fragen und Antworten gewonnenen Informationen verwendet um automatisiert FAQ-Beiträge zu Fragen zu generieren.

Lässt sich der Nutzen, den Anwender aus solchen Anwendungen ziehen können, in konkreten Zahlen beziffern?

Laut einer Studie von IBM und IDC kostet die Zeit, die verloren geht, um Informationen zwischen Applikationen zu transformieren, 7,5 Millionen Euro. 3,9 Millionen Euro gehen in Form von Arbeitszeit durch einfaches Formatieren zwischen verschiedenen Anwendungen verloren. Und 3,6 Millionen Euro gehen uns schließlich jedes Jahr verloren, indem wir nicht die richtigen Informationen finden.

Lesen Sie auch :