6. Mai 2013.
Unter Neil Biehn
Die Ära von Big Data ist keine "kommende Zeit". Sie ist da - schon heute - und hat für Unternehmen in unzähligen datenintensiven Branchen mit hohem Transaktionsvolumen sowohl schmerzhafte Veränderungen als auch nie dagewesene Chancen mit sich gebracht. In dieser ersten Welle von Big Data haben sich IT-Fachleute zu Recht auf die zugrundeliegenden Ressourcenanforderungen von Big Data konzentriert, die herkömmliche Dateninfrastrukturen übersteigen und in vielen Fällen die Regeln dafür, wie und wo Daten gespeichert, verwaltet und verarbeitet werden, neu schreiben.
Datenwissenschaftler betrachten das klassische Vs:
- Band - Die Kosten für Rechen-, Speicher- und Verbindungsressourcen sinken, und neue Technologien wie Scanner, Smartphones, allgegenwärtige Videoüberwachung und andere Datensammler führen dazu, dass wir mit Datenmengen überschwemmt werden, die alles in den Schatten stellen, was noch vor fünf bis zehn Jahren verfügbar war. Wir erfassen jeden Mausklick, jeden Telefonanruf, jede Textnachricht, jede Websuche, jede Transaktion und vieles mehr. Je größer die Datenmenge wird, desto mehr können wir lernen - aber nur, wenn wir die sinnvollen Beziehungen und Muster aufdecken.
- Sorte - Von den endlosen Strömen von Textdaten in sozialen Netzwerken und Geolokalisierungsdaten bis hin zu strukturierten Geldbörsenanteilen und demografischen Daten erfassen Unternehmen mehr denn je eine Vielzahl von Daten. Diese zusammenzuführen, ist keine leichte Aufgabe.
- Geschwindigkeit - Es ist eine Binsenweisheit, dass sich das Tempo der Wirtschaft unaufhaltsam beschleunigt. Die Menge und Vielfalt von Big Data allein wäre schon beängstigend genug. Aber jetzt kommen diese Daten schneller als je zuvor. Für einige Anwendungen sind die Daten nur kurz haltbar. Geschwindigkeit ist der Tod der Konkurrenz, wenn Sie diese Datenflut zähmen - oder der Tod Ihres Unternehmens, wenn sie Sie überwältigt.
IBM hat ein würdiges V - "Veracity" - geprägt, das die inhärente Vertrauenswürdigkeit von Daten anspricht. Die Ungewissheit über die Konsistenz oder Vollständigkeit von Daten und andere Unklarheiten können zu großen Hindernissen werden. Daher bleiben Grundprinzipien wie Datenqualität, Datenbereinigung, Stammdatenmanagement und Data Governance wichtige Disziplinen bei der Arbeit mit Big Data.
Es ist noch gar nicht so lange her, da galt ein Terabyte als groß. Aber heute scheint das ein Rundungsfehler zu sein. Heute erzeugen wir jeden Tag 2,5 Quintillionen Bytes an Daten. Tatsächlich erzeugen wir so viele Daten in so kurzer Zeit, dass 90 Prozent der heutigen Daten allein in den letzten zwei Jahren erzeugt wurden. Es liegt auf der Hand, dass sich die traditionellen Methoden der Datenverwaltung ändern müssen.
Als Reaktion darauf haben IT-Organisationen ihre Infrastrukturen überdacht und enorme Fortschritte bei der Entwicklung ausgeklügelter Computerarchitekturen gemacht, um diese außergewöhnlichen Computerherausforderungen zu bewältigen. Datenwissenschaftler haben sich Technologien wie Grid-Computing, Cloud-Computing und datenbankinterne Verarbeitung zunutze gemacht, um eine Ebene der pragmatischen Machbarkeit für unvorstellbare Computerherausforderungen zu schaffen.
Das vierte V: Lebensfähigkeit
Aber wir brauchen mehr als glänzende Klempnerarbeiten, um riesige Datensätze in Echtzeit zu analysieren. Das ist schon mal ein guter Anfang. Aber was können wir mit dieser Infrastruktur anfangen? Wo sollen wir anfangen? Der erste Ansatzpunkt sind die Metadaten. Wir wollen sorgfältig die Attribute und Faktoren auswählen, die am ehesten geeignet sind, Ergebnisse vorherzusagen, die für Unternehmen von großer Bedeutung sind. Mit Big Data sammeln wir nicht einfach eine große Anzahl von Datensätzen. Wir sammeln multidimensionale Daten, die ein immer breiteres Spektrum an Variablen abdecken. Das Geheimnis ist die Aufdeckung der verborgenen Beziehungen zwischen diesen Variablen.
- Welchen Einfluss hat die Tageszeit oder der Wochentag auf das Kaufverhalten?
- Lässt ein Anstieg der Erwähnungen auf Twitter oder Facebook einen Anstieg oder Rückgang der Käufe erwarten?
- Wie können Geostandort, Produktverfügbarkeit, Tageszeit, Kaufhistorie, Alter, Familiengröße, Kreditlimit und Fahrzeugtyp zusammenwirken, um die Kaufbereitschaft der Verbraucher vorherzusagen?
Unsere erste Aufgabe besteht darin, die Brauchbarkeit dieser Daten zu bewerten, denn bei so vielen verschiedenen Daten und Variablen, die beim Aufbau eines effektiven Vorhersagemodells zu berücksichtigen sind, wollen wir die Relevanz einer bestimmten Variable schnell und kostengünstig testen und bestätigen, bevor wir in die Erstellung eines vollwertigen Modells investieren. Und wie in praktisch allen wissenschaftlichen Disziplinen beginnt dieser Prozess mit einer einfachen Hypothese.
Beeinflusst zum Beispiel das Wetter (z. B. Niederschläge) die Absatzmengen? Mit anderen Worten: Wir wollen diese Hypothese bestätigen, bevor wir weitere Maßnahmen ergreifen. Bei der Ermittlung der Realisierbarkeit einer Variablen können wir unsere Sichtweise erweitern, um festzustellen, ob andere Variablen - solche, die nicht Teil unserer ursprünglichen Hypothese waren - einen bedeutenden Einfluss auf unsere gewünschten oder beobachteten Ergebnisse haben.
Ein Datenwissenschaftler eines Telekommunikationsanbieters könnte zum Beispiel die Theorie aufstellen, dass Produkterwähnungen auf Twitter kurz vor der Abwanderung eines Kunden in die Höhe schnellen können. Sie extrahiert dann eine Stichprobe der Daten und führt einige einfache statistische Tests und Berechnungen durch, um festzustellen, ob es eine statistisch signifikante Korrelation zwischen der gewählten Variable (Twitter-Erwähnungen) und der Kundenabwanderung gibt. Wenn dies der Fall ist, haben wir die Stichhaltigkeit dieser Variable festgestellt und werden unseren Anwendungsbereich erweitern und weitere Ressourcen in die Erfassung und Verfeinerung dieser Datenquelle investieren. Diesen Prozess der Bestätigung der Lebensfähigkeit von Schlüsselvariablen (und des Ausschlusses anderer) können wir dann so lange wiederholen, bis unser Modell ein hohes Maß an Vorhersagbarkeit aufweist. Vielleicht steigt das Abwanderungsrisiko nach 30 Monaten (unabhängig von der Anzahl der Supportanrufe). Oder vielleicht ist es wahrscheinlicher, dass die Abwanderung eintritt, wenn der Aktienkurs eines Firmenkunden innerhalb von zwei Monaten um 10 Prozent steigt.
Das fünfte V: Wert
Sobald wir die Realisierbarkeit unserer Schlüsselvariablen bestätigt haben, können wir ein Modell erstellen, das anspruchsvolle Fragen beantwortet, kontraintuitive Erkenntnisse liefert und einzigartige Lerneffekte erzeugt. Wir definieren präskriptive, zielführende Aktionen und Verhaltensweisen und beginnen, das fünfte V von Big Data anzuzapfen: Wert.
Data Science kann uns dabei helfen, diese subtilen Wechselwirkungen aufzudecken, so dass beispielsweise ein Hersteller in der Lage ist, bisher verborgene - oft kontraintuitive - Hebel zu betätigen, die sich direkt auf die Verkaufsergebnisse auswirken. Unser fiktiver Telekommunikationsanbieter, der die Kundenabwanderung verringern möchte, könnte sich beispielsweise die Anzahl oder Dauer der Anrufe bei einem Support-Center ansehen. Aber Data Science könnte die Big Data weiter analysieren und die Dinge aufzeigen, die Sie nicht wussten. Wir erweitern den Wert eines Vorhersagemodells, indem wir eine praktisch unergründliche Kombination zusätzlicher Variablen - den so genannten "Long Tail" - aufdecken, die gemeinsam das vorhersagen, was Sie zu messen versuchen.
Für unseren Telekommunikationsanbieter könnte ein Vertriebsmitarbeiter die Hypothese aufstellen, dass Region, Einkommen und Alter dazu beitragen, die Genauigkeit der Kündigungsprognosen bei den Kunden zu verbessern. Aber sobald sich die Tragfähigkeit dieser Dimensionen bestätigt, könnten wir unsere Untersuchung ausweiten, um zu erfahren, dass Kunden in den südwestlichen Staaten mit warmem Wetter und Master-Abschluss, die Autos mit einem Modelljahr von 2008 oder früher besitzen und eine Kreditwürdigkeit von 625-650 haben, eine überdurchschnittlich hohe, statistisch signifikante Neigung haben, in den 45 Tagen nach ihrem Geburtstag zu wechseln.
Selbst wenn unsere Zusammenstellung von Vorhersagevariablen - unser Modell - hervorragende Ergebnisse liefert, müssen wir uns daran erinnern, was jeder Student lernt: Korrelation ist nicht gleichbedeutend mit Kausalität. Es wäre leichtsinnig, einem Vorhersagemodell mit Korrelationen blind zu folgen, ohne die Zusammenhänge zu untersuchen und zu verstehen, die sie verkörpern. (Obwohl ein Super Bowl-Sieg eines NFC-Teams mit dem Anstieg des Dow Jones Industrial Average korreliert ist [MD: hat er?], würden nur wenige von uns am nächsten Morgen sofort Kaufaufträge erteilen, wenn die Dallas Cowboys die Lombardi Trophy gewinnen).
Aber wir können diese Korrelationen vorsichtig und analytisch mit geschäftlicher Intuition validieren, um die Triebkräfte des Käuferverhaltens besser zu verstehen und zu viel geringeren Kosten Mikrokampagnen zu initiieren, um attraktive Angebote zu unterbreiten, die die Abwanderung verhindern. Unabhängig davon, wie wir das Ziel erreichen, ist es wichtig, dass unser Modell uns Maßnahmen aufzeigt, die wir ergreifen können, um die Geschäftsergebnisse zu verbessern.
Darüber hinaus müssen wir bei der Validierung unserer Hypothesen nicht nach Perfektion streben. Wenn es 100 relevante Variablen gibt, die sich auf die Kennzahl auswirken, die Sie messen und verbessern möchten, stehen Sie vor einem enormen analytischen Problem. Viele Datenwissenschaftler sind jedoch der Meinung, dass bereits 5 Prozent der relevanten Variablen 95 Prozent der Umsatzsteigerung/des Nutzens ausmachen. Der Trick besteht natürlich darin, die richtigen 5 Prozent der Variablen zu identifizieren - und genau das können gute Datenwissenschaftler tun, indem sie die Durchführbarkeit bestimmen.
Big Data ist zweifelsohne ein wichtiger Trend, dem die IT-Abteilung eines Unternehmens mit einer geeigneten Datenverarbeitungsinfrastruktur Rechnung tragen muss. Aber ohne leistungsstarke Analysen und Datenwissenschaftler, die den Sinn des Ganzen verstehen, besteht die Gefahr, dass Sie einfach nur große Kosten verursachen, ohne den Wert zu schaffen, der sich in Geschäftsvorteilen niederschlägt.
Neil Biehn ist Vizepräsident und Leiter der Wissenschafts- und Forschungsgruppe bei PROS.