Von Seth Grimes | Information Woche
Die drei V's - Volume, Velocity und Variety - eignen sich hervorragend zur Definition von Big Data. Lassen Sie sich nicht von den "Möchtegern-V's" in die Irre führen: Variabilität, Wahrhaftigkeit, Gültigkeit und Wert.
Wie viele V's sind genug, wenn es um Big Data geht?
Analyst Doug Laney verwendete drei - Umfang, Geschwindigkeit und Vielfalt - bei der Definition von Big Data in den 90er Jahren. In den letzten Jahren haben die Revisionisten die Zahl auf sieben oder acht erhöht, was zu viel ist. Es scheint, dass "Umfassen und Erweitern" lebendig ist und den Marktraum erweitert, aber auch Verwirrung stiftet.
Wenn ein Konzept auf Resonanz stößt, wie es bei Big Data der Fall ist, wird es von Anbietern, Fachleuten und Gurus - den Revisionisten - für ihre eigenen Zwecke verdreht. Die Revisionisten von Big Data würden Wert, Wahrhaftigkeit, Variabilität/Varianz, Lebensfähigkeit und sogar Sieg (wobei der letzte Begriff so obskur ist, dass ich ihn nicht weiter erwähnen werde) zum kanonischen V-Status erheben. Jedes der verschiedenen neuen V's hat seine Verfechter. Zu ihnen gesellen sich die Gegenspieler, die uns die "Kleine Daten" als Gegentrend.
Meiner Meinung nach ist die wanna-V Befürworter und Gegner verwechseln interpretative, abgeleitete Eigenschaften mit wesentlichen Attributen.
Die ursprünglichen 3 V's leisten gute Arbeit bei der Erfassung wesentlicher Big-Data-Attribute, aber sie haben Unzulänglichkeiten, insbesondere in Bezug auf die Nützlichkeit. Wie Forrester-Analyst Mike Gualtieri es ausdrückt, sind die ursprünglichen 3 V's sind nicht "einklagbar". Gualtieri wirft drei pragmatische Fragen auf. Die erste bezieht sich auf die Erfassung von Big Data. Die anderen beziehen sich auf die Datenverarbeitung und -nutzung: "Können Sie die Daten bereinigen, anreichern und analysieren?" und "Können Sie die Daten abrufen, suchen, integrieren und visualisieren?"
Was die "kleinen Daten" betrifft: Das Konzept ist eine Fehldeutung der Datenherausforderung. Kleine Daten sind nicht mehr und nicht weniger als eine gefilterte und thematisch reduzierte Teilmenge der großen Datenquelle, die wiederum ein Produkt der Analytik ist. Glücklicherweise scheint die Aufmerksamkeit für diesen Teil des Big-Data-Backlashs nachgelassen zu haben, so dass wir uns wieder dem großen Ganzen zuwenden können.
3 V's und mehr
Im Großen und Ganzen funktionieren die ursprünglichen 3 Vs gut. Ich werde sie nicht erklären; stattdessen verweise ich Sie auf "Die 3 Vs von Big Data: Volumen, Vielfalt, Geschwindigkeit," eine von Gil Press veröffentlichte Infografik. Sie werden sehen, dass die Infografik die Durchführbarkeit - im Wesentlichen: Können die Daten so analysiert werden, dass sie entscheidungsrelevant werden? - als "das fehlende V". Die abschließende Zeile: "Viele Datenwissenschaftler glauben, dass die Perfektionierung von nur 5% der relevanten Variablen einem Unternehmen 95% des gleichen Nutzens bringen wird. Der Trick besteht darin, diese praktikablen 5% zu identifizieren und den größten Nutzen daraus zu ziehen." Hmm... Mir scheint, dass das fehlende V genauso gut Value hätte heißen können.
Neil Biehn, schreibt in Verkabeltsieht Lebensfähigkeit und Wert als unterschiedliche fehlende V's. Biehn vertritt in Bezug auf die Rentabilität einen ähnlichen Standpunkt wie Press. "Wir wollen sorgfältig die Eigenschaften und Faktoren auswählen, die am ehesten geeignet sind, die für die Unternehmen wichtigsten Ergebnisse vorherzusagen", sagt Biehn. Ich stimme ihm zu, weise aber darauf hin, dass der Auswahlprozess zweckorientiert ist und nichts mit den Daten zu tun hat.
"Das Geheimnis besteht darin, die latenten, verborgenen Beziehungen zwischen diesen Variablen aufzudecken", so Biehn weiter. Auch hier stimme ich zu, aber wie bestimmt man die Vorhersagekraft, die sich aus diesen latenten Beziehungen zwischen den Variablen ergibt? Professor Gary King von der Harvard University hat mir aus der Seele gesprochen, als er auf einer Konferenz, an der ich im Juni teilnahm, sagte: "Bei Big Data geht es nicht um die Daten. Es geht um die Analytik." Viabilität ist keine Eigenschaft von Big Data. Sie ist eine Qualität, die man mit Hilfe von Big-Data-Analysen bestimmt.
"Wir definieren präskriptive, nadelbewegende Aktionen und Verhaltensweisen und beginnen, das fünfte V von Big Data zu nutzen: Wert", behauptet Biehn. Auch hier stellt sich die Frage, wie man den präskriptiven Wert bestimmt, der sich laut Biehn vonund ist daher keine inhärente Eigenschaft von, Big Data? Analytik.
Die Analytik prüft nicht nur die Genauigkeit der Vorhersagen, sondern auch die Wirksamkeit der Ergebnisse bei der Erreichung der Ziele. Analytik stellt die Gültigkeit der Methoden und die ROI-Auswirkungen der gesamten datenzentrierten Initiative fest. ROI quantifiziert den Wert und ergänzt die Gültigkeit der qualitativen Maßnahme. Beide V's sind extern zu den Daten selbst.
Die Verwirrung wird noch größer
Variabilität und Wahrhaftigkeit sind ebenfalls von der Analyse abgeleitete Qualitäten, die sich mehr auf die Datennutzung als auf die Daten selbst beziehen.
Die Variabilität ist besonders verwirrend. "Viele Optionen oder Variableninterpretationen verwirren die Analyse," stellten die Forrester-Analysten Brian Hopkins und Boris Evelson bereits 2011 fest. Sicher, man kann einen Tacker auch benutzen, um einen Nagel einzuschlagen (das habe ich getan), aber das macht ihn nicht weniger zu einem Tacker.
"Die Suche in natürlicher Sprache erfordert zum Beispiel die Interpretation einer komplexen und sehr variablen Grammatik", schreiben Hopkins und Evelson. Mal abgesehen davon, dass die Grammatik nicht so sehr variiert, ist es vielmehr die Verwendung, die sehr variabel ist. Techniken zur Verarbeitung natürlicher Sprache (Natural-Language-Processing, NLP), wie sie in Such- und Textanalysesystemen eingesetzt werden, gehen mit dem variablen Gebrauch um, indem sie Sprache modellieren. NLP erleichtert die Extraktion von Entitäten und Informationen, die für bestimmte Geschäftszwecke eingesetzt werden.
(Eine Entität ist ein eindeutig identifizierbares Ding oder Objekt, z. B. der Name einer Person, eines Ortes, eines Produkts oder eines Musters, wie eine E-Mail-Adresse oder eine Sozialversicherungsnummer. Extrahierbare Informationen können Attribute von Entitäten, Beziehungen zwischen Entitäten und Konstrukte wie Ereignisse - "Michelle LaVaughn Robinson Obama, geboren am 17. Januar 1964, amerikanische Anwältin und Schriftstellerin, ist die Ehefrau des 44. und derzeitigen Präsidenten der Vereinigten Staaten" - umfassen, die wir als Fakten erkennen).
IBM sieht Wahrhaftigkeit als viertes großes Daten-V. (Wie ich befürwortet auch IBM weder Variabilität noch Validität noch Wert als wesentliche Merkmale von Big Data.) Bezüglich der Wahrhaftigkeit fragt IBM: "Wie können Sie auf der Grundlage von Informationen handeln, wenn Sie ihnen nicht vertrauen?"
Doch Fakten, ob sie nun in natürlicher Sprache oder in einer strukturierten Datenbank erfasst sind, sind nicht immer wahr. Falsche oder veraltete Daten können nichtsdestotrotz nützlich sein, ebenso wie nicht-faktische subjektive Daten (Gefühle und Meinungen).
Stellen Sie sich zwei Aussagen vor, von denen die eine eine Tatsache behauptet und die andere eine Tatsache enthält, die nicht mehr wahr ist. Kommen Sie mit mir zu dem Schluss, dass Daten einen Wert haben können, der nicht mit dem Wahrheitsgehalt verbunden ist:
— "Das irakische Regime ... besitzt und produziert chemische und biologische Waffen". - George W. Bush, 7. Oktober 2002.
— "Ich bin froh, dass George Bush Präsident ist". — Daniel Pinchbeckschreibt ironisch, Juni 2003.
Wahrhaftigkeit ist wichtig. Ich möchte ein altes russisches Sprichwort zitieren: "Vertraue, aber überprüfe". Das heißt, Sie müssen Ihre Daten analysieren - sie im Kontext auswerten und die Herkunft berücksichtigen -, um sie zu verstehen und angemessen zu nutzen.
3 V's gegen 'Möchtegern-V's'
Mein Ziel ist es, das Wesen von Big Data, wie es in den ursprünglichen und immer noch gültigen 3 V's von Doug Laney definiert ist, von den abgeleiteten Qualitäten der neuen Vs zu unterscheiden, die von verschiedenen Anbietern, Experten und Gurus vorgeschlagen werden. Meine Hoffnung ist es, Klarheit zu schaffen und eine marktverwirrende Fragmentierung zu verhindern, die durch die Möchtegern-V's.
Auf der einen Seite der Kluft stehen Datenerfassung und -speicherung, auf der anderen Seite geschäftszielorientierte Filterung, Analyse und Präsentation. Datenbanken und Daten-Streaming-Technologien erfüllen den Bedarf an Big Data; für den Rest, die intelligenten Dinge, brauchen Sie Big Data Analytics.
Variabilität, Wahrhaftigkeit, Gültigkeit und Wert sind keine intrinsischen, definitorischen Eigenschaften von Big Data. Sie sind keine absoluten Werte. Im Gegensatz dazu spiegeln sie die Verwendungszwecke wider, die Sie für Ihre Daten vorsehen. Sie beziehen sich auf Ihre speziellen Geschäftsanforderungen.
Sie entdecken die kontextabhängige Variabilität, den Wahrheitsgehalt, die Gültigkeit und den Wert Ihrer Daten durch Analysen, die Daten bewerten und reduzieren und die Erkenntnisse in einer Form präsentieren, die die Entscheidungsfindung erleichtert. Diese Funktion - die Analytik - ist der Schlüssel zum Verständnis von Big Data.
Seth Grimes ist der führende Branchenanalyst für Textanalyse und Stimmungsanalyse. Er gründete das in Washington ansässige Alta Plana Gesellschaft Technologie-Strategieberatung, im Jahr 1997.