Par Seth Grimes | Semaine de l'information
Les trois V - volume, vitesse et variété - définissent bien le big data. Ne vous laissez pas abuser par les "wanna-V" : variabilité, véracité, validité et valeur.
En matière de big data, combien de V suffisent ?
L'analyste Doug Laney a utilisé trois - volume, vitesse et variété - dans la définition du big data dans les années 90. Ces dernières années, les révisionnistes ont fait grimper le nombre à sept ou huit. Il semble que l'expression "embrasser et étendre" soit bien vivante et qu'elle élargisse l'espace du marché, mais qu'elle crée aussi de la confusion.
Lorsqu'un concept résonne, comme c'est le cas pour les big data, les vendeurs, les experts et les gourous - les révisionnistes - le détournent à leurs propres fins. Les révisionnistes du big data élèveraient la valeur, la véracité, la variabilité, la viabilité et même la victoire (cette dernière étant une notion si obscure que je ne la mentionnerai pas plus avant) au rang de V canonique. Chacun de ces nouveaux V a ses champions. Ils sont rejoints par les anticonformistes qui nous ont donné le Contre-tendance "petites données".
A mon avis, le vouloir-V Les partisans et les opposants confondent des qualités dérivées et interprétatives avec des attributs essentiels.
Les 3 V d'origine permettent de capturer les attributs essentiels des big data, mais ils présentent des lacunes, notamment en ce qui concerne l'utilité. Comme l'explique Mike Gualtieri, analyste chez Forrester, les 3 V d'origine Les 3 V ne sont pas "exploitables". Gualtieri pose trois questions pragmatiques. La première concerne la capture des Big Data. Les autres concernent le traitement et l'utilisation des données : "Pouvez-vous nettoyer, enrichir et analyser les données ?" et "Pouvez-vous extraire, rechercher, intégrer et visualiser les données ?"
Quant aux "petites données", il s'agit d'une mauvaise définition du défi que représentent les données. Les petites données ne sont ni plus ni moins qu'un sous-ensemble thématique filtré et réduit de l'ensemble des grandes données, encore une fois le produit de l'analyse. Heureusement, l'attention portée à ce retour de flamme semble s'être atténuée, ce qui nous permet de revenir à l'essentiel.
Les 3 V et au-delà
L'essentiel est que les 3 V d'origine fonctionnent bien. Je ne les expliquerai pas ; je vous renverrai plutôt aux documents suivants "Big Data 3 V's : Volume, Variété, Vélocité". une infographie publiée par Gil Press. Vous constaterez que l'infographie considère la viabilité - essentiellement, les données peuvent-elles être analysées d'une manière qui les rende pertinentes pour la prise de décision ? - est "le V manquant". La ligne de conclusion : "De nombreux scientifiques des données pensent qu'en perfectionnant seulement 5% des variables pertinentes, une entreprise obtiendra 95% des mêmes avantages. L'astuce consiste à identifier ces 5% viables et à en extraire le maximum de valeur". Hmm... Il me semble que le V manquant aurait tout aussi bien pu être "valeur".
Neil Biehn, écrit dans Câblés, voit la viabilité et la valeur en tant que V manquants distincts. Le point de vue de M. Biehn sur la viabilité est similaire à celui de M. Press. "Nous voulons sélectionner avec soin les attributs et les facteurs qui sont les plus susceptibles de prédire les résultats les plus importants pour les entreprises", déclare Biehn. Je suis d'accord, mais je note que le processus de sélection est motivé par un objectif et extérieur aux données.
"Le secret consiste à découvrir les relations latentes et cachées entre ces variables", poursuit M. Biehn. Encore une fois, je suis d'accord, mais comment déterminer la viabilité prédictive, générée par ces relations latentes entre les variables ? Le professeur Gary King, de l'université de Harvard, a lu dans mes pensées lorsqu'il a déclaré, lors d'une conférence à laquelle j'ai assisté en juin : "Le big data n'est pas une question de données, c'est une question d'analyse. C'est une question d'analyse." La viabilité n'est pas une propriété du big data. C'est une qualité que l'on détermine grâce à l'analyse des big data.
"Nous définissons des actions et des comportements prescriptifs, susceptibles de faire bouger les choses, et nous commençons à exploiter le cinquième V du big data : la valeur", affirme M. Biehn. Encore une fois, comment déterminer la valeur prescriptive, qui, selon Biehn, est dérivée de la valeur de l'entreprise ? danset n'est donc pas une qualité intrinsèque de, big data ? L'analyse.
L'analytique vérifie non seulement l'exactitude des prédictions, mais aussi l'efficacité des résultats dans la réalisation des objectifs. L'analyse garantit la validité des méthodes et l'impact du retour sur investissement de l'initiative globale centrée sur les données. Le retour sur investissement quantifie la valeur, complétant la mesure qualitative de la validité. Les deux V sont externes aux données elles-mêmes.
La confusion s'aggrave
La variabilité et la véracité sont des qualités dérivées de l'analyse qui se rapportent davantage à l'utilisation des données qu'aux données elles-mêmes.
La variabilité est particulièrement déroutante. "De nombreuses options ou les interprétations des variables confondent l'analyse". observaient Brian Hopkins et Boris Evelson, analystes chez Forrester, en 2011. Bien sûr, on peut utiliser une agrafeuse pour planter un clou (je l'ai fait), mais cela n'en fait pas moins une agrafeuse.
"Par exemple, la recherche en langage naturel nécessite l'interprétation d'une grammaire complexe et très variable", écrivent Hopkins et Evelson. Mis à part le fait que la grammaire ne varie pas tant que ça, c'est plutôt l'usage qui est très variable. Les techniques de traitement du langage naturel (TLN), telles qu'elles sont mises en œuvre dans les systèmes de recherche et d'analyse de texte, traitent l'usage variable en modélisant le langage. Le TAL facilite l'extraction d'entités et d'informations à des fins commerciales particulières.
(Une entité est une chose ou un objet pouvant être identifié de manière unique ; par exemple, le nom d'une personne, d'un lieu, d'un produit ou d'un modèle, tel qu'une adresse électronique ou un numéro de sécurité sociale. Les informations extractibles peuvent inclure des attributs d'entités, des relations entre entités et des constructions telles que des événements - "Michelle LaVaughn Robinson Obama, née le 17 janvier 1964, avocate et écrivaine américaine, est l'épouse du 44e et actuel président des États-Unis" - que nous reconnaissons comme des faits).
IBM voit la véracité comme quatrième V du big data. (Comme moi, IBM ne préconise pas la variabilité, la validité ou la valeur en tant qu'éléments essentiels du big data). En ce qui concerne la véracité, IBM pose la question suivante : "Comment pouvez-vous agir sur la base d'informations si vous n'avez pas confiance en elles ?
Cependant, les faits, qu'ils soient saisis en langage naturel ou dans une base de données structurée, ne sont pas toujours vrais. Des données fausses ou obsolètes peuvent néanmoins être utiles, de même que des données subjectives non factuelles (sentiments et opinions).
Considérons deux déclarations, l'une affirmant un fait et l'autre en contenant un qui n'est plus vrai. Rejoignez-moi pour conclure que les données peuvent avoir une valeur indépendante de la véracité :
— "Le régime irakien possède et produit des armes chimiques et biologiques. - George W. Bush, 7 octobre 2002.
— "Je suis heureux que George Bush soit président. — Daniel Pinchbeck, écrivant de manière ironique, juin 2003.
La véracité est importante. Je citerai un vieux proverbe russe : "Faites confiance, mais vérifiez. Il s'agit d'analyser vos données - de les évaluer dans leur contexte, en tenant compte de leur provenance - afin de les comprendre et de les utiliser de manière appropriée.
Les 3 V contre les "Wanna-V" (les "V" de l'envie)
Mon objectif ici est de différencier l'essence du big data, telle que définie par les 3 V originaux et toujours valables de Doug Laney, des qualités dérivées des nouveaux V proposés par divers vendeurs, experts et gourous. Mon espoir est de maintenir la clarté et d'éviter la fragmentation du marché qui crée de la confusion, engendrée par les wanna-V's.
D'un côté, nous avons la capture et le stockage des données ; de l'autre, le filtrage, l'analyse et la présentation orientés vers les objectifs de l'entreprise. Les bases de données et les technologies de flux de données répondent aux besoins en matière de big data ; pour le reste, l'intelligence, vous avez besoin de l'analyse des big data.
La variabilité, la véracité, la validité et la valeur ne sont pas des propriétés intrinsèques et définitionnelles des big data. Ce ne sont pas des absolus. En revanche, elles reflètent l'utilisation que vous souhaitez faire de vos données. Elles sont liées aux besoins particuliers de votre entreprise.
Vous découvrez la variabilité, la véracité, la validité et la valeur de vos données en fonction du contexte par le biais d'analyses qui évaluent et réduisent les données et présentent des informations sous des formes qui facilitent la prise de décision. Cette fonction - l'analyse - est la clé de la compréhension du big data.
Seth Grimes est le principal analyste du secteur de l'analyse de texte et de l'analyse des sentiments. Il a fondé la société Alta Plana Corporation en 1997.