6 mai 2013-
Par Neil Biehn
L'ère du Big Data n'est pas "à venir". Elle est là - aujourd'hui - et elle a apporté à la fois des changements douloureux et des opportunités sans précédent aux entreprises d'innombrables secteurs riches en transactions et en données. Dans cette première vague de Big Data, les professionnels de l'informatique se sont concentrés à juste titre sur les exigences sous-jacentes en matière de ressources du Big Data, qui dépassent les infrastructures de données traditionnelles et, dans de nombreux cas, réécrivent les règles relatives à la manière dont les données sont stockées, gérées et traitées, ainsi qu'à l'endroit où elles le sont.
Les scientifiques des données se penchent sur le classique Vs :
- Volume - Les coûts des ressources de calcul, de stockage et de connectivité sont en chute libre, et les nouvelles technologies telles que les scanners, les smartphones, la vidéo omniprésente et d'autres collecteurs de données signifient que nous sommes inondés de volumes de données qui éclipsent ce qui était disponible il y a encore cinq ou dix ans. Nous enregistrons chaque clic de souris, chaque appel téléphonique, chaque message texte, chaque recherche sur le web, chaque transaction, etc. À mesure que le volume de données augmente, nous pouvons en apprendre davantage, mais seulement si nous découvrons les relations et les modèles significatifs.
- Variété - Qu'il s'agisse des flux infinis de données textuelles dans les réseaux sociaux, des données de géolocalisation, des parts de portefeuille structurées ou des données démographiques, les entreprises saisissent un ensemble de données plus diversifié que jamais. Les rassembler n'est pas une mince affaire.
- Vélocité - C'est un fait avéré que le rythme des affaires s'accélère inexorablement. Le volume et la variété des "Big Data" seraient à eux seuls suffisamment déconcertants. Mais aujourd'hui, ces données arrivent plus vite que jamais. Pour certaines applications, la durée de vie des données est courte. La vitesse tue les concurrents si vous maîtrisez ces vagues de données - ou elle peut tuer votre organisation si elle vous submerge.
IBM a inventé un V digne de ce nom - "véracité" - qui traite de la fiabilité inhérente des données. L'incertitude quant à la cohérence ou à l'exhaustivité des données et d'autres ambiguïtés peuvent devenir des obstacles majeurs. Par conséquent, les principes de base tels que la qualité des données, le nettoyage des données, la gestion des données de référence et la gouvernance des données restent des disciplines essentielles lorsque l'on travaille avec des données massives.
Il n'y a pas si longtemps, un téraoctet était considéré comme volumineux. Aujourd'hui, cela ressemble à une erreur d'arrondi. Aujourd'hui, nous créons 2,5 quintillions d'octets de données par jour. En fait, nous créons tellement de données si rapidement que 90 % des données actuelles ont été créées au cours des deux dernières années seulement. Il est clair que les méthodes traditionnelles de gestion des données doivent changer.
En réponse, les organisations informatiques ont repensé leurs infrastructures et réalisé d'énormes progrès dans la conception d'architectures informatiques sophistiquées pour relever ces défis informatiques extraordinaires. Les scientifiques des données ont exploité des technologies telles que l'informatique en grille, l'informatique en nuage et le traitement dans les bases de données pour apporter un niveau de faisabilité pragmatique à des défis informatiques qui étaient inconcevables.
Le quatrième V : la viabilité
Mais nous avons besoin de plus qu'une plomberie brillante pour analyser des ensembles de données massives en temps réel. C'est un bon début. Mais que pouvons-nous faire avec cette infrastructure ? Par où commencer ? Le premier endroit où regarder est dans les métadonnées. Nous voulons sélectionner avec soin les attributs et les facteurs les plus susceptibles de prédire les résultats les plus importants pour les entreprises. Avec le Big Data, nous ne nous contentons pas de collecter un grand nombre d'enregistrements. Nous collectons des données multidimensionnelles qui couvrent un éventail de plus en plus large de variables. Le secret consiste à découvrir les relations latentes et cachées entre ces variables.
- Quelle est l'influence du moment de la journée ou du jour de la semaine sur le comportement d'achat ?
- Une augmentation des mentions sur Twitter ou Facebook présage-t-elle d'une augmentation ou d'une diminution des achats ?
- Comment la géolocalisation, la disponibilité des produits, l'heure de la journée, l'historique des achats, l'âge, la taille de la famille, la limite de crédit et le type de véhicule convergent-ils pour prédire la propension d'un consommateur à acheter ?
Notre première tâche est d'évaluer la viabilité de ces données car, compte tenu du grand nombre de données et de variables à prendre en compte pour construire un modèle prédictif efficace, nous voulons tester et confirmer rapidement et à moindre coût la pertinence d'une variable particulière avant d'investir dans la création d'un modèle complet. Et, comme dans pratiquement toutes les disciplines scientifiques, ce processus commence par une simple hypothèse.
Par exemple, les conditions météorologiques (par exemple, les précipitations) influencent-elles les volumes de vente ? En d'autres termes, nous voulons valider cette hypothèse avant de prendre d'autres mesures et, en déterminant la viabilité d'une variable, nous pouvons élargir notre vision pour déterminer si d'autres variables - celles qui ne faisaient pas partie de notre hypothèse initiale - ont un impact significatif sur les résultats souhaités ou observés.
Par exemple, un scientifique des données d'un fournisseur de télécommunications peut émettre une théorie selon laquelle les mentions de produits sur Twitter peuvent atteindre un pic peu avant qu'un client ne se désabonne. Il extrait ensuite un échantillon de données et effectue quelques tests et calculs statistiques simples pour déterminer s'il existe une corrélation statistiquement significative entre la variable choisie (les mentions sur Twitter) et le désabonnement des clients. Si c'est le cas, nous avons établi la viabilité de cette variable et nous voudrons élargir notre champ d'action et investir davantage de ressources dans la collecte et l'affinement de cette source de données. Nous pouvons ensuite répéter ce processus de confirmation de la viabilité des variables clés (et d'élimination des autres) jusqu'à ce que notre modèle présente un niveau élevé de prévisibilité. Peut-être le risque d'attrition augmente-t-il après 30 mois (indépendamment du nombre d'appels au support). Ou peut-être que les événements d'attrition sont plus susceptibles de se produire après que le cours de l'action d'une entreprise cliente a augmenté de 10 % en deux mois.
Le cinquième V : la valeur
Une fois que nous avons confirmé la viabilité de nos variables clés, nous pouvons créer un modèle qui répond à des questions sophistiquées, fournit des informations contre-intuitives et crée des apprentissages uniques. Nous définissons des actions et des comportements prescriptifs et efficaces et commençons à exploiter le cinquième V du Big Data : la valeur.
La science des données peut nous aider à découvrir ces interactions subtiles, permettant à un fabricant, par exemple, de manipuler des leviers jusqu'ici cachés - souvent contre-intuitifs - qui ont un impact direct sur les résultats des ventes. Notre fournisseur fictif de services de télécommunications cherchant à réduire le taux de désabonnement, par exemple, pourrait examiner le nombre ou la durée des appels à un centre d'assistance. Mais la science des données pourrait analyser plus en profondeur les Big Data et présenter les choses que vous ne saviez pas. Nous étendons la valeur d'un modèle prédictif en découvrant par la suite une combinaison pratiquement insondable de variables supplémentaires - ce que l'on appelle la "longue traîne" - qui prédit collectivement ce que vous cherchez à mesurer.
Pour notre fournisseur de télécommunications, un responsable des ventes pourrait émettre l'hypothèse que la région, le revenu et l'âge contribueront à améliorer la précision des prévisions d'attrition parmi les consommateurs. Mais une fois la viabilité de ces dimensions confirmée, nous pourrions étendre notre exploration pour apprendre que les clients des États chauds du Sud-Ouest, titulaires d'une maîtrise, qui possèdent une voiture dont l'année de modèle est 2008 ou antérieure et dont le score de crédit est compris entre 625 et 650, présentent une propension à l'attrition très importante et statistiquement significative dans les 45 jours qui suivent leur anniversaire.
Même si notre agrégation de variables prédictives - notre modèle - produit d'excellents résultats, nous devons nous rappeler ce que tous les étudiants de premier cycle apprennent : Corrélation ne signifie pas causalité. Il serait imprudent de suivre aveuglément un modèle prédictif de corrélations sans examiner et comprendre les interrelations qu'elles incarnent. (Bien que la victoire d'une équipe de la NFC au Super Bowl ait été corrélée avec les gains de l'indice Dow Jones [MD : est-ce le cas ?], peu d'entre nous passeraient immédiatement des ordres d'achat le lendemain matin si les Cowboys de Dallas remportaient le trophée Lombardi).
Mais nous pouvons prudemment et analytiquement valider ces corrélations avec l'intuition commerciale pour mieux comprendre les moteurs du comportement de l'acheteur et lancer des micro-campagnes, à un coût bien moindre, pour présenter des offres attrayantes afin d'éviter le désabonnement. Quelle que soit la manière dont nous y parvenons, ce qui compte, c'est que notre modèle nous indique les actions à entreprendre pour améliorer les résultats de l'entreprise.
De plus, il n'est pas nécessaire de rechercher la perfection dans la validation de nos hypothèses. S'il existe 100 variables pertinentes qui affectent l'indicateur que vous cherchez à mesurer et à améliorer, vous êtes confronté à un énorme problème analytique. Mais de nombreux scientifiques des données pensent que 5 % seulement des variables pertinentes vous permettront d'obtenir 95 % de l'amélioration des ventes ou des bénéfices. L'astuce, bien sûr, consiste à identifier les 5 % de variables adéquates - et c'est ce que les bons scientifiques des données peuvent faire en déterminant la viabilité.
Incontestablement, le Big Data est une tendance clé que l'informatique d'entreprise doit prendre en compte grâce à des infrastructures informatiques adéquates. Mais sans une analyse performante et des scientifiques de données pour donner un sens à tout cela, vous courez le risque de créer simplement des coûts importants sans créer la valeur qui se traduit par un avantage commercial.
Neil Biehn est vice-président et chef du groupe science et recherche de PROS.