Le Big Data et les 3 "V"

Publié par jlduret sur 6 Septembre 2016, 19:22pm

Catégories : #Big Data, #big brother

Pourquoi c'est important pour vous ?

Pour comprendre les tenants et les aboutissants du Big Data dans la DSI.

Nous autres praticiens des arts technologiques avons tendance à employer un jargon spécialisé.

Cela n'a rien d'inhabituel. La plupart des corporations, confréries et professions ont leur propre style de communication, soit par commodité, soit pour créer un sentiment d'exclusivité.

En technologie, nous avons également tendance à greffer des termes en vogue très simples à des sujets très complexes, puis à escompter que le reste du monde nous emboîte le pas.

Prenons par exemple le duo "cloud" et "big data". Le terme "cloud" a vu le jour parce que les ingénieurs système que nous sommes avions coutume de dessiner des diagrammes de réseaux locaux.

Entre les réseaux locaux, nous dessinions des sortes de nuages censés représenter en gros "toutes les choses indéfinies entre deux".

Bien entendu, Internet est devenu la chose indéfinie ultime entre deux et le nuage est devenu le cloud.

Pour une personne lambda, comme vos parents ou Jeanine à la comptabilité, "le cloud" désigne l'endroit où vous stockez vos photos et autre contenu. Beaucoup de personnes ne savent pas vraiment que "cloud" est un raccourci et que la réalité du cloud est la croissance de centres de traitements démesurés contenant de vastes quantités d'informations.

Le Big Data est un autre de ces termes raccourcis, mais que Jeanine à la comptabilité, Edouard au marketing et Robert au conseil d'administration ont vraiment besoin de comprendre.

Non seulement le Big Data peut répondre à de grandes questions et ouvrir la voie à de nouvelles opportunités, mais vos concurrents l'utilisent également pour leur propre avantage concurrentiel.

Bien entendu, cela pose la question de savoir ce qu'est le Big Data. La réponse, comme bien souvent en technologie, dépend de votre point de vue.

Voici un bon moyen de voir les choses : le Big Data représente une masse de données trop importante pour être traitée par la gestion traditionnelle des données. Ce critère de masse est bien entendu subjectif. C'est pourquoi nous le décrirons en fonction de trois vecteurs : le volume, la vitesse et la variété, autrement dit les trois V.

Volume, l'exemple de Facebook

C'est le V le plus associé au Big Data, car le volume peut par définition être massif. Ce dont nous parlons ici, c'est de quantités de données qui atteignent des proportions presque inimaginables. Facebook, par exemple, stocke des photos.

Cette déclaration n'a rien d'impressionnant... jusqu'à ce que vous réalisiez que Facebook compte plus d'utilisateurs que la Chine n'a d'habitants. Chacun de ces utilisateurs y stocke de nombreuses photos. Facebook stocke ainsi environ 250 milliards d'images. Vous imaginez ? Non, mais vraiment. Faites-le. Essayez d'imaginer ce que représentent 250 milliards d'images.

Donc, dans l'univers du Big Data, quand nous commençons à parler de volume, nous parlons de quantités astronomiques de données. À l'avenir, nous allons avoir des collections de plus en plus énormes. Par exemple, à l'heure où nous ajoutons des capteurs connectés à tout ou presque, toutes ces données télémétriques viendront s'y ajouter.

C'est aussi le cas avec notre nouvel univers d'apps connectées. Tout le monde aujourd'hui a un smartphone. Prenons un exemple simple : une application de liste de tâches. De plus en plus de fournisseurs gèrent les données des apps dans le cloud, ce qui permet aux utilisateurs d'accéder à leur liste de tâches sur n'importe quel appareil. Comme beaucoup d'apps utilisent un modèle freemium, où une version gratuite sert de produit d'appel pour une version supérieure, les fournisseurs d'apps basées sur un logiciel en tant que service (SaaS) ont tendance à avoir beaucoup de données à stocker.

Par exemple, Todoist (le gestionnaire de tâches que j'utilise) compte environ 10 millions d'installations actives, à en croire Android Play. C'est sans compter toutes les installations sur le web et sous iOS. Chacun de ces utilisateurs a une liste de tâches, et il faut bien stocker ces données quelque part. Todoist n'a certes pas la même envergure que Facebook, mais le service stocke considérablement plus de données que pratiquement n'importe quelle application il y a dix ans.

Bien sûr, il y encore toutes les collections internes de données des entreprises, que ce soit dans le secteur énergétique, la santé, la sécurité nationale, etc. Toutes ces industries génèrent et capturent de vastes quantités de données.

C'est le vecteur du volume.

Vitesse, l'exemple des capteurs

Vous vous souvenez de notre exemple Facebook ? 250 milliards d'images font déjà beaucoup, mais vous n'avez encore rien vu : les utilisateurs de Facebook y transfèrent plus de 900 millions de photos par jour. C'est bien cela, par jour. Donc ce chiffre de 250 milliards pour l'an dernier aura l'air d'une goutte d'eau dans quelques mois. La vitesse mesure la rapidité à laquelle les données affluent. Facebook doit gérer un tsunami de photos chaque jour. Il doit toutes les intégrer, les traiter, les archiver et, plus tard, pouvoir les récupérer d'une manière ou d'une autre.

Prenons un autre exemple. Admettons que vous meniez une campagne présidentielle et que vous vouliez savoir ce que pensent les gens au sujet de votre candidat. Comment procéderiez-vous ? Un moyen serait de vous procurer des données de Twitter auprès de Gnip (récemment racheté par Twitter) pour saisir un flux constant de tweets et les soumettre à une analyse des sentiments.

Ce flux de données Twitter est souvent baptisé "firehose" (littéralement "lance d'incendie"), car il en ressort tellement de données (sous la forme de tweets) que l'on se sent véritablement submergé.

Voici un autre exemple de vitesse : l'analyse des paquets à des fins de cybersécurité. Internet envoie chaque seconde une vaste quantité d'informations à travers le monde. Pour une équipe informatique d'entreprise, une partie de ce flux doit traverser des pare-feu pour accéder au réseau d'entreprise.

Malheureusement, en raison de l'augmentation des cyberattaques, de la cybercriminalité et du cyberespionnage, des charges utiles malveillantes peuvent se cacher dans ce flux de données qui transitent via le pare-feu. Pour éviter la compromission, ce flux de données doit être examiné et analysé pour détecter les anomalies et les schémas de comportements qui constituent des signaux d'alarme. Or, cette opération se complique, car de plus en plus de données sont protégées à l'aide du cryptage. En même temps, les individus malveillants dissimulent leurs charges utiles de programmes malveillants à l'intérieur de paquets cryptés.

Prenons encore les données des capteurs. Plus l'internet des objets prendra de l'ampleur, plus il y aura de capteurs connectés dans le monde, transmettant de minuscules bits de données à un rythme quasi constant. Or, plus le nombre d'unités augmente, plus le flux augmente également.

Ce flux de données est le vecteur de la vitesse.

Variété, l'exemple des messages électroniques

Vous aurez peut-être remarqué que j'ai évoqué les photos, les données de capteurs, les tweets, les paquets cryptés, etc. Tous ces éléments sont très différents les uns des autres. Ces données n'ont rien à voir avec les anciennes lignes, colonnes et jointures de bases de données de nos prédécesseurs. Elles sont très différentes d'une application à une autre et la majeure partie n'est pas structurée. Cela signifie qu'elles ne s'intègrent pas facilement dans des champs sur une feuille de calcul ou dans une application de base de données.

Prenons l'exemple des messages électroniques. Un processus de découverte légale peut nécessiter de passer au crible des milliers, voire des millions de messages électroniques d'une collection. Aucun de ces messages ne sera exactement comme un autre. Chacun se composera de l'adresse électronique de l'expéditeur, d'un destinataire et d'un horodatage. Chaque message comportera un texte écrit par un être humain et éventuellement des pièces jointes.

Les photos, vidéos, enregistrements audio, messages électroniques, documents, livres, présentations, tweets et tracés ECG sont tous des données, mais ils ne sont généralement pas structurés et sont incroyablement variés.

Toute cette diversité des données constitue le vecteur de la variété du big data.

Gérer les 3 V

Il faudrait une bibliothèque entière pour décrire toutes les différentes méthodes utilisées par les praticiens du Big Data pour traiter les trois V. Pour l'instant toutefois, la principale information que vous devez retenir est la suivante : dès lors que vous commencez à parler des données en des termes plus élaborés et à évoquer des quantités astronomiques, un flux démesuré et un assortiment gigantesque, c'est que vous parlez de Big Data.

Une dernière remarque : il existe désormais des moyens de passer au crible toute cette démesure et d'en glaner des enseignements qui peuvent être appliqués à la résolution de problèmes, l'identification de schémas et la découverte d'opportunités. Ce processus est appelé traitement analytique et c'est pourquoi, lorsque vous entendez des discussions à propos du Big Data, vous entendez souvent dans la même phrase l'expression de traitement analytique.

Les trois V décrivent les données à analyser. Le traitement analytique est le processus qui permet de tirer de la valeur de ces données. Ensemble, ils offrent le potentiel d'une analyse édifiante ou d'une inquiétante surveillance. Comme tout autre grand pouvoir, le Big Data s'accompagne d'une grande promesse et d'une lourde responsabilité.