Le traitement et l'analyse des données clients : des capacités inadaptées Le Big data implique le traitement de données volumineuses (nombreuses sources d’historiques, bases de corrélations, etc.) en un temps raisonnable, voire en temps réel. Le problème n’est plus tant de stocker (a priori) un volume considérable de données clients, mais de sélectionner, dans le flux continu de data, celles que l’on va conserver (a posteriori) : un choix qui requiert des compétences et outils spécifiques. Bien souvent, une combinaison de méthodes statistiques classiques (statistiques descriptives, segmentation, scoring, etc.) et de solutions de calcul permet de résoudre ces difficultés. Par exemple, la parallélisation des calculs répète les mêmes calculs sur des groupes de données séparés, des séquences, avant de les réconcilier, afin qu’ils soient globalement effectués de manière plus rapide. Cette méthode de calcul est combinée avec des estimateurs statistiques pour converger vers une réponse la plus juste possible dans le délai imparti. Notons que les formes de statistiques descriptives auxquelles on aboutit aujourd’hui sont plus pures qu’à l’époque où l’on ne disposait que d’échantillons de données qu’il fallait extrapoler (du fait des coûts de récolte, de stockage et de traitement). Raison pour laquelle la quantité de données disponibles et leur traitement ne sont aujourd’hui plus une limite, ce qui permet de travailler sur des données plus exhaustives. Quelle maturité dans l'exploitation des données clients ? | 15
Big data : où en sont les entreprises françaises ? Page 14 Page 16