La donnée est omniprésente pour les organisations en pleine transformation digitale. Il ne s’agit plus que de reporting ou de BI. L’avènement du Big Data et la Data Science nécessitent une réelle capacité à créer de la valeur par les Data.
L’émergence des rôles de Chief Data Officer (CDO) matérialise la prise de conscience des organisations à cet effet. Samir Amellal est un CDO présent et actif sur les sujets d’actualité de la Data, du gouvernement, startups, au privé.
Nous avons dédié cet interview au sujet de la Data Quality, un paradigme qui devient un pré-requis. La Data Quality s’aligne dans les pratiques du Quality Engineering contraignant les dispositifs Data à une création de valeur continue.
Nous avons pu aborder les sujets suivants :
- Pourquoi la Data Quality s’insère dans les priorités stratégiques d’entreprise
- Quelle définition et quels enjeux de création de valeur pour la Data Quality
- Comment la Data Quality applique le paradigme du Quality Engineering
- Comment la Data Quality se compose avec le DataOps, Data Mesh et l’IA
- Quels facteurs extérieurs accélèrent le besoin d’adresser la Data Quality
- Quels produits, solutions et opportunités émergent dans l’écosystème
Rejoignez la QE Unit pour accéder à plus de contenu exclusif de la communauté.
À propos de Samir Amellal
Samir Amellal est Chief Data Officer au sein de la société française de e-commerce La Redoute (groupe des Galeries Lafayette).
Samir est titulaire d’un master en technologies de l’information et des données de l’université de Lille et d’un master en e-business de la SKEMA Business School. Il a démarré sa carrière au sein d’Accenture Interactive en tant que Data Scientist pour le compte de La Redoute. Puis il a occupé des fonctions d’ingénieur R&D chez Buongiorno avant de rejoindre Publicis (Ex. Publicis ETO). Pendant 7 ans, il y a occupé différentes fonctions. D’abord comme Directeur Projet Data Sciences, en charge des comptes Danone, LVMH et Total. Puis Directeur Général Adjoint en charge de la Data Intelligence avant d’être nommé en 2015 Chief Data Officer de Publicis France.
Samir Amellal rejoint en mars 2017 l’agence Fullsix France (groupe Havas) en tant que directeur général. Avec pour mission de piloter la data, l’innovation et la prospective. En 2018, il crée au sein du groupe l’agence Havas Helia, spécialisée dans la gestion du CRM et de la Data.
Puis il intègre en mars 2019 La Redoute en tant que Chief Data Officer, chargé de la gouvernance des données. Avec l’ambition de construire une stratégie pilotée par les data, la technologie et l’Intelligence Artificielle pour offrir les meilleurs produits et services au client et enrichir l’expérience client.
Antoine : Peux-tu commencer par te présenter ?
J’ai 43 ans, je fais de la data depuis que je travaille. J’ai un double cursus en informatique et dans une business school. J’’ai fait aussi beaucoup d’économétrie donc j’ai déjà presque un triple cursus.
J’ai commencé dans le secteur des télécoms chez un opérateur japonais NTT Docomo, un équivalent d’Orange au Japon en tant qu’ingénieur en recherche Data. Je suis ensuite allé chez Publicis, un gros acteur français de la communication où j’ai occupé plusieurs postes. D’abord dans une SS2I qui avait été rachetée, Publicis ETO et qui s’appelle aujourd’hui Epsilon France J’ai repris le poste de DG en charge de la Data dans cette filiale qui compte aujourd’hui à peu près 1000 collaborateurs en France et d’autres dans le monde. J’ai ensuite rejoint le groupe Vivendi pour y passer pratiquement plus de 2 ans.
Depuis, je suis CDO à La Redoute depuis quasiment 3 ans dans un contexte et des enjeux différents, l’écosystème a clairement évolué. On a d’ailleurs des enjeux à adresser ensemble Antoine sur la partie Data notamment; même si tu as plus des enjeux d’architecture plus larges que ceux de Data, nous avons clairement des enjeux communs.
Antoine : Je sais que tu es également présent plus largement dans l’écosystème, notamment dans le public, les universités, le gouvernement. Je suis convaincu que cela te donne une perspective holistique de la Data. Peux-tu nous en dire plus?
J’enseigne dans plusieurs écoles d’ingénieurs et de commerce. Je participe à une mission pour le gouvernement français sur l’adoption de l’IA et la Data dans les grands groupes français en transformation. Par ailleurs, je participe au développement de start-ups, ayant également breveté plusieurs dispositifs.
Antoine : Avant d’entrer dans le thème Data Quality, quelles sont tes priorités d’entreprise en tant que CDO ?
La priorité majeure, qui est celle pour beaucoup d’autres, est de devenir une organisation data-driven. Cela se traduit par une adoption massive de la donnée par l’ensemble des collaborateurs et des directions. La micro-informatique a été adoptée dans l’ensemble des entreprises. Aujourd’hui qu’on soit en finance, au marketing, en logistique, tout le monde se sert d’un traitement de texte, des mails et de fichiers excel. La Data doit réaliser ce même chemin.
Les acteurs doivent savoir utiliser la Data au sens large, via des algorithmes, reportings etc. Ce n’est plus une économie possible pour les organisations. La Data est donc un enjeu majeur de transformation à organiser. Pour le réaliser de manière correcte, la gouvernance est structurante. Comme pour l’IT, on ne peut se permettre de multiplier les solutions. Je pense que beaucoup de CDO sont à ce stage de diffusion et d’extension de la Data dans leurs entreprises.
Antoine : Nous avons retenu le thème de la Data Quality. Quelle en est ta définition et à quels enjeux vient-elle répondre ?
La Data Quality représente de réels challenges à plusieurs égards. Un premier est technique, une donnée qualitative n’est pas seulement une donnée sans erreur. Cela passe aussi par des interfaces partagées entre l’IT et la Data, il y a de réels enjeux autour de la qualité des flux. Par exemple, certains flux doivent être stables et de confiance pour des besoins métiers critiques, encore plus dans le cas de la Data Science.
“La Data Quality est un pré-requis aux organisations en transformation vers le Data-Driven, oú la données est au coeur de chaque processus, prise de décision et amélioration”
Samir Amellal
On peut difficilement tolérer une IA qui devient inopérante, qui fait prendre de mauvaises décisions à cause d’une mauvaise qualité de donnée ou indisponible. Cela implique des enjeux de supervision des flux. Ce n’est pas aussi intuitif que le DataOps mais en est pour moi un élément de fondation. L’enjeu est d’avoir confiance dans cette donnée ; elle doit avoir une certaine fiabilité, homogénéité et une capacité à être diffuser dans l’ensemble de l’organisation.
La qualité de la donnée est l’un des pré-requis minimum à un partage et une utilisation de la donnée. On se doit d’avoir des niveaux d’exigences minimales pour l’entreprise. La confiance en horizontal et en vertical dans l’organisation est nécessaire.
Antoine : La Data Quality est donc devenu un pré-requis fondamental à la création de valeur par la donnée. Y a-t-il d’autres critères à prendre en compte ?
Au-delà des aspects de monitoring et de fiabilité, je mentionnerais la synchronicité. Prenons l’exemple de La Redoute, si nous envoyons un push mobile au client pour l’informer que son colis est en train d’arriver en bas de chez lui alors que le call-center lui dit que le colis n’est pas sorti de l’entrepôt, c’est plus que problématique. On retrouve des réponses dans les architectures événementielles et temps réel. J’ai tendance à fortement considérer cet aspect de synchronicité, fondamental à la création de valeur par les données.
Une perte de confiance dans la cohérence, la disponibilité et la fiabilité de la donnée au sein ou entre les systèmes est donc essentiel à la Data Quality.
Antoine : Très intéressant comme critère. D’ailleurs le rapport Forrester démontre que la Data Quality est un critère passé en première position, devant celui d’avoir les bonnes expertises et du support du comité de direction. Est-ce que tu confirmes cette tendance dans l’écosystème ?
C’est un bon point, la prise de conscience en fonction de la maturité des organisations et des CDO. Par le passé on devait démontrer la possibilité de création de valeur par les données. On entendait beaucoup parler de Big Data, des pratiques des GAFA et on se demandait bien comment pouvoir atteindre le même niveau. On faisait donc beaucoup de POCs avec un faible taux de déploiement à l’échelle.
“La Data Quality est un pré-requis à la création de valeur par la Data.”
Samir Amellal
Depuis quelque temps, la plupart des CDO matures ont avancé à ce stage d’industrialisation. Quand je suis arrivé à La Redoute, cela a été une de mes premières préoccupations. J’ai démarré par des fondations comme le DataOps, le monitoring des flux, une architecture plus saine, de la documentation, etc. Ce sont des éléments critiques pour garantir la stabilité, l’évolutivité et la maintenance des dispositifs.
Les entreprises historiques en avance, hors des pure-players, comme La Redoute et d’autres, sont en train de passer à un stade où la gouvernance, la diffusion et les pratiques Data se réalisent. L’un des pré-requis principaux est la Data Quality. On ne peut pas se permettre de donner les clefs du camion aux différentes équipes sans s’être assuré d’un alignement et partage des usages. Quand on commence à franchir ce cap du Data-Driven, la Data Quality est critique, qu’elle soit pour le reporting, des algorithmes ou de la Data Science.
Antoine : La Data Quality se retrouve au cœur de tendances d’évolutions du Digital. Le reporting et la BI ont évolué vers le Big Data. Les Data Lakes dans le Cloud permettent d’amener plus d’insights client ou sur les opérations. Le DataOps supporte l’industrialisation de la Data Science. Est-ce que les sujets d’éthique et d’IA viennent également accélérer cette nécessité de qualité de donnée?
Exactement. L’éthique est un sujet large, d’ailleurs l’IA Act est en train de se préparer à un niveau européen. À l’intérieur de ce sujet de l’éthique, on retrouve plusieurs sous-sujet. Premièrement, l’éthique est subjective ; on parle d’intelligence artificielle, pas de conscience artificielle. On est donc sur des dispositifs et des processus qui reproduisent des tâches complexes autrefois uniquement réservées aux humains. Les progrès technologiques nous permettent d’en implémenter certains. L’éthique est donc souvent le reflet de celle de l’entreprise la développant et l’utilisant.
Par exemple, en mettant en place une IA à La Redoute, des facteurs en lien avec les valeurs et la vision de l’entreprise seront considérés. En complément, l’entraînement de ces IA sur des données qualitatives est fondamentale. La construction d’une IA sur des données erronées ou biaisées augmentera la probabilité de mauvaises prises de décisions. On aura donc un problème de confiance ou même d’inconscience de la non-qualité du modèle construit.
Antoine : Est-ce que l’éthique devient un élément incorporé aux formations, en université ou même dans des programmes plus ciblés ?
Pas encore. Dans les écoles d’ingénieurs j’interviens principalement sur les réseaux de neurones et les fonctions d’activations. En école de commerce, on parle d’éthique indirectement, cela pose beaucoup de questions dans la mise en place de l’intelligence artificielle. L’IA est pleine de fantasme, surtout pour des gens loin de leur déploiement effectif. Il existe un débat autour de l’IA entre les grandes figures du Digital. Le thème commence donc à arriver. Il n’est pas facile à manipuler, cela rejoint des points philosophiques, la subjectivité, la morale.
Antoine : Les architectures Data évoluent, du Data warehouse, Data Lake jusqu’au Data Mesh afin d’accélérer la circulation de la donnée et la prise de décisions à l’échelle. Quels impacts identifies-tu pour la Data Quality ?
Le Data Mesh est effectivement une bonne réponse à une transformation en Data-Driven des organisations. C’est une façon d’amener les métiers à plus fortement s’approprier le sujet. On en parle bien de plus en plus. Je vois vraiment la Data Quality parmi les piliers permettant d’accéder à ce type de solutions et d ‘usages, comme la DataOps, l’architecture, l’administration des données, les processus de mise à disposition de la donnée. Quand un rapport est par exemple conçu dans une direction, on doit s’assurer de la fiabilité, validité et pertinence. Le risque est de faire prendre des mauvaises décisions.
La Data Quality est donc fondamentale. Nous devons garantir que la donnée n’ait pas été altérée en transitant entre des directions, qu’on en ait la même définition afin d’en maximiser son utilité. Cela requiert une homogénéité de pratiques au niveau de l’organisation avec des standards et des exigences partagées de Data. Tous ces éléments sont des pré-requis au Data Mesh, un réel accélérateur de déployer les usages de la données dans l’ensemble de l’organisation.
L’objectif en Data-Driven reste bien de maximiser la création de valeur en utilisant naturellement les données dans la conduite des processus. Il faut savoir travailler avec la donnée, la comprendre pour l’utiliser. La prise de décision devenant de plus en plus appuyée par les données, les besoins de traçabilité et d’explicabilité sont nécessaires. La responsabilité des acteurs est mise en jeu en décidant ou non de suivre une recommandation. L’adoption de l’IA requiert du management dans les entreprises.
Antoine : Partageons sur l’implémentation de la Data Quality. On voit des solutions émerger comme DataPrep dans GCP, avec des équivalents dans la concurrence pour supporter la qualité des données. Une approche produit pour le métier ne pourrait-elle pas accélérer la démarche ?
Oui c’est un très bon point. Je suis convaincu qu’il y a plusieurs sujets à mettre en place et à différents endroits pour assurer la Data Quality. Le DataOps adresse en partie le monitoring des données, la Data Quality assure une partie de la correction.
D’ailleurs nous travaillons avec toi sur des dispositifs et produits permettant d’assurer la qualité de ces données qui circulent dans l’entreprise, avec un owner responsable de la Data Quality auprès de ses utilisateurs.
Antoine : On est donc loin de solutions one-size-fits-all, il faut adresser le sujet dans sa globalité dans les différentes dimensions des processus, organisation et compétences. Une réelle conduite du changement est donc nécessaire.
Effectivement c’est un véritable chantier de transformation. D’ailleurs, les opérationnels perçoivent rarement l’intérêt de la Data Quality. Ils ne se rendent pas compte de l’impact négatif pour l’entreprise qui peut arriver sans adresser la thématique. C’est en fait dangereux, on peut avoir un rapport ou des métriques disponibles, sans pour autant qu’il soit fiable. Les gens n’étant pas bloqué dans les activités, c’est à tort considéré comme secondaire. Les équipes peuvent tomber de haut en appliquant la Data Quality sur des rapports historiques.
Antoine : On a vu émerger l’Open Data, on voit également des normes d’interopérabilité Cloud et de modèles émerger. Identifies-tu des opportunités d’améliorations dans l’écosystème pour accélérer le partage de la donnée ?
L’Open Data est un sujet pertinent auquel je me suis intéressé par le passé et vais m’y remettre plus sérieusement. De mon expérience, les jeux de données nécessitaient un effort plus que conséquent de nettoyage et de transformation. Le portail data.gouv fournit par exemple des données publiques intéressantes mais pas forcément qualifiées ni standards.
“La qualité des données au sein de l’écosystème est un réel sujet, de nombreuses opportunités d’améliorations sont possibles pour favoriser l’innovation et l’intéropérabilité.”
Samir Amellal
Du point de vue des entreprises, je pense qu’il y a de véritables sujets sectoriels. Par exemple, il n’existe pas de modèles ni de standards normalisés pour le secteur du Retail. On a donc du mal à se partager des produits, des nomenclatures et taxonomies Un effort d’intégration et d’adaptation est nécessaire, même au sein d’un même groupe. C’est une perte significative d’effort pour un grand nombre d’organisations. Des sujets sont donc à adresser par vertical et par secteur dans un premier temps.
Antoine : Oui d’ailleurs la composition et l’interopérabilité des systèmes est un enjeu majeur de livraison de valeur continue de manière continue, la flexibilité est clef. Un chemin a été fait sur des protocoles techniques avec des standards, mais les standards fonctionnels sont encore peu développés.
Complètement, la standardisation et l’interopérabilité se renforcent et peuvent décupler les résultats. Au-delà des entreprises et de leurs démarches individuelles de Data Quality, je pense que nous avons de réelles thématiques à adresser à cet égard. Des organismes comme le W3C font ce travail dans l’écosystème Web.
Antoine : Pour terminer sur une note personnelle, as-tu des contenus qui t’ont et continuent à t’inspirer? Cela peut être des personnes, citations, livres, ou autre.
Dans le domaine de l’IT et la Data, j’ai un ami, Luc Julia, qui m’inspire beaucoup. Il a commencé à faire de l’informatique aux USA dans des environnements différents, je recommande fortement son livre L’intelligence artificielle n’existe pas. Je peux également recommander un livre de Gilles Berton dans lequel j’ai été interviewé, “CDO”. On voit que l’on a tous les mêmes enjeux avec des problématiques et contextes différents.
En dehors de ces domaines, je me suis beaucoup intéressé à l’économétrie et à la philosophie des sciences, l’épistémologie. Cela couvre à la définition et cadrage de problème, savoir formulant correctement un problème est plus qu’utile à la Data Science. Nos modélisations découlent fortement de ces pratiques. David Yom est un philosophe épistémologue de l’empirisme, Karl Popper sont des personnes très inspirantes pour moi. Leurs pratiques sont fondamentales pour modéliser et comprendre des problèmes et y résoudre avec des solutions réellement pertinentes.
Antoine : Merci Samir pour ce partage sur la Data Quality. Une bonne continuation dans toutes tes initiatives et activités. Vous pouvez suivre Samir Amellal ici.
Contenus évoqué
Forrester (2019), Why Marketers Cannot Ignore Data Quality. Report.
Luc Julia (2019), L’intelligence artificielle n’existe pas. Éditions First.
Standard, David Hume’s Biography https://plato.stanford.edu/entries/hume/
Stanford, Karl Popper’s Biography https://plato.stanford.edu/entries/popper/