Os dados são onipresentes para organizações em transformação digital. Não é mais apenas uma questão de relatórios ou BI. O advento do Big Data e da Data Science exige uma capacidade real de criação de valor por meio dos dados.
O surgimento das funções de Chief Data Officer (CDO) materializa a conscientização das organizações nesse sentido. Samir Amellal é um CDO presente e ativo em assuntos de dados, do governo, startups, ao setor privado.
Dedicamos esta entrevista ao tema da Qualidade de Dados (Data Quality), um paradigma que está se tornando um pré-requisito. A Data Quality alinha-se às práticas do Quality Enigneering, forçando os sistemas de dados a criar valor contínuo.
Abordamos os seguintes tópicos:
- Por que a Data Quality faz parte das prioridades estratégicas da empresa
- Que definição e quais desafios de criação de valor para a Data Quality
- Como a Data Quality aplica o paradigma do Quality Engineering
- Como o Data Quality integra-se com as práticas de DataOps, Data Mesh e AI
- Quais fatores externos aceleram a necessidade de abordar a Data Quality
- Quais produtos, soluções e oportunidades estão surgindo no ecossistema
Junte-se à QE Unit para aceder a mais conteúdo exclusivo da comunidade.
Sobre o Samir Amellal
Samir Amellal é o CDO da empresa francesa de comércio eletrônico La Redoute (grupo Galeries Lafayette).
Samir possui mestrado em tecnologias de informação e dados pela Universidade de Lille e mestrado em e-business pela SKEMA Business School. Ele começou sua carreira na Accenture Interactive como Cientista de Dados da La Redoute. Ele então trabalhou como engenheiro de R&D na Buongiorno antes de ingressar na Publicis (Ex. Publicis ETO). Por 7 anos, ocupou vários cargos lá. Primeiramente como Diretor de Projetos de Data Sciences, responsável pelas contas Danone, LVMH e Total. Em seguida, vice-CEO responsável por Data Intelligence antes de ser nomeado Chief Data Officer da Publicis France em 2015.
Samir Amellal ingressou na agência Fullsix France (grupo Havas) em março de 2017 como Diretor Executivo. Com a missão de pilotar dados, inovação e previsão. Em 2018, criou a agência Havas Helia, especializada em CRM e Gestão de Dados, dentro do grupo.
Ele então ingressou na La Redoute em março de 2019 como Chief Data Officer, responsável pela governança de dados. Com a ambição de construir uma estratégia orientada por dados, tecnologia e Inteligência Artificial para oferecer os melhores produtos e serviços ao cliente e enriquecer a experiência do cliente.
Antoine: Pode começar por se apresentar?
Tenho 43 anos, trabalho na área do Data desde o início da minha carreira. Eu tenho um diploma duplo em ciência da computação e em uma escola de negócios. Também fiz muita econometria, então já tenho quase o triplo da licenciatura.
Comecei no setor de telecomunicações com a operadora japonesa NTT Docomo, equivalente à Orange no Japão como engenheira de pesquisa de dados. Em seguida, fui para a Publicis, uma grande empresa francesa de comunicação, onde ocupei vários cargos. Primeiro em uma consultora que tinha sido comprada, Publicis ETO e que agora se chama Epsilon France, assumi o cargo de CEO responsável pela Data nesta subsidiária que agora tem cerca de 1000 funcionários na França e em outras ao redor do mundo. Em seguida, entrei para o grupo Vivendi para ficar praticamente mais de 2 anos lá.
Desde então, sou CDO da La Redoute há quase 3 anos em um contexto e desafios diferentes, o ecossistema evoluiu claramente. Também temos problemas para resolver juntos, Antoine, na parte de dados em particular; mesmo se tiver mais problemas de arquitetura que são mais amplos do que os de dados, é claro que temos problemas comuns.
Antoine: Sei que também está presente de forma mais ampla no ecossistema, principalmente no público, nas universidades, no governo. Estou convencido de que oferece uma perspectiva holística dos dados. Pode nos contar mais?
Dou aulas em várias escolas de engenharia e negócios. Estou participando de uma missão para o governo francês sobre a adoção de IA e dados em grandes grupos franceses em transformação. Além disso, participo no desenvolvimento de start-ups, tendo também patenteado com vários dispositivos.
Antoine: Antes de entrar no tema Data Quality, quais são suas prioridades corporativas como CDO?
A principal prioridade, que é para muitos outros, é se tornar uma organização Data-driven. Isso resulta na adoção massiva dos dados por todos os funcionários e departamentos. A microcomputação foi adotada em todas as empresas. Hoje estamos em finanças, marketing, logística, todo mundo usa processador de texto, e-mail e arquivos excel. Os dados devem seguir este mesmo caminho.
Os atores devem saber como usar os Dados em sentido amplo, por meio de algoritmos, relatórios etc. Não é mais uma economia possível para as organizações. Os dados são, portanto, uma importante questão de transformação a ser organizada. Para alcançá-lo corretamente, a governança é estruturante. Assim como acontece com a TI, não podemos nos dar ao luxo de multiplicar as soluções. Acho que muitos CDOs estão nesta fase de disseminação e extensão de Dados em suas empresas.
Antoine: Escolhemos o tema da Data Quality. Qual é a sua definição e quais os desafios que ela aborda?
A Data Quality representa reais desafios em vários aspectos. O primeiro é técnico, os dados qualitativos não são apenas dados livres de erros. Isso também envolve interfaces compartilhadas entre o IT e a Data. Existem problemas reais em torno da qualidade dos fluxos. Por exemplo, certos fluxos devem ser estáveis e confiáveis para necessidades críticas de negócios, ainda mais no caso da Data Science.
“A qualidade dos dados é um pré-requisito para as organizações em transformação para o Data-driven, onde os dados estão no centro de cada processo, tomada de decisão e melhoria”
Samir Amellal
Dificilmente podemos tolerar uma IA que se torna inoperante, o que faz com que decisões erradas sejam tomadas devido à baixa qualidade ou indisponibilidade dos dados. Isso envolve questões de supervisão de fluxo. Não é tão intuitivo quanto o DataOps, mas para mim é um elemento básico. O desafio é confiar nesses dados; deve ter certa confiabilidade, consistência e capacidade de ser disseminado por toda a organização.
A qualidade dos dados é um dos pré-requisitos mínimos para compartilhar e usar dados. Devemos ter níveis mínimos de requisitos para a empresa. A confiança na horizontal e na vertical na organização é necessária.
Antoine: A Data Quality tornou-se, portanto, um pré-requisito fundamental para a criação de valor por meio de dados. Existem outros critérios a serem considerados?
Além dos aspectos de monitoramento e confiabilidade, eu mencionaria a sincronicidade. Tomemos o exemplo da La Redoute, se enviarmos um push móvel ao cliente para informá-lo de que seu pacote está chegando no fundo de sua casa enquanto o call center lhe diz que o pacote não foi liberado do armazém, é mais do que problemático. Encontramos respostas em arquiteturas de eventos e em tempo real. Tendo a considerar fortemente esse aspecto da sincronicidade, fundamental para a criação de valor por meio de dados.
Uma perda de confiança na consistência, disponibilidade e confiabilidade dos dados dentro ou entre os sistemas é, portanto, essencial para a Data Quality.
Antoine: Muito interessante como critério. Além disso, o relatório da Forrester mostra que a Data Quality é um critério que ocupa o primeiro lugar, à frente de ter a expertise certa e o apoio do comitê de gestão. Confirma essa tendência no ecossistema?
Esse é um bom ponto, a conscientização de acordo com a maturidade das organizações e CDOs. No passado, tínhamos que demonstrar a possibilidade de criação de valor por meio de dados. Ouvimos muito sobre Big Data, práticas de GAFA e nos perguntamos como poderíamos chegar ao mesmo nível. Então, fizemos muitos POCs com uma baixa taxa de implantação para escalar.
“A qualidade dos dados é um pré-requisito para a criação de valor por meio dos dados.”
Samir Amellal
Há algum tempo, a maioria dos CDOs maduros avançou para este nível de industrialização. Quando cheguei a La Redoute, essa foi uma das minhas primeiras preocupações. Comecei com fundamentos como DataOps, monitoramento de fluxo, uma arquitetura mais saudável, documentação, etc. Esses são elementos críticos para garantir a estabilidade, escalabilidade e manutenção dos dispositivos.
As principais empresas históricas, fora dos pure-players, como La Redoute e outras, estão se movendo para um nível em que a governance das práticas de dados estão ocorrendo. Um dos principais pré-requisitos é a Data Quality. Não podemos dar as chaves do camião para as diferentes equipes sem garantir um alinhamento e compartilhamento de usos. Quando começamos a cruzar esse marco orientado a dados, a qualidade dos dados é crítica, seja para relatórios, algoritmos ou ciência de dados.
Antoine: A Data Quality está no centro das tendências de evolução digital. Relatórios e BI evoluíram para Big Data. O Data Lakes na Cloud pode trazer mais percepções operacionais ou de clientes. DataOps apóia a industrialização de Data Science. Os tópicos de ética e IA também aceleram essa necessidade de qualidade de dados?
Exatamente. A ética é um assunto amplo, além disso, o IA Act está sendo preparado a um nível europeu. Dentro deste tópico da ética, existem vários subtópicos. Primeiro, a ética é subjetiva; estamos falando sobre inteligência artificial, não consciência artificial. Estamos, portanto, em dispositivos e processos que reproduzem tarefas complexas antes reservadas apenas para humanos. Os avanços tecnológicos nos permitem implementar alguns deles. A ética é, portanto, muitas vezes um reflexo da empresa que a desenvolve e usa.
Por exemplo, ao instalar uma IA na La Redoute, serão considerados fatores relacionados aos valores e à visão da empresa. Além disso, treinar esses IAs em dados qualitativos é fundamental. Construir uma IA com base em dados defeituosos ou tendenciosos aumentará a probabilidade de uma tomada de decisão inadequada. Teremos, portanto, um problema de confiança ou mesmo de inconsciência da não qualidade do modelo construído.
Antoine: A ética está se tornando um elemento incorporado na formação, na universidade ou mesmo em programas mais direcionados?
Ainda não. Nas escolas de engenharia, trabalho principalmente com redes neurais e funções de ativação. Na escola de negócios, falamos sobre ética indiretamente, o que levanta muitas questões na implementação da inteligência artificial. A IA é cheia de fantasia, especialmente para pessoas que estão longe de sua implantação real. Há um debate em torno da IA entre as grandes figuras do Digital. O tema, portanto, começa a chegar. Não é fácil de manejar, são pontos filosóficos, subjetivos, morais.
Antoine: As arquiteturas de dados evoluem, do data warehouse, Data Lake ao Data Mesh, a fim de acelerar o fluxo de dados e a tomada de decisões em escala. Que impactos identifica para o Data Quality?
O Data Mesh é de fato uma boa resposta a uma transformação em organizações orientadas a dados. É uma forma de fazer com que as profissões se apropriem mais do assunto. Falamos sobre isso cada vez mais. Eu realmente vejo Data Quality entre os pilares que permitem o acesso a este tipo de soluções e usos, como DataOps, arquitetura, administração de dados, processos de provisionamento de dados. Quando um relatório é elaborado, por exemplo, em uma direção, deve-se garantir confiabilidade, validade e relevância. O risco é tomar decisões erradas.
A qualidade dos dados é, portanto, fundamental. Devemos garantir que os dados não foram alterados no trânsito entre as direções, que temos a mesma definição, a fim de maximizar sua utilidade. Isso requer uma homogeneidade de práticas no nível da organização com padrões e requisitos compartilhados de dados. Todos esses elementos são pré-requisitos para o Data Mesh, um verdadeiro acelerador para implantar o uso de dados em toda a organização.
O objetivo em Data-Driven continua a ser maximizar a criação de valor através da utilização natural de dados na gestão de processos. Tem que saber trabalhar com dados, entendê-los para poder usá-los. À medida que a tomada de decisão torna-se cada vez mais apoiada por dados, a necessidade de rastreabilidade e explicabilidade é necessária. A responsabilidade dos atores está envolvida na decisão de seguir ou não uma recomendação. A adoção da IA requer gestão nas empresas.
Antoine: Vamos compartilhar sobre a implementação do Data Quality. Vemos soluções emergentes como o DataPrep no GCP, com equivalentes na competição para dar suporte à qualidade dos dados. Uma abordagem de produto para o negócio não poderia acelerar o processo?
Sim, este é um ponto muito bom. Estou convicto de que há vários assuntos a definir e em diferentes locais para garantir a Qualidade dos Dados. DataOps aborda parcialmente o monitoramento de dados, Data Quality fornece parte da correção.
Além disso, estamos trabalhando em dispositivos e produtos para garantir a qualidade desses dados que circulam na empresa, contando com um proprietário responsável pela Qualidade dos Dados junto aos seus utilizadores.
Antoine: Estamos, portanto, longe de soluções padronizadas, devemos abordar o assunto em sua totalidade nas várias dimensões dos processos, da organização e das competências. Portanto, o gerenciamento de mudanças reais é necessário.
Na verdade, é um verdadeiro projeto de transformação. Além disso, a equipe operacional raramente vê o valor da qualidade dos dados. Eles não percebem o impacto negativo para a empresa que pode acontecer sem abordar o problema. Na verdade é perigoso, podemos ter um relatório ou métricas disponíveis, sem que sejam confiáveis. Como as pessoas não estão presas às atividades, isso é erroneamente considerado secundário. As equipes podem cair do topo aplicando Qualidade de Dados em relatórios históricos.
Antoine: Vimos o surgimento de dados abertos, também estamos vendo o surgimento de padrões e modelos de interoperabilidade em nuvem. Identifica oportunidades de melhorias no ecossistema para acelerar o compartilhamento de dados?
Dados abertos é um tópico relevante no qual me interessei no passado e voltarei a ele com mais seriedade. Na minha experiência, os conjuntos de dados exigiram muito esforço para limpar e transformar. O portal data.gouv, por exemplo, fornece dados públicos interessantes, mas não necessariamente qualificados ou padronizados.
“A qualidade dos dados dentro do ecossistema é um problema real, existem muitas oportunidades de melhoria para promover a inovação e a interoperabilidade.”
Samir Amellal
Do ponto de vista empresarial, acho que existem verdadeiras questões setoriais. Por exemplo, não existem modelos ou padrões padronizados para o setor do Retail. Portanto, é difícil compartilhar produtos, nomenclaturas e taxonomias, sendo necessário um esforço de integração e adaptação, mesmo dentro de um mesmo grupo. Este é um desperdício de esforço significativo para um grande número de organizações. Os tópicos devem, portanto, ser tratados por vertical e por setor inicialmente.
Antoine: Além disso, a composição e interoperabilidade dos sistemas é uma questão importante para a entrega contínua de valor, flexibilidade é fundamental. Um caminho foi feito em protocolos técnicos com padrões, mas os padrões funcionais ainda estão subdesenvolvidos.
Completamente, a padronização e a interoperabilidade são reforçadas e podem multiplicar os resultados por dez. Além das empresas e de suas iniciativas individuais de qualidade de dados, acho que temos problemas reais a tratar a esse respeito. Organizações como o W3C estão fazendo esse trabalho no ecossistema da web.
Antoine: Para terminar com uma nota pessoal, tem algum conteúdo que o inspirou e continua a inspirar? Podem ser pessoas, citações, livros ou o que for.
Na área de TI e Dados, tenho um amigo, Luc Julia, que me inspira muito. Ele começou a fazer TI nos EUA em diferentes ambientes, recomendo fortemente seu livro Artificial Intelligence Does Not Exist. Também posso recomendar um livro de Gilles Berton em que fui entrevistado, “CDO”. Vemos que todos temos os mesmos problemas com diferentes questões e contextos.
Além desses campos, eu estava muito interessado em econometria e filosofia da ciência, a epistemologia. Isso cobre a definição e o enquadramento de um problema, saber como formular corretamente um problema é mais do que útil em Data Science. Nossos modelos derivam fortemente dessas práticas. David Yom é um filósofo e epistemólogo do empirismo, Karl Popper são pessoas muito inspiradoras para mim. Suas práticas são fundamentais para modelar e compreender problemas e resolvê-los com soluções verdadeiramente relevantes.
Antoine: Obrigado Samir por compartilhar sobre a Data Quality. Uma boa continuação em todas as suas iniciativas e atividades. Pode seguir Samir Amellal aqui.
Conteúdos mencionados
Forrester (2019), Por que os profissionais de marketing não podem ignorar a qualidade dos dados. Relatório.
Luc Julia (2019), Inteligência artificial não existe. Primeiras edições.
Standard, Biografia de David Hume https://plato.stanford.edu/entries/hume/