Desenvolvido como uma resposta à necessidade de democratização de técnicas avançadas de análise, o Auto Machine Learning (AutoML) é uma solução que permite criar e ajustar automaticamente modelos complexos de Aprendizado de Máquina, possibilitando que analistas de negócios atuem como cientistas de dados.
Desta forma, ao utilizar uma solução AutoML é possível transformar um processo que usualmente requer um perfil especialista, tornando-o mais acessível ao mundo dos negócios. Isso é algo bastante positivo, já que, atualmente, a carreira de cientista de dados é uma das mais procuradas e faltam profissionais especializados. Com o uso da automação, a ciência de dados pode ser conduzida profissionais de dados, como analistas de business intelligence, que não são necessariamente cientistas de dados em sua formação[1]
Atento a estas questões, o Grupo Bip, através do Bip xTech – Centro de Excelência especializado em Ciências de Dados, Decisão baseada em dados e em Plataformas Digitais – tem investigado como as atuais tecnologias AutoML podem substituir ou potencializar o trabalho dos cientistas de dados nas fases da construção de um modelo de Machine Learning.
AutoML na prática
Diversas empresas de tecnologia de ponta como Google, Amazon e Microsoft têm desenvolvido suas próprias soluções de AutoML e a Bip vem avaliando o potencial de transformar o mercado aplicando esta solução em alguns de seus clientes.
A pesquisa realizada pela Bip teve como intuito mapear e analisar as principais soluções de mercado, visando entender em quais contextos é recomendável a aplicação do AutoML. Para isto, a Bip formou um time com alguns de seus cientistas de dados e comparou sua performance com de cada solução de AutoML nas várias etapas do CRISP-DM (Cross Industry Standard Process for Data Mining).
O CRISP DM é uma metodologia capaz de transformar dados em conhecimento e informações de gerenciamento, que surgiu justamente para atender a projetos diretamente envolvidos com o processamento e análise de um grande volume de dados.
A abordagem utiliza estatística e matemática como base para cruzamento de dados, por meio de técnicas de indução para propor hipóteses e solucionar questões empresariais. Simplificando, é através da mineração de dados que se consegue extrair de todo o volume de dados coletado uma série de informações úteis para o gerenciamento e a tomada de decisões.
Figura 1 – Modelo CRISP-DM (Cross Industry Standard Process for Data Mining)
Em linhas gerais, a metodologia CRISP-DM é composta por seis etapas. Iniciando pela exploração e verificação da qualidade dos dados, análise, seleção e limpeza. Em seguida, a estrutura é construída, os resultados são avaliados e o modelo se torna disponível para ser autorizado pelo cliente.
O CRISP-DM é processo iterativo no qual, após a estruturação da base de dados, são testados vários algoritmos diferentes a fim de se verificar qual é mais adaptado e possui a melhor performance em relação ao objetivo definido.
Por sua natureza incerta, porém, esse pode ser um processo extremamente demorado, além de, com o tempo, o modelo perder acuracidade, gerando a necessidade de “re-treino” do modelo. São nestes momentos que o AutoML pode trazer ganhos de produtividade, como apresentamos a seguir.
Figura 2 – Os impactos do AutoML nas etapas do CRISP-DM
Analisando o grau de contribuição do AutoML em cada uma das etapas do CRISP-DM, o estudo mostrou que aquelas que possuem maior impacto são as que requerem maior iteração e são mais incertas, ou seja, Data Preparation e Modeling.
Já a etapa de Business Understanding requer um alto nível de compreensão humana e habilidades para resolução de problemas, e as ferramentas de automação não conseguem entender por si só o contexto e o significado dos dados. Quanto ao tratamento e limpeza dos dados, algumas ferramentas de mercado contribuem com o processo, mas ainda requerem maior supervisão do cientista de dados.
A contribuição do AutoML também foi avaliada em função do perfil do profissional que a utiliza. Nesta dimensão, o AutoML demonstrou trazer mais impacto aos analistas de negócios.
Visão Geral do Mercado
O AutoML ainda é um tópico de nicho, mas atualmente um número crescente de empresas está adotando essa tecnologia.
Visando avaliar a capacidade de fornecimento dos principais players do mercado, a BIP realizou uma pesquisa para identificar os principais fornecedores e produtos disponíveis, com base nos relatórios do Gartner e Forrester (final de 2018) e na experiência no setor. Para esta análise, os produtos foram classificados de acordo com duas dimensões: verticalidade do fornecedor e cobertura de pipeline de Machine Learning.
A verticalidade do fornecedor refere-se à amplitude da sua oferta, enquanto a cobertura do pipeline de ML indica a capacidade do produto de automatizar diferentes atividades envolvidas na criação de um modelo de Machine Learning, da limpeza de dados à validação do modelo.
Em linhas gerais, a pesquisa indicou que os grandes fornecedores tendem a propor uma oferta multifuncional, enquanto as tecnologias de código aberto são fortemente verticais nas soluções de ML e AutoML. É importante ressaltar que ambas as soluções cobrem o Pipeline de maneira similar, com diferença no eixo verticalidade do provedor da solução.
Figura 3 – Provedores de soluções de AutoML
Testes e resultados
O estudo da Bip xTech partiu, então, para uma fase teste com vários conjuntos de dados de alguns setores como bancário, de energia e mercado de pesca, automatizando as seguintes atividades: limpeza de dados, feature engineering, feature selection, seleção de modelos e otimização de hiperparâmetros.
Um diferente conjunto de KPI foi avaliado em cada um dos setores teste, utilizando o AutoML em todas as fases do processo de análise de dados e comparando com dados de outras ferramentas e soluções.
De uma forma geral, a aplicação mostrou que o AutoML não obteve uma performance melhor que a análise humana realizada por cientistas de dados e as principais conclusões podem ser resumidas em:
- Os resultados dos testes demonstram que, considerando as funcionalidades oferecidas nas principais soluções de AutoML, ele pode aplicado após o tratamento adequado da base para desenvolvimento do modelo.
- Dada a agilidade com que o AutoML desenvolve modelos, essas soluções podem ser úteis como um bom ponto de partida, por requererem menor esforço do que uma abordagem tradicional de Machine Learning. Analisando os números, esses produtos mostram-se eficazes principalmente quando implementados nos estágios finais do pipeline do Machine Learning.
- Outro aspecto que se pôde perceber é que o AutoML tem melhor desempenho quando o problema depende de uma estrutura de dados simples. Para um modelo de alta complexidade, onde é preciso traduzir um contexto em dados, o AutoML não se mostrou tão útil. Nesse caso, ainda há a necessidade de uma análise por um cientista de dados.
- A boa notícia para os cientistas de dados é que, em casos de alta complexidade ou que demandam análises refinadas, onde é preciso traduzir uma situação em dados, a análise humana ainda é indispensável. O AutoML é mais rápido e preciso, mas não tem uma resposta boa em situações complexas.
Ou seja, o uso do AutoML pode trazer benefícios ao negócio à medida em que reduz o tempo de desenvolvimento de modelos mas deve ser entendido como um ponto de partida. Dessa forma, se utilizado como mais uma ferramenta de profissionais de dados (analistas de BI ou cientistas de dados) pode gerar inclusive ganhos de performance em modelos de Machine Learning já existentes.
Para download do artigo original, acesse: https://www.bipconsulting.com/insights/overview-on-automl-technologies
[1] Os analistas de negócios têm a função de gerar insights com base em dados que já foram trabalhados, enquanto que o cientista de dados, que já possui uma sólida formação em Data Science e Inteligência Artificial, consegue realizar um estudo mais aprofundado, fazer a limpeza dos dados e aplicar as técnicas de Machine Learning por si só.