AUTORIA

Eduardo Albuquerque

TRADUÇÃO

GERENTE RESPONSÁVEL

Juan Las Casas

DIRETOR RESPONSÁVEL

Murilo Maciel

O Que é o Data Lake?

Empresas em todo o mundo lidam com enormes quantidades de dados e informações. Para atender às demandas cada vez maiores do mercado, foram desenvolvidas novas ferramentas, conceitos de armazenamentos, centralização e processamento. Uma dessas tecnologias é o Data Lake. Quer saber mais sobre Data Lake e como otimizar dados com Data Lake e Data Warehouse? Te explicaremos abaixo.

O Data Lake foi criado com o intuito de ser um novo conceito para armazenamento e processamento de dados. Através dele, é possível alavancar o mundo empresarial e a maneira como tratamos os dados. Tornando-se um “Lake”, podemos encontrar dados estruturados e não estruturados de forma centralizada, o que permite armazenar todo tipo de dado em qualquer escala de forma original ou tratada, sem a necessidade de estruturação.

Além disso, é possivel integrar, com diferentes tipos de análise, desde painéis e visualizações até processamento de Big Data, com análises em real time ou batch e utilizando Machine Learning para obter melhor desempenho na tomada de decisões. Isso possibilita a criação de um histórico completo que simplifique e democratize o acesso aos dados e integração com outros “Lakes”.

Como Otimizar Dados com Data Lake

De antemão, o Data Lake é altamente escalável e suporta grandes volumes de dados sem a preocupação de limitações, pela variação de diferentes tipos de sistemas de “ETL/ELT”(Extração, Transformação e Carregamento / Extração, Carregamento e Transformação) que permitem que as organizações realizem análises mais complexas em real time. Ao guardar os dados em sua forma bruta em único “Lake” é possível uma leitura constante para produção de dados analíticos e para a resolução de novos problemas de negócio ou modelos mais antigos que podem precisar de manutenção. Como resultado, é possível otimizar dados com Data Lake e Data Warehouse.

Otimizar Dados com Data Lake e Data Warehouse

Como Construir e Otimizar Dados com Data Lake no Seu Negócio?

Primeiramente, um Data Lake é essencial para levar o negócio ao próximo nível, independentemente do nível de maturidade em dados da empresa.

Nesse sentido, é possível agir apenas com a construção de um Data Lake tendo como propósito estruturar uma grande fonte de armazenamento de dados para as empresas.

No entanto, a utilização de todo o potencial dessas fontes se dará apenas com o avanço de um verdadeiro projeto de dados, que irá passar pelo processo de ETL/ELT e são organizados de acordo com as necessidades pontuais, de forma que gere valor ao negócio, facilitando a geração de insights e a tomada de decisões estratégicas.

Para um Data Lake ser útil, algumas considerações podem ser tomadas:

    • Expandindo o entendimento do público-alvo;
    • Concepção do comportamento dos usuários;
    • Insights da decisão à operação;
    • Contribuição na projeção de diferentes cenários;

Em outras palavras, é possível expandir o entendimento do público-alvo de maneira mais clara e objetiva, identificando também qual será o perfil do consumidor nos seus interesses e necessidades, dentre outros fatores. Ao integrar o número variado de fontes, é possível desenvolver uma visão muito mais ampla e completa do usuário.

Entendendo o Cliente Através do Data Lake

Em primeiro lugar, um grande passo para a compreensão do comportamento do cliente é abandonar análises de cenários isolados. Nelas, existem comportamentos distintos durante todo o processo, ainda que administrados pela mesma necessidade. Isso é consequência de uma série de variáveis que não devem ser observadas de forma isolada, como por exemplo o período, dispositivo, canal de contato, origem de acesso, etc.

Portanto, é nessa unificação de visões que se entende com mais nitidez os pontos de desvios da jornada e o comportamento real do usuário.

Por outro lado, não são apenas nos cenários de performance que a centralização dos dados pode gerar insights. Também é possível percorrer em toda extensão da operação, contribuindo no auxílio e reforço nas decisões estratégicas em diversos níveis do negócio.

Dessa forma, entende-se que a mudança é a única constante do mercado no comportamento do público e de todas as necessidades da jornada do consumidor, visto que esses insights, através dos dados, também não são retroativos. Logo, é necessário ter maturidade para compreender que olhar para o ontem não é uma garantia imediata de resultado, porém é a única forma eficiente de se tentar entender o amanhã.

Principais Características de um Data Lake

Para uma arquitetura de um Data Lake destacam-se as seguintes características:

    • Ingestão e armazenamento de diversas fontes de dados;
    • Construção de catálogo dos dados para facilitar a consulta da informação;
    • Provisionamento de camadas de segurança, monitoramento e otimização de desempenho;
    • Tratamento dos dados;
    • Transformação dos dados em formatos otimizados para consulta;
    • Consulta dos dados;
    • Exploração dos dados para as áreas de Data Analytics, Data Science e BI;
    • Construção de plataformas de visualização de dados;
    • Integração com ferramentas PaaS e on-premises para processamento dos dados;
    • Execução de algoritmos sobre os dados sem restrições de padrão ou de tecnologia;
    • Criação de plataforma completa de produção para aplicações que exigem processamento em pipelines de dados;

Data Lake vs Data Warehouse

Nos dias de hoje, o Data Lake e o Data Warehouse são as duas opções práticas e eficientes em armazenamento de dados. Elas são soluções viáveis para implementar projetos de Big Data, contudo, devem ser avaliadas caso a caso. Ambas opções apresentam diferenças técnicas e conceituais em questões de arquitetura e finalidade.

Ao contrário do Data Lake, o Data Warehouse é obrigatório na construção de soluções de Big Data em grande escala, isto é, é impossível construir virtualmente um projeto completo de Big Data sem implementação de um Data Warehouse.

Para melhor explicar essas diferenças entre as duas tecnologias, pode-se utilizar quatro critérios:

    • Formato de dados
    • Armazenamento
    • Custos
    • Usuários

O Data Lake

O Data Lake, diferentemente do Data Warehouse (que armazena apenas dados estruturados), permite o armazenamento de todos os tipos de dados (estruturados, não estruturados e híbridos) em um único lugar. Entende-se pelo nome como “Lake”, que já possui uma ideia que é um armazenamento de dados extenso e escalável. Possibilita análises adicionais e com menos restrição do que um Data Warehouse, como pesquisas em textos, análises reais time, Machine Learning, dentre outros.

Benefícios em Otimizar Dados com Data Lake e Data Warehouse

Um dos benefícios do Data Lake é o seu custo ser mais barato e com a finalidade de guardar grandes quantidades de dados brutos ou analíticos sem o risco de perdas, onde futuramente podem ser utilizadas tanto pelos Data Warehouse quanto para consultas analíticas diretas.

O Data Warehouse

Em contra partida, no caso do Data Warehouse, os dados são otimizados para consultas específicas. Contudo, se perdem no pós-agregação por ter como bases apenas dados estruturados.

O armazenamento de dados em um Data Warehouse é complexo e caro em comparação com o Data Lake, por não ser simplesmente carregar dados aleatórios. É necessário uma preparação, transformação e estruturação de grandes volumes de dados, se tornando um processo muito custoso e lento para empresas.

Em conclusão, o Data Lake é uma estrutura mais flexível e menos rígida, onde não demanda tantos esforços para transformação e estruturação de dados, resultando em um processo mais barato e ágil.

Integrando um Data Lake Dentro de um Data Warehouse

O processo de integração de um Data Lake dentro de um Data Warehouse é uma alternativa muito usada para extrair o melhor das duas soluções. É um processo simples e, na maioria dos casos, sem a necessidade de uma estruturação dos dados antes do carregamento no Data Warehouse.

Analistas de negócios e stakeholders utilizam soluções Data Warehouse para extrair insights dos dados e integrá-los na tomada de decisões. No Data Lake, engenheiros e cientistas de dados tem como objetivo armazenar grandes volumes de dados temporariamente ou conduzir data experiments.

Investir em Data Lake ou Data Warehouse?

Essa pergunta não possui uma única resposta, pois, ambas as soluções são diferentes, com prós e contras, dificultando na escolha de qual é a melhor tecnologia. Depende dos elementos de cada organização, levando em consideração o porte, limitações e objetivos com projetos de Big Data.

Na maioria dos casos não é preciso escolher uma única tecnologia. São duas ferramentas complementares trabalhando em sincronia, apesar das diferenças. Por este motivo, na maioria dos casos recomenda-se a integração das duas soluções, quando empresas precisam realizar projetos de Big Data e também armazenar dados brutos para realizar consultas analíticas rápidas.

Nesses casos, os dados iniciais são armazenados em seu formato bruto no Data Lake, para depois passarem por processos de ETL\ELT para carregar e transformar essas informações no Data Warehouse para análises futuras.

Como falamos, ambas soluções trabalham de maneira integrada e harmônica, alavancando o potencial do Big Data, o que torna as tomadas de decisões mais fácil, viabilizando para as organizações a obtenção de vantagens em relação aos benefícios (melhor custo), otimizando, assim, os processos e a economia do tempo.

Case da BIP Para Otimizar Dados em Data Lake

Utilizando um de nossos cases de sucesso, o projeto com dados transacionais ilustra perfeitamente como é uma abordagem utilizando Data Lake. A BIP tinha como principal desafio a centralização da análise dos dados transacionais de vendas das lojas de uma rede de restaurantes presente em todo o Brasil, padronizando as regras de indicadores de vendas para todos os departamentos da empresa e trazendo insights e alertas para tomada de decisões, permitindo que as informações fiquem disponíveis fulltime (24×7).

Durante o projeto, nosso time identificou alguns obstáculos. O maior deles – a despadronização dos sistemas para geração das análises de venda, isto é, cada departamento utilizava um sistema diferente para geração de análises. Por consequência, as informações eram disponibilizadas em momentos distintos, com dados de vendas com diferenças de mais de 3% entre os sistemas, gerando uma alta complexidade para reutilizar análises.

Depois do mapeamento, a abordagem BIP adotou a criação do ETL para extração de dados de todas as lojas com diferentes fontes, armazenadas em um único “Lake” de análise, correlacionando os dados e criando um modelo estatístico. Padronizando, automatizando painéis de desempenho de alertas e gatilhos de ação com dashboards de acesso online e para vários dispositivos.

Resultados Obtidos Para Otimizar Dados com Data Lake

A BIP conseguiu superar todos os desafios e realizou o desejo do cliente de ter um único ponto para visualizar a análise de venda sem nenhuma diferença nos valores entre os departamentos. Nesse sentido, tornou o processo mais dinâmico, automático e seguro.

O resultado foi uma estruturação de um Data Lake em cloud na AWS, junto com um modelo estatístico (correlacionando dados de diversas fontes) e dashboards automatizados com indicadores e alertas. Isso permitiu análises online 24×7, em que os usuários criam suas próprias avaliações e as compartilham, com um baixo custo de implementação e confiança nos dados divulgados.

Dessa forma, após uma análise profunda desses resultados, conseguimos calcular benefícios em todas as transações analisadas diariamente de forma automatizada com 100% de rastreabilidade dos dados e confiança nas informações, insights e alertas para a tomada de decisões e ações com mobilidade para análise de dados de vendas diariamente.

Serviços BIP xTech Para Otimizar Dados com Data Lake

A xTech é um centro de excelência do Grupo BIP, com longa trajetória na definição de estratégias, análise de serviços, desenho e governança de soluções de tecnologia.

A BIP xTech guia seus clientes a atingirem essa alta performance e mantê-la, o que traz os benefícios do que há de melhores práticas e otimizações de custo e disponibiliza sistemicamente informações valiosas para excelência operacional com conformidade, segurança, disponibilidade, flexibilidade de crescimento e possibilidades de melhoria contínua.

Estamos, como sempre, ao lado dos nossos clientes para os ajudar a aproveitar as oportunidades oferecidas com a migração para sistemas em nuvem, também em virtude das nossas fortes competências em Estratégia, Arquitetura e Governança de Dados, que cada vez mais se irão se convergir para revolucionar a eficiência de dados das empresas.

Siga-nos no LinkedIn e fique por dentro das últimas atualizações da BIP Brasil

Leia Também

Ativos Virtuais

Ativos virtuais são a representação digital de valor que pode ser negociada ou transferida por meios eletrônicos e utilizada para realização de pagamentos ou com propósito de investimento

Leia +

Ativos Virtuais

Ativos virtuais são a representação digital de valor que pode ser negociada ou transferida por meios eletrônicos e utilizada para realização de pagamentos ou com propósito de investimento

Leia +

Ativos Virtuais

Ativos virtuais são a representação digital de valor que pode ser negociada ou transferida por meios eletrônicos e utilizada para realização de pagamentos ou com propósito de investimento

Leia +