Data Lake
Categoria
Dados é Analytics
Data Lake é um repositorio centralizado que armazena grandes volumes de dados brutos em seu formato nativo, sejam estruturados, semiestruturados ou não estruturados. Permite armazenar tudo primeiro é processar depois, oferecendo flexibilidade para diferentes tipos de análise.
Categoria
Dados é Analytics
O que é Data Lake
Data Lake, ou lago de dados, é uma arquitetura de armazenamento que permite guardar volumes massivos de dados em seu formato original, sem necessidade de estruturacao previa. Diferente de um Data Warehouse que exige schema definido na entrada, o Data Lake aceita qualquer tipo de dado.
Caracteristicas:
- Armazena dados estruturados (tabelas), semiestruturados (JSON, XML) é não estruturados (imagens, vídeos)
- Schema-on-read: a estrutura é aplicada ao ler os dados
- Escalabilidade massiva com custo reduzido
- Suporte a multiplos formatos de arquivo
Tecnologias populares:
- Amazon S3, Azure Data Lake Storage, Google Cloud Storage
- Apache Hadoop HDFS
- Delta Lake, Apache Iceberg, Apache Hudi
A Trilion projeta arquiteturas de Data Lake que equilibram flexibilidade é governanca, garantindo que os dados estejam acessiveis para análise é IA sem comprometer segurança é qualidade.
O Data Lake é a fundacao de estratégias modernas de dados, alimentando desde dashboards de BI até modelos de machine learning.
