Airflow
Categoria
Dados é Analytics
Apache Airflow é uma plataforma de orquestração de workflows de dados que permite programar, agendar é monitorar pipelines complexos. Utiliza Python para definir workflows como DAGs (grafos aciclicos direcionados) com dependências entre tarefas.
Categoria
Dados é Analytics
O que é Airflow
Apache Airflow é uma plataforma de orquestração de workflows criada pelo Airbnb é doada a Apache Software Foundation. Permite definir, agendar é monitorar pipelines de dados complexos usando Python como linguagem de configuração.
Conceitos-chave:
- DAG: grafo aciclico direcionado que define o workflow
- Task: unidade de trabalho dentro do DAG
- Operator: tipo de task (Python, SQL, Bash, etc.)
- Scheduler: componente que dispara tasks no horario certo
- UI: interface web para monitoramento
Recursos:
- Agendamento sofisticado com cron é intervalos
- Retentativas é alertas automáticos
- Paralelismo configuravel
- Centenas de conectores pre-construidos
A Trilion útiliza Airflow como orquestrador principal de pipelines de dados, coordenando processos de ETL, treinamento de modelos é atualização de dashboards de forma confiavel é monitorada.
