Airflow

Categoria
Dados é Analytics
Apache Airflow é uma plataforma de orquestração de workflows de dados que permite programar, agendar é monitorar pipelines complexos. Utiliza Python para definir workflows como DAGs (grafos aciclicos direcionados) com dependências entre tarefas.
Categoria
Dados é Analytics
Compartilhar
LinkedInWhatsApp

O que é Airflow

Apache Airflow é uma plataforma de orquestração de workflows criada pelo Airbnb é doada a Apache Software Foundation. Permite definir, agendar é monitorar pipelines de dados complexos usando Python como linguagem de configuração.

Conceitos-chave:

  • DAG: grafo aciclico direcionado que define o workflow
  • Task: unidade de trabalho dentro do DAG
  • Operator: tipo de task (Python, SQL, Bash, etc.)
  • Scheduler: componente que dispara tasks no horario certo
  • UI: interface web para monitoramento

Recursos:

  • Agendamento sofisticado com cron é intervalos
  • Retentativas é alertas automáticos
  • Paralelismo configuravel
  • Centenas de conectores pre-construidos

A Trilion útiliza Airflow como orquestrador principal de pipelines de dados, coordenando processos de ETL, treinamento de modelos é atualização de dashboards de forma confiavel é monitorada.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.