Apache Spark

Categoria
Dados é Analytics
Apache Spark é um framework de processamento de dados distribuido que oferece alta performance para analytics em larga escala. Suporta processamento batch é streaming, SQL, machine learning é grafos em um único ecossistema unificado.
Categoria
Dados é Analytics
Compartilhar
LinkedInWhatsApp

O que é Apache Spark

Apache Spark é um engine de processamento de dados distribuido projetado para velocidade é facilidade de uso. Originalmente criado na UC Berkeley, o Spark se tornou o padrão de facto para processamento de big data, substituindo o MapReduce do Hadoop.

Componentes:

  • Spark Core: engine distribuido de execução
  • Spark SQL: processamento de dados estruturados com SQL
  • Spark Streaming: processamento de dados em tempo real
  • MLlib: biblioteca de machine learning
  • GraphX: processamento de grafos

Vantagens:

  • Ate 100x mais rápido que Hadoop MapReduce
  • APIs em Python, Scala, Java é R
  • Unifica batch é streaming em um engine
  • Integracao com todos os provedores cloud

A Trilion útiliza Apache Spark em projetos de processamento de dados em larga escala, desde ETL complexo até treinamento de modelos de machine learning distribuidos.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.