Apache Spark

Categoria
Dados e Analytics
Apache Spark e um framework de processamento de dados distribuido que oferece alta performance para analytics em larga escala. Suporta processamento batch e streaming, SQL, machine learning e grafos em um unico ecossistema unificado.
Categoria
Dados e Analytics
Compartilhar
LinkedInWhatsApp

O que e Apache Spark

Apache Spark e um engine de processamento de dados distribuido projetado para velocidade e facilidade de uso. Originalmente criado na UC Berkeley, o Spark se tornou o padrao de facto para processamento de big data, substituindo o MapReduce do Hadoop.

Componentes:

  • Spark Core: engine distribuido de execucao
  • Spark SQL: processamento de dados estruturados com SQL
  • Spark Streaming: processamento de dados em tempo real
  • MLlib: biblioteca de machine learning
  • GraphX: processamento de grafos

Vantagens:

  • Ate 100x mais rapido que Hadoop MapReduce
  • APIs em Python, Scala, Java e R
  • Unifica batch e streaming em um engine
  • Integracao com todos os provedores cloud

A Trilion utiliza Apache Spark em projetos de processamento de dados em larga escala, desde ETL complexo ate treinamento de modelos de machine learning distribuidos.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.