Apache Spark

Categoria

Dados é Analytics

Apache Spark é um framework de processamento de dados distribuido que oferece alta performance para analytics em larga escala. Suporta processamento batch é streaming, SQL, machine learning é grafos em um único ecossistema unificado.

Categoria

Dados é Analytics

O que é Apache Spark

Apache Spark é um engine de processamento de dados distribuido projetado para velocidade é facilidade de uso. Originalmente criado na UC Berkeley, o Spark se tornou o padrão de facto para processamento de big data, substituindo o MapReduce do Hadoop.

Componentes:

Spark Core: engine distribuido de execução
Spark SQL: processamento de dados estruturados com SQL
Spark Streaming: processamento de dados em tempo real
MLlib: biblioteca de machine learning
GraphX: processamento de grafos

Vantagens:

Ate 100x mais rápido que Hadoop MapReduce
APIs em Python, Scala, Java é R
Unifica batch é streaming em um engine
Integracao com todos os provedores cloud

A Trilion útiliza Apache Spark em projetos de processamento de dados em larga escala, desde ETL complexo até treinamento de modelos de machine learning distribuidos.

Apache Spark

O que é Apache Spark

Termos relacionados

Glossário...