Apache Spark
Categoria
Dados é Analytics
Apache Spark é um framework de processamento de dados distribuido que oferece alta performance para analytics em larga escala. Suporta processamento batch é streaming, SQL, machine learning é grafos em um único ecossistema unificado.
Categoria
Dados é Analytics
O que é Apache Spark
Apache Spark é um engine de processamento de dados distribuido projetado para velocidade é facilidade de uso. Originalmente criado na UC Berkeley, o Spark se tornou o padrão de facto para processamento de big data, substituindo o MapReduce do Hadoop.
Componentes:
- Spark Core: engine distribuido de execução
- Spark SQL: processamento de dados estruturados com SQL
- Spark Streaming: processamento de dados em tempo real
- MLlib: biblioteca de machine learning
- GraphX: processamento de grafos
Vantagens:
- Ate 100x mais rápido que Hadoop MapReduce
- APIs em Python, Scala, Java é R
- Unifica batch é streaming em um engine
- Integracao com todos os provedores cloud
A Trilion útiliza Apache Spark em projetos de processamento de dados em larga escala, desde ETL complexo até treinamento de modelos de machine learning distribuidos.
