Apache Spark
Categoria
Dados e Analytics
Apache Spark e um framework de processamento de dados distribuido que oferece alta performance para analytics em larga escala. Suporta processamento batch e streaming, SQL, machine learning e grafos em um unico ecossistema unificado.
Categoria
Dados e Analytics
O que e Apache Spark
Apache Spark e um engine de processamento de dados distribuido projetado para velocidade e facilidade de uso. Originalmente criado na UC Berkeley, o Spark se tornou o padrao de facto para processamento de big data, substituindo o MapReduce do Hadoop.
Componentes:
- Spark Core: engine distribuido de execucao
- Spark SQL: processamento de dados estruturados com SQL
- Spark Streaming: processamento de dados em tempo real
- MLlib: biblioteca de machine learning
- GraphX: processamento de grafos
Vantagens:
- Ate 100x mais rapido que Hadoop MapReduce
- APIs em Python, Scala, Java e R
- Unifica batch e streaming em um engine
- Integracao com todos os provedores cloud
A Trilion utiliza Apache Spark em projetos de processamento de dados em larga escala, desde ETL complexo ate treinamento de modelos de machine learning distribuidos.
