Spark数据分析概念入门


前锋JAVA开发学院2019.9.6我要分享

在大数据时代,各种数据术语层出不穷,例如数据仓库,数据湖和更流行的Hadoop,Spark令人眼花。乱。在这里,我们主要介绍Spark,从宏观的角度介绍什么是Spark。

我们将解决以下简单问题:

什么是Spark?

Spark的组成

Spark用户和使用

下面我们分别描述。

什么是Spark?

首先,让我们从第一个简单的问题开始,什么是Spark?

什么是Spark,Spark是用于实现快速,通用的群集计算的平台。

在速度方面,Spark扩展了广泛使用的MapReduce计算模型,以有效地支持更多的计算模型,包括交互式查询和流处理,并且可以在内存中执行计算。

通常,Spark适用于以前需要在各种不同的分布式平台上部署的各种方案,包括批处理,交互式查询和流处理。并通过统一的框架支持这些不同的计算,从而大大减轻了分别管理各种平台的需求负担。

此外,Spark提供了丰富的界面(支持Python,Java,Scala)和库,并且可以与其他大数据工具(例如在Hadoop集群上运行)结合使用。

Spark的组成

Spark项目由几个紧密集成的组件组成,其核心是一个计算引擎,可以调度,分发和监视许多计算任务,多个工作机或计算群集上的应用程序。

它的各个组成部分主要包括:

Spark Core,Spark的基本功能,包括任务计划,内存管理,错误恢复和存储系统交互以及RDD(弹性分布式数据集)的API定义等任务

Spark SQL,用于数据查询的Spark操作结构化软件包

Spark Streaming,一个为实时数据提供流计算的组件

MLib,一个提供常见机器学习功能的库

GraphX,用于并行图计算的库

具有Hadoop YARN和Apache Mesos支持的集群管理器

Spark用户和使用

Spark主要用于两个目标组:

数据科学家

工程师

可以在以下两个方面使用:

数据科学,更主要是在数据分析领域,例如统计,机器学习建模,数据转换

数据处理,快速执行常见任务和应用程序监视,通过丰富的界面进行检查和性能调整

参考书:

《Learning Spark:Lightning-fast Data Analysis》P1-6

收款报告投诉

在大数据时代,各种数据术语层出不穷,例如数据仓库,数据湖和更流行的Hadoop,Spark令人眼花。乱。在这里,我们主要介绍Spark,从宏观的角度介绍什么是Spark。

我们将解决以下简单问题:

什么是Spark?

Spark的组成

Spark用户和使用

下面我们分别描述。

什么是Spark?

首先,让我们从第一个简单的问题开始,什么是Spark?

什么是Spark,Spark是用于实现快速,通用的群集计算的平台。

在速度方面,Spark扩展了广泛使用的MapReduce计算模型,以有效地支持更多的计算模型,包括交互式查询和流处理,并且可以在内存中执行计算。

通常,Spark适用于以前需要在各种不同的分布式平台上部署的各种方案,包括批处理,交互式查询和流处理。并通过统一的框架支持这些不同的计算,从而大大减轻了分别管理各种平台的需求负担。

此外,Spark提供了丰富的界面(支持Python,Java,Scala)和库,并且可以与其他大数据工具(例如在Hadoop集群上运行)结合使用。

Spark的组成

Spark项目由几个紧密集成的组件组成,其核心是一个计算引擎,可以调度,分发和监视许多计算任务,多个工作机或计算群集上的应用程序。

它的组件主要包括:

Spark Core,Spark的基本功能,包括任务调度,内存管理,错误恢复和存储系统交互模块,以及RDD(弹性分布式数据集)的API定义

Spark SQL,Spark运行用于查询数据的结构化包

Spark Streaming,提供用于实时流数据的组件

MLib,一个提供常见机器学习功能的库

GraphX,用于并行图形计算的程序库

集群管理器,为Hadoop YARN,Apache Mesos提供支持

Spark的用户和使用

Spark主要针对两个目标群体:

数据科学家

工程师

它可以用于以下两个方面:

数据科学,更主要是在数据分析领域,例如统计,机器学习建模,数据转换

数据处理,通过丰富的界面快速实现常见任务和应用程序的监视,审查和性能调整

参考书:

《Learning Spark:Lightning-fast Data Analysis》P1-6

——