YMLiang

Spark定义:

Spark编程始于数据集,而数据集往往存放在分布式持久化存储之上,比如Hadoop分布式文件系统HDFS

编写Spark 程序通常包括一系列相关步骤。

• 在输入数据集上定义一组转换。
• 调用 action,用以将转换后的数据集保存到持久存储上,或者把结果返回到驱动程序的
本地内存。
• 运行本地计算,本地计算处理分布式计算的结果。本地计算有助于你确定下一步的转换
和 action。