spark知识梳理 YMLiang 2019-05-23 spark 置顶 Spark定义:Spark编程始于数据集,而数据集往往存放在分布式持久化存储之上,比如Hadoop分布式文件系统HDFS 编写Spark 程序通常包括一系列相关步骤。 • 在输入数据集上定义一组转换。 • 调用 action,用以将转换后的数据集保存到持久存储上,或者把结果返回到驱动程序的 本地内存。 • 运行本地计算,本地计算处理分布式计算的结果。本地计算有助于你确定下一步的转换 和 action。 阅读全文 spark