概述
本书是Spark实战指南,全书共分8章。前4章介绍Spark的部署、工作机制和内核,后4章分别通过实战项目介绍Spark SQL、Spark Streaming, Spark GraphX和Spark MLlib功能模块。此外,本书详细介绍了常见的实战问题,比如大数据环境下的配置设置、程序调优等。
本书共分为8章:
第1章概述大数据的发展状况,以及Spark的起源、特点、优势、未来等
第2章介绍Spark部署和编程。作者首先带领读者在本地单机下体验Spark的基本操作,然后部署-一个包括ZooKeeper. Hadoop. Spark的可实际应用的高可用集群。
第3章介绍Spark底层的工作机制,包括调度管理、内存管理、容错机制、监控管理以及Spark程序配置管理,这对理解Spark程序的运行非常有帮助。
第4章深人Spark内核,并结合源码,介绍了核心结构RDD、RDD对象的Transformation和Action操作是如何实现的、SparkContext对象及初始化过程、DAG调度的工作流程。
第5章介绍Spark SQL,可以代替Hive, 用于搭建一个企业级的数据仓库。案例基于淘宝的电商数据建立电商数据仓库,并以日常运营工作为例,通过电商数据库分析电商运营中的各种问题。
第6章介绍Spark实时流式计算,类似于Storm,但吞吐量方面更有优势。案例是基于一个站点的Web日志建立一个类似百度统计的实时统计系统,是各种实时系统典型的参考例子。
第7章介绍Spark的图计算。案例基于新浪微博2000万的关系链数据,讲解了如果利用图计算来实现社交关系链的挖掘,比如闺蜜的发现、 粉丝团伙的发现等。
第8章介绍Spark 的机器学习库。案例基于某个搜索引擎的点击日志,建立了一个搜索广告点击率预估系统。广告点击率预估是各家互联网系统的核心系统,公开的实战项目不多。
由于文档内容过多,所以只截取了目录部分,每个知识点都有更细化的内容
需要获取这份文档的朋友:转发文章并关注我,后台私信【资料】即可免费获取