Spark编程基本(Python版)教材官网

Spark编程基本(Python版)教材官网

厦门大年夜学 林子雨,郑海山,赖永炫  编著

林子雨(ziyulin@xmu.edu.cn)

披荆棘,在大年夜数据丛林中开辟进修捷径

填沟削坎,为快速进修Spark技巧铺平门路

深刻浅出,有效降低Spark技巧进修门槛

资本周全,构建全方位一站式在线办事体系

本教材曾经上市发卖,可以京东、铛铛网购

ISBN:978-7-115-52439-3  人平易近邮电出版社


 本页面内容导航

 教程简介 | 实验指南 下载专区 | 教材一切敕令行和代码 | 教材目次先修课程 | 在线教程 | 讲课视频

教材PPT | 每个章节配套上机实验标题综合案例大年夜数据课程公共办事平台  |  教材订正 | 大年夜事记接洽人


扫一扫拜访本网页

《Spark编程基本(Python版)》

ISBN:978-7-115-52439-3  人平易近邮电出版社

教材简介

本书《Spark编程基本(Python版)》属于“进阶层”大年夜数据课程,在进修本教程之前,建议起首进修入门级大年夜数据课程《大年夜数据技巧道理与应用(第2版)》(教材官网)。《Spark编程基本(Python版)》和《大年夜数据技巧道理与应用(第2版)》两本教材之间在内容上完成了“无裂缝连接”,可以赞助读者完成顺利完成入门进修和进阶进修。

本书以Python作为开辟Spark应用法式榜样的编程说话,体系简介了Spark编程的基本知识。全书共8章,内容包含大年夜数据技巧概述、Spark的设计与运转道理、Spark情况搭建和应用办法、RDD编程、Spark SQL、Spark Streaming、Structured Streaming、Spark MLlib等。本书每个章节都安排了入门级的编程实际操作,以便读者更好地进修和控制Spark编程办法。本书官网收费供给了全套的在线教授教化资本,包含教材PPT、习题、源代码、软件、数据集、上机实验指南等。

本书可以作为高等院校计算机、软件工程、数据迷信与大年夜数据技巧等专业的进阶层大年夜数据课程教材,用于指导Spark编程实际,也可供相干技巧人员参考。

作者简介

《Spark编程基本(Python版)》由林子雨、郑海山、赖永炫执笔,个中,林子雨担任教材筹划、统稿、校订和在线资本创作,并撰写第1、2、3、4、5、6章的内容,郑海山担任第7章内容的撰写,赖永炫担任撰写第8章的内容。

林子雨(1978-),男,博士,厦门大年夜学计算机迷信系助理传授,厦门大年夜学云计算与大年夜数据研究中间开创成员,厦门大年夜学数据库实验室担任人,中国计算机学会数据库专委会委员,中国计算机学会信息体系专委会委员。于2001年取得福州大年夜学水利水电专业学士学位,2005年取得厦门大年夜学计算机专业硕士学位,2009年取得北京大年夜学计算机专业博士学位。中国高校首个“数字教员”提出者和扶植者,2009年至今,“数字教员”大年夜平台累计向搜集收费发布逾越500万字低价值的教授教化和科研材料,累计搜集拜访量逾越500万次。重要研究偏向为数据库、数据仓库、数据发掘、大年夜数据和云计算,发表期刊和会议学术论文多篇,并作为课题组担任人承当了国度天然迷信基金和福建省天然迷信基金项目。2013年开端在厦门大年夜学开设大年夜数据课程,并因在教授教化范畴的凹陷供献和先生的承认,成为2013年度和2017年度厦门大年夜学教授教化类奖教金取得者。点击这里拜访林子雨小我主页

郑海山(1979-),男,硕士,厦门大年夜学信息与搜集中间高等工程师,小我主页 https://dog.xmu.edu.cn,微信公众号“郑海山dump”。2001年本科卒业于厦门大年夜学信息迷信与技巧学院计算机系,2011年卒业于厦门大年夜学信息迷信与技巧学院计算机系,获在职硕士学位。研究偏向是信息化、数据中间、搜集空间安然等。近年来掌管过省部级课题2项,参与国度及省部级课题多项,发表科研论文10余篇,具有多项软件著作权,取得过厦门大年夜学奖教金和多项校级奖。

赖永炫(1981-),男,博士,厦门大年夜学软件学院副传授,厦门大年夜学移动与数据分析(MOCOM)实验室担任人(主页),福建省人工智能学会理事。2004年卒业于中国人平易近大年夜学信息管理系,2009年卒业于中国人平易近大年夜学计算机系,获工学博士学位。研究偏向是搜集数据管理,车载搜集,大年夜数据分析和管理等。近年来掌管过国度科技支撑筹划课题1项,国度天然迷信基金2项,参与国度及省部级课题10余项。发表高程度科研论文20余篇,并担负多个国际期刊和会议的审稿人。取得过厦门大年夜学厦航奖教金,厦门大年夜学第八届青年教员教授教化技能比赛一等奖,厦门大年夜学高等教导教授教化成果二等奖。

讲课视频

热烈祝贺实验室最新录制的MOOC视频《Spark编程基本(Python版)》在网易云教室上线(不雅看地址)。该课程由国际高校有名大年夜数据教员厦门大年夜学林子雨师长教员主讲,由厦门大年夜学数据库实验室团队供给配套课程办事。该课程属于“进阶层”大年夜数据课程,须要读者曾经进修过大年夜数据导论课程,懂得Hadoop、MapReduce、HDFS、HBase等大年夜数据基本知识。假设没有进修过大年夜数据导论课程,建议读者先在网易云教室进修林子雨师长教员主讲的大年夜数据入门课程《大年夜数据技巧道理与应用》。该课程以Python作为开辟Spark应用法式榜样的编程说话,体系简介了Spark编程的基本知识。课程共8章。
第1章 大年夜数据技巧概述
第2章 Spark的设计与运转道理
第3章 Spark情况搭建和应用办法
第4章 RDD编程
第5章 Spark SQL
第6章 Spark Streaming
第7章 Structured Streaming
第8章 Spark MLlib

Scala版教程

(1)在线教程

为了确保教程质量,在编著出版纸质教材之前,厦门大年夜学数据库实验室曾经于2016年10月经过过程实验室官网收费发布共享了简化版的《Spark在线教程》(拜访)和相干教授教化资本,同时,该在线教程也曾经用于厦门大年夜学计算机迷信系研究生的大年夜数据课程教授教化,并成为全国高校大年夜数据课程教员培训交换班的讲课内容。实验室根据读者对在线Spark教程的大年夜量反应看法和教授教化实际中发明的成绩,对Spark在线教程停止了屡次修改和完美,一切这些前期预备任务,都为纸质教材的编著出版打下了坚实的基本。

子雨大年夜数据之Spark入门

点击这里拜访在线版本的Spark入门教程

问:在线版本的《Spark入门教程》和出版发行的纸质教材《Spark编程基本(Scala版)》二者的差别是甚么?

答:在线版本的《Spark入门教程》属于简化版的Spark教材,旨在赞助读者快速进修Spark技巧,外面内容的写作方法会加倍白话化,偏向于博客的风格。出版发行的纸质教材《Spark编程基本(Scala版)》,则是完全从高校专业课教材的角度停止创作,在知识架构和内容编排上,严格按照教材的高标准和高请求来停止,强调前后文高度的逻辑相干性,全书内容的全体调和性,和文字表述的精准清楚性。是以,纸质教材比在线版本的质量,有了本质的大年夜幅度晋升。可以说,在线版本只是在写作纸质教材之前的预备任务,为纸质教材供给了底本。本书作者林子雨、赖永炫和陶继平三位师长教员,在完成在线版本创作今后,又停止了体系深刻的调研和进修并反复实际,终究,撰写了纸质教材用于高校教授教化。

须要留意的是,在线版本中也包含了一些纸质教材中没有的内容,由于这些操作实际的内容比较琐碎,是以,没有放入纸质教材,所以,读者浏览在线版本依然会有新的收获。整体而言,在线版本和纸质教材二者合营应用,后果更好。

(2)讲课视频(Scala版)

厦门大年夜学林子雨师长教员主讲《Spark编程基本(Scala版)》课程视频(不雅看),根据2017年春季学期林子雨师长教员给厦门大年夜学计算机系2017级硕士研究生主讲《大年夜数据处理技巧Spark》课程的现场音频,停止前期制造分解视频。

实验指南

章节 实验操作称号 拜访网页
第1章 大年夜数据技巧概述 在Windows中应用VirtualBox装置Ubuntu 检查
第1章 大年夜数据技巧概述 Linux体系的经常使用敕令 检查
第1章 大年夜数据技巧概述 在Windows体系中应用FTP软件向Ubuntu体系上传文件 检查
第3章 Spark情况搭建和应用办法 Linux体系的装置 检查
第3章 Spark情况搭建和应用办法 Linux体系中Java的装置 检查
第3章 Spark情况搭建和应用办法 Linux体系中下载装置文件和解紧缩办法 检查
第3章 Spark情况搭建和应用办法 Linux体系中vim编辑器的装置和应用办法 检查
第3章 Spark情况搭建和应用办法 Hadoop的装置和应用 检查
第3章 Spark情况搭建和应用办法 应用开辟对象Pycharm 编写Spark应用法式榜样 检查
第3章 Spark情况搭建和应用办法 应用开辟对象Visual Studio Code 编写Spark应用法式榜样 检查
 第4章 Spark情况搭建和应用办法  Hadoop集群装置设备办法 检查
第4章 Spark情况搭建和应用办法 HDFS操作经常使用Shell敕令 检查
第5章 RDD编程 HBase的装置 检查
第6章 Spark SQL 在Ubuntu中装置MySQL 检查

下载专区

“下载专区”一切资本全部放在百度云盘中,须要在电脑上装置百度云盘客户端,才能顺利下载内容,请点击这里拜访百度云盘。(提取码是imxm)

“下载专区”栏目供给了本教程内各个章节所触及到的源代码、软件、数据集和教材PPT的下载,为了便利读者查找相干软件和代码,

每个章节配套实验标题和答案

纸质教材《Spark编程基本(Python版)》的每个章节(除第3章 Spark的设计与运转道理)末尾都配套了先生上机实验标题,每套实验标题可以满足1次上机实验室(比如持续4节课机房同一上机实验课)的请求,旨在赞助先生更好消化懂得教室内容。下面是7个实验一览表。

请点击这里拜访百度云盘。(提取码是imxm),进入百度云盘今后,外面有个“实验答案”目次,出来便可以下载答案。

章节 实验
第1章 大年夜数据技巧概述 实验1-Linux体系的装置和经常使用敕令
第2章 Spark的设计与运转道理 无实验
第3章 Spark情况搭建和应用办法 实验2-Spark和Hadoop的装置
第4章 RDD编程 实验3-RDD编程低级实际
第5章 Spark SQL 实验4-Spark SQL编程低级实际
第6章 Spark Streaming 实验5-Spark Streaming编程低级实际
第7章 Structured Streaming 实验6-Structured Streaming编程实际
第8章 Spark MLlib 实验7-Spark机械进修库MLlib编程实际

综合案例

(1)案例1:淘宝双11数据分析与猜想(拜访案例主页

本案例触及数据预处理、存储、查询和可视化分析等数据处理全流程所触及的各类典范操作,涵盖Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、ECharts、Spark等体系和软件的装置和应用办法。案例合适高校(高职)大年夜数据教授教化,可以作为先生进修大年夜数据课程后的综合实际案例。经过过程本案例,将有助于先生综合应用大年夜数据课程知识和各类对象软件,完成数据全流程操作。各个高校可以根据本身教授教化实际需求,对本案例停止弥补完美。

(2)案例2:厦门租房信息分析展示(拜访案例主页

本案例将完成一个系列法式榜样,从厦门小鱼网爬取租房租金信息,然后应用spark的python版本停止简单分析,并应用echarts的python版本展示分析成果,另外还会简单简介pycharm的工程建立,所以本篇将分为四个部分。

(3)案例3:基于 TMDB 数据集的片子数据分析(拜访案例主页

本案例采取TMDB数据集,并应用Python说话编写Spark应用法式榜样对片子数据停止各类分析。

先修课程(建议进修,不是必须)

Spark作为大年夜数据进阶课程,在进修过程当中会触及大年夜量相干的大年夜数据基本知识和各类大年夜数据软件的装置和应用办法,包含Hadoop、HDFS、MapReduce、HBase、Hive等,只要具有这些入门级的大年夜数据基本知识,才能够比较顺利地完成Spark课程的进修。是以,假设读者之前没有进修过这些基本知识,建议先进修《大年夜数据技巧道理与应用》教材(官网),其实不雅看与该教材配套的讲课视频《大年夜数据技巧道理与应用》(不雅看)。《Spark编程基本》和《大年夜数据技巧道理与应用》两本教材之间在内容上完成了“无裂缝连接”,可以赞助读者完成顺利完成入门进修和进阶进修。

固然,不事前进修《大年夜数据技巧道理与应用》,也能够直接进修《Spark编程基本》,由于,《Spark编程基本》教程中,在每个章节中,关于读者能够碰到的“基本知识妨碍”,都有给出某个详细知识点的相干链接(比如,在讲解Spark装置时,须要起首装置Hadoop,然则,读者能够不会装置Hadoop,这时候,读者便可以拜访教程中的“Hadoop的装置和应用”这个知识点链接,便可以顺利完成Hadoop的装置,跨过进修的妨碍),读者只需按照链接停止有针对性的弥补进修便可,不须要进修全部的《大年夜数据技巧道理与应用》知识。

同时,厦门大年夜学数据库实验室为《大年夜数据技巧道理应用》教材编写了配套的实验指导书《大年夜数据基本编程、实验和案例教程》(官网),该实验指导书侧重于简介大年夜数据软件的装置、应用和基本编程办法,并供给了丰富的实验和案例。

课程图片

点击这里不雅看在线视频

大年夜数据课程公共办事平台

Spark作为大年夜数据进阶课程,在进修过程当中会触及大年夜量相干的大年夜数据基本知识和各类大年夜数据软件的装置和应用办法,是以,推荐读者拜访大年夜数据课程公共办事平台(拜访),来取得须要的帮助进修内容。

厦门大年夜学数据库实验室扶植了国际高校首个大年夜数据课程公共办事平台(拜访),为全国高校教员和先生供给大年夜数据教授教化资本一站式“收费”在线办事,包含课程教材、教材PPT、课程习题、实验指南、进修指南、备课指南、讲课视频和技巧材料等,自2013年5月扶植以来,定位明白,停顿顺利,今朝平台每年拜访量逾越100万次,成为全国高校大年夜数据教授教化有名品牌。

教材订正

在教材应用过程当中,如发明任何缺点,迎接接洽教材作者林子雨:ziyulin@xmu.edu.cn。在此向读者表示衷心的感激!

大年夜事记

*2016年10月,林子雨编写的《Spark入门教程(Scala版)》在线教程正式上线。

*2017年12,由厦门大年夜学数据库实验室根据《Spark入门教程(Scala版)》改编的《Spark入门教程(Python版)》正式上线。

*2019年1月,由林子雨、郑海山、赖永炫编著的《Spark编程基本(Python版)》纸质教材书稿完成撰写,提交给人平易近邮电出版社出版。

*2019年11月,人平易近邮电出版社前往教材清样,作者停止最后校订交付给出版社,等待教材最后出版。

接洽人

迎接接洽教材作者林子雨:ziyulin@xmu.edu.cn