《大年夜数据技巧道理与应用(第2版)》教材官网

本教材官网为“高校大年夜数据课程公共办事平台”的11大年夜工程中的“1号子工程”

《大年夜数据技巧道理与应用(第2版)》
ISBN:978-7-115-44330-4   订价:49.80元
人平易近邮电出版社  2017年1月第2版

作者:林子雨(ziyulin@xmu.edu.cn, http://minzyweb.com/post/linziyu)

祝贺《大年夜数据技巧道理与应用》课程视频在中国大年夜学MOOC上线(不雅看视频

祝贺《大年夜数据技巧道理与应用》课程荣获“2018年国度精品在线开放课程”

祝贺进阶层大年夜数据教材《Spark编程基本(Scala版)》正式出版教材官网

工信部”全国云计算及大年夜数据应用技巧人才网job.vhao.net培训测验项目”唯一指定大年夜数据教材

荣获中国工信出版传媒集团2018年优良出版物奖

2019年福建省精品在线开放课程

全国浩大高校大年夜数据课程选用本教材,高校大年夜数据入门课程首选教材

京东、铛铛等各大年夜网店滞销书本,累计销量冲破10万册

荣获“人平易近邮电出版社2017年度好书”

入门级精品教材,丰富的教材配套资本赞助读者完成“零基本”进修大年夜数据

铛铛网购买本书|京东商城购买本书|亚马逊购买本书

林子雨大年夜数据教材主页

扫一扫手机拜访本主页


教材配套资本快速拜访链接

1.开课请求表(下载)、教授教化进度表(下载)和教授教化大年夜纲(下载

2.教材配套教材PPT(下载

3.教材配套讲课视频(不雅看视频

4.教材配套实验指导书《大年夜数据基本编程、实验和案例教程》(教材官网

5.教材配套大年夜数据软件装置应用和基本编程实际指南(拜访

6.大年夜数据实验情况虚拟机镜像文件(下载

7.教材配套上机实验标题和答案、课后习题(选择题)标题和答案(请师长教员发送邮件讨取:ziyulin@xmu.edu.cn)

8.教材配套课后上机演习标题(拜访

9.教材配套教员备课指南(拜访

10.教材配套综合实验案例(拜访

11.教材配套机房上机实验指南(拜访

12.进修本教材以后的进阶进修教材:林子雨编著《Spark编程基本》(教材官网

13.全国高校大年夜数据课程师资培训班(报名主页

14.本教材配套MOOC课程制造过程全记录与经历分享(拜访

15.采取本教材教授教化的厦门大年夜学大年夜数据示范班级(拜访

16.在阿里云中搭建大年夜数据实验情况(拜访

17.高校大年夜数据实训课程系列案例教材(拜访

18.高校大年夜数据实训课程样板工程(拜访

19.第15期全国高校大年夜数据课程教员培训交换班(Hadoop+Spark综合班,线上培训,暑假,2020年7月25日-30日)报名主页


祝贺《大年夜数据技巧道理与应用》课程视频在中国大年夜学MOOC上线不雅看视频

作者简介

林子雨,男,1978年出身,博士,现为厦门大年夜学计算机迷信系副传授,曾任厦门大年夜学信息迷信与技巧学院院长助理、晋江市生长和改革局副局长。现为中国计算机学会数据库专业委员会委员,中国计算机学会信息体系专业委员会委员,厦门市计算机学会理事。中国高校首个“数字教员”提出者和扶植者,厦门大年夜学数据库实验室担任人,厦门大年夜学云计算与大年夜数据研究中间重要扶植者和骨干成员。于2001年取得福州大年夜学水利水电专业学士学位,2005年取得厦门大年夜学计算机专业硕士学位,2009年取得北京大年夜学计算机专业博士学位。重要研究偏向为数据库、数据仓库、数据发掘、大年夜数据、云计算和物联网,并以第一作者身份在《软件学报》《计算机学报》和《计算机研究与生长》等国度重点期刊和国际学术会议上发表多篇学术论文。作为项目担任人掌管的科研项目包含1项国度天然迷信青年基金项目(No.61303004)、1项福建省天然迷信青年基金项目(No.2013J05099)和1项中心高校根本科研营业费项目(No.2011121049)。

高校大年夜数据课程公共办事平台

高校大年夜数据课程公共办事平台,由中国高校首个“数字教员”的提出者和扶植者——林子雨师长教员提议,由厦门大年夜学数据库实验室全力打造,由厦门大年夜学云计算与大年夜数据研究中间、海峡云计算与大年夜数据应用研究中间连袂共建。平台从2013年5月开端扶植,2015年8月1日完成1号工程(教材出版),2015年11月2日,平台正式上线。这是国际第一个办事于高校大年夜数据课程扶植的公共办事平台,旨在促进国际高校大年夜数据课程体系扶植,进步大年夜数据课程教授教化程度,降低大年夜数据课程进修门槛,晋升先生课程进修后果。

平台重点打造“13个1工程”,即1本教材(含官网)、1个教员办事站、1个先生办事站、1个公益项目、1堂巡讲地下课、1个示范班级、1门在线课程、1个交换群(QQ群、微信群)、1个保证团队、1个培训交换基地、1个实验平台、1个课程群和1个微信公众号。

11大年夜工程-中国高校大年夜数据课程公共办事平台2-PNG格局

高校大年夜数据课程公共办事平台,是一个开放的平台,赓续进步晋升的平台,热忱迎接国际高校酷爱大年夜数据教授教化的开辟创新者参加平台,为平台扶植添砖加瓦,合营推动中国高校大年夜数据教授教化事业赓续迈上新的台阶。

教材简介

(本教材曾经过人平易近邮电出版社正式出版发行,曾经在铛铛网京东商城等各大年夜网店上架发卖)

《大年夜数据技巧道理与应用(第2版)》
人平易近邮电出版社   ISBN:978-7-115-44330-4   订价:49.80元

  书  名

大年夜数据技巧道理与应用(第2版)

义务者及著作方法

林子雨 编著 

文种、各类文字对比

简体中文 

第一义务者及著作方法

林子雨 编著

版  次

2

印  次

1

  版  者

人平易近邮电出版社

出版年代

2017年1月第2版

页数或卷册数

283 

印张

轻型纸

开本尺寸

16开 

成品尺寸

 185X260 

字  数

487000

印  数

3000册

正丛书名

大年夜数据创新人才网job.vhao.net培养系列 

ISBN

978-7-115-44330-4 

订价 49.80元

内容简介

1) 概念篇:简介以后慎密接洽关系的最新IT范畴技巧云计算、大年夜数据和物联网。(2) 大年夜数据存储篇:简介分布式数据存储的概念、道理和技巧,包含HDFS、HBase、NoSQL数据库、云数据库。(3) 大年夜数据处理与分析篇:简介MapReduce分布式编程框架、基于内存的分布式计算框架Spark、图计算、流计算。(4) 大年夜数据应用篇:简介基于大年夜数据技巧的推荐体系。  

网店发卖

铛铛网京东商城淘宝网亚马逊

教材应用者

工信部”全国云计算及大年夜数据应用技巧人才网job.vhao.net培训测验项目”唯一指定大年夜数据教材

本书体系简介了大年夜数据相干知识,全书共有15章,体系地阐述了大年夜数据的根本概念、大年夜数据处理架构Hadoop、分布式文件体系HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、基于内存的分布式计算框架Spark、流计算、图计算、数据可视化和大年夜数据在互联网、生物医学和物流等各个范畴的应用。在Hadoop、HDFS、HBase、MapReduce和Spark等重要章节,安排了入门级的实际操作,让读者更好地进修和控制大年夜数据关键技巧。

本书可以作为高等院校计算机专业、信息管理等相干专业的大年夜数据课程教材,也可供相干技巧人员参考、进修、培训之用。

上图是2017年2月第2版教材封面

林子雨-大年夜数据技巧道理与应用教材封面2015年6月1日

上图是2015年8月第1版教材封面

媒介

(第1版 教材媒介)

大年夜数据作为继云计算、物联网以后IT行业又一颠覆性的技巧,备受存眷。大年夜数据无处不在,包含金融、汽车、批发、餐饮、电信、动力、政务、医疗、体育、文娱等在内的社会各行各业,都融入了大年夜数据的印迹,大年夜数据对人类的社会临盆和生活必将产生严重年夜而深远的影响。

大年夜数据时代的到来,急切须要高校及时建立大年夜数据技巧课程体系,为社会培养和保送一大年夜批具有大年夜数据专业素养的高等人才网job.vhao.net,满足社会对大年夜数据人才网job.vhao.net日趋旺盛的需求。本书定位为大年夜数据技巧入门教材,为读者搭建起通向“大年夜数据知识空间”的桥梁和纽带。本书将体系梳理总结大年夜数据相干技巧,简介大年夜数据技巧的基来源基本理和大年夜数据重要应用,赞助读者构成对大年夜数据知识体系及其应用范畴的轮廓性熟悉,为读者在大年夜数据范畴“深耕细作”奠定基本、指明偏向。在本书的基本上,感兴趣的读者可以经过过程其他诸如《Hadoop威望指南》等对象书,持续深刻进修和实际大年夜数据相干技巧。

林子雨大年夜数据教材的入门感化

本书牢牢环绕“构建知识体系、解释基来源基本理、引导低级实际、懂得相干应用”的指导思维,对大年夜数据知识体系停止体系梳理,做到“有序组织、去粗取精、由浅入深、渐次展开”。本书共分四大年夜部分,包含大年夜数据基本篇、大年夜数据存储篇、大年夜数据处理与分析篇和大年夜数据应用篇。在大年夜数据基本篇中,第一章简介大年夜数据的根本概念和应用范畴,并阐述大年夜数据、云计算和物联网的相互关系;第二章简介大年夜数据处理架构Hadoop,由于Hadoop曾经成为应用最为广泛的大年夜数据技巧,是以,本书的大年夜数据相干技巧重要环绕Hadoop展开,包含Hadoop MapReduce、HDFS和HBase,是以,该章是前面其他章节(第3、四、七章)内容的基本。在大年夜数据存储篇中,用五个章节(第3、四、五、六章)的内容,分别简介了大年夜数据存储相干技巧的概念与道理,包含分布式文件体系HDFS、分布式数据库HBase、NoSQL数据库和云数据库。在大年夜数据处理与分析篇,起首在第七章简介了大年夜数据处理和分析的核心技巧——分布式并行编程模型MapReduce,然后,在第八章和第九章分别简介了大年夜数据时代两种新兴的数据分析技巧——流计算和图计算,最后在第十章简单简介了可视化技巧。在大年夜数据应用篇,用三章(第十一、十2、十三)内容简介了大年夜数据在互联网、生物医学和物流等各个范畴的典范应用。

本书面向高校计算机专业和信息管理等相干专业的先生,可以作为专业?课或选修课教材。在教授教化过程当中,建议安排32个讲课学时,16个教授教化周,每周2学时,每个章节的详细学时分派以下:第一、2、五、六、8、十、十一每个章节安排2个学时;第3、四、九章每个章节安排4个学时;第七章安排6个学时;第十2、十三章这两章内容由先生自学完成。

本书由林子雨执笔。在撰写过程当中,厦门大年夜学计算机迷信系硕士研究生刘颖杰、叶林宝、蔡珉星、李雨倩、谢荣东、罗道文和本科生黄梓铭、李粲同等窗做了大年夜量帮助性任务,在此,向这些同窗的辛苦任务表示衷心的感激。

本书官方网站是http://minzyweb.com/post/bigdata/,供给教授教化PPT和相干材料下载,并接收缺点反应和发布教材订正信息。

本书在撰写过程当中,我参考了大年夜量国表里教材、专著、论文和材料,对大年夜数据知识停止了体系梳理,有选择性地把一些重要知识归入本书。本书也是我多年在数据迷信范畴从事教授教化、科研、家当方面任务的体系总结。然则,自己才疏学浅,不免有很多缺乏的地方,望学术同仁不吝赐教。

厦门大年夜学计算机迷信系数据库实验室

林子雨

2015年3月,于厦门

(第2版 教材媒介)

《大年夜数据技巧道理与应用》第1版于2015年8月出版,固然距今唯一一年阁下的时间,然则,在之前一年里,大年夜数据技巧生长迅猛,诸如Spark等新技巧敏捷崛起,开端改变Hadoop一枝独秀的市场格局。是以,我们及时对第1版内容停止了弥补和修改,以适应大年夜数据技巧的快速生长,保持本书的先辈性和实用性。

本书依然沿用第1版的篇章设计,共分四大年夜部分,包含大年夜数据基本篇、大年夜数据存储与管理篇、大年夜数据处理与分析篇和大年夜数据应用篇。在大年夜数据基本篇中,第1章简介大年夜数据的根本概念和应用范畴,并阐述大年夜数据、云计算和物联网的相互关系;第2章简介大年夜数据处理架构Hadoop,并弥补简介了Hadoop版本演变。在大年夜数据存储与管理篇中,第3章简介了分布式文件体系HDFS,在编程实际部分根据最新版本的API停止了修订;第4章简介了分布式数据库HBase,在编程实际部分根据最新版本的API停止了修订;第5章简介了NoSQL数据库;第6章简介了云数据库。在大年夜数据处理与分析篇,起首在第7章简介了分布式并行编程模型MapReduce,然后,在新增的第8章中对Hadoop停止了再商量,简介了Hadoop的生长演变和一些新特点,并在新增的第9章中简介了以后比较热点的、基于内存的分布式计算框架Spark,接上去,在第10章和第11章分别简介了两种典范的大年夜数据分析技巧——流计算和图计算,最后在第12章简单简介了可视化技巧。在大年夜数据应用篇,用3章(第13章~第15章)内容简介了大年夜数据在互联网、生物医学和物流等范畴的典范应用。

本书第1版于2015年8月出版后,厦门大年夜学数据库实验室扶植了与本书配套的“中国高校大年夜数据课程公共办事平台”(http://minzyweb.com/post/bigdata-teaching-platform/),为教员教授教化和先生进修大年夜数据课程供给教材PPT、进修指南、备课指南、上机习题、实验指南、技巧材料、讲课视频等全方位、一站式收费办事,并供给面向全国高校的大年夜数据实验平台扶植筹划和大年夜数据课程师资培训办事。

本书曾经作为厦门大年夜学计算机迷信系大年夜数据课程教材,根据近几年教授教化实际,建议安排32学时实际课,16个教授教化周,每周2学时。每章的详细学时分派以下:第1、3、4、5、6、8、10、11、12、13章每章安排2学时;第2、7、9章每章安排4学时;第14、15章这两章内容由先生自学完成。关于曾经扶植大年夜数据教授教化实验室的高校,可以增长16学时上机实际课,分红4次上机课,每次持续4节课,“中国高校大年夜数据课程公共办事平台”的“教员办事站”为本书供给了配套的上机实验指南。

本书第1版出版后,笔者收到了大年夜量的读者来信,对本书提出了很多宝贵的改进看法和建议,这里表示衷心的感激。同时,笔者举办了多期全国高校大年夜数据课程教员培训交换班和全国高校大年夜数据教授教化服装论坛t.vhao.net,展开了全国高校大年夜数据地下课巡讲筹划与帮助国际高校开设大年夜数据课程公益项目,建立了大年夜数据课程教员交换群,与全国高校大年夜数据课程教员停止了广泛的接触、沟通和交换,更好地懂得了以后国际高校大年夜数据教授教化生长需求和进步偏向,这也为本书第2版撰写奠定了很好的基本。这里向参与交换的全国高校大年夜数据课程教员表示衷心的感激!

本书由林子雨执笔。在撰写第2版过程当中,厦门大年夜学计算机迷信系硕士研究生蔡珉星、李雨倩、谢荣东、罗道文、邓少军、阮榕城、薛倩、魏亮、曾冠华等做了大年夜量帮助性任务,在此,向这些同窗的辛苦任务表示衷心的感激。

大年夜数据技巧生长一日千里,在往后的任务中,笔者和厦门大年夜学数据库实验室会持续跟踪大年夜数据技巧生长趋势,把大年夜数据最新技巧和本书相干弥补材料及时发布到“中国高校大年夜数据课程公共办事平台”,便利本书读者经过过程搜集及时收费获得相干信息。由于笔者才能无限,本书不免存在缺乏的地方,望广大年夜读者不吝赐教。

林子雨

厦门大年夜学计算机迷信系数据库实验室

2016年9月

篇章简介

第一篇 大年夜数据基本

本篇内容简介大年夜数据(Big Data)的根本概念、影响和应用范畴,并阐述大年夜数据、云计算和物联网的相互关系,同时还将简介大年夜数据处理架构Hadoop。由于Hadoop曾经成为应用最为广泛的大年夜数据技巧,是以,本书的大年夜数据相干技巧重要环绕Hadoop展开,包含Hadoop MapReduce、HDFS和HBase。本篇内容是懂得后续其他篇章内容的基本。

本篇包含2章。第一章简介大年夜数据的概念和应用,分析了大年夜数据、云计算和物联网的相互关系;第二章简介大年夜数据处理架构Hadoop。

第一篇 大年夜数据基本

 第二篇 大年夜数据存储

本篇简介大年夜数据存储相干技巧的概念与道理,包含分布式文件体系HDFS、分布式数据库HBase、NoSQL数据库和云数据库。HDFS供给了在便宜办事器集群中停止大年夜范围分布式文件存储的才能。HBase是一个高靠得住、高性能、面向列、可伸缩的分布式数据库,重要用来存储非构造化和半构造化的松懈数据。NoSQL数据库可以支撑超大年夜范围数据存储,灵活的数据模型可以很好地支撑Web2.0应用,具有强大年夜的横向扩大才能,可以有效弥补传统关系型数据库的缺乏。云数据库是安排和虚拟化在云计算情况中的数据库,可以将用户从繁琐的数据库硬件定制中束缚出来,同时让用户具有强大年夜的数据库扩大才能,满足各类不合类型用户的数据存储需求。须要特别指出的是,固然云数据库在概念上更偏向于云计算的范畴,然则,云计算和大年夜数据是密弗成分的两种技巧,不克不及割裂对待,并且,懂得云数据库有助于拓展对大年夜数据存储和管理方法的熟悉,是以,本篇内容简介了云数据库的概念和相干产品。

本篇包含4章。第三章简介分布式文件体系HDFS;第四章简介分布式数据库HBase;第五章简介NoSQL数据库;第六章简介云数据库。

第二篇 大年夜数据存储

第三篇 大年夜数据处理与分析

本篇简介大年夜数据处理与分析的相干技巧。大年夜数据包含静态数据和静态数据(流数据),静态数据合适采取批处理方法,静态数据须要停止及时计算。分布式并行编程框架MapReduce可以大年夜幅进步法式榜样性能,完成高效的批量数据处理。基于内存的分布式计算框架Spark,是一个可应用于大年夜范围数据处理的快速、通用引擎,如今是Apache软件基金会下的顶级开源项目之一,正以其构造一体化、功能多元化的优势,逐步成为当本大年夜数据范畴最热点的大年夜数据计算平台。流计算框架Storm是一个低延迟、可扩大、高靠得住的处理引擎,可以有效处理流数据的及时计算成绩。大年夜数据中包含很多图构造数据,然则,MapReduce不合实用来处理大年夜范围图计算成绩,是以,新的图计算框架应运而生,Pregel就是个中一种具有代表性的产品。另外,数据可视化是大年夜数据分析的最后环节,也是异常关键的一环,是以,本篇将扼要简介数据可视化的概念和相干对象。

本篇包含6章。第7章简介分布式并行编程框架MapReduce;第8章对Hadoop停止了再商量;第9章简介了基于内存的分布式计算框架Spark;第10章简介开源流计算框架Storm;第11章简介图计算框架Pregel;第12章扼要简介数据可视化的概念和相干对象。

第三篇 大年夜数据处理与分析

第四篇 大年夜数据应用

大年夜数据曾经在社会临盆和平常生活中取得了广泛的应用,对人类社会的生出息步起侧重要的推动感化。本篇内容简介大年夜数据在互联网、生物医学、物流、城市管理、金融、汽车、批发、餐饮、电信、动力、体育文娱、安然、当局、平常生活等方面的应用,从中我们可以深刻地感触感染到大年夜数据对社会的影响及其重要价值。

本篇包含3章。第13章以推荐体系为核心简介大年夜数据在互联网范畴的应用;第14章简介大年夜数据在生物医学范畴的应用;第15章简介大年夜数据在其他范畴的应用。个中,第13章须要重点懂得,其他章节可以作为开辟视野的拓展性浏览材料。

第四篇 大年夜数据应用

第2版教材目次

第一篇  大年夜数据基本

第1章  大年夜数据概述  2
1.1  大年夜数据时代  2
1.1.1  第三次信息化海潮  2
1.1.2  信息科技为大年夜数据时代供给
技巧支撑  3
1.1.3  数据产生方法的变革促进大年夜数据时代的光降  5
1.1.4  大年夜数据的生长过程  6
1.2  大年夜数据的概念  7
1.2.1  数据量大年夜  7
1.2.2  数据类型单一  8
1.2.3  处理速度快  9
1.2.4  价值密度低  9
1.3  大年夜数据的影响  9
1.3.1  大年夜数据对迷信研究的影响  10
1.3.2  大年夜数据对思想方法的影响  11
1.3.3  大年夜数据对社会生长的影响  11
1.3.4  大年夜数据对失业市场的影响  12
1.3.5  大年夜数据对人才网job.vhao.net培养的影响  13
1.4  大年夜数据的应用  14
1.5  大年夜数据关键技巧  14
1.6  大年夜数据计算形式  15
1.6.1  批处理计算  16
1.6.2  流计算  16
1.6.3  图计算  16
1.6.4  查询分析计算  17
1.7  大年夜数据家当  17
1.8  大年夜数据与云计算、物联网  18
1.8.1  云计算  18
1.8.2  物联网  21
1.8.3  大年夜数据与云计算、物联网的关系  25
1.9  本章小结  26
1.10  习题  26
第2章  大年夜数据处理架构Hadoop  28
2.1  概述  28
2.1.1  Hadoop简介  28
2.1.2  Hadoop的生长简史  28
2.1.3  Hadoop的特点  29
2.1.4  Hadoop的应用近况  29
2.1.5  Hadoop的版本  30
2.2  Hadoop生态体系  30
2.2.1  HDFS  31
2.2.2  HBase  31
2.2.3  MapReduce  31
2.2.4  Hive  32
2.2.5  Pig  32
2.2.6  Mahout  32
2.2.7  Zookeeper  32
2.2.8  Flume  32
2.2.9  Sqoop  32
2.2.10  Ambari  33
2.3  Hadoop的装置与应用  33
2.3.1  创建Hadoop用户  33
2.3.2  Java的装置  34
2.3.3  SSH登录权限设置  34
2.3.4  装置单机Hadoop  34
2.3.5  Hadoop伪分布式装置  35
2.4  本章小结  37
2.5  习题  38
实验1  装置Hadoop  38

第二篇  大年夜数据存储与管理

第3章  分布式文件体系HDFS  42
3.1  分布式文件体系  42
3.1.1  计算机集群构造  42
3.1.2  分布式文件体系的构造  43
3.1.3  分布式文件体系的设计需求  44
3.2  HDFS简介  44
3.3  HDFS的相干概念  45
3.3.1  块  45
3.3.2  称号节点和数据节点  46
3.3.3  第二称号节点  47
3.4  HDFS体系构造  48
3.4.1  概述  48
3.4.2  HDFS定名空间管理  49
3.4.3  通信协定  49
3.4.4  客户端  50
3.4.5  HDFS体系构造的局限性  50
3.5  HDFS的存储道理  50
3.5.1  数据的冗余存储  50
3.5.2  数据存取战略  51
3.5.3  数据缺点与恢复  52
3.6  HDFS的数据读写过程  53
3.6.1  读数据的过程  53
3.6.2  写数据的过程  54
3.7  HDFS编程实际  55
3.7.1  HDFS经常使用敕令  55
3.7.2  HDFS的Web界面  56
3.7.3  HDFS经常使用Java API及应用实例  57
3.8  本章小结  60
3.9  习题  61
实验2  熟悉经常使用的HDFS操作  61
第4章  分布式数据库HBase  63
4.1  概述  63
4.1.1  从BigTable说起  63
4.1.2  HBase简介  63
4.1.3  HBase与传统关系数据库的比较分析  64
4.2  HBase拜访接口  65
4.3  HBase数据模型  66
4.3.1  数据模型概述  66
4.3.2  数据模型的相干概念  66
4.3.3  数据坐标  67
4.3.4  概念视图  68
4.3.5  物理视图  69
4.3.6  面向列的存储  69
4.4  HBase的完成道理  71
4.4.1  HBase的功能组件  71
4.4.2  表和Region  71
4.4.3  Region的定位  72
4.5  HBase运转机制  74
4.5.1  HBase体系架构  74
4.5.2  Region办事器的任务道理  76
4.5.3  Store的任务道理  77
4.5.4  HLog的任务道理  77
4.6  HBase编程实际  78
4.6.1  HBase经常使用的Shell敕令  78
4.6.2  HBase经常使用的Java API及
应用实例  80
4.7  本章小结  90
4.8  习题  90
实验3  熟悉经常使用的HBase操作  91
第5章  NoSQL数据库  94
5.1  NoSQL简介  94
5.2  NoSQL鼓起的缘由  95
5.2.1  关系数据库没法满足
Web  2.0的需求  95
5.2.2  关系数据库的关键特点在Web 2.0时代成为“鸡肋”  96
5.3  NoSQL与关系数据库的比较  97
5.4  NoSQL的四大年夜类型  98
5.4.1  键值数据库  99
5.4.2  列族数据库  100
5.4.3  文档数据库  100
5.4.4  图数据库  101
5.5  NoSQL的三大年夜基石  101
5.5.1  CAP  101
5.5.2  BASE  103
5.5.3  终究分歧性  104
5.6  从NoSQL到NewSQL数据库  105
5.7  本章小结  107
5.8  习题  107
第6章  云数据库  108
6.1  云数据库概述  108
6.1.1  云计算是云数据库鼓起的基本  108
6.1.2  云数据库的概念  109
6.1.3  云数据库的特点  110
6.1.4  云数据库是特性化数据
存储需求的幻想选择  111
6.1.5  云数据库与其他数据库的关系  112
6.2  云数据库产品  113
6.2.1  云数据库厂商概述  113
6.2.2  Amazon的云数据库产品  113
6.2.3  Google的云数据库产品  114
6.2.4  微软的云数据库产品  114
6.2.5  其他云数据库产品  115
6.3  云数据库体系架构  115
6.3.1  UMP体系概述  115
6.3.2  UMP体系架构  116
6.3.3  UMP体系功能  118
6.4  云数据库实际  121
6.4.1  阿里云RDS简介  121
6.4.2  RDS中的概念  121
6.4.3  购买和应用RDS数据库  122
6.4.4  将本地数据库迁徙到云端RDS数据库  126
6.5  本章小结  127
6.6  习题  127
实验4  闇练应用RDS for MySQL数据库  128

第三篇  大年夜数据处理与分析

第7章  MapReduce  132
7.1  概述  132
7.1.1  分布式并行编程  132
7.1.2  MapReduce模型简介  133
7.1.3  Map和Reduce函数  133
7.2  MapReduce的任务流程  134
7.2.1  任务流程概述  134
7.2.2  MapReduce的各个履行阶段  135
7.2.3  Shuffle过程详解  136
7.3  实例分析:WordCount  139
7.3.1  WordCount的法式榜样义务  139
7.3.2  WordCount的设计思路  139
7.3.3  WordCount的详细履行过程  140
7.3.4  一个WordCount履行过程的实例  141
7.4  MapReduce的详细应用  142
7.4.1  MapReduce在关系代数运算中的应用  142
7.4.2  分组与聚合运算  144
7.4.3  矩阵-向量乘法  144
7.4.4  矩阵乘法  144
7.5  MapReduce编程实际  145
7.5.1  义务请求  145
7.5.2  编写Map处理逻辑  146
7.5.3  编写Reduce处理逻辑  147
7.5.4  编写main办法  147
7.5.5  编译打包代码和运转法式榜样  148
7.6  本章小结  150
7.7  习题  151
实验5  MapReduce编程低级实际  152
第8章  Hadoop再商量  155
8.1  Hadoop的优化与生长  155
8.1.1  Hadoop的局限与缺乏  155
8.1.2  针对Hadoop的改进与晋升  156
8.2  HDFS2.0的新特点  156
8.2.1  HDFS HA  157
8.2.2  HDFS联邦  158
8.3  新一代资本管理调剂框架YARN  159
8.3.1  MapReduce1.0的缺点  159
8.3.2  YARN设计思路  160
8.3.3  YARN体系构造  161
8.3.4  YARN任务流程  163
8.3.5  YARN框架与MapReduce1.0
框架的比较分析  164
8.3.6  YARN的生长目标  165
8.4  Hadoop生态体系中具有代表性的功能组件  166
8.4.1  Pig  166
8.4.2  Tez  167
8.4.3  Kafka  169
8.5  本章小结  170
8.6  习题  170
第9章  Spark  172
9.1  概述  172
9.1.1  Spark简介  172
9.1.2  Scala简介  173
9.1.3  Spark与Hadoop的比较  174
9.2  Spark生态体系  175
9.3  Spark运转架构  177
9.3.1  根本概念  177
9.3.2  架构设计  177
9.3.3  Spark运转根本流程  178
9.3.4  RDD的设计与运转道理  179
9.4  Spark的安排和应用方法  184
9.4.1  Spark三种安排方法  184
9.4.2  从“Hadoop+Storm”架构转向Spark架构  185
9.4.3  Hadoop和Spark的同一安排  186
9.5  Spark编程实际  186
9.5.1  启动Spark Shell  187
9.5.2  Spark RDD根本操作  187
9.5.3  Spark应用法式榜样  189
9.6  本章小结  192
9.7  习题  193
第10章  流计算  194
10.1  流计算概述  194
10.1.1  静态数据和流数据  194
10.1.2  批量计算和及时计算  195
10.1.3  流计算的概念  196
10.1.4  流计算与Hadoop  196
10.1.5  流计算框架  197
10.2  流计算的处理流程  197
10.2.1  概述  197
10.2.2  数据及时收集  198
10.2.3  数据及时计算  198
10.2.4  及时查询办事  199
10.3  流计算的应用  199
10.3.1  应用处景1:及时分析  199
10.3.2  应用处景2:及时交通  200
10.4  开源流计算框架Storm  200
10.4.1  Storm简介  201
10.4.2  Storm的特点  201
10.4.3  Storm的设计思维  202
10.4.4  Storm的框架设计  203
10.4.5  Storm实例  204
10.5  Spark Streaming  206
10.5.1  Spark Streaming设计  206
10.5.2  Spark Streaming与Storm的比较  207
10.6  本章小结  208
10.7  习题  208
第11章  图计算  210
11.1  图计算简介  210
11.1.1  传统图计算处理筹划的缺乏的地方  210
11.1.2  图计算通用软件  211
11.2  Pregel简介  211
11.3  Pregel图计算模型  212
11.3.1  有向图和顶点  212
11.3.2  顶点之间的消息传递  212
11.3.3  Pregel的计算过程  213
11.3.4  实例  214
11.4  Pregel的C++ API  216
11.4.1  消息传递机制  217
11.4.2  Combiner  217
11.4.3  Aggregator  218
11.4.4  拓扑改变  218
11.4.5  输入和输入  218
11.5  Pregel的体系构造  219
11.5.1  Pregel的履行过程  219
11.5.2  容错性  220
11.5.3  Worker  221
11.5.4  Master  221
11.5.5  Aggregator  222
11.6  Pregel的应用实例  222
11.6.1  单源最长途径  222
11.6.2  二分婚配  223
11.7  Pregel和MapReduce完成PageRank算法的比较  224
11.7.1  PageRank算法  224
11.7.2  PageRank算法在Pregel中的完成  225
11.7.3  PageRank算法在MapReduce中的完成  225
11.7.4  PageRank算法在Pregel和MapReduce中完成的比较  228
11.8  本章小结  228
11.9  习题  228
第12章  数据可视化  230
12.1  可视化概述  230
12.1.1  甚么是数据可视化  230
12.1.2  可视化的生长过程  230
12.1.3  可视化的重要感化  231
12.2  可视化对象  233
12.2.1  入门级对象  233
12.2.2  信息图表对象  234
12.2.3  地图对象  235
12.2.4  时间线对象  236
12.2.5  高等分析对象  236
12.3  可视化典范案例  237
12.3.1  全球黑客活动  237
12.3.2  互联网地图  237
12.3.3  编程说话之间的影响力关系图  238
12.3.4  百度迁徙  239
12.3.5  世界国度安康与财富之间的关系  239
12.3.6  3D可视化互联网地图APP  239
12.4  本章小结  240
12.5  习题  240

第四篇  大年夜数据应用

第13章  大年夜数据在互联网范畴的应用  242
13.1  推荐体系概述  242
13.1.1  甚么是推荐体系  242
13.1.2  长尾实际  243
13.1.3  推荐办法  243
13.1.4  推荐体系模型  244
13.1.5  推荐体系的应用  244
13.2  协同过滤  245
13.2.1  基于用户的协同过滤  245
13.2.2  基于物品的协同过滤  246
13.2.3  UserCF算法和ItemCF算法的比较  248
13.3  协同过滤实际  248
13.3.1  实际背景  248
13.3.2  数据处理  249
13.3.3  计算类似度矩阵  249
13.3.4  计算推荐成果  250
13.3.5  展示推荐成果  250
13.4  本章小结  251
13.5  习题  251
第14章  大年夜数据在生物医学范畴的应用  252
14.1  风行病猜想  252
14.1.1  传统风行病猜想机制的缺乏  252
14.1.2  基于大年夜数据的风行病猜想  253
14.1.3  基于大年夜数据的风行病猜想的
重要感化  253
14.1.4  案例:百度疾病猜想  254
14.2  聪明医疗  255
14.3  生物信息学  256
14.4  案例:基于大年夜数据的综合安康办事平台  257
14.4.1  平台概述  257
14.4.2  平台营业架构  258
14.4.3  平台技巧架构  258
14.4.4  平台关键技巧  259
14.5  本章小结  260
14.6  习题  261
第15章  大年夜数据的其他应用  262
15.1  大年夜数据在物流范畴中的应用  262
15.1.1  智能物流的概念  262
15.1.2  智能物流的感化  263
15.1.3  智能物流的应用  263
15.1.4  大年夜数据是智能物流的关键  263
15.1.5  中国智能物流骨干网—菜鸟  264
15.2  大年夜数据在城市管理中的应用  266
15.2.1  智能交通  266
15.2.2  环保监测  267
15.2.3  城市筹划  268
15.2.4  安防范畴  269
15.3  大年夜数据在金融行业中的应用  269
15.3.1  高频交易  269
15.3.2  市场情感分析  269
15.3.3  信贷风险分析  270
15.4  大年夜数据在汽车行业中的应用  271
15.5  大年夜数据在批发行业中的应用  272
15.5.1  发明接洽关系购买行动  272
15.5.2  客户群体细分  273
15.5.3  供给链管理  273
15.6  大年夜数据在餐饮行业中的应用  274
15.6.1  餐饮行业拥抱大年夜数据  274
15.6.2  餐饮O2O  274
15.7  大年夜数据在电信行业中的应用  276
15.8  大年夜数据在动力行业中的应用  276
15.9  大年夜数据在体育和文娱范畴中的应用  277
15.9.1  练习球队  277
15.9.2  投拍影视作品  278
15.9.3  猜想比赛成果  279
15.10  大年夜数据在安然范畴中的应用  280
15.10.1  大年夜数据与国度安然  280
15.10.2  应用大年夜数据技巧进攻搜集进击  280
15.10.3  警察应用大年夜数据对象预防犯法  281
15.11  大年夜数据在当局范畴中的应用  282
15.12  大年夜数据在平常生活中的应用  283
15.13  本章小结  284
15.14  习题  284
参考文献  285

新增章节电子书下载

2015年8月1日出版发行的《大年夜数据技巧道理与应用》教材(第1版)共13章,针对2015、2016年大年夜数据技巧的新生长,2016年林子雨师长教员为第1版教材新增了三个章节,新增第14章基于Hadoop的数据仓库Hive、第15章Hadoop架构再商量、第16章Spark。请鄙人面链接中下载新增章节的PDF格局的电子书。

第1版教材以外新增的章节 版本号 下载PDF格局电子书
第14章基于Hadoop的数据仓库Hive
(没有放入第2版教材)
2016年4月6日 下载电子书
第15章Hadoop架构再商量
(曾经放入第2版教材的第8章)
2016年4月13日 下载电子书
第16章Spark
(曾经放入第2版教材的第9章)
2016年4月20日 下载电子书

教材PPT下载

请点击这里下载厦门大年夜学林子雨编著《大年夜数据技巧道理与应用》教材配套教材PPT。可以下载到2015年8月出版的第1版教材和2017年1月出版的第2版教材配套的教材PPT。

教材编写过程

林子雨在数据库、数据仓库、数据发掘、大年夜数据、云计算和物联网等范畴有着十多年的知识积聚,对各个范畴知识都有比较深刻的懂得,在当局发改部分的两年挂职时代对大年夜量企业的调研,使其构成了比较广泛的视野和对家当的深刻懂得。

2013年9月,由林子雨主讲的厦门大年夜学计算机迷信系研究生课程《大年夜数据技巧基本》正式开课。由于当时国际还没有出现合适本科和研究生教授教化的大年夜数据专业教材,林子雨结合本身研究成果,并调研大年夜量搜集材料,用时半年编写完成了收费开源的课程教材,发布到搜集上,遭到广大年夜网友爱评。

2014年开端,用时一年多时间,林子雨体系总结实际研究成果和教授教化实际经历,将相干大年夜数据知识综分解一本合适本科和研究生教授教化的教材——《大年夜数据技巧道理与应用》。该教材由人平易近邮电出版社出版发行,2015年8月正式在铛铛、京东、淘宝、亚马逊等各大年夜网店上架发卖,并成为滞销书本。近几年的教授教化实际证明,今朝市场已有的各类其他书本,大年夜都偏于技巧,比较合适作为深刻进修的对象书来应用,不合适作为高校本科和研究生教授教化的教材。高校教授教化应加倍侧重实际层面的教授教化,即对大年夜数据范畴知识体系的普及和眼前道理的阐述,而非让先生深刻进修和实际某一种大年夜数据技巧。从这个角度来讲,《大年夜数据技巧道理与应用》是国际高校第一本体系简介大年夜数据知识的专业教材,也是第一本合实用于本科和研究生教授教化的入门级教材。

2017年1月,教材第2版正式出版发行,增长了最新的Spark技巧简介。

教授教化实际

本教材源自林子雨师长教员在厦门大年夜学计算机系的多年教授教化实际,从2013年开端曾经应用于厦门大年夜学计算机系研究生课程《大年夜数据技巧基本》和厦门大年夜学本科生课程《大年夜数据技巧道理与应用》的实际教授教化,遭到先生的迎接!点击这里拜访《大年夜数据技巧基本》2013班级主页

时间 课程称号 课程性质 讲课对象 讲课内容 教材 班级主页
2013年春季学期 大年夜数据基本基本 专业选修课 厦大年夜计算机系2013级研究生 大年夜数据技巧道理,包含Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、Zookeeper、Google Spanner、Google Dremel等 林子雨编著《大年夜数据技巧基本》PDF收费开源电子书 拜访主页
2016年春季学期 大年夜数据处理技巧 专业选修课 厦大年夜计算机系2015级研究生 大年夜数据技巧道理与应用,包含Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐体系、大年夜数据在各个范畴的应用等 林子雨编著《大年夜数据技巧道理与应用(第1版)》 拜访主页
2017年春季学期 大年夜数据处理基本 专业选修课 厦大年夜计算机系2016级研究生 基于内存的分布式计算框架Spark,完全讲解整套Spark技巧 林子雨编著在线版《Spark入门教程 拜访主页
2017年春季学期 大年夜数据技巧道理与应用 全校公共选修课 厦大年夜本科生 大年夜数据技巧道理与应用,包含Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐体系、大年夜数据在各个范畴的应用等 林子雨编著《大年夜数据技巧道理与应用(第2版)》 拜访主页

厦门大年夜学,林子雨,大年夜数据技巧基本

教材订正

注:在教材应用过程当中,如发明任何缺点,迎接接洽教材作者林子雨:ziyulin@xmu.edu.cn。在此向读者表示衷心的感激!

序号 订正日期 缺点修改解释
暂无 暂无 暂无

本书读者

感激读者对本书的存眷和批驳斧正,相干反应看法将在后续版本中加以改进,检查读者名单

申谢

本书由林子雨执笔。在撰写过程当中,厦门大年夜学计算机迷信系硕士研究生刘颖杰(2012级硕士研究生)、叶林宝(2012级硕士研究生)、蔡珉星(2013级硕士研究生)、李雨倩(女,2013级硕士研究生)、谢荣东(2014级硕士研究生)、罗道文(2014级硕士研究生)、邓少军(2014级硕士研究生)、阮榕城(2015级硕士研究生)、薛倩(2015级硕士研究生)、魏亮(2016级硕士研究生)、曾冠华(2016级硕士研究生)和本科生黄梓铭(2011级本科生)、李粲(女,2012级本科生)同等窗做了大年夜量帮助性任务,在此,向这些同窗的辛苦任务表示衷心的感激。

刘颖杰 yelinbao 蔡珉星 李雨倩
刘颖杰 叶林宝 蔡珉星 李雨倩
 谢荣东 罗道文 黄梓铭  李粲
谢荣东 罗道文 黄梓铭 李粲
阮榕城 薛倩 魏亮 曾冠华

2015年11月30日林子雨和人平易近邮电出版社引导合影

(图 2015年11月30日在北京人平易近邮电出版社合影  吴婷(本书编辑)、林子雨、潘春燕(高教出版分社社长)、邹文波(信息技巧编辑部主任))

2015年6月23日林子雨拿到书