高校大年夜数据实训课程系列案例教材主页

高校大年夜数据实训课程系列案例教材主页

厦门大年夜学 林子雨  编著

ziyulin@xmu.edu.cn

系列教材于2019年陆续出版发行

扫一扫拜访本网页


 本页面内容导航

 系列教材概览  |  教材案例简介  | 媒介  | 案例在高校的应用情况


为了更好满足高校开设大年夜数据实训课程的教材需求,厦门大年夜学数据库实验室林子雨师长教员团队结合企业合营开辟了《高校大年夜数据实训课程系列案例》,部分教材书稿曾经完成写作,将于2019年陆续出版发行,教材相干信息,敬请存眷本网页后续更新!

本套案例教材合实用于高校大年夜数据实训课程的教授教化,书中的详细案例,将有助于先生综合应用大年夜数据课程知识和各类对象软件,完成数据分析全流程操作。教材供给了丰富的收费在线教授教化资本,可以较好地满足高校在大年夜数据实训课程环节对相干大年夜数据教授教化资本的需求。

本套案例教材作为大年夜数据实训课程教材,和大年夜数据入门教材《大年夜数据技巧道理与应用(第2版)》(官网)和大年夜数据进阶教材《Spark编程基本(Scala版)》(官网)一路,初步构成了完全的大年夜数据教材体系,可以作为高等院校计算机、软件工程、信息管理、数据迷信与大年夜数据技巧等相干专业的大年夜数据实训课程教材,也可供相干技巧人员参考。

系列案例教材概览

教材称号 实用对象 以后状况 教材官网
电信用户行动分析 高校(本科和高职) 曾经于2019年5月上市发卖 拜访
片子推荐体系 高校(本科和高职) 曾经于2019年5月上市发卖
曾经用于2018年9月3日-28日厦门理工学院2015级软件工程专业本科生的实训课
拜访
及光阴记流处理分析 高校(本科和高职) 书稿曾经完成,正在前期校订,估计2019年7月上市发卖 暂无
微博用户情感分析 高校(本科和高职) 正在撰写 暂无
互联网告白猜想分析 高校(本科和高职) 正在撰写 暂无
网站日记处理分析 高校(本科和高职) 等待撰写 暂无

教材案例简介

1.案例1:电信用户行动分析

(曾经于2019年5月上市发卖,拜访教材官网

图书ISBN:978-7-115-50123-3  人平易近邮电出版社

本案例触及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJ IDEA、Spring等体系和软件的装置与应用办法。本案例合实用于高校大年夜数据实训课程的教授教化。经过过程本案例,将有助于先生综合应用大年夜数据课程知识和各类对象软件,完成数据分析全流程操作。

本案例旨在赞助先生构成以下几个方面的才能:

(1)熟悉Linux操作体系装置和应用;
(2)熟悉Hadoop的装置和应用办法;
(3)控制HDFS基来源基本理和经常使用Shell敕令应用办法;
(4)控制关系数据库的道理、MySQL数据库的装置和应用办法;
(5)控制IntelliJ IDEA编写Scala法式榜样的办法;
(6)控制编写Spark法式榜样的办法;
(7)控制应用Spring框架停止网页开辟的办法;
(8)控制经过过程网页停止数据可视化的办法。

本案例须要在Linux体系情况下完成以下义务:
(1)装置JDK;
(2)装置关系型数据库MySQL;
(3)装置大年夜数据软件Hadoop;
(4)装置大年夜数据软件Spark;
(5)装置开辟对象IntelliJ IDEA;
(6)在MySQL数据库中创建数据库、表和视图;
(7)应用IDEA对象开辟Spark法式榜样停止数据分析;
(8)应用IDEA对象编写Web法式榜样;
(9)应用SpringMVC框架开辟网页应用完成可视化分析。

下图给出了本案例的数据分析全体过程,详细以下:
(1)把电信用户行动数据集加载到HDFS中;
(2)应用Scala说话编写Spark法式榜样对HDFS中的数据停止用户行动分析,并把成果写入到MySQL数据库;
(3)应用Spring MVC框架开辟网页应用,对MySQL数据库中的数据停止可视化分析;
(4)在网页中以图表情势对分析成果停止可视化出现。

2.案例2:片子推荐体系

(曾经于2019年5月上市发卖,拜访教材官网

图书ISBN:978-7-115-50306-0     人平易近邮电出版社

本案例触及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJ IDEA、Kettle、Node.js等体系和软件的装置与应用办法。案例采取Scala说话编写Spark法式榜样。本案例合实用于高校大年夜数据实训课程的教授教化。经过过程案例实际,将有助于先生综合应用大年夜数据课程知识和各类对象软件,完成数据分析全流程操作。

本案例旨在赞助先生构成以下几个方面的才能:
(1)控制Linux操作体系的装置和应用办法;
(2)控制Hadoop的装置和应用办法;
(3)控制关系数据库的道理和MySQL数据库的装置和应用办法;
(4)控制应用IntelliJ IDEA开辟Scala法式榜样的办法;
(5)控制ETL对象Kettle的装置和应用办法;
(6)控制Spark法式榜样(包含Spark SQL法式榜样和Spark MLlib法式榜样)开辟办法;
(7)控制推荐体系的道理和构建办法;
(8)控制基于协同过滤的推荐算法的道理及其详细应用办法;
(9)控制数据发掘的步调和办法;
(10)控制基于Node.js的网页开辟办法;
(11)控制应用网页可视化出现数据分析成果的办法。

本案例须要在Linux体系情况下完成以下义务:
(1)装置JDK;
(2)装置关系型数据库MySQL;
(3)装置大年夜数据软件Hadoop;
(4)装置大年夜数据软件Spark;
(5)装置开辟对象IntelliJ IDEA;
(6)装置ETL对象Kettle;
(7)应用Kettle将数据文件从Linux本地文件导入到HDFS;
(8)应用协同过滤算法完成片子的推荐;
(9)编写Spark法式榜样完成片子推荐功能;
(10)应用Node.js说话搭建静态网页出现推荐成果。
下图给出了本案例的数据分析全体过程,详细以下:
(1)应用Kettle将数据文件从Linux本地文件导入到HDFS,并在导入过程当中对数据停止清洗;
(2)应用Scala说话编写Spark法式榜样,根据数据集练习模型,为用户推荐其最感兴趣的片子;
(3)应用Node.js搭建静态网页出现片子推荐成果。

系列案例在高校的应用

本套案例曾经成功应用在高校教授教化实际中,取得了较好的后果。

(1)应用情况1:厦门理工学院2015级软件工程专业大年夜数据偏向本科生实训课(拜访实训课程主页

2018年9月3日-28日,厦门理工学院计算机与信息工程学院软件工程专业2015级本科生大年夜数据实训课程顺利停止,林子雨师长教员担负本次课程的讲课教员。本次实训课程,共有44名软件工程专业2015级本科生参加,课程设计标题是《基于Spark MLlib的片子推荐》,累计4周84学时。

(上图  厦门理工学院大年夜数据实训课程教室现场照片 )

(上图  林子雨师长教员在实训课程现场解答先生成绩)

(2)应用情况2:第9期全国高校大年夜数据课程教员培训交换班

2018年8月7日-13日,第9期全国高校大年夜数据课程教员培训交换班在成都举办(培训班主页),林子雨师长教员担负讲课教员,来自全国高校的37名大年夜数据课程教员参加了培训交换,在为期6天的培训课程中,学员体系实际了《电信用户行动分析》、《基于协同过滤算法的片子推荐》和《及光阴记流处理分析》三个案例。培训班停止后,部分学员师长教员曾经三个案例应用到本身高校的大年夜数据实训课程中。

(上图  第9期大年夜数据师资培训班合影)

(上图  林子雨师长教员在培训教室解答学员师长教员的成绩)

系列案例教材《媒介》

大年夜数据时代曾经周全开启,高校承当着大年夜数据人才网job.vhao.net培养的重担。北京大年夜学、厦门大年夜学、中国人平易近大年夜学等一批高校在国际率先开设大年夜数据课程;2016年,北京大年夜学、中南大年夜学、对外经贸大年夜学等三所高校成为国际首批取得教导部赞成设立“数据迷信与大年夜数据技巧专业”的本科院校,尔后,教导部又于2017年和2018年分别赞成32所和248所本科院校设立数据迷信与大年夜数据技巧专业。与此同时,根据教导部公布的“大年夜数据技巧与应用”专业立案和审批成果,截至2018年9月,曾经有累计208所职业院校获批“大年夜数据技巧与应用”专业。随着大年夜数据专业在国际浩大高校的开设,大年夜数据专业人才网job.vhao.net的培养迈入了全新的阶段。

大年夜数据专业作为重生的“新工科”专业,在课程体系扶植方面还处于摸索阶段,没有太多可供自创的现成经历,须要一大年夜批酷爱教授教化的高校教员积极投身课程体系和教材的扶植任务中,合营推动全国高校大年夜数据教授教化任务赓续生长。笔者作为全国较早摸索大年夜数据教授教化的教员之一,编著了《大年夜数据技巧道理与应用》、《大年夜数据基本编程、实验和案例教程》和《Spark编程基本》等系列教材,今朝曾经被国际浩大高校采取,并成为京东、铛铛等各大年夜网店滞销书本,个中,《大年夜数据技巧道理与应用》是国际高校第一本体系性简介大年夜数据知识的专业教材,荣获“人平易近邮电出版社2017年度好书”和“中国工信出版传媒集团2018年优良出版物奖三等奖”,与教材配套的《大年夜数据技巧道理与应用》MOOC课程,在中国大年夜学MOOC平台的累计在线进修人数逾越5万人,90%以上进修者给了五星级好评,在网易云教室的在线进修人数逾越6万人,99%网友赐与了五星级好评。同时,笔者带领厦门大年夜学数据库实验室团队扶植了国际高校首个大年夜数据课程公共办事平台,为全国高校大年夜数据教授教化收费供给一站式办事,平台每年拜访量逾越200万次,成为全国高校大年夜数据教授教化有名品牌。

高校大年夜数据教授教化任务的有力推动,须要各高校从事大年夜数据教授教化任务的教员之间展开广泛的交换,相互进修,合营晋升。为此,笔者搭建了多个专业平台来促进大年夜数据教员之间的沟通和交换。起首,建立了全国高校首个大年夜数据课程教员培训交换基地,为广大年夜教员供给交换和进修的幻想场合。截至今朝,已成功举办9期高校大年夜数据教员研究交换班和7次教授教化研究会,共有200多所高校300余位师长教员参加了研究和交换。其次,展开大年夜数据地下课全国高校巡讲筹划,精品课程,上门讲课,在向先生普及大年夜数据知识体系的同时,促进不合高校教员之间分享教授教化理念和教授教化办法,加强跨校交换协作,合营推动全国高校大年夜数据专业教授教化赓续生长。从2015年10月1日启动巡讲筹划以来,截至今朝,曾经累计巡讲10个省、15个高校、1个科研院所、17场地下课,累计听众人数逾越3000人,取得了广泛好评。再次,举办大年夜型研究会商量大年夜数据专业扶植思路和办法。2017年5月12-13日和2018年5月12日-13日,笔者提议并举办了第1届、第2届全国高校大年夜数据教授教化研究会,累计有来自全国500多所院校的700余名教员来厦门大年夜学参加了研究会。

经过过程大年夜量的活动,笔者与全国高校广大年夜大年夜数据课程教员有了更深的接触和交换,也搜集到了广大年夜一线教员的核心教授教化需求。很多高校教员欲望全国高校大年夜数据教授教化任务者可以或许齐心协力,加快完美大年夜数据课程体系,并构成与课程配套的系列教材。笔者带领的厦门大年夜学数据库实验室团队,在之前五年,集中精力扶植了大年夜数据入门课程及其配套教材《大年夜数据技巧道理与应用》、大年夜数据进阶课程及其配套教材《Spark编程基本》。本套大年夜数据实训课程系列教材的推出,标记住我们团队出力打造的从入门到进阶再到实训课程的大年夜数据系列教材曾经根本成型。多本教材之间,在知识体系上,公道瓜分,相互照顾,前后承接,墨守成规,可以较好地办事于全国高校的大年夜数据教授教化任务。

本套大年夜数据实训课程系列教材,旨在满足高校开设大年夜数据实训课程对教材的需求。每本教材包含一个大年夜数据应用案例。每个案例触及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJ IDEA等体系和软件的装置和应用办法。经过过程案例实际,将有助于先生综合应用大年夜数据课程知识和各类对象软件,完成数据分析全流程操作。在教材内容的编写上,力争做到“筹划途径、造桥铺路、墨守成规、决胜全局”。所谓“筹划途径”是指,教材的开端会对案例目标、实用对象、时间安排、预备知识、硬件请求、软件对象、数据集、案例义务和实验步调等做整体性简介,赞助先生构成对案例义务的框架性熟悉;所谓“造桥铺路”是指,一个案例的顺利完成,须要触及到各类大年夜数据技巧和软件对象的应用,在展开案例法式榜样编写之前,假设没有任何的预备任务,让先生直接进入案例法式榜样的开辟环节,会让很多先生遭受很难逾越的“鸿沟”,招致实训课程没法顺利展开,为此,本套案例教材,在正式开端每个案例的法式榜样编写之前,都有几个专门的章节,对案例所触及到的相干对象和技巧的应用办法,停止概要性简介,并以简单的实例为依托,引导先生控制基本的应用办法,为前面展开案例编程铺平门路、扫清妨碍。所谓“墨守成规”是指,在教材内容编排上,做到先易后难、由浅入深,让先生在实际过程当中,稳扎稳打,稳扎稳打,在每个阶段都可以或许体验到收获感和成就感。所谓“决胜全局”是指,在教材的最后一个章节,详细阐述全部案例的完玉成过程,作为先生本身展开课程设计的参考。

须要重点强调的是,在展开大年夜数据实训课程时,必定要走出“大年夜数据集误区”。部分高校在展开大年夜数据实训课程时,自觉寻求数据量的“大年夜”,请求在实训环节必定要大年夜范围数据集(比如请求1GB以上)。实际上,这类做法并弗成取。在教授教化实训环节,数据集范围不宜太大年夜,关于很多应用,有了必定量的数据今后,运转成果不会有明显差别,数据多一些,只会增长先生运转法式榜样的时间,不会对运转成果有本质的影响,并且,数据量增长今后,须要更多的计算机存储和计算资本,由于很多高校都是采取“伪分布式方法”构建大年夜数据实训情况,数据存储和计算量过大年夜,常常会招致体系运转迟缓乃至崩溃,招致实训没法正常停止,师长教员和先生都邑“备受煎熬”,使得宝贵的实训课程时间都浪费在计算机法式榜样的运转上。实训环节是练习先生对数据分析全流程的各类知识、技巧、对象的综合应用才能,练习先生编写法式榜样处理成绩的才能,不是为了测试计算机分析大年夜量数据的性能高低。在很多情况下,案例法式榜样编写完成今后,采取100MB的数据和1GB的数据,关于先生的进修后果而言,没有本质差别,而大年夜数据集还会浪费大年夜量时间。本套大年夜数据实训课程系列教材中供给的配套数据集,曾经可以或许较好地满足实训环节的请求,可以确保实训课程的顺利展开。

本套大年夜数据实训课程系列教材的官网是http://minzyweb.com/post/shixunkecheng/,外面包含了多本实训课程教材的相干简介和教材官网链接。

本教材的官网是http://minzyweb.com/post/useranalysis/,收费供给了全部配套资本的在线浏览和下载,并接收缺点反应和发布订正信息。同时,在大年夜数据实训课程中,读者会碰到各类大年夜数据相干成绩,建议读者拜访厦门大年夜学数据库实验室扶植的国际高校首个大年夜数据课程公共办事平台(http://minzyweb.com/post/bigdata-teaching-platform/)寻觅处理筹划,该平台上供给了大年夜量收费的大年夜数据教授教化资本,可以赞助读者顺利处理实训课程中碰到的诸多成绩。

本教材由林子雨执笔。在教材撰写过程当中,厦门大年夜学计算机迷信系硕士研究生魏亮、曾冠华、程璐、林哲、郑宛玉、陈杰祥同等窗和厦门大年夜学计算机迷信系2015级本科生张庆晓和罗景亮同窗等做了大年夜量帮助性任务,在此,向这些同窗的辛苦任务表示衷心的感激。同时,衷心感激夏小云师长教员在教材校订任务中的辛苦付出!

本教材在撰写过程当中,参考了大年夜量搜集材料,这里对搜集材料作者的贡献性任务表示感激。由于笔者才能无限,本书不免存在缺乏的地方,望广大年夜读者不吝赐教。

林子雨

厦门大年夜学计算机迷信系数据库实验室

2018年9月