重磅:大年夜数据课程实验案例:网站用户行动分析(收费共享)

收费为全国高校供给大年夜数据教授教化案例

扶植者:厦门大年夜学计算机迷信系  林子雨 博士/助理传授

(E-mail: ziyulin@xmu.edu.cn, 小我主页:http://www.cs.xmu.edu.cn/linziyu)

(版权声明:本平台一切资本有版权,请勿用于贸易用处)

(未经授权,其他网站请勿转载)

%e5%a4%a7%e6%95%b0%e6%8d%ae%e6%a1%88%e4%be%8b%e4%b8%bb%e9%a1%b5%e4%ba%8c%e7%bb%b4%e7%a0%81

扫一扫手机拜访本主页


案例简介 | 案例目标 | 软件对象 | 案例义务 | 实验步调开辟团队 | 版本汗青 | 接洽人


相干其他案例推荐:Spark课程综合实验案例:淘宝双11数据分析与猜想

相干其他案例推荐:Spark课程实验案例:Spark+Kafka构建及时分析Dashboard

点击这里不雅看厦门大年夜学林子雨师长教员主讲《大年夜数据技巧道理与应用》课程视频

案例简介

大年夜数据课程实验案例:网站用户行动分析,由厦门大年夜学数据库实验室团队开辟,旨在满足全国高校大年夜数据教授教化对实验案例的急切需求。本案例触及数据预处理、存储、查询和可视化分析等数据处理全流程所触及的各类典范操作,涵盖Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等体系和软件的装置和应用办法。案例合适高校(高职)大年夜数据教授教化,可以作为先生进修大年夜数据课程后的综合实际案例。经过过程本案例,将有助于先生综合应用大年夜数据课程知识和各类对象软件,完成数据全流程操作。各个高校可以根据本身教授教化实际需求,对本案例停止弥补完美。

案例目标

  1. 熟悉Linux体系、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等体系和软件的装置和应用;
  2. 懂得大年夜数据处理的根本流程;
  3. 熟悉数据预处理办法;
  4. 熟悉在不合类型数据库之间停止数据相互导入导出;
  5. 熟悉应用R说话停止可视化分析;
  6. 熟悉应用Elipse编写Java法式榜样操作HBase数据库。

实用对象

  1. 高校(高职)教员、先生
  2. 大年夜数据进修者

时间安排

本案例可以作为大年夜数据入门级课程停止后的“大年夜作业”,或许可以作为先生暑期或暑假大年夜数据练习实际基本案例,完本钱案例估计耗时7天。

预备知识

须要案例应用者,曾经进修过大年夜数据相干课程(比如入门级课程《大年夜数据技巧道理与应用》),懂得大年夜数据相干技巧的根本概念与道理,懂得Windows操作体系、Linux操作体系、大年夜数据处理架构Hadoop的关键技巧及其基来源基本理、列族数据库HBase概念及其道理、数据仓库概念与道理、关系型数据库概念与道理、R说话概念与应用。

不过,由于本案例供给了全部操作细节,包含每个敕令和运转成果,所以,即使没有相干背景知识,也能够按照操作解释顺利完玉成部实验。

硬件请求

本案例可以在单机上完成,也能够在集群情况下完成。

单机上完本钱案例实验时,建议计算机硬件设备为:500GB以上硬盘,8GB以上内存。

软件对象

本案例所触及的体系及软件

  1. Linux体系(Ubuntu16.04或14.04或18.04)
  2. MySQL(版本无请求)
  3. Hadoop(2.7.1或2.7.3,不克不及用3.0及以上版本,由于Sqoop对象没法支撑Hadoop3.0以上版本)
  4. HBase(1.1.2或1.1.5,HBase版本须要和Hadoop版本兼容)
  5. Hive(1.2.1,Hive须要和Hadoop版本兼容,不要装置Hive3.0以上版本)
  6. Sqoop(必须用1.4.6,留意,Sqoop没法支撑Hadoop3.0以上版本)
  7. R(版本无请求)
  8. Eclipse(版本无请求)

%e5%a4%a7%e6%95%b0%e6%8d%ae%e8%af%be%e7%a8%8b%e5%ae%9e%e9%aa%8c%e6%a1%88%e4%be%8b%e7%bd%91%e7%ab%99%e7%94%a8%e6%88%b7%e8%a1%8c%e4%b8%ba%e5%88%86%e6%9e%90v1-0%e8%bd%af%e4%bb%b6%e5%9b%be

图 案例所触及软件整体概览图

数据集

网站用户购物行动数据集2000万笔记录。

案例义务

  1. 装置Linux操作体系
  2. 装置关系型数据库MySQL
  3. 装置大年夜数据处理框架Hadoop
  4. 装置列族数据库HBase
  5. 装置数据仓库Hive
  6. 装置Sqoop
  7. 装置R
  8. 装置Eclipse
  9. 对文本文件情势的原始数据集停止预处理
  10. 把文本文件的数据集导入到数据仓库Hive中
  11. 对数据仓库Hive中的数据停止查询分析
  12. 应用Sqoop将数据从Hive导入MySQL
  13. 应用Sqoop将数据从MySQL导入HBase
  14. 应用HBase Java API把数据从本地导入到HBase中
  15. 应用R对MySQL中的数据停止可视化分析

%e5%a4%a7%e6%95%b0%e6%8d%ae%e8%af%be%e7%a8%8b%e5%ae%9e%e9%aa%8c%e6%a1%88%e4%be%8b%e7%bd%91%e7%ab%99%e7%94%a8%e6%88%b7%e8%a1%8c%e4%b8%ba%e5%88%86%e6%9e%90v1-0%e6%b5%81%e7%a8%8b%e5%9b%be

图  案例所触及操作整体概览图

实验步调

步调零:实验情况预备 检查实验指南
步调一:本地数据集上传到数据仓库Hive 检查实验指南
步调二:Hive数据分析 检查实验指南
步调三:Hive、MySQL、HBase数据互导 检查实验指南
步调四:应用R停止数据可视化分析 检查实验指南

每个实验步调所须要的知识储备、练习技能和义务清单以下:

步调零:实验情况预备

 所需知识储备  Windows操作体系、Linux操作体系、大年夜数据处理架构Hadoop的关键技巧及其基来源基本理、列族数据库HBase概念及其道理、数据仓库概念与道理、关系型数据库概念与道理
练习技能 双操作体系装置、虚拟机装置、Linux根本操作、Hadoop装置、HBase装置、Sqoop装置、Eclipse装置
义务清单  1. 装置Linux体系;2. 装置Hadoop;3. 装置MySQL;4. 装置HBase;5. 装置Hive;6. 装置Sqoop;7. 装置R;8. 装置Eclipse

步调一:本地数据集上传到数据仓库Hive

 所需知识储备  Linux体系根本敕令、Hadoop项目构造、分布式文件体系HDFS概念及其基来源基本理、数据仓库概念及其基来源基本理、数据仓库Hive概念及其基来源基本理
 练习技能  Hadoop的装置与根本操作、HDFS的根本操作、Linux的装置与根本操作、数据仓库Hive的装置与根本操作、根本的数据预处理办法
义务清单  1. 装置Linux体系;2. 数据集下载与检查;3. 数据集预处理;4. 把数据集导入分布式文件体系HDFS中;5. 在数据仓库Hive上创建数据库

步调二:Hive数据分析

所需知识储备 数据仓库Hive概念及其基来源基本理、SQL语句、数据库查询分析
练习技能  数据仓库Hive根本操作、创建数据库和表、应用SQL语句停止查询分析
义务清单 1. 启动Hadoop和Hive;2. 创建数据库和表;3. 简单查询分析;4. 查询条数统计分析;5. 关键字条件查询分析;6. 根据用户行动分析;7. 用户及时查询分析

步调三:Hive、MySQL、HBase数据互导

所需知识储备 数据仓库Hive概念与基来源基本理、关系数据库概念与基来源基本理、SQL语句、列族数据库HBase概念与基来源基本理
练习技能  数据仓库Hive的根本操作、关系数据库MySQL的根本操作、Sqoop对象的应用办法、HBase API的Java编程、Eclipse开辟对象应用办法
义务清单  1. Hive预操作;2. 应用Sqoop将数据从Hive导入MySQL;3. 应用Sqoop将数据从MySQL导入HBase;4. 应用HBase Java API把数据从本地导入到HBase中

步调四:应用R停止数据可视化分析

所需知识储备  数据可视化、R说话
练习技能 应用R说话对MySQL数据库中的数据停止数据可视化分析、R的装置、相干可视化依附包的装置与应用、各类可视化图表生成办法
义务清单 装置R说话包、装置可视化依附包、柱状图可视化分析、散点图可视化分析、地图可视化分析

开辟团队

为懂得决高校大年夜数据教授教化须要综合实验案例的急切需求,2016年10月上旬,厦门大年夜学数据库实验室组建了由林子雨师长教员和阮榕城(厦大年夜数据库实验室2015级研究生)、薛倩(厦大年夜数据库实验室2015级研究生)、魏亮(厦大年夜数据库实验室2016级研究生)、曾冠华(厦大年夜数据库实验室2016级研究生)同窗构成的案例开辟小组,经过过程大年夜量调研进修搜集材料和相干案例,开辟了本教授教化案例。时代,屡次举办小组会议,评论辩论案例制造思路和技巧细节。终究,经过近两个月的团队尽力,于2016年11月29日顺利完成案例第1版的开辟并上线发布。

img_20161128_165737

图(摄影 夏小云)  大年夜数据案例开辟团队2016年11月28日合影

(人员从左到右名单:魏亮、阮榕城、林子雨、薛倩、曾冠华)

版本汗青

2016年11月29日,发布案例V1.0版本。

接洽人

本案例相干事宜,迎接接洽厦门大年夜学数据库实验室林子雨师长教员:E-mail: ziyulin@xmu.edu.cn