借助于Arrow完成PySpark和Pandas之间的数据交换

相干教材:林子雨、郑海山、赖永炫编著《Spark编程基本(Python版)》(拜访教材官网
Apache Arrow是一个高效的列式数据格局,可以在PySpark中完成JVM和Python过程之间的数据交换。这关于应用Numpy和Pandas的Python用户来讲,是可以带来很多好处的。不过,它的应用其实不是主动产生的,而是须要经过一些装置和设备任务。
持续浏览

基于Spark的音乐专辑数据分析展示

作者:厦门大年夜学信息学院计算机迷信系2018级研究生 沈琳
指导师长教员:厦门大年夜学数据库实验室 林子雨 博士/副传授
相干教材:林子雨、郑海山、赖永炫编著《Spark编程基本(Python版)》(拜访教材官网
相干案例:基于Python说话的Spark数据处理分析案例集锦(PySpark)

本实验采取Python说话,应用大年夜数据处理框架Spark对音乐专辑数据停止处理分析,并对分析成果停止可视化。
持续浏览

基于Spark的气候数据处理与分析

作者:厦门大年夜学信息学院计算机迷信系2018级研究生 陈兆彬
指导师长教员:厦门大年夜学数据库实验室 林子雨 博士/副传授
相干教材:林子雨、郑海山、赖永炫编著《Spark编程基本(Python版)》(拜访教材官网
相干案例:基于Python说话的Spark数据处理分析案例集锦(PySpark)

本实验采取Python说话,从网页爬取气候数据,并应用大年夜数据处理框架Spark对气候数据停止处理分析,并对分析成果停止可视化。
持续浏览

基于Python说话的Spark数据处理分析案例集锦(PySpark)

基于Python说话的Spark数据处理分析案例集锦(PySpark)
案例制造:厦门大年夜学数据库实验室
指导师长教员:厦门大年夜学信息学院计算机系数据库实验室 林子雨 博士/副传授 E-mail: ziyulin@xmu.edu.cn
相干教材:林子雨、郑海山、赖永炫编著《Spark编程基本(Python版)》(拜访教材官网
(1)基于YELP数据集的贸易数据分析
(2)2020年美国新冠肺炎疫情数据分析
(3)基于批发交易数据的Spark数据处理与分析
(4)基于地动数据的Spark数据处理与分析
(5)基于Spark的地动数据处理与分析
(6)基于信用卡过期数据的Spark数据处理与分析
(7)基于 TMDB 数据集的片子数据分析
(8)厦门租房信息分析展示
(9)基于Spark的气候数据处理与分析
(10)基于Spark的音乐专辑数据分析展示

基于信用卡过期数据的Spark数据处理与分析

作者:厦门大年夜学信息学院计算机迷信系2019级研究生 陈绍纬
指导师长教员:厦门大年夜学数据库实验室 林子雨 博士/副传授
相干教材:林子雨、郑海山、赖永炫编著《Spark编程基本(Python版)》(拜访教材官网
相干案例:基于Python说话的Spark数据处理分析案例集锦(PySpark)

本案例以和鲸社区的信用卡评分模型构建数据为数据集,以Python为编程说话,应用大年夜数据框架Spark对数据停止处理分析,并对分析成果停止可视化。
持续浏览

基于Spark的地动数据处理与分析

作者:厦门大年夜学信息学院计算机迷信系2019级研究生 胡冰
指导师长教员:厦门大年夜学数据库实验室 林子雨 博士/副传授
相干教材:林子雨、郑海山、赖永炫编著《Spark编程基本(Python版)》(拜访教材官网
相干案例:基于Python说话的Spark数据处理分析案例集锦(PySpark)

本案例针对全球严重年夜地动数据停止分析,采取Python为编程说话,采取Hadoop存储数据,采取Spark对数据停止处理分析,并对成果停止数据可视化。
持续浏览

基于地动数据的Spark数据处理与分析

作者:厦门大年夜学信息学院计算机迷信系2019级研究生 周伟敬
指导师长教员:厦门大年夜学数据库实验室 林子雨 博士/副传授
相干教材:林子雨、郑海山、赖永炫编著《Spark编程基本(Python版)》(拜访教材官网
相干案例:基于Python说话的Spark数据处理分析案例集锦(PySpark)

本案例针对全球严重年夜地动数据停止分析,采取Python为编程说话,采取Hadoop存储数据,采取Spark对数据停止处理分析,并对成果停止数据可视化。
持续浏览

基于批发交易数据的Spark数据处理与分析

作者:厦门大年夜学信息学院计算机迷信系2019级研究生 何昕
指导师长教员:厦门大年夜学数据库实验室 林子雨 博士/副传授
相干教材:林子雨、郑海山、赖永炫编著《Spark编程基本(Python版)》(拜访教材官网
相干案例:基于Python说话的Spark数据处理分析案例集锦(PySpark)

本案例数据集是来自Kaggle的一个跨国在线批发营业的交易数据,采取Python为编程说话,采取Hadoop存储数据,采取Spark对数据停止处理分析,并应用Echarts做数据可视化。
持续浏览