Flink装置与编程实际(Flink1.9.1)

Flink是Apache软件基金会的一个顶级项目,是为分布式、高性能、随时可用和精确的流处理应用法式榜样打造的开源流处理框架,并且可以同时支撑及时计算和批量计算。Flink来源于Stratosphere 项目,该项目是在2010年到2014年间由柏林工业大年夜学、柏林洪堡大年夜学和哈索普拉特纳研究所结合展开的。2014年4月,Stratosphere代码被供献给Apache软件基金会,成为Apache软件基金会孵化器项目。以后,团队的大年夜部离开创成员分开大年夜学,合营创办了一家名为Data Artisans的公司。在项目孵化时代,为了防止与别的一个项目产生重名,Stratosphere被重新定名为Flink。在德语中,Flink是“快速和灵活”的意思,应用这个词作为项目称号,可以彰显流计算框架的速度快和灵活性强的特点。
本教程起首简介Flink的装置,然后以WordCount法式榜样为实例来简介Flink编程办法。
持续浏览

Spark装置和编程实际(Spark2.4.0)

Apache Spark 是一个新兴的大年夜数据处理通用引擎,供给了分布式的内存笼统。Spark 最大年夜的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍。本指南将简介 Spark 的装置与根本应用。
持续浏览

MapReduce编程实际(Hadoop3.1.3)

MapReduce是谷歌公司的核心计算模型,Hadoop开源完成了MapReduce。MapReduce将复杂的、运转于大年夜范围集群上的并行计算过程高度笼统到了两个函数:Map和Reduce,并极大年夜处所便了分布式编程任务,编程人员在不会分布式并行编程的情况下,也能够很轻易将本身的法式榜样运转在分布式体系上,完成海量数据的计算。
本教程以一个词频统计义务为主线,详细简介MapReduce基本编程办法。情况是Ubuntu18.04(或Ubuntu16.04或Ubuntu14.04)、Hadoop3.1.3,开辟对象是Eclipse。
持续浏览

HDFS编程实际(Hadoop3.1.3)

【版权声明:本指南为厦门大年夜学林子雨编著的《大年夜数据技巧道理与应用》教材配套进修材料,版权一切,转载请注明出处,请勿用于贸易用处】

点击这里不雅看厦门大年夜学林子雨师长教员主讲《大年夜数据技巧道理与应用》讲课视频

本指南简介Hadoop分布式文件体系HDFS,并详细指引读者对HDFS文件体系的操作实际。请务必细心浏览完厦门大年夜学林子雨编著的《大年夜数据技巧道理与应用》第3章节,再结合本指南停止进修。

持续浏览

Hadoop3.1.3装置教程_单机/伪分布式设备_Hadoop3.1.3/Ubuntu18.04(16.04)


点击这里不雅看厦门大年夜学林子雨师长教员主讲《大年夜数据技巧道理与应用》讲课视频
当开端着手实际 Hadoop 时,装置 Hadoop 常常会成为老手的一道门槛。虽然装置其实很简单,书上有写到,官方网站也有 Hadoop 装置设备教程,但由于对 Linux 情况不熟悉,书上跟官网上简单的装置步调老手常常 Hold 不住。加上彀上很多教程也甚是坑,招致老手折腾老几天愣是没装好,很是攻击进修热忱。

本教程由厦门大年夜学数据库实验室 / 林子雨出品,转载请注明。本教程合适于原生 Hadoop3.1.3,重要参考了官方装置教程,步调详细,辅以恰当解释,信赖按照步调来,都能顺利装置并运转Hadoop。别的有Hadoop装置设备简单版便利有基本的读者快速完成装置。另外,欲望读者们能多去懂得一些 Linux 的知识,今后出现成绩时才能自行处理。

为了便利进修本教程,请读者们应用Linux体系中自带的firefox浏览器翻开本指南停止进修。
Hadoop装置文件,可以到Hadoop官网下载hadoop-3.1.3.tar.gz。

持续浏览

Hive3.1.2装置指南


点击这里不雅看厦门大年夜学林子雨师长教员主讲《大年夜数据技巧道理与应用》讲课视频
【版权声明:本指南为厦门大年夜学林子雨开设的《大年夜数据技巧道理与应用》课程新增配套进修材料,版权一切,转载请注明出处,请勿用于贸易用处】

本指南简介了Hive,并详细指引读者装置Hive。 前面第几章进修指南曾经指导大年夜家装置Linux操作体系,并装置设备了Hadoop,然则这只注解我们曾经装置好了Hadoop分布式文件体系,而Hive须要别的下载装置,本指南就是详细指导大年夜家装置并设备Hive,完成后大年夜家可以结合厦门大年夜学林子雨开设的《大年夜数据技巧道理与应用》课程第14章节停止深刻进修。别的,本章有配套在线讲课视频和电子书,可以点击这里拜访

持续浏览

装置Hive3.1.2碰到缺点处理筹划

在装置Hive3.1.2时,采取的Hadoop版本是3.1.3,应用MySQL存储元数据。装置过程请参考《Hive装置指南》。装置过程能够碰到两个重要缺点。
【缺点1】
java.lang.NoSuchMethodError: com.谷歌.common.base.Preconditions.checkArgument
【缘由】
com.谷歌.common.base.Preconditions.checkArgument 这是由于hive内依附的guava.jar和hadoop内的版本不分歧形成的。
【处理办法】
1.检查hadoop装置目次下share/hadoop/common/lib内guava.jar版本
2.检查hive装置目次下lib内guava.jar的版本 假设二者不分歧,删除版本低的,并拷贝高版本的 成绩处理!

【缺点2】org.datanucleus.store.rdbms.exceptions.MissingTableException: Required table missing : “VERSION” in Catalog “” Schema “”. DataNucleus requires this table to perform its persistence operations.

【处理筹划】
进入hive装置目次(比如/usr/local/hive),履行以下敕令:./bin/schematool -dbType mysql -initSchema