投稿

【北风网】Spark 2.0从入门到精通（278讲）

14.4万

2295

2018-02-25 03:50:42

未经作者授权，禁止转载

正在缓冲...

【收藏分享】Spark 2.0从入门到精通（278讲）课程相关软件及资料：链接：https://pan.baidu.com/s/1ozXZT3tWFf4g_cE1yoKeCQ 密码：v1bg

tarthal 发消息

001_Spark的前世今生

01:06:25

002_课程介绍特色与价值

47:41

003_1Scala编程详解基础语法

28:30

003_2Scala编程详解基础语法

05:56

004_Scala编程详解条件控制与循环

49:43

005_Scala编程详解函数入门

19:51

006_Scala编程详解函数入门之默认参数和带名参数

11:04

007_Scala编程详解函数入门之变长参数

10:58

008_Scala编程详解函数入门之过程lazy值和异常

16:14

009_1Scala编程详解数组操作之Array、ArrayBuffer以及遍历数组

25:12

009_2Scala编程详解数组操作之Array、ArrayBuffer以及遍历数组

03:07

010_Scala编程详解数组操作之数组转换

22:23

011_Scala编程详解Map与Tuple

32:14

012_Scala编程详解面向对象编程之类

52:36

013_Scala编程详解面向对象编程之对象

34:49

014_Scala编程详解面向对象编程之继承

47:34

015_Scala编程详解面向对象编程之Trait

52:32

016_Scala编程详解函数式编程

45:07

017_Scala编程详解函数式编程之集合操作

52:50

018_Scala编程详解模式匹配

54:52

019_Scala编程详解类型参数

01:00:40

020_Scala编程详解隐式转换与隐式参数

31:25

021_Scala编程详解Actor入门

26:02

022_课程环境搭建CentOS65集群搭建

59:52

023_课程环境搭建Hadoop241集群搭建

16:56

024_课程环境搭建Hive013搭建

12:49

025_课程环境搭建ZooKeeper345集群搭建

09:26

026_课程环境搭建kafka_292-081集群搭建

15:09

027_课程环境搭建Spark130集群搭建

15:49

028_Spark核心编程Spark基本工作原理与RDD

45:42

029_1使用Java开发本地测试的wordcount程序

41:15

029_2将java开发的wordcount程序提交到spark集群上运行

13:36

029_3使用scala开发wordcount程序

11:28

029_4使用spark-shell开发wordcount程序

04:17

029_5SparkUI补充说明

01:14

029_6spark-submit中的--master选项的补充说明(重要，必看!)

04:53

030_Spark核心编程wordcount程序原理深度剖析

25:57

031_Spark核心编程Spark架构原理

23:17

032_Spark核心编程创建RDD(集合本地文件、HDFS文件)

44:49

033_1transformation和action讲解与原理剖析

21:15

033_2案例统计每行出现的次数(操作key-value对)

13:47

033_3常用transformation和action操作概览

04:22

034_1map案例实战将集合中的数字乘以2

14:17

034_2filter案例实战过滤集合中的偶数

08:52

034_3flatMap案例实战将文本行拆分为单词

08:52

034_4groupByKey案例实战将每个班级的成绩进行分组

14:21

034_5reduceByKey案例实战统计每个班级的总分

09:13

034_6sortByKey案例实战按照学生成绩进行排序

08:10

034_7join和cogroup案例实战打印学生成绩

19:50

035_Spark核心编程action操作开发实战

33:24

036_Spark核心编程RDD持久化详解

34:21

037_Spark核心编程共享变量(BroadcastVariable和Accumulator)

29:30

038_Spark核心编程高级编程之基于排序机制的wordcount程序

18:00

039_1使用Java实现二次排序

14:19

039_2使用Scala实现二次排序

04:26

040_1获取文本内最大的前3个数字

10:14

040_2获取每个班级排名前3的成绩(分组取topn)

15:47

041_Spark内核源码深度剖析Spark内核架构深度剖析

39:35

042_Spark内核源码深度剖析宽依赖与窄依赖深度剖析

18:46

043_1Spark内核源码深度剖析基于Yarn的两种提交模式深度剖析

19:44

043_2基于yarn的提交模式的spark-envsh配置补充

02:20

044_1SparkContext原理剖析

15:19

044_2SparkContext源码分析

28:01

045_Spark内核源码深度剖析Master主备切换机制原理剖析与源码分析

25:22

046_Spark内核源码深度剖析Master注册机制原理剖析与源码分析

21:32

047_Spark内核源码深度剖析Master状态改变处理机制原理剖析与源码分析

08:37

048_Spark内核源码深度剖析Master资源调度算法原理剖析与源码分析

39:25

049_Spark内核源码深度剖析Worker原理剖析与源码分析

43:38

050_Spark内核源码深度剖析job触发流程原理剖析与源码分析

20:41

051_1stage划分算法原理剖析

27:02

051_2DAGScheduler源码分析(stage划分算法、task最佳位置计算算法)

33:59

052_Spark内核源码深度剖析TaskScheduler原理剖析与源码分析

31:35

053_Spark内核源码深度剖析Executor原理剖析与源码分析

16:44

054_1Task原理剖析

12:28

054_2Task源码分析

38:12

055_1普通Shuffle操作的原理剖析

27:49

055_2优化后的Shuffle操作的原理剖析

12:13

055_3Shuffle读写源码分析

32:35

056_BlockManager原理剖析(1)

16:55

056_BlockManager源码分析(2)

57:32

057_CacheManager原理剖析(1)

10:07

057_CacheManager源码分析(2)

16:12

058_Spark内核源码深度剖析Checkpoint原理剖析

33:37

059_Spark性能优化性能优化概览

27:56

060_Spark性能优化诊断内存的消耗

09:23

061_Spark性能优化高性能序列化类库

18:23

062_Spark性能优化优化数据结构

10:46

063_Spark性能优化对多次使用的RDD进行持久化或Checkpoint

09:43

064_Spark性能优化使用序列化的持久化级别

03:44

065_Spark性能优化Java虚拟机垃圾回收调优

37:26

066_Spark性能优化提高并行度

09:42

067_Spark性能优化广播共享数据

07:28

068_Spark性能优化数据本地化

14:49

069_Spark性能优化reduceByKey和groupByKey

16:29

070_Spark性能优化shuffle性能优化

21:01

071_1Spark130升级151的原因说明

10:42

071_2Spark14x和15x版本的新特性

05:20

071_3Spark151源码编译

09:13

071_4Spark151集群搭建

13:06

072_SparkSQL前世今生

09:56

073_SparkSQLDataFrame的使用

41:50

074_1RDD转换为DataFrame的概览

02:21

074_2使用反射方式将RDD转换为DataFrame

38:37

075_1使用Java进行转换

15:27

075_2使用Scala进行转换

06:56

076_通用的load和save操作

47:01

077_SparkSQLParquet数据源之使用编程方式加载数据

15:44

078_SparkSQLParquet数据源之自动分区推断

08:36

079_SparkSQLParquet数据源之合并元数据

14:08

080_1案例实战之查询分数大于80分的学生信息(Java)

28:18

080_2案例实战之查询分数大于80分的学生信息(Scala)

21:28

081_SparkSQLHive数据源复杂综合案例实战

32:04

082_SparkSQLJDBC数据源复杂综合案例实战

36:47

083_SparkSQL内置函数以及每日uv销售额统计案例实战

32:54

084_SparkSQL开窗函数以及top3销售额统计案例实战

21:10

085_SparkSQLUDF自定义函数实战

05:40

086_SparkSQLUDAF自定义聚合函数实战

11:00

087_1SparkSQL工作原理剖析以及性能优化

20:26

087_2补充说明

01:09

087_3SparkSQL延伸知识之HiveOnSpark

32:27

087_4核心源码深度剖析(DataFramelazy特性Optimizer优化策略)

01:01:19

087_5每日top3热点搜索词统计案例实战

01:12:48

088_SparkStreaming大数据实时计算介绍

18:05

089_SparkStreaming基本工作原理

27:46

090_SparkStreaming与Storm的对比分析

18:17

091_1SparkStreaming实时wordcount程序开发(Java)

23:40

091_2SparkStreaming实时wordcount程序开发(Scala)

08:08

092_SparkStreamingStreamingContext详解

06:50

093_SparkStreaming输入DStream和Receiver详解

14:17

094_SparkStreaming输入DStream之基础数据源以及基于HDFS的实时wordcount程序

14:55

095_输入DStream之Kafka数据源实战(基于Receiver的方式)

14:13

096_输入DStream之Kafka数据源实战(基于Direct的方式)

13:05

097_DStream的transformation操作概览

09:13

098_updateStateByKey以及基于缓存的实时wordcount程序

26:07

099_transform以及广告计费日志实时黑名单过滤案例实战

33:41

100_window滑动窗口以及热点搜索词滑动统计案例实战

38:49

101_DStream的output操作以及foreachRDD详解

23:43

102_与SparkSQL结合使用之top3热门商品实时统计案例实战

46:44

103_缓存与持久化机制

06:54

104_Checkpoint机制

22:02

105_部署升级和监控应用程序

21:12

106_容错机制以及事务语义详解

48:43

107_架构原理深度剖析

16:57

108_StreamingContext初始化与Receiver启动原理剖析与源码分析

35:54

109_1数据接收原理剖析

11:31

109_2数据接收源码剖析

19:48

110_数据处理原理剖析与源码分析(block与batch关系透彻解析)

15:20

111_性能调优

35:27

112_课程总结

17:07

113_Scala编程进阶：Scaladoc的使用

09:55

114_Scala编程进阶：跳出循环语句的3种方法

15:21

115_Scala编程进阶：多维数组、Java数组与Scala数组的隐式转换

16:30

116_Scala编程进阶：Tuple拉链操作、JavaMap与ScalaMap的隐式转换

09:48

117_Scala编程进阶：扩大内部类作用域的2种方法、内部类获取外部类引用

14:13

118_Scala编程进阶：package与import实战详解

17:25

119_Scala编程进阶：重写field的提前定义、Scala继承层级、对象相等性

16:34

120_Scala编程进阶：文件操作实战详解

35:35

121_Scala编程进阶：偏函数实战详解

07:03

122_Scala编程进阶：执行外部命令

10:35

123_Scala编程进阶：正则表达式支持

11:38

124_Scala编程进阶：提取器实战详解

11:56

125_Scala编程进阶：样例类的提取器实战详解

05:58

126_Scala编程进阶：只有一个参数的提取器

03:50

127_Scala编程进阶：注解实战详解

08:39

128_Scala编程进阶：常用注解介绍

11:24

129_Scala编程进阶：XML基础操作实战详解

07:01

130_Scala编程进阶：XML中嵌入scala代码

06:12

131_Scala编程进阶：XML修改元素实战详解

06:55

132_Scala编程进阶：XML加载和写入外部文档

03:07

133_Scala编程进阶：集合元素操作

04:36

134_Scala编程进阶：集合的常用操作方法

05:49

135_Scala编程进阶：map、flatMap、collect、foreach实战详解

04:01

136_Scala编程进阶：reduce和fold实战详解1

02:20

136_Scala编程进阶：reduce和fold实战详解2

01:34

137_环境搭建-CentOS64虚拟机安装

22:25

138_环境搭建-Hadoop25伪分布式集群搭建

18:36

139_环境搭建-Spark15伪分布式集群搭建

21:37

140_第一次课程升级大纲介绍以及要点说明

10:06

141_Spark核心编程进阶-Spark集群架构概览

31:42

142_Spark核心编程进阶-Spark集群架构的几点特别说明

15:12

143_Spark核心编程进阶-Spark的核心术语讲解

29:03

144_Spark核心编程进阶-SparkStandalone集群架构

20:19

145_Spark核心编程进阶-单独启动master和worker脚本详解

17:56

146_Spark核心编程进阶-实验：单独启动master和worker进程

21:15

147_Spark核心编程进阶-worker节点配置以及spark-evnsh参数详解

26:58

148_Spark核心编程进阶-实验：local模式提交spark作业

20:38

149_Spark核心编程进阶-实验：standaloneclient模式提交spark作业

19:36

150_Spark核心编程进阶-实验：standalonecluster模式提交spark作业

22:41

151_Spark核心编程进阶-standalone模式下的多作业资源调度

06:47

152_Spark核心编程进阶-standalone模式下的作业监控与日志记录

09:25

153_Spark核心编程进阶-实验：运行中作业监控以及手工打印日志

13:15

154_Spark核心编程进阶-yarn-client模式原理讲解

07:01

155_Spark核心编程进阶-yarn-cluster模式原理讲解

06:39

156_Spark核心编程进阶-实验：yarn-client模式提交spark作业

22:21

157_Spark核心编程进阶-yarn模式下日志查看详解

04:36

157_Spark核心编程进阶-yarn模式下日志查看详解_.flv

04:36

158_Spark核心编程进阶-yarn模式相关参数详解

05:33

159_Spark核心编程进阶-spark工程打包以及spark-submit详解

09:53

160_Spark核心编程进阶-spark-submit示例以及基础参数讲解

06:12

161_Spark核心编程进阶-实验：spark-submit最简单版本提交spark作业

05:23

162_Spark核心编程进阶-实验：spark-submit给main类传递参数

05:51

163_Spark核心编程进阶-spark-submit多个示例以及常用参数详解

05:47

164_Spark核心编程进阶-SparkConf、spark-submit以及spark-defaultsconf

08:33

165_Spark核心编程进阶-spark-submit配置第三方依赖

04:30

166_Spark核心编程进阶-spark算子的闭包原理详解

18:17

167_Spark核心编程进阶-实验：对闭包变量进行累加操作的无效现象

13:14

168_Spark核心编程进阶-实验：在算子内打印数据的无法看到现象

07:02

169_Spark核心编程进阶-mapPartitions以及学生成绩查询案例

10:33

170_Spark核心编程进阶-mapPartitionsWithIndex以开学分班案例

07:08

171_Spark核心编程进阶-sample以及公司年会抽奖案例

07:14

172_Spark核心编程进阶-union以及公司部门合并案例

03:31

173_Spark核心编程进阶-intersection以及公司跨多项目人员查询案例

03:09

174_Spark核心编程进阶-distinct以及网站uv统计案例

05:34

175_Spark核心编程进阶-aggregateByKey以及单词计数案例

11:04

176_Spark核心编程进阶-cartesian以及服装搭配案例

04:41

177_Spark核心编程进阶-coalesce以及公司部门整合案例

09:48

178_Spark核心编程进阶-repartition以及公司新增部门案例

04:45

179_Spark核心编程进阶-takeSampled以及公司年会抽奖案例

03:30

180_Spark核心编程进阶-shuffle操作原理详解

12:35

181_Spark核心编程进阶-shuffle操作过程中进行数据排序

03:26

182_Spark核心编程进阶-会触发shuffle操作的算子

04:11

183_Spark核心编程进阶-shuffle操作对性能消耗的原理详解

09:09

184_Spark核心编程进阶-shuffle操作所有相关参数详解以及性能调优

12:52

185_Spark核心编程进阶-综合案例1：移动端app访问流量日志分析

08:49

186_Spark核心编程进阶-综合案例1：日志文件格式分析

04:00

187_Spark核心编程进阶-综合案例1：读取日志文件并创建RDD

04:40

188_Spark核心编程进阶-综合案例1：创建自定义的可序列化类

03:24

189_Spark核心编程进阶-综合案例1：将RDD映射为key-value格式

05:48

190_Spark核心编程进阶-综合案例1：基于deviceID进行聚合操作

06:10

191_Spark核心编程进阶-综合案例1：自定义二次排序key类

06:54

192_Spark核心编程进阶-综合案例1：将二次排序key映射为RDD的key

05:58

193_Spark核心编程进阶-综合案例1：执行二次排序以及获取top10数据

04:03

194_Spark核心编程进阶-综合案例1：程序运行测试以及代码调试

02:08

195_Spark核心编程进阶-部署第二台CentOS机器

17:17

196_Spark核心编程进阶-部署第二个Hadoop节点

06:08

197_Spark核心编程进阶-将第二个Hadoop节点动态加入集群

06:46

198_Spark核心编程进阶-使用yarn-client和yarn-cluster提交spark作业

21:46

199_Spark内核原理进阶-union算子内部实现原理剖析

06:55

200_Spark内核原理进阶-groupByKey算子内部实现原理剖析

15:54

201_Spark内核原理进阶-reduceByKey算子内部实现原理剖析

11:19

202_Spark内核原理进阶-distinct算子内部实现原理剖析

12:32

203_Spark内核原理进阶-cogroup算子内部实现原理剖析

09:05

204_Spark内核原理进阶-intersection算子内部实现原理剖析

10:35

205_Spark内核原理进阶-join算子内部实现原理剖析

08:27

206_Spark内核原理进阶-sortByKey算子内部实现原理剖析

05:01

207_Spark内核原理进阶-cartesian算子内部实现原理剖析

06:03

208_Spark内核原理进阶-coalesce算子内部实现原理剖析

02:19

209_Spark内核原理进阶-repartition算子内部实现原理剖析

07:12

210_SparkSQL实战开发进阶-Hive013安装与测试

11:34

211_SparkSQL实战开发进阶-ThriftJDBC、ODBCServer

21:46

212_SparkSQL实战开发进阶-CLI命令行使用

06:39

213_SparkSQL实战开发进阶-综合案例2：新闻网站关键指标离线统计

09:41

214_SparkSQL实战开发进阶-综合案例2：页面pv统计以及排序

20:13

215_SparkSQL实战开发进阶-综合案例2：页面uv统计以及排序

06:50

216_SparkSQL实战开发进阶-综合案例2：新用户注册比例统计

09:46

217_Spark SQL实战开发进阶-综合案例2：用户跳出率统计

06:37

218_SparkSQL实战开发进阶-综合案例2：版块热度排行榜统计

04:21

219_SparkSQL实战开发进阶-综合案例2：测试与调试

22:46

220_SparkStreaming实战开发进阶-flume安装

10:02

221_SparkStreaming实战开发进阶-接收flume实时数据流

17:16

222_SparkStreaming实战开发进阶-接收flume实时数据流

16:06

223_SparkStreaming实战开发进阶-高阶技术之自定义Receiver

08:37

223_SparkStreaming实战开发进阶-高阶技术之自定义Receiver(结束)

00:31

224_SparkStreaming实战开发进阶-kafka安装

23:12

225_SparkStreaming实战开发进阶-综合案例3

05:49

226_SparkStreaming实战开发进阶-综合案例3

15:32

227_SparkStreaming实战开发进阶-综合案例3

12:36

228_SparkStreaming实战开发进阶-综合案例3：注册用户数实时统计

07:57

229_SparkStreaming实战开发进阶-综合案例3

07:06

230_SparkStreaming实战开发进阶-综合案例3

05:22

231_Spark运维管理进阶-基于ZooKeeper实现HA高可用性以及自动主备切换

08:24

232_Spark运维管理进阶-实验：基于ZooKeeper实现HA高可用性以及自动主备切换

27:41

233_Spark运维管理进阶-基于文件系统实现HA高可用性以及手动主备切换

04:00

234_Spark运维管理进阶-实验：基于文件系统实现HA高可用性以及手动主备切换

09:16

235_Spark运维管理进阶-作业监控-SparkWebUI以及监控实验

34:41

236_Spark运维管理进阶-作业监控

10:52

237_Spark运维管理进阶-作业监控

13:38

238_Spark运维管理进阶-作业监控

24:07

239_Spark运维管理进阶-作业监控

15:39

240_Spark运维管理进阶-作业资源调度

05:42

241_Spark运维管理进阶-作业资源调度

11:14

242_Spark运维管理进阶-作业资源调度

17:08

243_Spark运维管理进阶-作业资源调度

15:18

244_Spark运维管理进阶-作业资源调度

02:51

245_Spark运维管理进阶-作业资源调度

06:38

246_新特性介绍_rec

26:55

247_新特性介绍-易用性：标准化SQL支持以及更合理的API_rec

17:10

248_新特性介绍-高性能：让Spark作为编译器来运行_rec

13:18

249_新特性介绍-智能化：Structured Streaming介绍_rec

09:55

250_新特性介绍-Spark 1.x的Volcano Iterator Model技术缺陷分析 _rec

17:01

251_新特性介绍-whole-stage code generation技术和vectorization技术_rec

14:25

252_Spark 2.x与1.x对比以及分析、学习建议以及使用建议_rec

48:48

253_课程环境搭建：虚拟机、CentOS、Hadoop、Spark等_rec

54:33

254_开发环境搭建：Eclipse+Maven+Scala+Spark_rec

08:13

255_SparkSession、Dataframe、Dataset开发入门(1)_rec

42:29

255_SparkSession、Dataframe、Dataset开发入门(2)_rec

15:23

256_Dataset开发详解-初步体验untypd操作案例：计算部门平均年龄与薪资 _rec

12:44

257_Dataset开发详解-action操作：collect、count、foreach、reduce等_rec

08:55

258_Dataset开发详解-基础操作：持久化、临时视图、ds与df互转换、写数据等_rec

18:27

259_Dataset开发详解-typed操作：coalesce、repartition 不加密

07:53

260_Dataset开发详解-typed操作：distinct、dropDuplicates_rec

05:23

261_Dataset开发详解-typed操作：except、filter、intersect_rec

06:27

262_Dataset开发详解-typed操作：map、flatMap、mapPartitions_rec

08:33

263_Dataset开发详解-typed操作：joinWith _rec

02:37

264_Dataset开发详解-typed操作：sort_rec

01:15

265_Dataset开发详解-typed操作：randomSplit、sample_rec

02:44

266_Dataset开发详解-untyped操作：select、where、groupBy、agg、col、join _rec

07:56

267_Dataset开发详解-聚合函数：avg、sum、max、min、count、countDistinct _rec

06:15

268_Dataset开发详解-聚合函数：collect_list、collect_set_rec

03:21

269_Dataset开发详解-其他常用函数_rec

05:48

270_Structured Streaming：深入浅出的介绍_rec

26:51

271_Structured Streaming：wordcount入门案例_rec

23:59

272_Structured Streaming：编程模型_rec

24:32

273_Structured Streaming：创建流式的dataset和dataframe_rec

06:42

274_Structured Streaming：对流式的dataset和dataframe执行计算操作_rec

09:27

275_Structured Streaming：output mode、sink以及foreach sink详解_rec

11:28

276_Structured Streaming：管理streaming query_rec

03:06

277_Structured Streaming：基于checkpoint的容错机制_rec

03:33

278_Spark面试、简历中的项目编写以及实际生产环境的集群和资源配置等_rec

01:05:06

顶部