大数据学习路线指导

栏目: 数据库 · 发布时间: 5年前

内容简介:保证电脑4核8G内存64位操作系统,尽量有ssd做系统盘,否则卡到你丧失信心。硬盘越大越好。1. 语言要求java刚入门的时候要求javase。

保证电脑4核8G内存64位操作系统,尽量有ssd做系统盘,否则卡到你丧失信心。硬盘越大越好。

1. 语言要求

java刚入门的时候要求javase。

scala是学习spark要用的基本使用即可,这个虽然不是必须的但是后期要想深入玩转spark,kafka,flink等源码的话,还是必须要掌握的。

网上发现的一套 linuxjava 的入门教程

链接: https://pan.baidu.com/s/1_O5yY0kcYwskNRiPYoUaSw 提取码: up9g

后期深入要求:

java NIO,netty,多线程,ClassLoader,jvm底层及调优等,rpc。

2. 操作系统要求

linux 基本的 shell 脚本的使用。

crontab的使用,最多。

cpu,内存,网络,磁盘等瓶颈分析及状态查看的工具。

scp,ssh,hosts的配置使用。

telnet,ping等网络排查命令的使用

3. sql基本使用

sql是基础,hive,sparksql等都需要用到,况且大部分企业也还是以数据仓库为中心,少不了sql。

sql统计,排序,join(大表之间join,大小表之间join等性能分析及优化),分组聚合操作数据倾斜及解决方案。

hive的外部表,分区表,分同表的使用等。

四by:sort by ,order by,cluster by,distribute by等

4. 大数据基本了解

Zookeeper,hadoop,hbase,hive,sqoop,flume,kafka,spark,storm等这些框架的作用及基本环境的搭建,要熟练,要会运维,瓶颈分析。

5. mapreduce及相关框架hive,sqoop

深入了解mapreduce的核心思想。尤其是shuffle,join,文件输入格式,map数目,reduce数目,调优等。

6. hive和hbase等仓库

hive和hbase基本是大数据仓库的标配。要回用,懂调优,故障排查。

hbase看浪尖hbase系列文章。hive后期更新。

除了翻看官网,大数据学习过程中这几个权威指南是必读几遍的:

链接: https://pan.baidu.com/s/1fUKGalit_CuuaVmkoAXiaA 提取码: yf4x

你要是没读两遍以上,我觉得你看再多视频和文章也是没用的,不系统。

7. 消息队列的使用

kafka基本概念,使用,瓶颈分析。看浪尖kafka系列文章。

kafka官网至关重要的学习工具,然后就是源码,建议阅读一下0.8.2.2的源码,很精彩的。

星球里分享了一套kafka系统教程。

8. 实时处理系统

spark Streaming ,structured streaming ,flink等使用及掌握,然后之间的对比分析。

Spark Streaming VS Flink

Structured Streaming VS  Flink

flink视频教程会陆续放到星球里~

9. spark core和sparksql

spark用于离线分析的两个重要模块。

Spark Core故名思议是Spark的核心内容,主要是掌握并理解RDD的含义及具体操作,然后就是任务分布式运行的原理,web ui的熟练使用,处理瓶颈分析,尤其是数据倾斜的发现及解决,原始数据小文件问题及解决方法,然后就是文件大小不均衡问题解决方法等。

spark sql 优化分析主要也是数据倾斜分析及解决,理解 sql 解析成rdd然后并行执行的原理,然后合理调整资源及并行度,其余就跟spark core一样了。

spark源码视频及spark 2.3.1的视频可以加入浪尖星球获取。

10. 最终方向决策

a),运维。(精通整套系统及故障排查,会写运维脚本,自动化运维平台开发等。)

b),数据分析。(包含业务sql,算法,机器学习,人工智能,低级的就是青春饭)

c),平台开发。(一般要进行框架的二次开发,或者团队进行特定需求平台的一次开发,这个适合代码能力强的,然后大公司估计会要求数据结构比较强,活跃于社区最好)

自学还是培训?

无基础的同学,培训之前先搞到视频通学一遍,防止盲目培训跟不上讲师节奏,浪费时间,精力,金钱。 很多都是半途而非的。

有基础的尽量搞点视频学基础,然后跟群里大牛交流,前提是人家愿意,

想办法跟大牛做朋友才是王道。看浪尖的文章,跟着文章思考操作。

至于难么?请看下图:

大数据学习路线指导

欢迎加入浪尖知识星球,与近520位球友一起共舞~

大数据学习路线指导

欢迎关注浪尖公众号一起学习进步

大数据学习路线指导


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

产品故事地图

产品故事地图

唐娜·理查(Donna Lichaw) / 向振东 / 机械工业出版社 / 2017-6 / 49.9元

本书一共8章,分为三个部分:第1-2章讲述故事的作用、你该如何运用产品故事来吸引顾客,不是通过讲故事,而是创造故事。第3-5章阐述了不同情境和客户生命周期中的产品故事类型。第6-8章进一步研究如何在战略和策略层面发现、提升、用好你的产品故事。 《产品故事地图》写给那些想要通过创造出顾客喜欢用、经常用而且会推荐给别人用的产品来吸引客户的人。这里的“产品”包括网页、软件、APP、数字化或非数字化......一起来看看 《产品故事地图》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具