想咨询一下关于想考大数据研究生,需要做哪些准备?的问题,大家能帮助我解答一下吗
想学大数据或者说想入门大数据,技术肯定是第一重要的,不会大数据的技术谈什么大数据。那么大数据的技术怎么学,要知道大数据是依赖Java的,首先要保证Java得会。
咱们从业务来说,一个项目一般包含:前端,后端,后后端,大数据属于后后端,是在项目开发完成之后有了数据之后才到大数据这一步
从上帝视角看张图:(图1)
大数据工作分为图1这几种,和后端接触的是ETL工程师,负责将数据拿到大数据平台,然后供数仓开发工程师使用,大数据开发负责大数据平台的建设,后面还有数据分析师,AI工程师等
数仓工程师 (全称:数据仓库工程师)
数仓工程师日常工作一般是不写代码的,主要以写 SQL 为主!
数仓工程师是大数据领域公司招聘较多的岗位,薪资也较高,需要重点关注!
数据仓库分为离线数仓和实时数仓,但是企业在招聘时大多要求两者都会,进入公司之后可能会专注于离线或实时其中之一。
就目前来说,大多数的企业还是以离线数仓为主,不过未来趋势肯定是实时数仓为主,所以学习时,为了现在能找到工作,需要学习离线数仓,为了以后的发展,需要学习实时数仓。所以,离线和实时都是我们重点掌握的!
需要掌握的技能:
不管离线还是实时,重中之重就是:SQL
SQL 语法及调优一定要掌握,这里说的 SQL 包括 mysql 中的 sql,hive中的 hive sql,spark 中的 spark sql,flink 中 的 flink sql。
在企业招聘的笔记及面试中,一般问的关于 sql 的问题主要是以 hive sql 为主,所以请重点关注!
除 sql 外,还需要重点掌握以下技能,分为离线和实时
离线数仓需要重点掌握的技能:
Hadoop(HDFS,MapReduce,YARN)
Hive(重点,包括hive底层原理,hive SQL及调优)
Spark(Spark 会用及了解底层原理)
Oozie(调度工具,会用即可)
离线数仓建设(搭建数仓,数仓建模规范)
维度建模(建模方式常用的有范式建模和维度建模,重点关注维度建模)
实时数仓需要重点掌握的技能:
Hadoop(这是大数据基础,不管离线和实时都必须掌握)
Kafka(重点,大数据领域中算是唯一的消息队列)
Flink(重中之重,这个不用说了,实时计算框架中绝对王者)
HBase(会使用,了解底层原理)
Druid(会用,了解底层原理)
实时数仓架构(两种数仓架构:Lambda架构和Kappa架构)
2. 大数据开发工程师
数据开发工程师一般是以写代码为主,以 Java 和 Scala 为主。
大数据开发分两类,第一类是编写Hadoop、Spark、Flink 的应用程序,第二类是对大数据处理系统本身进行开发,如对开源框架的扩展开发,数据中台的开发等!
需要重点掌握的技能:
语言:Java 和 Scala(语言以这两种为主,需要重点掌握)
Linux(需要对Linux有一定的理解)
Hadoop(需理解底层,能看懂源码)
Hive(会使用,能进行二次开发)
Spark(能进行开发。对源码有了解)
Kafka(会使用,理解底层原理)
Flink(能进行开发。对源码有了解)
HBase(理解底层原理)
很多公司招聘时大数据开发和数仓建设分的没有这么细,数据开发包含了数仓的工作!
3. ETL工程师
ETL是三个单词的首字母,中文意思是抽取、转换、加载
ETL工程师是对接业务和数据的交接点,所以需要处理上下游的关系
对于上游,需要经常跟业务系统的人打交道,所以要对业务系统比较熟悉。比如它们存在各种接口,不管是API级别还是数据库接口,这都需要ETL工程师非常了解。
其次是其下游,这意味着你要跟许多数据开发工程师师、数据科学家打交道。比如将准备好的数据(数据的清洗、整理、融合),交给下游的数据开发和数据科学家。
需要重点掌握的技能
语言:Java/Python(会基础)
Shell脚本(需要对shell较为熟悉)
Linux(会用基本命令)
Kettle(需要掌握)
Sqoop(会用)
Flume(会用)
MySQL(熟悉)
Hive(熟悉)
HDFS(熟悉)
Oozie(任务调度框架会用其中一个即可,其他如 azkaban,airflow)
4. 数据分析工程师
分析师们会根据数据和业务情况,分析得出结论、制定业务策略或者建立模型,创造新的业务价值并支持业务高效运转。
需要重点掌握的技能:
数学知识(数学知识是数据分析师的基础知识,需要掌握统计学、线性代数等课程)
编程语言(需要掌握Python、R语言)
分析工具(Excel是必须的,还需要掌握 Tableau 等可视化工具)
数据敏感性(对数据要有一定的敏感性,看见数据就能想到它的用处,能带来哪些价值)
#数据库##大数据##数据分析##数据分析师##SQL#
听众都有自己的想法,都有自己的判断能力,如果你希望听众能接受你的想法和观点,最好出示有力的证明、有说服力的调查数据等,也就是说,调查是演讲必须做并且要做好的准备工作。——《演讲与口才》
沉稳如松
2022-11-06人生又一转折点,考上大学办升学晏!
儿子的通知书下来了,是蚌埠学院的大数据专业,本来没准备宴请亲朋好友,但大家却非常热情的要来喝一杯!
还有的亲戚讲,我家考的大专都请客了,要给孩子一个鼓励,毕竟辛辛苦苦学了十来年,别伤孩子的心!
好吧,最近天也不太热了,趁周六周日都来吧!父母及娘家亲戚大老远从阜阳赶来,朋友从四面八方开车过来,再加上老少爷们及老公家亲戚,有十来桌左右!
老公早上十点多放的烟花,让本庄的人知道可以去了,谁知道到了酒店,他们有的都到了!
大家坐到桌上,推杯交盏,谈笑风声,喝得那叫一个欢乐,最厉害的一桌十来人喝了九斤古井5年!
我和老公都忙得没咋吃菜,一开始把客人迎来安排好,刚坐上吃几口,莱都快上完了,然后安排孩子去敬酒,刚敬完,看到有的客人准备走了,连忙拿出纪念品糖袋发给大家!
陆陆续续把大家送走,有些朋友好久没见,也没多叙一会!没时间沟通呀!最后还剩一桌老少爷们,喝得走路直晃,连忙安排人把他们送回家!怕他们回家不安全呀!现在喝酒出事的也不少呀!
好吧!客走主安,把最后一批客人送完好,我终于美美地睡了一觉!那睡后的感觉!一个字!爽!