大数据怎么学?对大数据开发领域及岗位的详细解读,完整理解大数据开发领域技术体系

· 浏览次数 : 0

小编点评

1. 大数据岗位主要分为三大方向: 1.1 数据平台开发工程师侧重后端开发,包括Hadoop、flink、spark等技术; 1.2 数据仓库工程师侧重数据建模、数据治理、业务数据分析; 1.3 数据分析工程师侧重数据分析、数据挖掘等技术。 2. 大数据开发人员需要具备以下能力: 2.1 数据平台开发工程师更像后端开发,技术领域偏向大数据领域开发组件; 2.2 数据仓库工程师拥有完善的数据建模理论体系知识; 2.3 数据分析工程师更像业务人员,需要具备数据分析工具使用能力、业务数据需求理解和良好沟通、数据挖掘能力等。 3. 大数据技术体系包含以下部分: 3.1 按功能划分离线大数据体系离线数据开发过程中的技术、组件以及理论体系; 3.2 按技术体系划分Java基础,并发及虚拟机理解; 3.3大数据组件部分(离线+实时)大数据体系的组件Hadoop,Hive,Hbase,Kafka,Spark,Flink等的应用,优化,理论,底层原码等等。

正文

经常有小伙伴和我咨询大数据怎么学,我觉得有必要写一下关于大数据开发的具体方向,下次就不用苦哈哈的打字回复了。直接回复文章。

1.大数据岗位划分

我们通常说的大数据开发主要分为三大方向:

1.1数据平台开发工程师

主要从事后端开发,结合Hadoop,flink,spark等做二次开发,基于底层框架开发自己公司定制化的大数据产品,保障公司大数据技术平台的功能完整性和可用性,侧重Java等程序语言的后端开发能力以及对框架的了解。

1.2数据仓库工程师

主要从事数据建模,数据质量建设,数据治理,构建业务体系需要的数据等工作。侧重对数仓数据流转过程的理解以及SQL能力,还有使用程序语言处理数据的能力。例如java,scala,python,R等。

需要工程师对大数据生态各种组件有更多的了解和使用经验,尤其对数据仓库组件要有使用调优的能力。

1.3数据分析工程师

基于业务做一些数据分析以及数据挖掘的工具,技术要求是重度SQL使用者,Python各种分析库的使用,设置还需要具备数据挖掘能力。统计学相关的知识对该岗位有很大帮助。

要求工程师具备数据分析,理解数据价值的能力。

2.对应需要具备的能力

理解了大数据开发的三条链路,我们再来理解作为一个大数据行业的开发人员,我们要具备什么能力。

2.1数据平台开发工程师

数据平台开发工程师该岗更像是一个完全的后端开发,只不过技术领域范围更偏向于大数据领域的开发组件一些。完全可以按后端工程师的技术链路进行学习和提升自己。

2.2数据仓库工程师

数据仓库工程师是一个核心。在这块不同公司对数仓有着不同的要求。但整体汇总下来,无非以下几个方面。

  • 对整个数据流转链路有这深刻的认知,并且具有完善的数据建模理论体系知识
  • 优秀的数据处理能力,包括但不限于Hadoop生态,Spark生态,Flink生态的数据处理和优化能力。
  • 具备良好的技术选型能力,包括从数据集成,数据存储,数据计算,到数据应用侧的组件技术选型。
  • 具备数据治理能力,对数据链路的数据质量以及数据风险等有全面认知,能够提出并执行数据治理方案,保障公司的数据质量和数据成本及数据安全等。

如果以上四个方面,都自认为已经达到了不错的能力,那么作为个人来说,可能就已经是一个合格的高级数据仓库工程师了。

2.3数据分析工程师

针对数据分析工程师的要求,更像是对一个完全业务人员的要求,甚至有些企业会将该岗位进一步细分为商业数据分析师(商分)和数据产品经理(数据产品)来进行更详细的差异化要求。

数据分析工程师概括性的应该具备以下几个方面的能力。

  • 良好的数据分析工具使用能力,一般指各种SQL以及Python等。
  • 丰富的数据分析方法和算法理论知识,一般指统计学上的各种理论知识。
  • 业务敏感,业务数据需求理解和良好沟通。
  • 具有分析报告撰写和提出解决方案的能力。
  • 具备一定的数据挖掘能力,能够支持更进一步的数据分析和数据预测。

以上五个方面层层递增,同样,如果满足该五个方面的能力,那么对个人来说,已经是一个合格的高级数据分析工程师了。

整体来说,技术属性这三个岗位是逐层递减的,入门难度也是逐层递减的。

但是在高级开发的层面又不分你我了。

以上为整个大数据类岗位发展详细解释。大数据运维岗,那又是另一个故事了。

3.大数据技术体系

整个大数据技术体系又分为哪些部分呢?

3.1按功能划分

  • 离线大数据体系

离线数据开发过程中的技术,组件以及理论体系

  • 实时大数据体系

实时数据开发过程中的技术,组件以及理论体系

  • 常见OLAP数据库

数据分析领域的技术应用

  • 数据湖

数据湖完整解决方案

3.2按技术体系划分

  • Java基础,并发及虚拟机

理解这部分是因为大数据很多组件都是和java密不可分的,报错信息里充满了Java的相关知识。

  • 大数据组件部分(离线+实时)

大数据体系的组件Hadoop,Hive,Hbase,Kafka,Spark,Flink等的应用,优化,理论,底层原码等等。

  • 离线数仓和实时数仓建设

离线数仓和实时数仓理论,建模经验,优化方案

  • 调度系统,OneData理论

构建完整的调度体系,数据一体化理论。

  • 常见的OLAP数据库

数据分析领域的技术应用

  • 数据湖

数据湖完整解决方案

  • 数据治理知识体系

数据治理相关知识。

以上,本期全部内容。

感谢阅读。

按例,欢迎点击此处关注我的个人公众号,交流更多知识。

与大数据怎么学?对大数据开发领域及岗位的详细解读,完整理解大数据开发领域技术体系相似的内容:

大数据怎么学?对大数据开发领域及岗位的详细解读,完整理解大数据开发领域技术体系

经常有小伙伴和我咨询大数据怎么学,我觉得有必要写一下关于大数据开发的具体方向,下次就不用苦哈哈的打字回复了。直接回复文章。 1.大数据岗位划分 我们通常说的大数据开发主要分为三大方向: 1.1数据平台开发工程师 主要从事后端开发,结合Hadoop,flink,spark等做二次开发,基于底层框架开发

如何在移动端数据可视化大屏实现分析?

本文由葡萄城技术团队于博客园原创并首发转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具、解决方案和服务,赋能开发者。 项目想做数据可视化,想同时在PC端、手机端查看数据怎么办?业务主要关心的数据包括:销售数据、业绩达成、同比、环比,各产品销售情况及潜客商机、未来收入预测等数据,最好附加人

MYSQL中怎么查询LONGBLOB类型数据的大小

在MySQL中,LONGBLOB 是一种二进制大对象(BLOB)数据类型,用于存储大量的二进制数据。但是,LONGBLOB 数据类型本身并不直接存储数据的大小(长度)。它存储的是二进制数据的实际内容。 1.查询 LONGBLOB 字段中的数据大小的方法示例 要查询 LONGBLOB 字段中的数据大小

[大数据][机器学习]之Model Card(模型卡片)介绍

每当我们在公有云或者私有云发布训练好的大数据模型,为了方便大家辨识、理解和运用,参照huggingface所制定的标准制作一个Model Card展示页,是种非常好的模型展示和组织形式。 下面就是一个Model Card 的示例,我试着把它翻译成了中文,源网址,并且提供了Markdown的模板,供大

大数据面试SQL每日一题系列:最高峰同时在线主播人数。字节,快手等大厂高频面试题

大数据面试SQL每日一题系列:最高峰同时在线主播人数。字节,快手等大厂高频面试题 之后会不定期更新每日一题sql系列。 SQL面试题每日一题系列内容均来自于网络以及实际使用情况收集,如有雷同,纯属巧合。 1.题目 问题1:如下为某直播平台各主播的开播及关播时间数据明细,现在需要计算该平台最高峰期同时

孙荣辛|大数据穿针引线进阶必看——Google经典大数据知识

大数据技术的发展是一个非常典型的技术工程的发展过程,荣辛通过对于谷歌经典论文的盘点,希望可以帮助工程师们看到技术的探索、选择过程,以及最终历史告诉我们什么是正确的选择。 何为大数据 “大数据”这个名字流行起来到现在,差不多已经有十年时间了。在这十年里,不同的人都按照自己的需要给大数据编出了自己的解释

大数据-数据仓库-实时数仓架构分析

![image](https://img2023.cnblogs.com/blog/80824/202211/80824-20221128173125005-1682211493.png) ![image](https://img2023.cnblogs.com/blog/80824/202211/

大数据-业务数据采集-FlinkCDC

CDC CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。 CDC 的种类 CDC 主要分为基于查询和基于 Binl

大数据-业务数据采集-FlinkCDC DebeziumSourceFunction via the 'serverTimezone' configuration property

Caused by: org.apache.kafka.connect.errors.ConnectException: Error reading MySQL variables: The server time zone value '�й���׼ʱ��' is unrecognized or

大数据-业务数据采集-FlinkCDC The MySQL server is not configured to use a ROW binlog_format

Caused by: org.apache.kafka.connect.errors.ConnectException: The MySQL server is not configured to use a ROW binlog_format, which is required for this