随着企业发展,各个业务系统中数据会越来越多,这样如何处理才能有效的进行大数据分析呢?做大数据据时需要对数据做什么处理呢?数据的采集:首先必须对所需数据源的数据进行抽取和集成,从中提取出数据的实体和关系,经过关联和聚合之后采用统一定义的结构来存储这些数据。

大数据开发主要做哪些工作?

大数据开发主要做哪些工作

大家好,我是Lake,专注大数据技术、程序员经验、互联网科技见解分享。作为一个软件工程师,我个人目前从事的就是大数据方向。目前大数据可以分成很多具体的方向:大数据平台开发、大数据分析师(BI)、大数据运维、大数据处理(ETL)、大数据组件开发(偏大数据组件底层)。不同的工作方向,其工作内容还是有一定差异的,下面我来说下不同工作岗位具体的工作内容:大数据平台开发更偏向对整体数据平台功能性开发,比如离线计算平台、实时计算平台、算法推荐平台等等。

平时用的较多的语言是Java,其更偏向于Java开发。如果用户是上层用户,大数据相关组件作为最低层,大数据平台就桥接着用户和大数据组件,方便用户使用大数据组件的功能。大数据分析师(BI同学)更多的是对我们已有的线上数据进行价值分析,从相关的线上用户所产生的数据中,发现出一些潜在的商业价值,能够更好的去辅助决策层的战略决定。

BI需要对数据敏感、细心,善于从数据中发现业务价值,平常很多工作就是数据可视化、简单化、深入化、PPT化。大数据运维同学主要是保障公司相关机器集群的稳定,使得它们不能出现故障。当申请到新的机器时,会在新机器上面部署各种大数据组件组成的集群。同样,当有业务同学需要用到机器时,可以给大数据运维同学提需求。

当大数据组件集群突然因为什么变得集群不稳定时,运维同学需要去定位问题和解决问题,运维同学平时用的较多的Linux Shell脚本和命令行等,其职位更偏向于为其他同学提供机器稳定保障。ETL同学(数仓同学)则是对我们的线上数据进行数据加工,形成DWD层(公共明细层)、DWS层(公共汇总层),形成统一的指标口径。

ETL同学会根据不同的业务需求,一般使用SQL进行数据指标的加工,指导业务同学更好的运营相关业务。同时ETL同学更关注业务指标的口径,在指标开发的过程中,使用数仓模型对业务数据进行建模,便于开发的指标数据更加统一,减少口径偏差。大数据组件开发,更多的是结合公司业务,对大数据基础组件进行定制化开发、性能优化、BUG修复等等。

 1/5   上一页 1 2 3 4 5 下一页 尾页

文章TAG:数据处理  学会  数据  学会这样做数据处理  数据可以做哪些处理  
下一篇