架构经常被人们认为是比较难的技术,因此听到架构和架构师就认为是很牛薪资很高的人,这种技术往往让人望而却步!其实架构技术并没有大家认为的那么难,并且,架构师是程序员们职业晋升的一个目标,需要自己不断努力去达成。
同时大数据平台架构和传统的数据架构有所不同,和传统的数据仓库更加类似,概念上想通,分别为数据集层、数据处理层、数据分析层、数据访问层及应用层。要学会大数据平台架构,先要了解一下不同技术组件的含义以及技术点等,达内成都大数据培训小编这里就来给大家分享一下!
1、数据采集层是基础:既包括传统的ETL离线采集、也有实时采集、互联网爬虫解析等等。
离线批量采集,采用的是HADOOP,这个已经成为当前流线采集的主流引擎了,基于这个平台,需要部署数据采集应用或工具。
实时采集现在也成了大数据平台的标配,估计主流就是FLUME+KAFKA,然后结合流处理+内存数据库吧,这个技术肯定靠谱,但这类开源的东西好是好,但一旦出现问题往往解决周期往往比较长。
2、数据处理层:根据数据处理场景要求不同,可以划分为HADOOP、MPP、流处理等等。
Hadoop的HIVE是传统数据仓库的一种分布式替代。应用在传统ETL中的数据的清洗、过滤、转化及直接汇总等场景很适合,数据量越大,它的性价比越高。但目前为止看,其支撑的数据分析场景也是有限的, 简单的离线的海量分析计算是它所擅长的,相对应的,复杂的关联交叉运算其速度很慢。
3、数据分析层:主要包含了分析引擎,比如数据挖掘、机器学习、 深度学习等。
先谈谈语言,R和Python是当前数据挖掘开源领域的一对基友,如果要说取舍,笔者真说不出来,感觉Python更偏向工程一点,比如有对分词啥的直接支撑,R的绘图能力异常强大。但他们原来都以样本统计为主,因此大规模数据的支撑有限。
4、数据访问层:主要是实现读写分离,将偏向应用的查询等能力与计算能力剥离,包括实时查询、多维查询、常规查询等应用场景。
5、数据应用层:根据企业的特点不同划分不同类别的应用,比如针对运营商,对内有精准营销、客服投诉、基站分析等,对外有基于位置的客流、基于标签的广告应用等等。
每个企业应根据自己的实际规划自己的应用,其实搞应用蓝图很难,大数据架构越上层越不稳定,因为变化太快,以下是运营商对外变现当前阶段还算通用的一张应用规划图,供参考:
将大数据的平台架构拆分成一个一个知识点,这样看起来其实就会简单很多,而想要学会大数据平台架构,大家就需要攻克这些知识点,达内成都大数据培训机构9月免费训练营为你精心打造入门课程,掌握大数据技术,先从基础开始,活动免费,名额有限,先到先得!
版权声明:文章和图片均来自公开网络,版权归作者本人所有,推送文章除非无法确认,我们都会注明作者和来源。如果出处有误或侵犯到原作者权益,请与达内成都网站联系删除或授权事宜。