如何搭建大数据分析平台
本人为大数据技术员,可以分享一些心得体验给题主:
其实题主需要搞清楚以下几个问题,搞清楚了,其实问题的答案也就有了:
1、是从个人学习成长的角度想搭建平台自学?还是现在的公司需要大数据技术进行分析?——如果是从个人学习成长的角度,建议直接按照Hadoop或者Spark的官网教程安装即可,建议看官网(英文),在大数据技术领域,英语的掌握是非常重要的,因为涉及到组件选型、日后的安装、部署、运维,所有的任务运行信息、报错信息都是英文的,包括遇到问题的解答,所以还是非常重要的。如果是公司需要进行大数据分析,那么还要研究以下几个问题:为什么需要搭建大数据分析平台?要解决什么业务问题?需要什么样的分析?数据量有多少?是否有实时分析的需求?是否有BI报表的需求?——这里举一个典型的场景:公司之前采用Oracle或MySQL搭建的业务数据库,而且有简单的数据分析,或者可能采购了BI系统,就是直接用业务系统数据库进行支持的,现在随着数据量越来越大,那么就需要采用大数据技术进行扩容。
搞清楚需求之后,按照以下的步骤进行:
1、整体方案设计;整体方案设计时需要考虑的因素:数据量有多少:几百GB?几十TB?数据存储在哪里:存储在MySQL中?Oracle中?或其他数据库中?数据如何从现在的存储系统进入到大数据平台中?如何将结果数据写出到其他存储系统中?分析主题是什么:只有几个简单指标?还是说有很多统计指标,需要专门的人员去梳理,分组,并进行产品设计;是否需要搭建整体数仓?是否需要BI报表:业务人员有无操作BI的能力,或团队组成比较简单,不需要前后端人员投入,使用BI比较方便;是否需要实时计算?
2、组件选型;架构设计完成后就需要组件选型了,这时候最好是比较资深的架构师参与设计,选型包括:离线计算引擎:Hadoop、Spark、Tez……实时计算引擎:Storm、Flink、Samza、Spark Streaming……BI软件:Tableau、QlikView、帆软……
3、安装部署;选型完成后,就可以进行安装部署了,这部分其实是最简单的,直接按照每个组件的部署要求安装即可。
4、另一种选择:采用商用软件如果是企业需要搭建大数据平台,那么还有一种选择是直接采用商用的数据平台。市面上有很多成熟的商用大数据平台,Cloudera、星环、华为、亚信等等,都有对应的产品线,业内数据大咖袋鼠云就有一款非常优秀的大数据平台产品:数栈。主要有以下几个特点:
1.一站式。一站式数据开发产品体系,满足企业建设数据中台过程中的多样复杂需求。
2.兼容性强。支持对接多种计算引擎,使更多企业“半路上车”。
3.开箱即用。基于Web的图形化操作界面,开箱即用,快速上手。
4.性价比高。满足中小企业数据中台建设需求,降低企业投入成本。
多重随机标签