成都大数据培训:大数据开源框架Hadoop HDFS

时间:2017-04-19 17:16来源:成都达内 作者:成都达内 点击:

  大数据开源框架有很多,比如Hadoop HDFS、Tachyon、KFS、Hadoop MapReduce、Spark等,不同任务用到的开源框架不同,本文为你介绍大数据开源框架Hadoop那些事。

  1.1 学会百度与Google

  不论遇到什么问题,先试试搜索并自己解决。

  Google首选,翻不过去的,就用百度吧。

  1.2 参考资料首选官方文档

  特别是对于入门来说,官方文档永远是首选文档。

  相信搞这块的大多是文化人,英文凑合就行,实在看不下去的,请参考第一步。

  1.3 先让Hadoop跑起来

  Hadoop可以算是大数据存储和计算的开山鼻祖,现在大多开源的大数据框架都依赖Hadoop或者与它能很好的兼容。

  关于Hadoop,你至少需要搞清楚以下是什么:

  Hadoop 1.0、Hadoop 2.0

  MapReduce、HDFS

  NameNode、DataNode

  JobTracker、TaskTracker

  Yarn、ResourceManager、NodeManager

  自己搭建Hadoop,请使用第一步和第二步,能让它跑起来就行。

  建议先使用安装包命令行安装,不要使用管理工具安装。

  另外:Hadoop1.0知道它就行了,现在都用Hadoop 2.0.

  1.4 试试使用Hadoop

  HDFS目录操作命令;

  上传、下载文件命令;

  提交运行MapReduce示例程序;

  打开Hadoop WEB界面,查看Job运行状态,查看Job运行日志。

  知道Hadoop的系统日志在哪里。

  1.5 你该了解它们的原理了

  MapReduce:如何分而治之;

  HDFS:数据到底在哪里,什么是副本;

  Yarn到底是什么,它能干什么;

  NameNode到底在干些什么;

  ResourceManager到底在干些什么;

  1.6 自己写一个MapReduce程序

  请仿照WordCount例子,自己写一个(照抄也行)WordCount程序,

  打包并提交到Hadoop运行。

  你不会Java?Shell、Python都可以,有个东西叫Hadoop Streaming。

  如果你认真完成了以上几步,恭喜你,你的一只脚已经进来了。

  成都it培训哪家好,当然是成都达内培训,成都达内是一家专业的程序员培训机构,专注于成都嵌入式培训,成都web前端培训,成都.NET培训,成都大数据培训,成都会计实操培训,成都IT培训,成都编程培训等IT培训,专业的成都软件培训机构,专业师资授课,真实项目实战、零首付、低押金、名企就业。

(责任编辑:成都达内)

CopyRight © 2002-2016 成都达内科技职业技能培训学校 (www.cdtedu.com) 版权所有 成都达内 川公网安备 51019002000307号 网站地图