没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
Hadoop 实战之 Hadoop 完全分布式集群安装
日期: 2012-12-03]
来源: blog.csdn.net/ab198604 作者: ab198604
要想深入的学习 Hadoop 数据分析技术, 首要的任务是必须要将 hadoop 集群环境搭建起来,
可以将 hadoop 简化地想象成一个小软件,通过在各个物理节点上安装这个小软件, 然后将
其运行起来,就是一个 hadoop 分布式集群了。
说来简单, 但是应该怎么做呢?不急, 本文的主要目的就是让新手看了之后也能够亲自动手
实施这些过程。 由于本人资金不充裕, 只能通过虚拟机来实施模拟集群环境, 虽然说是虚机
模拟,但是在虚机上的 hadoop 的集群搭建过程也可以使用在实际的物理节点中,思想是一
样的。也如果你有充裕的资金,自己不介意烧钱买诸多电脑设备,这是最好不过的了。
也许有人想知道安装 hadoop 集群需要什么样的电脑配置,这里只针对虚拟机环境, 下面介
绍下我自己的情况:
CPU: Intel 酷睿双核 2.2Ghz
内存 : 4G
硬盘 : 320G
系统: xp
老实说,我的本本配置显然不够好,原配只有 2G 内存,但是安装 hadoop 集群时实在是很
让人崩溃, 本人亲身体验过后实在无法容忍, 所以后来再扩了 2G,虽然说性能还是不够好,
但是学习嘛, 目前这种配置还勉强可以满足学习要求, 如果你的硬件配置比这要高是最好不
过的了,如果能达到 8G,甚至 16G 内存,学习 hadoop 表示无任何压力。
说完电脑的硬件配置,下面说说本人安装 hadoop 的准备条件:
1 安装 Vmware WorkStation 软件
有些人会问,为何要安装这个软件, 这是一个 VM 公司提供的虚拟机工作平台,后面需要在
这个平台上安装 linux 操作系统。具体安装过程网上有很多资料,这里不作过多的说明。
2 在虚拟机上安装 linux 操作系统
在前一步的基础之上安装 linux 操作系统, 因为 hadoop 一般是运行在 linux 平台之上的, 虽
然现在也有 windows 版本,但是在 linux 上实施比较稳定,也不易出错,如果在 windows
安装 hadoop 集群,估计在安装过程中面对的各种问题会让人更加崩溃,其实我还没在 win
dows 上安装过,呵呵 ~
在虚拟机上安装的 linux 操作系统为 Ubuntu 10.04 ,这是我安装的系统版本,为什么我会使
用这个版本呢,很简单,因为我用的熟 ^_^ 其实用哪个 linux 系统都是可以的,比如,你可
以用 CentOS , RedHat , Fedora 等均可,完全没有问题。在虚拟机上安装 linux 的过程也在
此略过,如果不了解可以在网上搜搜,有许多这方面的资料。
3 准备 3 个虚拟机节点
其实这一步骤非常简单,如果你已经完成了第 2 步,此时你已经准备好了第一个虚拟节点,
那第二个和第三个虚拟机节点如何准备?可能你已经想明白了, 你可以按第 2 步的方法, 再
分别安装两遍 linux 系统,就分别实现了第二、三个虚拟机节点。不过这个过程估计会让你
很崩溃,其实还有一个更简单的方法,就是复制和粘贴,没错,就是在你刚安装好的第一个
虚拟机节点,将整个系统目录进行复制,形成第二和第三个虚拟机节点。简单吧! ~~
很多人也许会问,这三个结点有什么用,原理很简单,按照 hadoop 集群的基本要求,其中
一个是 master 结点,主要是用于运行 hadoop 程序中的 namenode 、secondorynamenode
和 jobtracker 任务。用外两个结点均为 slave 结点,其中一个是用于冗余目的,如果没有冗
余,就不能称之为 hadoop 了,所以模拟 hadoop 集群至少要有 3 个结点,如果电脑配置非
常高, 可以考虑增加一些其它的结点。 slave 结点主要将运行 hadoop 程序中的 datanode 和
tasktracker 任务。
所以,在准备好这 3 个结点之后,需要分别将 linux 系统的主机名重命名(因为前面是复制
和粘帖操作产生另两上结点,此时这 3 个结点的主机名是一样的),重命名主机名的方法:
Vim /etc/hostname
通过修改 hostname 文件即可,这三个点结均要修改,以示区分。
以下是我对三个结点的 ubuntu 系统主机分别命名为: master, node1, node2
基本条件准备好了,后面要干实事了,心急了吧,呵呵,别着急,只要跟着本人的思路,一
步一个脚印地,一定能成功布署安装好 hadoop 集群的。安装过程主要有以下几个步骤:
一、配置 hosts 文件
二、建立 hadoop 运行帐号
三、配置 ssh 免密码连入
四、下载并解压 hadoop 安装包
五、配置 namenode, 修改 site 文件
六、配置 hadoop-env.sh 文件
七、配置 masters 和 slaves 文件
八、向各节点复制 hadoop
九、格式化 namenode
十、启动 hadoop
十一、用 jps 检验各后台进程是否成功启动
十二、通过网站查看集群情况
一、 配置 hosts 文件
先简单说明下配置 hosts 文件的作用,它主要用于确定每个结点的 IP 地址,方便后续
master 结点能快速查到并访问各个结点。在上述 3 个虚机结点上均需要配置此文件。由于
需要确定每个结点的 IP地址,所以在配置 hosts 文件之前需要先查看当前虚机结点的 IP 地
址是多少,可以通过 ifconfig 命令进行查看,如本实验中, master 结点的 IP 地址为:
如果 IP 地址不对,可以通过 ifconfig 命令更改结点的物理 IP 地址,示例如下:
通过上面命令可以将 IP改为 192.168.1.100。将每个结点的 IP 地址设置完成后,就可以配置
hosts 文件了, hosts 文件路径为 ;/etc/hosts ,我的 hosts 文件配置如下, 大家可以参考自己的
IP 地址以及相应的主机名完成配置
剩余16页未读,继续阅读
资源评论
ll17770603473
- 粉丝: 0
- 资源: 6万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 2025继续教育公需课必修课试题(含答案).pptx
- 2025健康知识竞赛题库(含答案).pptx
- 2025继续教育考试题(含答案).pptx
- 公司中高层管理人员薪酬管理方案.doc
- 公司董事、高级管理人员薪酬考核制度.doc
- 高管人员薪酬方案.doc
- 高管薪酬管理制度.doc
- 高管薪酬设计方案.doc
- 中高层管理人员薪酬管理制度.doc
- 远大公司高层薪酬制度.doc
- 南航高管薪酬管理制度.docx
- 高级管理人员年薪制管理办法.docx
- 委派子公司高管绩效薪酬制度.docx
- 高管人员薪酬与绩效考核管理制度.docx
- 2025交管12123学法减分试题库(含参考答案).pptx
- 2025计算机网络技术考试题(含答案).doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功