Hadoop搭建之WordCount程序

Hadoop环境需要

实验一中已经搭好了hadoop,部署模式是完全分布式,一个namenode,三个datanode。之前已经用JPS查看进程,已经搭好,现在再检查下是否搭建成功:

在浏览器中输入ma:50070,可以查看详细情况:

图中显示3个livenodes,说明三个datanode正常启动。

输入ma:50090可以查看辅助名称节点,不过这里没有配置。

输入ma:8088可以查看集群工作状况:

至此,hadoop环境一切正常,然后进行下一步的Wordcount实例,也是hadoop里的“Hello World”

在本机上新建一个文件夹/input

简单命令sudo mkdir ~/input

然后新建一个文件 sudo touch~/input/Di_Liu.txt

添加以下内容到文本中:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
------------------------------------------------------------
DiLiu
Newdee
HelloWorld
HelloHadoop
------------------------------------------------------------
Yousay you love rain,
butyou use an umbrella to walk under it.
Yousay you love sun,
butyou seek shade when it is shining.
Yousay you love wind,
butwhen it comes you close your window.
Sothat's why I'm scared when you say you love me
------------------------------------------------------------

1
sudo gedit ~/input/Di_liu.txt

上传

先在集群上新建一个input文件夹

1
hadoop fsmkdir /input

现在可以再ma:50070上看到已经创建的文件夹,刷新即可。

将本地文件上传至云端

1
hadoop fs –put ~/.input/Di_liu.txt/input

在网页上再次刷新,即可看到上传的文档

启动Wordcount

1
hadoopjar /usr/soft/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jarwordcount /input /output

查看结果

运行完成后。再次刷新网页。可以发现多了两个文件夹

进入/output目录下,查看单词计数的结果:

点击part-r-00000,下载,打开即可。

至此,单词计数程序已经完成。

分享
匿名评论