博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop学习
阅读量:6818 次
发布时间:2019-06-26

本文共 2536 字,大约阅读时间需要 8 分钟。

hot3.png

例子1: 统计一个文本文件里的单词数量

[hadoop@mylinux ~]$ cd hadoop-0.20.2/

[hadoop@mylinux hadoop-0.20.2]$ mkdir input   #在本地系统建立目录 input
[hadoop@mylinux hadoop-0.20.2]$ cd input       #进入input目录
[hadoop@mylinux input]$ vi file01                     #新建一个文件file01
hello hadoop 
this is first examples by huxin
hadoop
[hadoop@mylinux hadoop-0.20.2]$ cd
[hadoop@mylinux ~]$ cd hadoop-0.20.2/
[hadoop@mylinux hadoop-0.20.2]$ hadoop fs -mkdir input   在hadoop文件系统中建立目录input,注意和上面的本地系统目录input区分开
[hadoop@mylinux hadoop-0.20.2]$ hadoop fs -put ./input/file01 input   #将本地的file01放进hadoop文件系统的目录中
[hadoop@mylinux hadoop-0.20.2]$ hadoop fs -ls input
Found 1 items
-rw-r--r--   1 hadoop supergroup         54 2011-06-22 19:25 /user/hadoop/input/file01
[hadoop@mylinux hadoop-0.20.2]$ hadoop jar hadoop-0.20.2-examples.jar wordcount input  output #对hadoop文件系统进行count单词数,完成后自动生成一个output目录
[hadoop@mylinux hadoop-0.20.2]$ hadoop fs -ls output
Found 2 items
drwxr-xr-x   - hadoop supergroup          0 2011-06-22 19:26 /user/hadoop/output/_logs
-rw-r--r--   1 hadoop supergroup         61 2011-06-22 19:26 /user/hadoop/output/part-r-00000
[hadoop@mylinux hadoop-0.20.2]$ hadoop fs -cat output/part-r-00000   #查看part-r-00000
by      1
examples        1
first   1
hadoop  2
hello   1
huxin   1
is      1
this    1
-----------------------
Done!

 

Wordcount源码是在src/examples/org/apache/hadoop/examples/WordCount.java这里。

下面我们来手动编译和执行一遍这段原代码吧:
[hadoop@mylinux ~]$ cd hadoop-0.20.2/
[hadoop@mylinux hadoop-0.20.2]$ mkdir playground
[hadoop@mylinux hadoop-0.20.2] $mkdir playground/src
[hadoop@mylinux hadoop-0.20.2]$ mkdir playground/classes
[hadoop@mylinux hadoop-0.20.2]$ cp src/examples/org/apache/hadoop/examples/WordCount.java  playground/src/WordCount.java
[[hadoop@mylinux hadoop-0.20.2]$ javac -classpath hadoop-0.20.2-core.jar:lib/commons-cli-1.2.jar -d playground/classes/ playground/src/WordCount.java
[hadoop@mylinux hadoop-0.20.2]$ jar -cvf playground/wordcount.jar -C playground/classes/ .
[hadoop@mylinux hadoop-0.20.2]$ hadoop fs -rmr output  #记得先删除前面我们建立过的output目录
Deleted hdfs://master:9000/user/hadoop/output
[hadoop@mylinux hadoop-0.20.2]$ hadoop jar playground/wordcount.jar org.apache.hadoop.examples.WordCount input output
[hadoop@mylinux hadoop-0.20.2]$ hadoop fs -ls output
Found 2 items
drwxr-xr-x   - hadoop supergroup          0 2011-06-22 19:55 /user/hadoop/output/_logs
-rw-r--r--   1 hadoop supergroup         61 2011-06-22 19:55 /user/hadoop/output/part-r-00000
[hadoop@mylinux hadoop-0.20.2]$ hadoop fs -cat output/part-r-00000   #查看part-r-00000
by      1
examples        1
first   1
hadoop  2
hello   1
huxin   1
is      1
this    1
-----
done

转载于:https://my.oschina.net/u/154922/blog/24552

你可能感兴趣的文章
teacher forcing
查看>>
Linux命令小记
查看>>
基于ROS和beaglebone的串口通信方式,使用键盘控制移动机器人
查看>>
android.view.WindowLeaked的解决办法
查看>>
存储过程的笔记
查看>>
OpenCV学习(27) 直方图(4)
查看>>
深度学习原理与框架-Tensorflow基本操作-实现线性拟合
查看>>
[leetcode-168-Excel Sheet Column Title]
查看>>
SpringBoot和数据库连接
查看>>
二叉搜索树
查看>>
网页小技巧-360doc个人图书馆复制文字
查看>>
delete删除-some
查看>>
maven阿里云中央仓库
查看>>
15.12.14listbox列表框
查看>>
sql 行转列
查看>>
(转)Python新手写出漂亮的爬虫代码1——从html获取信息
查看>>
配置Nim的默认编译参数 release build并运行
查看>>
图片下载
查看>>
《构建之法》第四章读后感
查看>>
python os.path.dirname()
查看>>