大小、file3.txt、创建文件等

发布时间：2025-06-24 20:15:52 作者：北方职教升学中心阅读量：177

file4.abc和file5.abc这五个文件，并且这些文件有内容。

首先，使用vim编辑器，在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件myLocalFile.txt，里面可以随意输入一些单词，比如，输入如下三行：

Hadoop

Spark

XMU DBLAB

1. 然后，可以使用如下命令把本地文件系统的“/home/hadoop/myLocalFile.txt”上传到HDFS中的当前用户目录的input目录下，也就是上传到HDFS的“/user/hadoop/input/”目录下：
./bin/hdfs dfs -put /home/hadoop/myLocalFile.txt input

1. 可以使用ls命令查看一下文件是否成功上传到HDFS中，具体如下：
./bin/hdfs dfs -ls input
1. 该命令执行后会显示类似如下的信息：

Found 1 items

-rw-r--r-- 1 hadoop supergroup 36 2017-01-02 23:55 input/ myLocalFile.txt

1. 下面使用如下命令查看HDFS中的myLocalFile.txt这个文件的内容：
./bin/hdfs dfs -cat input/myLocalFile.txt

1. 下面把HDFS中的myLocalFile.txt文件下载到本地文件系统中的“/home/hadoop/下载/”这个目录下，命令如下：（我这里是“Downloads”不是“下载”）
./bin/hdfs dfs -get input/myLocalFile.txt /home/hadoop/下载
./bin/hdfs dfs -get input/myLocalFile.txt /home/hadoop/Downloads

1. 可以使用如下命令，到本地文件系统查看下载下来的文件myLocalFile.txt：
cd ~
cd 下载（Downloads）
ls
cat myLocalFile.txt

1. 最后，了解一下如何把文件从HDFS中的一个目录拷贝到HDFS中的另外一个目录。本教程全部采用hadoop用户登录Linux系统，因此，需要在HDFS中为hadoop用户创建一个用户目录，命令如下：
```
cd /usr/local/hadoop./bin/hdfs dfs -mkdir -p /user/hadoop
```
该命令中表示在HDFS中创建一个“/user/hadoop”目录
1. “–mkdir”是创建目录的操作，
2. “-p”表示如果是多级目录，则父目录和子目录一起创建，这里“/user/hadoop”就是一个多级目录，因此必须使用参数“-p”，否则会出错。
  为了编写一个能够与HDFS交互的Java应用程序，一般需要向Java工程中添加以下JAR包：
  （1）“/usr/local/hadoop/share/hadoop/common”目录下的所有JAR包，包括hadoop-common-3.1.3.jar、
3. 选择“File-->New-->Java Project”菜单，开始创建一个Java工程，会弹出如下图所示界面。可以看出，由于当前是采用hadoop用户登录了Linux系统，因此，默认的工作空间目录位于hadoop用户目录“/home/hadoop”下。大小、

1. 由于之前已经运行过一次程序，已经生成了merge.txt，因此，需要首先执行如下命令删除该文件：

cd /usr/local/hadoop./bin/hdfs dfs -rm /user/hadoop/merge.txt

1. 现在，就可以在Linux系统中，使用hadoop jar命令运行程序，命令如下：

cd /usr/local/hadoop./bin/hadoop jar ./myapp/HDFSExample.jar

1. 上面程序执行结束以后，可以到HDFS中查看生成的merge.txt文件，比如，可以在Linux终端中执行如下命令：

cd /usr/local/hadoop./bin/hdfs dfs -ls /user/hadoop./bin/hdfs dfs -cat /user/hadoop/merge.txt

可以看到如下结果：

this is file1.txt
this is file2.txt
this is file3.txt

[选做]完成HDFS的编程任务

利用Hadoop提供的Shell命令完成以下任务：

向HDFS中上传任意文本文件，如果指定的文件在HDFS中已经存在，由用户指定是追加到原有文件末尾还是覆盖原有的文件；

上传文件，如果文件已存在，使用-o选项覆盖，使用-a选项追加：

hdfs dfs -put -f merge.txt /user/hadoop/localfile/
hdfs dfs -appendToFile merge.txt /user/hadoop/localfile/merge.txt

从HDFS中下载指定文件，如果本地文件与要下载的文件名称相同，则自动对下载的文件重命名；

hdfs dfs -getmerge /user/hadoop/localfile/merge.txt ./

将HDFS中指定文件的内容输出到终端中；

使用cat命令：

hdfs dfs -cat /user/hadoop/localfile/merge.txt

显示HDFS中指定的文件的读写权限、sources和webapps），然后点击界面右下角的“确定”按钮，就可以把这两个JAR包增加到当前Java工程中，出现的界面如下图所示。大小、

（二）[选做]完成HDFS的编程任务

利用Hadoop提供的Shell命令完成以下任务：

向HDFS中上传任意文本文件，如果指定的文件在HDFS中已经存在，由用户指定是追加到原有文件末尾还是覆盖原有的文件；
从HDFS中下载指定文件，如果本地文件与要下载的文件名称相同，则自动对下载的文件重命名；
将HDFS中指定文件的内容输出到终端中；
显示HDFS中指定的文件的读写权限、file3.txt、

Apache Hadoop Main 3.4.1 API

利用Java API进行交互，需要利用软件Eclipse编写Java程序。haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar添加到当前的Java工程中，可以在界面中点击目录按钮，进入到common目录，然后，界面会显示出common目录下的所有内容（如下图所示）。最后解决：以 root 用户运行“xhost +”命令，允许所有用户连接到 X 服务器，然后切换回hadoop用户执行./eclipse命令
问题五：ResourceManager和NodeManager未启动
Ps:使用jps命令可以检查各个进程是否已经成功启动。在“Library handling”下面选择“Extract required libraries into generated JAR”。
打包过程结束后，也会出现一个警告信息界面，可以忽略该界面的信息，直接点击界面右下角的“OK”按钮。
使用mv命令：
hdfs dfs -mv /user/hadoop/file1.txt /user/hadoop/mvfile.txt
出现的问题：
1. Hadoop 的配置文件中未定义 HDFS_NAMENODE_USER、）
  删除HDFS中指定的文件；
  使用rm命令：
  hdfs dfs -rm /user/hadoop/merge.txt
  删除HDFS中指定的目录，由用户指定目录中如果存在文件时是否删除目录；
  如果目录不为空，需要使用-skipTrash选项和-R选项来强制删除：
  hdfs dfs -rm -r -skipTrash /user/hadoop/localfile
  在HDFS中，将文件从源路径移动到目的路径。
2. 可以直接采用默认的设置“/home/hadoop/workspace”，点击“OK”按钮。haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar（不要选中目录jdiff、
  - hadoop fs —— 适用于任何不同的文件系统，比如本地文件系统和HDFS文件系统
  - hadoop dfs —— 只能适用于HDFS文件系统
  - hdfs dfs —— 跟hadoop dfs的命令作用一样，也只能适用于HDFS文件系统
3. 我们可以在终端输入如下命令，查看fs总共支持了哪些命令：
```
./bin/hadoop fs
```

- - 查看具体某个命令的作用，比如：查看put命令如何使用
  - ```
  ./bin/hadoop fs -help put
```

1. 目录操作
  - 需要注意的是，Hadoop系统安装好以后，第一次使用HDFS时，需要首先在HDFS中创建用户目录。sources和webapps；
    （4）“/usr/local/hadoop/share/hadoop/hdfs/lib”目录下的所有JAR包。
    解决方法：
    1. 编辑 hadoop-env.sh 文件（/usr/local/hadoop/etc/hadoop/hadoop-env.sh）
    2. 在文件末尾添加以下几行：（把hdfs替换成实际使用的用户名——我替换成了hadoop，root没试过，也可以useradd一个hdfs用户）
    1. export HDFS_NAMENODE_USER=hdfs
    2. export HDFS_DATANODE_USER=hdfs
    3. export HDFS_SECONDARYNAMENODE_USER=hdfs
    1. 保存并关闭文件。file2.txt、创建时间、
      3、创建目录时，如果目录文件所在目录不存在则自动创建相应目录；删除目录时，由用户指定当该目录不为空时是否还删除该目录；
      1. 创建目录（如果父目录不存在会自动创建）：
      hdfs dfs -mkdir -p /user/hadoop/newDir/newDir2
      1. 删除目录，如果需要递归删除非空目录，使用-R选项：
      hdfs dfs -rmdir /user/hadoop/newDir/newDir2
      hdfs dfs -rm -r /user/hadoop/newDir
      向HDFS中指定的文件追加内容，由用户指定内容追加到原有文件的开头或结尾；
      使用appendToFile命令追加内容：
      hdfs dfs -appendToFile merge.txt /user/hadoop/localfile/merge.txt
      （要追加到文件开头，需要先拷贝到临时文件，修改临时文件内容，然后覆盖原文件，HDFS 不支持直接追加到文件开头。点击界面中的“Libraries”选项卡，然后，点击界面右侧的“Add External JARs…”按钮，会弹出如下图所示界面。实验目的
      （1）理解HDFS在Hadoop体系结构中的角色；
      （2）熟练使用HDFS操作常用的Shell命令；
      （3）熟悉HDFS操作常用的Java API。lib、通常，你会将这些目录的所有权设置为 hdfs（hadoop）用户和组。路径等信息；
    2. 给定HDFS中某一个目录，输出该目录下的所有文件的读写权限、
  ~/.bashrc文件内容：
  执行find / -name 'hadoop-env.sh'查找配置文件：
  1. 1. 如果文件不存在，您可以创建它并添加以下内容：
  export HADOOP_USER_NAME=hadoop
  1. 1. 确保HADOOP_USER_NAME的值是一个非root用户，该用户应该具备执行YARN相关操作的权限。
  2. 在该界面中，点击界面右下角的“OK”按钮，开始运行程序。WEB界面的访问地址是http://localhost:9870。DataNode 和 SecondaryNameNode 的用户。
  1. 执行./bin/hdfs dfs -ls的时候报错——错误信息：ls: '.': No such file or directory
  1. hdfs使用cp命令时发现input是个文件而不是目录
  1. hadoop用户执行./eclipse报错：拒绝连接
  1. ResourceManager和NodeManager未启动
  解决方案（列出遇到的问题和解决办法，列出没有解决的问题）：
  已解决的问题：
  问题一：Hadoop 的配置文件中未定义 HDFS_NAMENODE_USER、
2. 从这个界面中可以看出，hadoop-common-3.1.3.jar、上传和下载数据、
1. sudo chown -R hdfs:hdfs /usr/local/hadoop
2. sudo chown -R hadoop:hadoop /usr/local/hadoop
1. 重新启动 Hadoop 服务：
1. ./sbin/start-dfs.sh
问题二：执行./bin/hdfs dfs -ls的时候报错——错误信息：ls: '.': No such file or directory
解决方法：
执行su hadoop，从root用户切换到hadoop用户
问题三：hdfs使用cp命令时发现input是个文件而不是目录
解决方法：重命名或删除现有文件
# 删除现有的 /input 文件
./bin/hdfs dfs -rm /input
# 或者重命名现有的 /input 文件
./bin/hdfs dfs -mv /input /input_backup
然后重新创建 /input 目录并执行拷贝操作：
# 创建 /input 目录
./bin/hdfs dfs -mkdir -p /input
# 拷贝文件到 /input 目录
./bin/hdfs dfs -cp /user/hadoop/input/myLocalFile.txt /input/
# 删除现有的 /input 文件
./bin/hdfs dfs -rm /input
# 或者重命名现有的 /input 文件
./bin/hdfs dfs -mv /input /input_backup
然后重新创建 /input 目录并执行拷贝操作：
# 创建 /input 目录
./bin/hdfs dfs -mkdir -p /input
# 拷贝文件到 /input 目录
./bin/hdfs dfs -cp /user/hadoop/input/myLocalFile.txt /input/
问题四：作为hadoop用户直接执行./eclipse报错
解决方法：
1、创建时间、创建时间、如果文件所在目录不存在，则自动创建目录；
1. 使用-put命令上传文件：（实测做不到）：
hdfs dfs -put -p merge.txt /user/hadoop/targetdir/touchfile.txt
1. 删除文件：
hdfs dfs -rm /user/hadoop/localfile/merge.txt
提供一个HDFS的目录的路径，对该目录进行创建和删除操作。
设置正确的权限：确保 Hadoop 目录的所有权和权限正确。
在该界面中，只需要在“Name”后面输入新建的Java类文件的名称，这里采用名称“MergeFile”，其他都可以采用默认设置，然后，点击界面右下角“Finish”按钮，出现如下图所示界面。

4.实验报告

《大数据技术原理与应用》上机实验3报告
题目：	熟悉HDFS基本操作和编程实现	姓名	陈雪蕊	日期 2024.10.27
实验环境：操作系统：Linux Hadoop版本：2.6.0或以上版本 JDK版本：1.6或以上版本 Java IDE：Eclipse
实验内容与完成情况：按照博客中的方式： HDFS编程实践（Hadoop3.1.3）_厦大数据库实验室博客熟悉HDFS的命令操作、请在界面中用鼠标点击选中hadoop-common-3.1.3.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar，注意，不包括目录jdiff、执行如下命令： `cd /usr/local/hadoop./sbin/start-dfs.sh #启动hadoop` 利用Shell命令与HDFS进行交互： Hadoop支持很多Shell命令，其中fs是HDFS最常用的命令，利用fs可以查看HDFS文件系统的目录结构、如果程序运行成功，这时，可以到HDFS中查看生成的merge.txt文件，比如，可以在Linux终端中执行如下命令： `cd /usr/local/hadoop./bin/hdfs dfs -ls /user/hadoop./bin/hdfs dfs -cat /user/hadoop/merge.txt` 可以看到如下结果： this is file1.txt this is file2.txt this is file3.txt 应用程序的部署：下面介绍如何把Java应用程序生成JAR包，部署到Hadoop平台上运行。编写Java应用程序在Eclipse工作界面左侧的“Package Explorer”面板中（如下图所示），找到刚才创建好的工程名称“HDFSExample”，然后在该工程名称上点击鼠标右键，在弹出的菜单中选择“New-->Class”菜单。这些JAR包都位于Linux系统的Hadoop安装目录下，对于本教程而言，就是在“/usr/local/hadoop/share/hadoop”目录下。hadoop-common-3.1.3-tests.jar、在学习HDFS编程实践前，我们需要启动Hadoop（版本是Hadoop3.1.3）。然后，按照类似的操作方法，可以再次点击“Add External JARs…”按钮，把剩余的其他JAR包都添加进来。同时，“Console”面板中还会显示一些类似“log4j:WARN…”的警告信息，可以不用理会。如果要在HDFS的根目录下创建一个名称为input的目录，则需要使用如下命令： ./bin/hdfs dfs -mkdir /input 可以使用rm命令删除一个目录，比如，可以使用如下命令删除刚才在HDFS中创建的“/input”目录（不是“/user/hadoop/input”目录）： ./bin/hdfs dfs -rm -r /input 上面命令中，“-r”参数表示如果删除“/input”目录及其子目录下的所有内容，如果要删除的一个目录包含了子目录，则必须使用“-r”参数，否则会执行失败。当Eclipse启动以后，会弹出如下图所示界面，提示设置工作空间（workspace）。如果不存在，可以使用以下命令创建并添加内容，例如： `echo "This is file1" > file1.txtecho "This is file2" > file2.txtecho "This is file3" > file3.txtecho "This is file4" > file4.abcecho "This is file5" > file5.abc` 使用hdfs dfs -put命令将本地文件上传到HDFS的/user/hadoop目录下： `# 上传file1.txthadoop fs -put file1.txt /user/hadoop/# 上传file2.txthadoop fs -put file2.txt /user/hadoop/# 上传file3.txthadoop fs -put file3.txt /user/hadoop/# 上传file4.abchadoop fs -put file4.abc /user/hadoop/# 上传file5.abchadoop fs -put file5.abc /user/hadoop/` 验证文件是否成功上传： `hadoop fs -ls /user/hadoop` 现在就可以编译运行上面编写的代码。利用Java API与HDFS进行交互 Hadoop不同的文件系统之间通过调用Java API进行交互，上面介绍的Shell命令，本质上就是Java API的应用。安装Eclipse编程环境，熟悉编写HDFS功能代码，并打包成jar包运行。HDFS_DATANODE_USER 和 HDFS_SECONDARYNAMENODE_USER 环境变量。file3.txt、sources和webapps；（2）“/usr/local/hadoop/share/hadoop/common/lib”目录下的所有JAR包；（3）“/usr/local/hadoop/share/hadoop/hdfs”目录下的所有JAR包，注意，不包括目录jdiff、lib、为项目添加需要用到的JAR包需要在这个界面中加载该Java工程所需要用到的JAR包，这些JAR包中包含了可以访问HDFS的Java API。file2.txt、hadoop-common-3.1.3-tests.jar、file4.abc和file5.abc，每个文件里面有内容。路径等信息，如果该文件是目录，则递归输出该目录下所有文件相关信息；使用ls -R递归显示目录下所有文件的信息： hdfs dfs -ls -R /user/hadoop/localfile 提供一个HDFS内的文件的路径，对该文件进行创建和删除操作。在“Project name”后面输入工程名称“HDFSExample”，选中“Use default location”，让这个Java工程的所有文件都保存到“/home/hadoop/workspace/HDFSExample”目录下。“local”、验证配置：保存配置文件后，重新加载环境变量： source $HADOOP_HOME/etc/hadoop/hadoop-env.sh 重新启动YARN服务：进入Hadoop的sbin目录： cd /usr/local/hadoop/sbin 停止YARN服务：（切换到hadoop用户） ./stop-yarn.sh 启动YARN服务： ./start-yarn.sh 检查服务状态：再次使用jps命令检查ResourceManager和NodeManager是否已经成功启动： jps \| grep ResourceManager jps \| grep NodeManager 如果以上所有命令都输出结果，则说明ResourceManager和NodeManager已经成功启动。文件操作：在实际应用中，经常需要从本地文件系统向HDFS中上传文件，或者把HDFS中的文件下载到本地文件系统中。实验平台操作系统：Linux Hadoop版本：2.6.0或以上版本 JDK版本：1.6或以上版本 Java IDE：Eclipse 3、 “/user/hadoop”目录就成为hadoop用户对应的用户目录，可以使用如下命令显示HDFS中与当前用户hadoop对应的用户目录下的内容： `./bin/hdfs dfs -ls` . 该命令中，“-ls”表示列出HDFS某个目录下的所有内容，“.”表示HDFS中的当前用户目录，也就是“/user/hadoop”目录；因此，上面的命令和下面的命令是等价的： ./bin/hdfs dfs -ls /user/hadoop 列出HDFS上的所有目录：（Ubuntu要加/） ./bin/hdfs dfs -ls 创建一个input目录： ./bin/hdfs dfs -mkdir input 在创建个input目录时，采用了相对路径形式，实际上，这个input目录创建成功以后，它在HDFS中的完整路径是“/user/hadoop/input”。创建时间、实验内容和要求（一）按照博客中的方式： HDFS编程实践（Hadoop3.1.3）_厦大数据库实验室博客熟悉HDFS的命令操作、在“JRE”这个选项卡中，可以选择当前的Linux系统中已经安装好的JDK，比如jdk1.8.0_162。路径等信息；使用ls命令查看文件详细信息： hdfs dfs -ls /user/hadoop/localfile/merge.txt 给定HDFS中某一个目录，输出该目录下的所有文件的读写权限、未解决的问题：

全部添加完毕以后，就可以点击界面右下角的“Finish”按钮，完成Java工程HDFSExample的创建。然后，点击界面底部的“Next>”按钮，进入下一步的设置。

2、

在弹出的界面中，选择“Java-Runnable JAR file”，然后，点击“Next>”按钮。安装Eclipse编程环境，熟悉编写HDFS功能代码，并打包成jar包运行。路径等信息，如果该文件是目录，则递归输出该目录下所有文件相关信息；

提供一个HDFS内的文件的路径，对该文件进行创建和删除操作。比如，如果要把HDFS的“/user/hadoop/input/myLocalFile.txt”文件，拷贝到HDFS的另外一个目录“/input”中（注意，这个input目录位于HDFS根目录下），可以使用如下命令：

./bin/hdfs dfs -cp input/myLocalFile.txt /input/（这里加了个’/’）

利用Web界面管理HDFS
1. 打开Linux自带的Firefox浏览器，点击此链接HDFS的Web界面，即可看到HDFS的web管理界面。尝试失败：执行sudo ./eclipse命令，会提示JRE路径出错
  2、这些变量指定了运行 NameNode、下面提供了Hadoop官方的Hadoop API文档，想要深入学习Hadoop，可以访问如下网站，查看各个API的功能。
2. 注意: 教材《大数据技术原理与应用》的命令是以"./bin/hadoop dfs"开头的Shell命令方式，实际上有三种shell命令方式。hadoop-common-3.1.3-tests.jar、如果输出结果中包含以下信息，则说明相应的服务正在运行：
  jps | grep NameNode
  jps | grep DataNode
  jps | grep ResourceManager
  jps | grep NodeManager
  为了确保Hadoop集群正常运行，特别是对于MapReduce作业的执行，需要启动ResourceManager和NodeManager。HDFS_DATANODE_USER 和 HDFS_SECONDARYNAMENODE_USER 环境变量。在“Export destination”中需要设置JAR包要输出保存到哪个目录，比如，这里设置为“/usr/local/hadoop/myapp/HDFSExample.jar”。
  1. 1. 1. 在Eclipse中创建项目
        启动Eclipse。大小、file3.txt、创建文件等。file4.abc和file5.abc，这里需要从该目录中过滤出所有后缀名不为“.abc”的文件，对过滤之后的文件进行读取，并将这些文件的内容合并到文件“hdfs://localhost:9000/user/hadoop/merge.txt”中。lib、
        在Ubuntu中安装Eclipse
        压缩包下载到Windows之后拖拽放入Linux的~/Downloads/目录下
        解压到指定目录：
        cd ~/Downloads
        sudo tar -zxvf ./eclipse-4.7.0-linux.gtk.x86_64.tar.gz -C /usr/local
        执行如下命令启动Eclipse：
        cd /usr/local/eclipse
        ./eclipse （切换到root用户执行）
        使用Eclipse开发调试HDFS Java程序：
        现在要执行的任务是：假设在目录“hdfs://localhost:9000/user/hadoop”下面有几个文件，分别是file1.txt、需要注意的是，当需要选中某个目录下的所有JAR包时，可以使用“Ctrl+A”组合键进行全选操作。“share”、以下是启动这两个组件的步骤：
        启动ResourceManager和NodeManager：
        进入Hadoop目录：
        cd /usr/local/hadoop
        启动YARN服务：
        执行start-yarn.sh脚本来启动ResourceManager和NodeManager：
        ./sbin/start-yarn.sh
        需要设置YARN相关的环境变量：
        编辑配置文件：
        打开Hadoop的配置文件（通常位于/etc/hadoop/hadoop-env.sh或$HADOOP_HOME/etc/hadoop/hadoop-env.sh）。文件大小 System.out.print("路径：" + sta.getPath() + " 文件大小：" + sta.getLen() + " 权限：" + sta.getPermission() + " 内容："); FSDataInputStream fsdis = fsSource.open(sta.getPath()); byte[] data = new byte[1024]; int read = -1; while ((read = fsdis.read(data)) > 0) { ps.write(data, 0, read); fsdos.write(data, 0, read); } fsdis.close(); } ps.close(); fsdos.close(); } public static void main(String[] args) throws IOException { MergeFile merge = new MergeFile( "hdfs://localhost:9000/user/hadoop/", "hdfs://localhost:9000/user/hadoop/merge.txt"); merge.doMerge(); }}
        编译运行程序
        在开始编译运行程序之前，请一定确保Hadoop已经启动运行，如果还没有启动，需要打开一个Linux终端，输入以下命令启动Hadoop：
        cd /usr/local/hadoop
        ./sbin/start-dfs.sh
        然后，要确保HDFS的“/user/hadoop”目录下已经存在file1.txt、
        实验3 熟悉HDFS基本操作和编程实现
        1、失败：切换成root用户后直接执行./eclipse
        但是后面代码编译会有问题，一直报错。这里，假设文件内容如下：
        file1.txt的内容是： this is file1.txt
        file2.txt的内容是： this is file2.txt
        file3.txt的内容是： this is file3.txt
        file4.abc的内容是： this is file4.abc
        file5.abc的内容是： this is file5.abc
        上传文件到HDFS：
        确保本地系统中存在file1.txt、
1. 1. 1. 1. 可以看出，Eclipse自动创建了一个名为“MergeFile.java”的源代码文件，请在该文件中输入以下代码：
```
import java.io.IOException;import java.io.PrintStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;/** * 过滤掉文件名满足特定条件的文件 */class MyPathFilter implements PathFilter {     String reg = null;     MyPathFilter(String reg) {          this.reg = reg;     }     public boolean accept(Path path) {        if (!(path.toString().matches(reg)))            return true;        return false;    }}/*** * 利用FSDataOutputStream和FSDataInputStream合并HDFS中的文件 */public class MergeFile {    Path inputPath = null; //待合并的文件所在的目录的路径    Path outputPath = null; //输出文件的路径    public MergeFile(String input, String output) {        this.inputPath = new Path(input);        this.outputPath = new Path(output);    }    public void doMerge() throws IOException {        Configuration conf = new Configuration();        conf.set("fs.defaultFS","hdfs://localhost:9000");          conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");        FileSystem fsSource = FileSystem.get(URI.create(inputPath.toString()), conf);        FileSystem fsDst = FileSystem.get(URI.create(outputPath.toString()), conf);                //下面过滤掉输入目录中后缀为.abc的文件        FileStatus[] sourceStatus = fsSource.listStatus(inputPath,                new MyPathFilter(".*\\.abc"));        FSDataOutputStream fsdos = fsDst.create(outputPath);        PrintStream ps = new PrintStream(System.out);        //下面分别读取过滤之后的每个文件的内容，并输出到同一个文件中        for (FileStatus sta : sourceStatus) {            //下面打印后缀不为.abc的文件的路径、“hadoop”和“common”），当点击某个目录按钮时，就会在下面列出该目录的内容。haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar已经被添加到当前Java工程中。
```
在该界面中，上面的一排目录按钮（即“usr”、
在弹出的界面中，“Launch configuration”用于设置生成的JAR包被部署启动时运行的主类，需要在下拉列表中选择刚才配置的类“MergeFile-HDFSExample”。如果文件所在目录不存在，则自动创建目录；
提供一个HDFS的目录的路径，对该目录进行创建和删除操作。大小、可以直接点击Eclipse工作界面上部的运行程序的快捷按钮，当把鼠标移动到该按钮上时，在弹出的菜单中选择“Run As”，继续在弹出来的菜单中选择“Java Application”，如下图所示。file2.txt、hadoop-common-3.1.3-tests.jar、程序运行结束后，会在底部的“Console”面板中显示运行结果信息（如下图所示）。比如，如果要把“/usr/local/hadoop/share/hadoop/common”目录下的hadoop-common-3.1.3.jar、可以到Linux系统中查看一下生成的HDFSExample.jar文件，可以在Linux的终端中执行如下命令：

cd /usr/local/hadoop/myappls

1. 可以看到，“/usr/local/hadoop/myapp”目录下已经存在一个HDFSExample.jar文件。创建目录时，如果目录文件所在目录不存在则自动创建相应目录；删除目录时，由用户指定当该目录不为空时是否还删除该目录；
2. 向HDFS中指定的文件追加内容，由用户指定内容追加到原有文件的开头或结尾；
3. 删除HDFS中指定的文件；
4. 删除HDFS中指定的目录，由用户指定目录中如果存在文件时是否删除目录；
5. 在HDFS中，将文件从源路径移动到目的路径。首先，在Hadoop安装目录下新建一个名称为myapp的目录，用来存放我们自己编写的Hadoop应用程序，可以在Linux的终端中执行如下命令：
```
cd /usr/local/hadoopmkdir myapp
```
1. 1. 然后，请在Eclipse工作界面左侧的“Package Explorer”面板中，在工程名称“HDFSExample”上点击鼠标右键，在弹出的菜单中选择“Export”。然后，点击“Finish”按钮，会出现警告页面，可以忽略该界面的信息，直接点击界面右下角的“OK”按钮，启动打包过程。至此，已经顺利把HDFSExample工程打包生成了HDFSExample.jar。“hadoop”、

学生姓名：
男女
联系电话：
意向班型：
我是学生我是家长

咨询热线：	400-029-7969
咨询电话：	029-61855169 029-61855069
学校邮箱：	bfzx365@163.com
学校地址：	西安市雁塔区长安西路66号

大小、file3.txt、创建文件等

（二）[选做]完成HDFS的编程任务

4.实验报告

3、

（一）按照博客中的方式：

实验3 熟悉HDFS基本操作和编程实现