大小、file3.txt、创建文件等

发布时间:2025-06-24 20:15:52  作者:北方职教升学中心  阅读量:177


file4.abc和file5.abc这五个文件,并且这些文件有内容。

  • 首先,使用vim编辑器,在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件myLocalFile.txt,里面可以随意输入一些单词,比如,输入如下三行:
  • Hadoop

    Spark

    XMU DBLAB

      1. 然后,可以使用如下命令把本地文件系统的“/home/hadoop/myLocalFile.txt”上传到HDFS中的当前用户目录的input目录下,也就是上传到HDFS的“/user/hadoop/input/”目录下:
    1. ./bin/hdfs dfs -put /home/hadoop/myLocalFile.txt  input

      1. 可以使用ls命令查看一下文件是否成功上传到HDFS中,具体如下:
    1. ./bin/hdfs dfs -ls input
      1. 该命令执行后会显示类似如下的信息:

    Found 1 items   

    -rw-r--r--   1 hadoop supergroup         36 2017-01-02 23:55 input/ myLocalFile.txt

      1. 下面使用如下命令查看HDFS中的myLocalFile.txt这个文件的内容:
    1. ./bin/hdfs dfs -cat input/myLocalFile.txt

      1. 下面把HDFS中的myLocalFile.txt文件下载到本地文件系统中的“/home/hadoop/下载/”这个目录下,命令如下:(我这里是“Downloads”不是“下载”)
    1. ./bin/hdfs dfs -get input/myLocalFile.txt  /home/hadoop/下载
    2. ./bin/hdfs dfs -get input/myLocalFile.txt  /home/hadoop/Downloads

      1. 可以使用如下命令,到本地文件系统查看下载下来的文件myLocalFile.txt:
    1. cd ~
    2. cd 下载(Downloads)
    3. ls
    4. cat myLocalFile.txt

      1. 最后,了解一下如何把文件从HDFS中的一个目录拷贝到HDFS中的另外一个目录。本教程全部采用hadoop用户登录Linux系统,因此,需要在HDFS中为hadoop用户创建一个用户目录,命令如下:
        cd /usr/local/hadoop./bin/hdfs dfs -mkdir -p /user/hadoop

    1. 该命令中表示在HDFS中创建一个“/user/hadoop”目录
      1. “–mkdir”是创建目录的操作,
      2. “-p”表示如果是多级目录,则父目录和子目录一起创建,这里“/user/hadoop”就是一个多级目录,因此必须使用参数“-p”,否则会出错。
        为了编写一个能够与HDFS交互的Java应用程序,一般需要向Java工程中添加以下JAR包:
        (1)“/usr/local/hadoop/share/hadoop/common”目录下的所有JAR包,包括hadoop-common-3.1.3.jar、
      3. 选择“File-->New-->Java Project”菜单,开始创建一个Java工程,会弹出如下图所示界面。可以看出,由于当前是采用hadoop用户登录了Linux系统,因此,默认的工作空间目录位于hadoop用户目录“/home/hadoop”下。大小、

      1. 由于之前已经运行过一次程序,已经生成了merge.txt,因此,需要首先执行如下命令删除该文件:
    cd /usr/local/hadoop./bin/hdfs dfs -rm /user/hadoop/merge.txt

      1. 现在,就可以在Linux系统中,使用hadoop jar命令运行程序,命令如下:
    cd /usr/local/hadoop./bin/hadoop jar ./myapp/HDFSExample.jar
      1. 上面程序执行结束以后,可以到HDFS中查看生成的merge.txt文件,比如,可以在Linux终端中执行如下命令:
    cd /usr/local/hadoop./bin/hdfs dfs -ls /user/hadoop./bin/hdfs dfs -cat /user/hadoop/merge.txt

    可以看到如下结果:

    this is file1.txt

    this is file2.txt

    this is file3.txt

    • [选做]完成HDFS的编程任务

    利用Hadoop提供的Shell命令完成以下任务:

    向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件;

    上传文件,如果文件已存在,使用-o选项覆盖,使用-a选项追加:

    hdfs dfs -put -f merge.txt /user/hadoop/localfile/

    hdfs dfs -appendToFile merge.txt /user/hadoop/localfile/merge.txt

    从HDFS中下载指定文件,如果本地文件与要下载的文件名称相同,则自动对下载的文件重命名;

    hdfs dfs -getmerge /user/hadoop/localfile/merge.txt ./

    将HDFS中指定文件的内容输出到终端中;

    使用cat命令:

    hdfs dfs -cat /user/hadoop/localfile/merge.txt

    显示HDFS中指定的文件的读写权限、sources和webapps),然后点击界面右下角的“确定”按钮,就可以把这两个JAR包增加到当前Java工程中,出现的界面如下图所示。大小、

    (二)[选做]完成HDFS的编程任务

    1. 利用Hadoop提供的Shell命令完成以下任务:
    1. 向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件;
    2. 从HDFS中下载指定文件,如果本地文件与要下载的文件名称相同,则自动对下载的文件重命名;
    3. 将HDFS中指定文件的内容输出到终端中;
    4. 显示HDFS中指定的文件的读写权限、file3.txt、
    1. Apache Hadoop Main 3.4.1 API
      1. 利用Java API进行交互,需要利用软件Eclipse编写Java程序。haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar添加到当前的Java工程中,可以在界面中点击目录按钮,进入到common目录,然后,界面会显示出common目录下的所有内容(如下图所示)。最后解决:以 root 用户运行“xhost +”命令,允许所有用户连接到 X 服务器,然后切换回hadoop用户执行./eclipse命令

        问题五:ResourceManager和NodeManager未启动

        Ps:使用jps命令可以检查各个进程是否已经成功启动。在“Library handling”下面选择“Extract required libraries into generated JAR”。

      2. 打包过程结束后,也会出现一个警告信息界面,可以忽略该界面的信息,直接点击界面右下角的“OK”按钮。

        使用mv命令:

        hdfs dfs -mv /user/hadoop/file1.txt /user/hadoop/mvfile.txt

        出现的问题:

        1. Hadoop 的配置文件中未定义 HDFS_NAMENODE_USER、)

          删除HDFS中指定的文件;

          使用rm命令:

          hdfs dfs -rm /user/hadoop/merge.txt

          删除HDFS中指定的目录,由用户指定目录中如果存在文件时是否删除目录;

          如果目录不为空,需要使用-skipTrash选项和-R选项来强制删除:

          hdfs dfs -rm -r -skipTrash /user/hadoop/localfile

          在HDFS中,将文件从源路径移动到目的路径。

        2. 可以直接采用默认的设置“/home/hadoop/workspace”,点击“OK”按钮。haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar(不要选中目录jdiff、
          • hadoop fs —— 适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统
          • hadoop dfs —— 只能适用于HDFS文件系统
          • hdfs dfs —— 跟hadoop dfs的命令作用一样,也只能适用于HDFS文件系统
        3. 我们可以在终端输入如下命令,查看fs总共支持了哪些命令:
          ./bin/hadoop fs

          • 查看具体某个命令的作用,比如:查看put命令如何使用
          • ./bin/hadoop fs -help put

        1. 目录操作
          • 需要注意的是,Hadoop系统安装好以后,第一次使用HDFS时,需要首先在HDFS中创建用户目录。sources和webapps;
            (4)“/usr/local/hadoop/share/hadoop/hdfs/lib”目录下的所有JAR包。

            解决方法:

            1. 编辑 hadoop-env.sh 文件(/usr/local/hadoop/etc/hadoop/hadoop-env.sh)
            2. 在文件末尾添加以下几行:(把hdfs替换成实际使用的用户名——我替换成了hadoop,root没试过,也可以useradd一个hdfs用户)
            1. export HDFS_NAMENODE_USER=hdfs
            2. export HDFS_DATANODE_USER=hdfs
            3. export HDFS_SECONDARYNAMENODE_USER=hdfs

            1. 保存并关闭文件。file2.txt、创建时间、

              3、创建目录时,如果目录文件所在目录不存在则自动创建相应目录;删除目录时,由用户指定当该目录不为空时是否还删除该目录;

              1. 创建目录(如果父目录不存在会自动创建):

              hdfs dfs -mkdir -p /user/hadoop/newDir/newDir2

              1. 删除目录,如果需要递归删除非空目录,使用-R选项:

              hdfs dfs -rmdir /user/hadoop/newDir/newDir2

              hdfs dfs -rm -r /user/hadoop/newDir

              向HDFS中指定的文件追加内容,由用户指定内容追加到原有文件的开头或结尾;

              使用appendToFile命令追加内容:

              hdfs dfs -appendToFile merge.txt /user/hadoop/localfile/merge.txt

              (要追加到文件开头,需要先拷贝到临时文件,修改临时文件内容,然后覆盖原文件,HDFS 不支持直接追加到文件开头。点击界面中的“Libraries”选项卡,然后,点击界面右侧的“Add External JARs…”按钮,会弹出如下图所示界面。实验目的

              (1)理解HDFS在Hadoop体系结构中的角色;

              (2)熟练使用HDFS操作常用的Shell命令;

              (3)熟悉HDFS操作常用的Java API。lib、通常,你会将这些目录的所有权设置为 hdfs(hadoop) 用户和组。路径等信息;

            2. 给定HDFS中某一个目录,输出该目录下的所有文件的读写权限、

          ~/.bashrc文件内容:

          执行find / -name 'hadoop-env.sh'查找配置文件:

            1. 如果文件不存在,您可以创建它并添加以下内容:

          export HADOOP_USER_NAME=hadoop

            1. 确保HADOOP_USER_NAME的值是一个非root用户,该用户应该具备执行YARN相关操作的权限。
          1. 在该界面中,点击界面右下角的“OK”按钮,开始运行程序。WEB界面的访问地址是http://localhost:9870。DataNode 和 SecondaryNameNode 的用户。

          1. 执行./bin/hdfs dfs -ls的时候报错——错误信息:ls: '.': No such file or directory

          1. hdfs使用cp命令时发现input是个文件而不是目录

          1. hadoop用户执行./eclipse报错:拒绝连接

          1. ResourceManager和NodeManager未启动

          解决方案(列出遇到的问题和解决办法,列出没有解决的问题):

          已解决的问题:

          问题一:Hadoop 的配置文件中未定义 HDFS_NAMENODE_USER、

        2. 从这个界面中可以看出,hadoop-common-3.1.3.jar、上传和下载数据、
        1. sudo chown -R hdfs:hdfs /usr/local/hadoop
        2. sudo chown -R hadoop:hadoop /usr/local/hadoop
        1. 重新启动 Hadoop 服务:
        1. ./sbin/start-dfs.sh

        问题二:执行./bin/hdfs dfs -ls的时候报错——错误信息:ls: '.': No such file or directory

        解决方法:

        执行su hadoop,从root用户切换到hadoop用户

        问题三:hdfs使用cp命令时发现input是个文件而不是目录

        解决方法:重命名或删除现有文件

        # 删除现有的 /input 文件

        ./bin/hdfs dfs -rm /input

        # 或者重命名现有的 /input 文件

        ./bin/hdfs dfs -mv /input /input_backup

        然后重新创建 /input 目录并执行拷贝操作:

        # 创建 /input 目录

        ./bin/hdfs dfs -mkdir -p /input

        # 拷贝文件到 /input 目录

        ./bin/hdfs dfs -cp /user/hadoop/input/myLocalFile.txt /input/

        # 删除现有的 /input 文件

        ./bin/hdfs dfs -rm /input

        # 或者重命名现有的 /input 文件

        ./bin/hdfs dfs -mv /input /input_backup

        然后重新创建 /input 目录并执行拷贝操作:

        # 创建 /input 目录

        ./bin/hdfs dfs -mkdir -p /input

        # 拷贝文件到 /input 目录

        ./bin/hdfs dfs -cp /user/hadoop/input/myLocalFile.txt /input/

        问题四:作为hadoop用户直接执行./eclipse报错

        解决方法:

        1、创建时间、创建时间、如果文件所在目录不存在,则自动创建目录;

        1. 使用-put命令上传文件:(实测做不到):

        hdfs dfs -put -p merge.txt /user/hadoop/targetdir/touchfile.txt

        1. 删除文件:

        hdfs dfs -rm /user/hadoop/localfile/merge.txt

        提供一个HDFS的目录的路径,对该目录进行创建和删除操作。

      1. 设置正确的权限:确保 Hadoop 目录的所有权和权限正确。
      2. 在该界面中,只需要在“Name”后面输入新建的Java类文件的名称,这里采用名称“MergeFile”,其他都可以采用默认设置,然后,点击界面右下角“Finish”按钮,出现如下图所示界面。

      4.实验报告

      《大数据技术原理与应用》上机实验3报告

      题目:

      熟悉HDFS基本操作和编程实现

      姓名

      陈雪蕊

      日期

      2024.10.27

      实验环境:

      操作系统:Linux

      Hadoop版本:2.6.0或以上版本

      JDK版本:1.6或以上版本

      Java IDE:Eclipse

      实验内容与完成情况:

      • 按照博客中的方式:

      HDFS编程实践(Hadoop3.1.3)_厦大数据库实验室博客

      熟悉HDFS的命令操作、

              1. 请在界面中用鼠标点击选中hadoop-common-3.1.3.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar,注意,不包括目录jdiff、执行如下命令:
                cd /usr/local/hadoop./sbin/start-dfs.sh #启动hadoop

              1. 利用Shell命令与HDFS进行交互:
                1. Hadoop支持很多Shell命令,其中fs是HDFS最常用的命令,利用fs可以查看HDFS文件系统的目录结构、
                2. 如果程序运行成功,这时,可以到HDFS中查看生成的merge.txt文件,比如,可以在Linux终端中执行如下命令:
          cd /usr/local/hadoop./bin/hdfs dfs -ls /user/hadoop./bin/hdfs dfs -cat /user/hadoop/merge.txt

          可以看到如下结果:

          this is file1.txt

          this is file2.txt

          this is file3.txt

          1. 应用程序的部署:下面介绍如何把Java应用程序生成JAR包,部署到Hadoop平台上运行。

            1. 编写Java应用程序
              1. 在Eclipse工作界面左侧的“Package Explorer”面板中(如下图所示),找到刚才创建好的工程名称“HDFSExample”,然后在该工程名称上点击鼠标右键,在弹出的菜单中选择“New-->Class”菜单。这些JAR包都位于Linux系统的Hadoop安装目录下,对于本教程而言,就是在“/usr/local/hadoop/share/hadoop”目录下。hadoop-common-3.1.3-tests.jar、

                1. 在学习HDFS编程实践前,我们需要启动Hadoop(版本是Hadoop3.1.3)。然后,按照类似的操作方法,可以再次点击“Add External JARs…”按钮,把剩余的其他JAR包都添加进来。同时,“Console”面板中还会显示一些类似“log4j:WARN…”的警告信息,可以不用理会。如果要在HDFS的根目录下创建一个名称为input的目录,则需要使用如下命令:
            2. ./bin/hdfs dfs -mkdir /input

              • 可以使用rm命令删除一个目录,比如,可以使用如下命令删除刚才在HDFS中创建的“/input”目录(不是“/user/hadoop/input”目录):
          1. ./bin/hdfs dfs -rm -r /input
                1. 上面命令中,“-r”参数表示如果删除“/input”目录及其子目录下的所有内容,如果要删除的一个目录包含了子目录,则必须使用“-r”参数,否则会执行失败。当Eclipse启动以后,会弹出如下图所示界面,提示设置工作空间(workspace)。如果不存在,可以使用以下命令创建并添加内容,例如:

                  echo "This is file1" > file1.txtecho "This is file2" > file2.txtecho "This is file3" > file3.txtecho "This is file4" > file4.abcecho "This is file5" > file5.abc

                  使用hdfs dfs -put命令将本地文件上传到HDFS的/user/hadoop目录下:

                  # 上传file1.txthadoop fs -put file1.txt /user/hadoop/# 上传file2.txthadoop fs -put file2.txt /user/hadoop/# 上传file3.txthadoop fs -put file3.txt /user/hadoop/# 上传file4.abchadoop fs -put file4.abc /user/hadoop/# 上传file5.abchadoop fs -put file5.abc /user/hadoop/

                  验证文件是否成功上传:

                  hadoop fs -ls /user/hadoop

                          1. 现在就可以编译运行上面编写的代码。

                        1. 利用Java API与HDFS进行交互
                          1. Hadoop不同的文件系统之间通过调用Java API进行交互,上面介绍的Shell命令,本质上就是Java API的应用。安装Eclipse编程环境,熟悉编写HDFS功能代码,并打包成jar包运行。HDFS_DATANODE_USER 和 HDFS_SECONDARYNAMENODE_USER 环境变量。file3.txt、sources和webapps;
                            (2)“/usr/local/hadoop/share/hadoop/common/lib”目录下的所有JAR包;
                            (3)“/usr/local/hadoop/share/hadoop/hdfs”目录下的所有JAR包,注意,不包括目录jdiff、lib、

                        1. 为项目添加需要用到的JAR包
                          1. 需要在这个界面中加载该Java工程所需要用到的JAR包,这些JAR包中包含了可以访问HDFS的Java API。file2.txt、hadoop-common-3.1.3-tests.jar、file4.abc和file5.abc,每个文件里面有内容。路径等信息,如果该文件是目录,则递归输出该目录下所有文件相关信息;

                            使用ls -R递归显示目录下所有文件的信息:

                            hdfs dfs -ls -R /user/hadoop/localfile

                            提供一个HDFS内的文件的路径,对该文件进行创建和删除操作。

                          1. 在“Project name”后面输入工程名称“HDFSExample”,选中“Use default location”,让这个Java工程的所有文件都保存到“/home/hadoop/workspace/HDFSExample”目录下。“local”、

                        • 验证配置:
                          1. 保存配置文件后,重新加载环境变量:

                        source $HADOOP_HOME/etc/hadoop/hadoop-env.sh

                        • 重新启动YARN服务:
                          1. 进入Hadoop的sbin目录:
                          2. cd /usr/local/hadoop/sbin
                          3. 停止YARN服务:(切换到hadoop用户)
                          4. ./stop-yarn.sh
                          5. 启动YARN服务:
                          6. ./start-yarn.sh

                        1. 检查服务状态:再次使用jps命令检查ResourceManager和NodeManager是否已经成功启动:

                        jps | grep ResourceManager

                        jps | grep NodeManager

                        如果以上所有命令都输出结果,则说明ResourceManager和NodeManager已经成功启动。

                1. 文件操作:
                  1. 在实际应用中,经常需要从本地文件系统向HDFS中上传文件,或者把HDFS中的文件下载到本地文件系统中。实验平台

                    操作系统:Linux

                    Hadoop版本:2.6.0或以上版本

                    JDK版本:1.6或以上版本

                    Java IDE:Eclipse

                    3、

                  2. “/user/hadoop”目录就成为hadoop用户对应的用户目录,
                    • 可以使用如下命令显示HDFS中与当前用户hadoop对应的用户目录下的内容:
                      ./bin/hdfs dfs -ls
                       .

                      1. 该命令中,“-ls”表示列出HDFS某个目录下的所有内容,“.”表示HDFS中的当前用户目录,也就是“/user/hadoop”目录;
                      2. 因此,上面的命令和下面的命令是等价的:
                1. ./bin/hdfs dfs -ls /user/hadoop
                    • 列出HDFS上的所有目录:(Ubuntu要加/)
                1. ./bin/hdfs dfs -ls
                    • 创建一个input目录:
                1.  ./bin/hdfs dfs -mkdir input
                      1. 在创建个input目录时,采用了相对路径形式,实际上,这个input目录创建成功以后,它在HDFS中的完整路径是“/user/hadoop/input”。创建时间、实验内容和要求

                        (一)按照博客中的方式:

                        HDFS编程实践(Hadoop3.1.3)_厦大数据库实验室博客

                        熟悉HDFS的命令操作、在“JRE”这个选项卡中,可以选择当前的Linux系统中已经安装好的JDK,比如jdk1.8.0_162。路径等信息;

                        使用ls命令查看文件详细信息:

                        hdfs dfs -ls /user/hadoop/localfile/merge.txt

                        给定HDFS中某一个目录,输出该目录下的所有文件的读写权限、

                        未解决的问题:

    全部添加完毕以后,就可以点击界面右下角的“Finish”按钮,完成Java工程HDFSExample的创建。然后,点击界面底部的“Next>”按钮,进入下一步的设置。

    2、
  • 在弹出的界面中,选择“Java-Runnable JAR file”,然后,点击“Next>”按钮。安装Eclipse编程环境,熟悉编写HDFS功能代码,并打包成jar包运行。路径等信息,如果该文件是目录,则递归输出该目录下所有文件相关信息;
  • 提供一个HDFS内的文件的路径,对该文件进行创建和删除操作。比如,如果要把HDFS的“/user/hadoop/input/myLocalFile.txt”文件,拷贝到HDFS的另外一个目录“/input”中(注意,这个input目录位于HDFS根目录下),可以使用如下命令:
  • ./bin/hdfs dfs -cp input/myLocalFile.txt  /input/(这里加了个’/’)
    1. 利用Web界面管理HDFS
      1. 打开Linux自带的Firefox浏览器,点击此链接HDFS的Web界面,即可看到HDFS的web管理界面。尝试失败:执行sudo ./eclipse命令,会提示JRE路径出错

        2、这些变量指定了运行 NameNode、下面提供了Hadoop官方的Hadoop API文档,想要深入学习Hadoop,可以访问如下网站,查看各个API的功能。

      2. 注意: 教材《大数据技术原理与应用》的命令是以"./bin/hadoop dfs"开头的Shell命令方式,实际上有三种shell命令方式。hadoop-common-3.1.3-tests.jar、如果输出结果中包含以下信息,则说明相应的服务正在运行:

        jps | grep NameNode

        jps | grep DataNode

        jps | grep ResourceManager

        jps | grep NodeManager

        为了确保Hadoop集群正常运行,特别是对于MapReduce作业的执行,需要启动ResourceManager和NodeManager。HDFS_DATANODE_USER 和 HDFS_SECONDARYNAMENODE_USER 环境变量。在“Export destination”中需要设置JAR包要输出保存到哪个目录,比如,这里设置为“/usr/local/hadoop/myapp/HDFSExample.jar”。

              1. 在Eclipse中创建项目
                1. 启动Eclipse。大小、file3.txt、创建文件等。file4.abc和file5.abc,这里需要从该目录中过滤出所有后缀名不为“.abc”的文件,对过滤之后的文件进行读取,并将这些文件的内容合并到文件“hdfs://localhost:9000/user/hadoop/merge.txt”中。lib、
                  • 在Ubuntu中安装Eclipse
                    1. 压缩包下载到Windows之后拖拽放入Linux的~/Downloads/目录下

                    1. 解压到指定目录:

              cd ~/Downloads

              sudo tar -zxvf ./eclipse-4.7.0-linux.gtk.x86_64.tar.gz -C /usr/local

                    1. 执行如下命令启动Eclipse:

              cd /usr/local/eclipse

              ./eclipse (切换到root用户执行)

                  • 使用Eclipse开发调试HDFS Java程序:

              现在要执行的任务是:假设在目录“hdfs://localhost:9000/user/hadoop”下面有几个文件,分别是file1.txt、需要注意的是,当需要选中某个目录下的所有JAR包时,可以使用“Ctrl+A”组合键进行全选操作。“share”、以下是启动这两个组件的步骤:

              启动ResourceManager和NodeManager:

              1. 进入Hadoop目录:

              cd /usr/local/hadoop

              1. 启动YARN服务:
                1. 执行start-yarn.sh脚本来启动ResourceManager和NodeManager:

              ./sbin/start-yarn.sh

              需要设置YARN相关的环境变量:

              • 编辑配置文件:
                1. 打开Hadoop的配置文件(通常位于/etc/hadoop/hadoop-env.sh或$HADOOP_HOME/etc/hadoop/hadoop-env.sh)。文件大小            System.out.print("路径:" + sta.getPath() + "    文件大小:" + sta.getLen()                    + "   权限:" + sta.getPermission() + "   内容:");            FSDataInputStream fsdis = fsSource.open(sta.getPath());            byte[] data = new byte[1024];            int read = -1;            while ((read = fsdis.read(data)) > 0) {                ps.write(data, 0, read);                fsdos.write(data, 0, read);            }            fsdis.close();                  }        ps.close();        fsdos.close();    }    public static void main(String[] args) throws IOException {        MergeFile merge = new MergeFile(                "hdfs://localhost:9000/user/hadoop/",                "hdfs://localhost:9000/user/hadoop/merge.txt");        merge.doMerge();    }}
                        1. 编译运行程序
                          1. 在开始编译运行程序之前,请一定确保Hadoop已经启动运行,如果还没有启动,需要打开一个Linux终端,输入以下命令启动Hadoop:

                  cd /usr/local/hadoop

                  ./sbin/start-dfs.sh

                          1. 然后,要确保HDFS的“/user/hadoop”目录下已经存在file1.txt、

                            实验3 熟悉HDFS基本操作和编程实现

                            1、失败:切换成root用户后直接执行./eclipse

                            但是后面代码编译会有问题,一直报错。这里,假设文件内容如下:
                            file1.txt的内容是: this is file1.txt
                            file2.txt的内容是: this is file2.txt
                            file3.txt的内容是: this is file3.txt
                            file4.abc的内容是: this is file4.abc
                            file5.abc的内容是: this is file5.abc

                  上传文件到HDFS:

                  确保本地系统中存在file1.txt、

              1. 可以看出,Eclipse自动创建了一个名为“MergeFile.java”的源代码文件,请在该文件中输入以下代码:
      import java.io.IOException;import java.io.PrintStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;/** * 过滤掉文件名满足特定条件的文件 */class MyPathFilter implements PathFilter {     String reg = null;     MyPathFilter(String reg) {          this.reg = reg;     }     public boolean accept(Path path) {        if (!(path.toString().matches(reg)))            return true;        return false;    }}/*** * 利用FSDataOutputStream和FSDataInputStream合并HDFS中的文件 */public class MergeFile {    Path inputPath = null; //待合并的文件所在的目录的路径    Path outputPath = null; //输出文件的路径    public MergeFile(String input, String output) {        this.inputPath = new Path(input);        this.outputPath = new Path(output);    }    public void doMerge() throws IOException {        Configuration conf = new Configuration();        conf.set("fs.defaultFS","hdfs://localhost:9000");          conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");        FileSystem fsSource = FileSystem.get(URI.create(inputPath.toString()), conf);        FileSystem fsDst = FileSystem.get(URI.create(outputPath.toString()), conf);                //下面过滤掉输入目录中后缀为.abc的文件        FileStatus[] sourceStatus = fsSource.listStatus(inputPath,                new MyPathFilter(".*\\.abc"));        FSDataOutputStream fsdos = fsDst.create(outputPath);        PrintStream ps = new PrintStream(System.out);        //下面分别读取过滤之后的每个文件的内容,并输出到同一个文件中        for (FileStatus sta : sourceStatus) {            //下面打印后缀不为.abc的文件的路径、“hadoop”和“common”),当点击某个目录按钮时,就会在下面列出该目录的内容。haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar已经被添加到当前Java工程中。
    2. 在该界面中,上面的一排目录按钮(即“usr”、
    3. 在弹出的界面中,“Launch configuration”用于设置生成的JAR包被部署启动时运行的主类,需要在下拉列表中选择刚才配置的类“MergeFile-HDFSExample”。如果文件所在目录不存在,则自动创建目录;
    4. 提供一个HDFS的目录的路径,对该目录进行创建和删除操作。大小、可以直接点击Eclipse工作界面上部的运行程序的快捷按钮,当把鼠标移动到该按钮上时,在弹出的菜单中选择“Run As”,继续在弹出来的菜单中选择“Java Application”,如下图所示。file2.txt、hadoop-common-3.1.3-tests.jar、程序运行结束后,会在底部的“Console”面板中显示运行结果信息(如下图所示)。
      比如,如果要把“/usr/local/hadoop/share/hadoop/common”目录下的hadoop-common-3.1.3.jar、可以到Linux系统中查看一下生成的HDFSExample.jar文件,可以在Linux的终端中执行如下命令:
    cd /usr/local/hadoop/myappls
      1. 可以看到,“/usr/local/hadoop/myapp”目录下已经存在一个HDFSExample.jar文件。创建目录时,如果目录文件所在目录不存在则自动创建相应目录;删除目录时,由用户指定当该目录不为空时是否还删除该目录;
      2. 向HDFS中指定的文件追加内容,由用户指定内容追加到原有文件的开头或结尾;
      3. 删除HDFS中指定的文件;
      4. 删除HDFS中指定的目录,由用户指定目录中如果存在文件时是否删除目录;
      5. 在HDFS中,将文件从源路径移动到目的路径。
        1. 首先,在Hadoop安装目录下新建一个名称为myapp的目录,用来存放我们自己编写的Hadoop应用程序,可以在Linux的终端中执行如下命令:
      cd /usr/local/hadoopmkdir myapp
        1. 然后,请在Eclipse工作界面左侧的“Package Explorer”面板中,在工程名称“HDFSExample”上点击鼠标右键,在弹出的菜单中选择“Export”。然后,点击“Finish”按钮,会出现警告页面,可以忽略该界面的信息,直接点击界面右下角的“OK”按钮,启动打包过程。至此,已经顺利把HDFSExample工程打包生成了HDFSExample.jar。“hadoop”、