如何查看HDFS文件内容

本文遵循BY-SA版权协议,转载请附上原文出处链接。


本文作者: 黑伴白

本文链接: http://heibanbai.com.cn/posts/7f97ef81/

如何查看HDFS文件内容

在HDFS(Hadoop Distributed File System)中查看文件内容,可以使用以下几种方法:

1. 使用 hdfs dfs -cat 命令

hdfs dfs -cat 命令可以直接将文件内容输出到终端。

1
hdfs dfs -cat /path/to/file

例如:

1
hdfs dfs -cat /user/hadoop/example.txt

2. 使用 hdfs dfs -text 命令

hdfs dfs -text 命令可以查看文本文件或压缩文件的内容。它会自动解压缩文件并显示内容。

1
hdfs dfs -text /path/to/file

例如:

1
hdfs dfs -text /user/hadoop/example.gz

3. 使用 hdfs dfs -tail 命令

hdfs dfs -tail 命令可以查看文件的最后一部分内容,类似于Linux中的tail命令。

1
hdfs dfs -tail /path/to/file

例如:

1
hdfs dfs -tail /user/hadoop/example.txt

4. 使用 hdfs dfs -copyToLocal 命令

如果文件较大或需要进一步处理,可以先将文件从HDFS复制到本地文件系统,然后使用本地工具查看。

1
hdfs dfs -copyToLocal /path/to/hdfs/file /path/to/local/destination

例如:

1
hdfs dfs -copyToLocal /user/hadoop/example.txt /home/user/example.txt

然后使用本地命令查看文件内容:

1
cat /home/user/example.txt

5. 使用HDFS Web UI

如果你有访问HDFS Web UI的权限,可以通过浏览器查看文件内容。

  1. 打开HDFS Web UI(通常是http://<namenode-host>:50070)。
  2. 导航到文件所在的目录。
  3. 点击文件名,可以直接在浏览器中查看文件内容。

6. 使用Hadoop API

如果你在编写Java程序,可以使用Hadoop API来读取HDFS文件内容。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.io.IOUtils;

import java.io.InputStream;
import java.net.URI;

public class HDFSFileRead {
public static void main(String[] args) throws Exception {
String uri = args[0];
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(URI.create(uri), conf);
InputStream in = null;
try {
in = fs.open(new Path(uri));
IOUtils.copyBytes(in, System.out, 4096, false);
} finally {
IOUtils.closeStream(in);
}
}
}

编译并运行该程序:

1
2
javac -classpath `hadoop classpath` HDFSFileRead.java
java -classpath `hadoop classpath`:./ HDFSFileRead hdfs://namenode:port/path/to/file

总结

  • hdfs dfs -cathdfs dfs -text 是最常用的查看文件内容的命令。
  • hdfs dfs -tail 适合查看文件的末尾部分。
  • hdfs dfs -copyToLocal 可以将文件复制到本地后再查看。
  • HDFS Web UI 提供了图形化的文件查看方式。
  • Hadoop API 适合在编程时使用。

根据你的需求选择合适的方法来查看HDFS文件内容。


蚂蚁🐜再小也是肉🥩!


如何查看HDFS文件内容
http://heibanbai.com.cn/posts/7f97ef81/
作者
黑伴白
发布于
2025年2月25日
许可协议

“您的支持,我的动力!觉得不错的话,给点打赏吧 ୧(๑•̀⌄•́๑)૭”

微信二维码

微信支付

支付宝二维码

支付宝支付