Linux终端统计非二进制文件行数的实现方法_知途无界

Linux终端统计非二进制文件行数的实现方法

1年前更新

078447

在Linux终端中统计非二进制文件的行数是一个常见需求，特别是在代码分析、项目统计等场景。以下是几种高效可靠的方法：

方法一：使用`find`和`file`命令组合

find . -type f -exec grep -Iq . {} \; -exec wc -l {} + | tail -n1

分解说明：

find . -type f – 查找当前目录及子目录下所有文件
-exec grep -Iq . {} \; – 使用grep -I跳过二进制文件，-q静默模式
-exec wc -l {} + – 对筛选出的文件执行行数统计
tail -n1 – 显示总行数

方法二：使用`grep`和`awk`组合

grep -rI --include="*.*" . -c | awk -F: '{sum += $2} END {print sum}'

参数说明：

-r 递归搜索
-I 忽略二进制文件
--include="*.*" 只检查有扩展名的文件(可选)
awk部分计算并输出总行数

方法三：精确识别文本文件的方法

find . -type f -exec file {} + | grep -i text | cut -d: -f1 | xargs wc -l | tail -n1

步骤解析：

file命令识别文件类型
grep -i text筛选文本文件
cut提取文件名
xargs wc -l统计行数

方法四：针对特定代码文件的统计

find . -name "*.py" -o -name "*.js" -o -name "*.html" | xargs wc -l | tail -n1

说明：

明确指定要统计的文件扩展名
适合需要精确控制文件类型的场景

高级技巧：排除特定目录

find . -type f -not -path "./node_modules/*" -not -path "./.git/*" -exec grep -Iq . {} \; -exec wc -l {} + | tail -n1

各方法对比

方法	优点	缺点	适用场景
方法一	准确识别非二进制文件	速度较慢	需要严格区分二进制/文本
方法二	执行速度快	可能误判部分文件	快速统计
方法三	最准确	需要多次管道操作	精确统计
方法四	针对性强	需要手动指定类型	代码项目统计

注意事项

大项目统计可能耗时，建议在项目根目录执行
某些文本文件可能被误判为二进制(如UTF-16编码文件)
使用-not -path可以排除不想统计的目录
对于特别大的代码库，可以考虑使用cloc等专业工具

以上方法可以根据实际需求灵活组合使用，满足不同场景下的行数统计需求。

© 版权声明

文中内容均来源于公开资料，受限于信息的时效性和复杂性，可能存在误差或遗漏。我们已尽力确保内容的准确性，但对于因信息变更或错误导致的任何后果，本站不承担任何责任。如需引用本文内容，请注明出处并尊重原作者的版权。

THE END

喜欢就点个赞，支持一下吧！

推荐文章

评论抢沙发

欢迎您留下评论！

提交

暂无评论内容