在Linux中取交集的方法，Linux中如何快速取两个文件的交集？，Linux中如何秒取两个文件的交集？

昨天 8061阅读

在Linux中，快速获取两个文件的交集可以通过多种命令行工具实现，最常用的方法是使用grep -F -f结合排序去重：先通过grep -F -f file1 file2提取file2中与file1匹配的行，再通过sort -u去重，更高效的方式是使用comm命令，需先对文件排序（sort file1 > file1.sorted），再执行comm -12 file1.sorted file2.sorted直接输出两文件共有的行，对于大数据集，推荐使用awk的哈希表方案：awk 'NR==FNR{a[join];next} join file1 file2 in a' file1 file2，该方案只需一次遍历且无需预排序，若文件已有序，和命令（comm）也能高效获取交集，根据文件大小和是否有序，可选择不同方法，awk
comm -12 file1 file2
comm`在性能和易用性上表现突出。

在Linux系统中,有多种高效的方法可以获取两个或多个文件的交集（即共同存在的行），本文将详细介绍几种常用的命令行工具及其使用技巧，帮助您根据不同的场景选择最优解决方案。

使用

参数说明

命令 -12 重要提示

优化建议
组合参数表示不显示只在file1或只在file2中的行，仅输出两者共有的行
```
comm -12 <(sort file1) <(sort file2)
```
：使用前必须确保文件已排序，否则结果可能不准确

grep

grep -Fxf file1 file2

这种方法使用进程替换,无需创建临时排序文件，既节省存储空间又提高效率。

使用

参数详解

命令 -F -x

-f 将模式视为固定字符串而非正则表达式，提高匹配效率
适用场景
要求整行完全匹配，避免部分匹配的情况
当只需要查找一个文件在另一个文件中的匹配行时

文件较大但内存充足的情况

不需要预先排序文件的场景

sort

uniq

使用

sort file1 file2 | uniq -d

和

工作原理

组合

将两个文件合并排序

uniq -d

注意事项

此方法会修改原始行的顺序

对于非常大的文件可能效率较低

会消耗较多内存资源

awk

awk 'NR==FNR{a[代码解析
];next} 首先读取file1的所有行存入关联数组a
 in a' file1 file2

使用
然后检查file2的每一行是否存在于数组a中
命令

存在则输出该行

优势

处理大文件时内存效率高
保持file2中行的原始顺序
可以轻松扩展处理多个文件的交集

实际应用示例

file1.txt:

apple
banana
orange
pear

file2.txt:

banana
grape
orange
peach

假设有以下两个文本文件：

使用不同方法的输出结果

comm命令：

sort file1.txt > file1_sorted.txt
sort file2.txt > file2_sorted.txt
comm -12 file1_sorted.txt file2_sorted.txt

grep命令：

grep -Fxf file1.txt file2.txt

sort+uniq组合：
```
sort file1.txt file2.txt | uniq -d
```

awk命令：

awk 'NR==FNR{a[所有方法的输出结果均为：];next} banana
orange in a' file1.txt file2.txt

性能比较与选择建议

方法
优点
缺点

适用场景

comm

速度快 grepsort+uniqawk专业建议：awkgrep -Fxfcommawk

需要预排序	已排序或可以预排序的中大型文件	使用简单
	内存消耗大	小型文件或内存充足的环境	代码简洁
	效率较低	小型文件且顺序不重要时	灵活高效，保持原始顺序
	语法较复杂	大文件处理或需要保持顺序时
`comm`

扩展技巧

对于GB级别的大文件,推荐使用处理多个文件交集：或预排序后使用

awk 'ARGIND==1{a[忽略大小写的交集查找：]} ARGIND==2{b[grep -ixFf file1 file2
]} ARGIND==3{if(统计交集行数： in a && comm -12 file1 file2 | wc -l
 in b)print}' file1 file2 file3

日常小型文件处理,处理制表符分隔文件的特定列交集：最为简便
需要同时获取交集、差集时，
```
awk -F'\t' 'NR==FNR{a[];next}  in a' file1 file2
```
命令最为合适
处理多个文件交集时,并行处理大文件交集：是最佳选择

parallel --pipepart --block 100M -a file1 grep -Fxf - file2

通过掌握这些方法,您可以高效地处理Linux系统中的文件交集问题，根据实际需求选择最适合的工具，可以显著提高您的工作效率，对于特别大的数据集，还可以考虑使用数据库工具如SQLite或专门的大数据处理工具如Apache Spark。

2、海外VPS服务器，优势解析、选择策略与使用指南

3、VPS文件目录权限详解，掌握可读写权限的关键要素

4、VPS离线下载，高效文件管理的便捷之选！

5、文件轻松上传至VPS，一键操作教程

高速稳定云服务器25元起

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们，邮箱：ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

在Linux中取交集的方法，Linux中如何快速取两个文件的交集？，Linux中如何秒取两个文件的交集？

使用

参数说明

优化建议

使用

参数详解

适用场景

使用
sort file1 file2 | uniq -d
和

工作原理

注意事项

使用
然后检查file2的每一行是否存在于数组a中
命令

优势

实际应用示例

使用不同方法的输出结果

性能比较与选择建议

扩展技巧

相关阅读

在 Linux 中创建主分区可以使用 fdisk 或 parted 等工具。以下是使用 fdisk 的详细步骤，如何在 Linux 中使用 fdisk 轻松创建主分区？，如何在 Linux 中轻松创建主分区？

Linux二次开发指南，如何从零开始精通Linux二次开发？，从零到精通，如何成为Linux二次开发高手？

Linux C语言编程中的命名规则详解，Linux C语言编程，如何遵循命名规则写出专业代码？，如何用Linux C语言命名规则写出让人眼前一亮的专业代码？

目录[+]

使用

参数说明

优化建议

使用

参数详解

适用场景

使用 sort file1 file2 | uniq -d 和

工作原理

注意事项

代码解析

使用 然后检查file2的每一行是否存在于数组a中 命令

优势

实际应用示例

使用不同方法的输出结果

性能比较与选择建议

扩展技巧

相关阅读

在 Linux 中创建主分区可以使用 fdisk 或 parted 等工具。以下是使用 fdisk 的详细步骤，如何在 Linux 中使用 fdisk 轻松创建主分区？，如何在 Linux 中轻松创建主分区？

Linux二次开发指南，如何从零开始精通Linux二次开发？，从零到精通，如何成为Linux二次开发高手？

Linux C语言编程中的命名规则详解，Linux C语言编程，如何遵循命名规则写出专业代码？，如何用Linux C语言命名规则写出让人眼前一亮的专业代码？

目录[+]

使用
sort file1 file2 | uniq -d
和

使用
然后检查file2的每一行是否存在于数组a中
命令