原文参考:grep GNU官方文档
grep
grep是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。
一. 用法
grep [选项]... PATTERN [FILE]...
例如: grep -i 'hello world' menu.h main.c
用法解释:
-i:是选项,可以有多个选项,也可以没有选项,选择默认
‘hello world’: 是PATTERN
menu.h main.c:是FILE,可以有多个文件,文件之间不需要逗号隔离;也可以缺省,通过管道方式提供数据源
二. 参数与选项
操作环境:ubuntu16.04 X86
grep版本:grep (GNU grep) 2.25
文件控制:
-A, --after-context=N 打印文本及其后面N 行(N代表一个整数,下同)
-B, --before-context=N 打印文本及其前面N 行
-C, --context=N 打印匹配行前面N行和后面N行
-N 等同于 --context=N
--color[=WHEN],
--colour[=WHEN] 使用标记高亮匹配字串;
WHEN 可以是`always', `never'或`auto'
-U, --binary 将文件视为二进制
-u, --unix-byte-offsets 忽略CR 字符,报告字节偏移
(MSDOS/Windows)
正则表达式选择与解释:
-E, --extended-regexp PATTERN 是一个可扩展的正则表达式(缩写为 ERE)
-F, --fixed-strings PATTERN 是一组由断行符分隔的字符串。
-G, --basic-regexp PATTERN 是一个基本正则表达式(缩写为 BRE)
-P, --perl-regexp PATTERN 是一个 Perl 正则表达式
-e, --regexp=PATTERN 用 PATTERN 来进行匹配操作
-f, --file=FILE 从 FILE 中取得 PATTERN
-i, --ignore-case 忽略大小写
-w, --word-regexp 强制 PATTERN 完全匹配字词
-x, --line-regexp 仅选择与整行完全匹配的匹配项。精确匹配整行内容(包括行首行尾那些看不到的空格内容都要完全匹配)
-z, --null-data 一个 0 字节的数据行,但不是空行
杂项:
-s, --no-messages 不显示错误信息
-v, --invert-match 反转匹配,选择不匹配的行
-V, --version 显示版本信息并退出
--help 显示此帮助并退出
输出控制:
-m, --max-count=N N 次匹配后停止
-b, --byte-offset 输出的同时打印字节偏移
-n, --line-number 输出的同时打印行号
--line-buffered 每行输出清空
-H, --with-filename 为每一匹配项打印文件名
-h, --no-filename 输出时不显示文件名前缀
--label=LABEL 将LABEL 作为标准输入文件名前缀
-o, --only-matching 只显示匹配PATTERN 部分的行
-q, --quiet, --silent 不显示所有常规输出
--binary-files=TYPE 设定二进制文件的TYPE 类型;
TYPE 可以是`binary', `text', 或`without-match'
-a, --text 等同于 --binary-files=text
-I 等同于 --binary-files=without-match
-d, --directories=ACTION 读取目录的方式;
ACTION 可以是`read', `recurse',或`skip'
-D, --devices=ACTION 读取设备、先入先出队列、套接字的方式;
ACTION 可以是`read'或`skip'
-r, --recursive 等同于--directories=recurse
-R, --dereference-recursive 同上,但遍历所有符号链接
--include=FILE_PATTERN 只查找匹配FILE_PATTERN 的文件
--exclude=FILE_PATTERN 跳过匹配FILE_PATTERN 的文件和目录
--exclude-from=FILE 跳过所有除FILE 以外的文件
--exclude-dir=PATTERN 跳过所有匹配PATTERN 的目录。
-l, --files-with-matches 只打印匹配FILES 的文件名
-L, --files-without-match 只打印不匹配FILEs 的文件名
-c, --count 只打印每个FILE 中的匹配行数目
-T, --initial-tab 行首tabs 分隔(如有必要)
-Z, --null 在FILE 文件最后打印空字符
'egrep' 即'grep -E'。'fgrep' 即'grep -F'。
直接调用'egrep' 或是'fgrep' 均已被废弃。
若FILE 为 -,将读取标准输入。不带FILE,读取当前目录,除非命令行中指定了-r 选项。
如果少于两个FILE 参数,就要默认使用-h 参数。
如果有任意行被匹配,那退出状态为 0,否则为 1;
如果有错误产生,且未指定 -q 参数,那退出状态为 2。
三. 实例操作
准备文档 1.txt
1.beijing
2.henan
3.hebei
4.jiangxi
5.shanghai
6.guangdong
7.sichuan
8.chongqing
9.qinghai
10.xizang
开始练习
一. 文件控制
1. -A, --after-context=N 打印匹配文本及其后面N 行
oldeleven@delln4050 ~$ grep -A 1 'henan' 1.txt
2.henan
3.hebei
代码注释:打印匹配包含’henan’的行和它的下一行
2. -B, --before-context=N 打印匹配文本及其前面N 行
oldeleven@delln4050 ~$ grep -B 1 'henan' 1.txt
1.beijing
2.henan
代码注释:打印匹配包含’henan’的行和它的上一行
3. -C, --context=N 打印匹配文本以及前面N 行和后面N行
oldeleven@delln4050 ~$ grep --context=2 'jiangxi' 1.txt
2.henan
3.hebei
4.jiangxi
5.shanghai
6.guangdong
代码注释:打印匹配包含’shanghai’的行、它的上一行和它的下一行
二. 正则表达式选择与解释:
1. -E, --extended-regexp PATTERN 是一个可扩展的正则表达式(缩写为 ERE)
oldeleven@delln4050 ~$ grep \d+ 1.txt
oldeleven@delln4050 ~$ grep -E 's|sh' 1.txt
5.shanghai
7.sichuan
代码注释:打印包含’s’或者’sh’的行
2. -F, --fixed-strings 将模式解释为固定字符串,而不是正则表达式。
oldeleven@delln4050 ~$ grep [0-9] 1.txt
1.beijing
2.henan
3.hebei
4.jiangxi
5.shanghai
6.guangdong
7.sichuan
8.chongqing
9.qinghai
10.xizang
11. 安徽
oldeleven@delln4050 ~$ grep -F [0-9] 1.txt
代码注释:-F之后的字符串不再是正则表达式,而是一个普通的字符串,此时的字符串如果能匹配到,就输出这一行;
那么什么时候会用到-F选项呢?
一串关键字中包含了特殊字符,而你又不想用复杂的正则表达式去匹配的时候。那么grep -F 就派上了用场
3. -G, --basic-regexp PATTERN 是一个基本正则表达式(缩写为 BRE),是GNU grep 默认匹配方式
oldeleven@delln4050 ~$ grep -G 's\|sh' 1.txt
5.shanghai
7.sichuan
代码注释:BRE使用’|'时,需要用\转义,GNU grep默认为BRE匹配
BRE 和ERE的区别:
GNU BRE (、)、{、}、+、?、|都必须转义使用
GNU ERE 元字符不必转义,+、?、(、)、{、}、|可以直接使用,支持\1、\2
4. -e, --regexp=PATTERN 用来分隔多个PATTERN,执行or操作
oldeleven@delln4050 ~$ grep -e s -e sh 1.txt
5.shanghai
7.sichuan
代码注释:打印包含’s’或者’sh’的行
5. -f, --file=FILE 从 FILE 中取得 PATTERN
准备文件3.txt
oldeleven@delln4050 ~$ cat 3.txt
s
sh
oldeleven@delln4050 ~$ grep -f 3.txt 1.txt
5.shanghai
7.sichuan
代码注释:用3.txt中的每一行当做PATTERN,去1.txt中匹配
6. -i, --ignore-case 忽略大小写
oldeleven@delln4050 ~$ grep -i 'sh' 1.txt
5.shanghai
代码注释:打印包含’sh’的行,忽略’sh’大小写
7. -w, --word-regexp 强制 PATTERN 仅完全匹配字词
oldeleven@delln4050 ~$ grep -w "sh" 1.txt
匹配结果空白
oldeleven@delln4050 ~$ grep -w "shanghai" 1.txt
5.shanghai
代码注释:强制匹配一个完整的字符,PATTERN为一个完整的字符
8. -x, --line-regexp 强制 PATTERN 完全匹配一行
oldeleven@delln4050 ~$ grep -x '2.henan' 1.txt
2.henan
代码注释:强制完全匹配’2.henan’这一行,PATTERN为一行完整的数据
9. -z, --null-data 一个 0字节的数据行,但不是空行
三. 输出控制
1. -m, --max-count=N N 次匹配后停止
oldeleven@delln4050 ~$ grep 'h' 1.txt
2.henan
3.hebei
5.shanghai
7.sichuan
8.chongqing
9.qinghai
代码注解:匹配包含’h’的行
oldeleven@delln4050 ~$ grep -m 3 'h' 1.txt
2.henan
3.hebei
5.shanghai
代码注解:匹配包含’h’的行,但只匹配3次就终止
2. -n, --line-number 输出的同时打印行号
oldeleven@delln4050 ~$ grep -n 'h' 1.txt
2:2.henan
3:3.hebei
5:5.shanghai
7:7.sichuan
8:8.chongqing
9:9.qinghai
代码注解:打印行号
3. --line-buffered 行缓冲模式
GNU官方说明:对标准输出使用行缓冲,不管输出设备是什么。默认情况下,对于交互式设备,标准输出是行缓冲的,否则是完全缓冲的。使用全缓冲区时,输出缓冲区在满时被刷新;使用行缓冲,缓冲区也会在每个输出行之后刷新。缓冲区大小取决于系统。
4. -H, --with-filename 为每一匹配项打印文件名
oldeleven@delln4050 ~$ grep -H 'h' 1.txt test.txt
1.txt:2.henan
1.txt:3.hebei
1.txt:5.shanghai
1.txt:7.sichuan
1.txt:8.chongqing
1.txt:9.qinghai
test.txt:1:yanhualei:100
test.txt:2:shidiwei
test.txt:8:head
5. -h, --no-filename 输出时不显示文件名前缀
oldeleven@delln4050 ~$ sudo grep -r 127.0.0.1 /etc
/etc/dhcp/dhclient.conf:#prepend domain-name-servers 127.0.0.1;
/etc/dhcp/dhclient.conf:# option domain-name-servers 127.0.0.1;
/etc/init/network-interface.conf: ifconfig lo 127.0.0.1 up || true
/etc/nginx/sites-available/default: # pass the PHP scripts to FastCGI server listening on 127.0.0.1:9000
/etc/nginx/sites-available/default: # fastcgi_pass 127.0.0.1:9000;
/etc/mongod.conf: bindIp: 127.0.0.1
/etc/hosts:127.0.0.1 localhost
/etc/security/access.conf:#+ : root : 127.0.0.1
/etc/java-8-openjdk/net.properties:# localhost & 127.0.0.1).
/etc/java-8-openjdk/net.properties:# localhost & 127.0.0.1).
/etc/speech-dispatcher/modules/ivona.conf:#IvonaServerHost "127.0.0.1"
/etc/postfix/main.cf.proto:#debug_peer_list = 127.0.0.1
/etc/default/docker:#export http_proxy="http://127.0.0.1:3128/"
/etc/rabbitmq/rabbitmq-env.conf:#NODE_IP_ADDRESS=127.0.0.1
oldeleven@delln4050 ~$ sudo grep -r -h 127.0.0.1 /etc
#prepend domain-name-servers 127.0.0.1;
# option domain-name-servers 127.0.0.1;
ifconfig lo 127.0.0.1 up || true
# pass the PHP scripts to FastCGI server listening on 127.0.0.1:9000
# fastcgi_pass 127.0.0.1:9000;
bindIp: 127.0.0.1
127.0.0.1 localhost
#+ : root : 127.0.0.1
# localhost & 127.0.0.1).
# localhost & 127.0.0.1).
#IvonaServerHost "127.0.0.1"
#debug_peer_list = 127.0.0.1
#export http_proxy="http://127.0.0.1:3128/"
#NODE_IP_ADDRESS=127.0.0.1
代码注释:第一段代码搜索了/etc下包含127.0.0.1的文件,并按照“文件路径:文档内容”的方式输出到终端;第二段代码使用了-h选项,禁止了显示文件路径部分
6.–label=LABEL 将LABEL 作为标准输入文件名前缀
oldeleven@delln4050 ~$ cat /etc/passwd|grep -H false
(标准输入):syslog:x:104:108::/home/syslog:/bin/false
(标准输入):_apt:x:105:65534::/nonexistent:/bin/false
(标准输入):messagebus:x:106:110::/var/run/dbus:/bin/false
(标准输入):uuidd:x:107:111::/run/uuidd:/bin/false
(标准输入):lightdm:x:108:114:Light Display Manager:/var/lib/lightdm:/bin/false
(标准输入):whoopsie:x:109:117::/nonexistent:/bin/false
(标准输入):avahi-autoipd:x:110:119:Avahi autoip
oldeleven@delln4050 ~$ cat /etc/passwd|grep --label=/etc/passwd -H false
/etc/passwd:syslog:x:104:108::/home/syslog:/bin/false
/etc/passwd:_apt:x:105:65534::/nonexistent:/bin/false
/etc/passwd:messagebus:x:106:110::/var/run/dbus:/bin/false
/etc/passwd:uuidd:x:107:111::/run/uuidd:/bin/false
/etc/passwd:lightdm:x:108:114:Light Display Manager:/var/lib/lightdm:/bin/false
/etc/passwd:whoopsie:x:109:117::/nonexistent:/bin/false
/etc/passwd:avahi-autoipd:x:110:119:Avahi autoip
代码注释:打印标签作为文件名的标准输入(主要用于管道处理)
7. -o, --only-matching 只显示每行匹配PATTERN 部分
oldeleven@delln4050 ~$ grep -o 'shanghai' 1.txt
shanghai
-o 选项表示只输出匹配的字串,而不是整行内容
8. -q, --quiet, --silent 不显示所有常规输出
oldeleven@delln4050 ~$ grep -q 'sh' 1.txt
9. -r, --recursive 递归查找,等同于–directories=recurse
oldeleven@delln4050 ~$ grep -r shanghai *
1.txt:5.shanghai
代码注释:查找当前文件夹的所有文件,和所有子文件中的文件中包含’shanghai’的文件与行数据
10. -l, --files-with-matches 只打印匹配FILES 的文件名
oldeleven@delln4050 ~$ grep -l "sh" 1.txt 2.txt 3.txt
1.txt
代码注释:打印匹配包含’sh’的行在 1.txt 2.txt 3.txt中的哪个文件中
11. -L, --files-without-match 只打印不匹配FILEs 的文件名
oldeleven@delln4050 ~$ grep -L "sh" 1.txt 2.txt 3.txt
2.txt
3.txt
代码注释:与-l含义相反
12. -c, --count 只打印每个FILE 中的匹配行数目
oldeleven@delln4050 ~$ grep -c 'ing' 1.txt
3
代码注释:打印1.txt中包含’ing’的行有几个
13. -T, --initial-tab 输出行前缀控制
oldeleven@delln4050 ~$ grep -H 访客 -T /etc/passwd
/etc/passwd :guest-l32znk:x:999:998:访客:/tmp/guest-l32znk:/bin/bash
/etc/passwd :guest-sqrwfr:x:998:997:访客:/tmp/guest-sqrwfr:/bin/bash
/etc/passwd :guest-c42f8v:x:996:995:访客:/tmp/guest-c42f8v:/bin/bash
/etc/passwd :guest-vnknd9:x:997:996:访客:/tmp/guest-vnknd9:/bin/bash
代码注释:初始标签确保实际行内容的第一个字符位于制表位上,以便对齐标签看起来很正常。在匹配信息和其前的附加信息之间加入tab以使格式整齐。