文本处理、正则表达式、cut、grep、egrep、fgrep

helloc • 2016-08-07 22:05 • Linux干货

文本处理、正则表达式、cut、grep、egrep、fgrep

Linux中文本处理工具最常用的就是文本处理三剑客grep、sed、awk再配合正则表达式，可以实现足够多的文本处理功能。工具的强大之处是因为使用它的人，如何才能发挥文本处理工具的作用呢？答案就是正则表达式，其实正则表达式，只是一种思想，一种表示方法，只要我们使用的工具支持表示这种思想那么这个工具就可以处理正则表达式的字符串。这部分内容可以说是学习shell脚本之前必学的内容，理解越深刻那么shell脚本编写能力就会越强。

文本处理

文本查看工具

cat -n(包含了$回车符)，-b，-A（-vTE），-e(-vE)，-v(有^M无^T)，-s，-E（回车）

tac -n，-b，-A（-vTE），-e(-vE)，-v(有^M无^T)，-s，-E（回车）

rev

more -d(加提示)，只能下翻，能命令

less PgUP翻页，能搜，能命令

head -n 前几行，默认10行

tail -n 后几行，默认10行，-f /var/log/messages前端监控日志,tail -n 0 -f

/var/log/message &后端显示新日志，不影响使用，fg 1切换前台，ctrl c终止

cut

cut -d: -f1-5,6,7 /etc/passwd # : 号截取，第几段 –output-delimiter=+ # 替换分隔符

cut -c44-46 file #字符截取，监控磁盘

paste 横向合并两个文件

paste -d: #指定横向分隔的符号，默认Tab

paste -s #一个文件的内容合并成一行显示

wc （word count） #字符收集统计数据

wc file #行、单词、字节

wc -m #统计字符数

wc -l #统计行数

wc -w #统计以标点或space隔开的单词数

wc -c #统计字节数

wc 输入字符，最后输入空格开的被统计字符，再ctrl d

sort #文本排序

sort -t ‘.’ #使用 . 做为字段界定符

sort -r #反序

sort -f #忽略字符串中的大小写

sort -n #按数字排序

sort -u #去除重复行

sort -k3 #按 . 分隔符根据第3列来整理，可重复多次

sort -ut ‘.’ -k3 #按 . 分隔符根据第3列来整理并归类，去除不属于该类的行

uniq #从输入中山城重复的前后相接的行

uniq file #合并相邻的重复行

uniq -c file #显示合并的重复次数

uniq -d file #只显示重复的行

uniq -u file #显示不重复的行

diff #比较两个文件之间的区别

diff xx yy

diff -c xx yy

其中1-3表示行号c表示不同，常用的a表示多余的行，d表示删除的行，即少的行，<表示第一个文件，>表示第二个文件。。diff -c 会以上下文的形式显示两个文件的不同之处，文件时间不同也会进行比较，行中不同的地方会在此行前加”!”:

diff -u #选项来输出“统一的（unified）”diff格式文件，最适用于补丁文件

patch #复制对文件改变

patch -b #自动备份改变了的文

diff -u xx yy>zz.patch

patch -b xx zz.patch

grep：global serarch REgular expressin and print out the line

grep -E = egrep、grep -F fgrep(不支持正则表达式)

.bashrc加入alias grep=’grep –color=auto’

grep xxxx /etc/passwd /etc/group …. 在centos7上带颜色

grep ‘$USER’ / “$USER” / whoami /etc/passwd

grep -v string #显示不包含string的行，排除

grep -i String #忽略大小写

grep -n string #显示包含string的行号

grep -c string #统计string的行数

grep -o strng #仅显示string，配合正则表达式，精确匹配

grep -q string #静默模式，echo $?看看返回值

grep -A3 string #显示string与string后面（After）3行，可作为string辅助过滤，

grep -C3 #string前后的3行

grep -e ‘root’ -e ‘sbin’ file #实现多个选项的逻辑或关系，类似正则中’root|sbin’

grep -w string #完全匹配string，匹配单词，以标点符号或者空格Tab分隔，类似正则中\bstring\b或\<string\>，具有同等效果，但这是不同的概念，必须加以区分

grep -E = egrep #使用扩展的正则表达式

标准的正则表达式

由一类特殊字符及文本字符编写的模式，这些字符有控制或匹配的功能

man 7 regex #看正则表达式

程序支持grep、vim、less、nginx

匹配次数

grep r.t #匹配任意单个字符

grep r[a-z]t #匹配任一指定范围内的任一个字符，如[aBc]表示匹配a或B或c

grep r[^[1-7]]t #不在指定范围内的任一个字符

[:alpha:]、[:digital:]、[:alnum:]、[:punct:]、[:space:]、[:lower:]、[:upper:]

\* # *号前的字符重复任意次数，尽可能长匹配

.* # 任意长度的字符\? #前面的字符0次或1次，有和没有都会匹配

\+ #前面的字符至少1次

\{n\} #n次

\{m,n\} #至少m次，至多n次

\{,n\} #至多n次

\{m,\} #至少m次

位置锚定

^ #句子的行首锚定

$ #句子的行尾锚定

^\$ 空行锚定，用cat-A看到的号表示换行，^I表示Tab

grep -v “^ *\$” #不显示以空格开头的空行

grep -v “^[[:space:]]*$” #不显示以空格和Tab开头的空行

grep '\bstr’ 或 ‘\<str’ #str开头单词的词首锚定

grep ‘st\b’ 或 ‘\>str’ #str结尾单词的词尾锚定

\<string\> #匹配整个单词

分组

\(\)：将一个或多个字符捆绑在一起，当作一个整体进行处理，如：(root)+分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中，这些变量的命名方式为:\1, \2, \3, …

\1: 从左侧起，第一个左括号以及与之匹配右括号之间的模式所匹配到的字符

实例`：(string1+(string2)*)

\1: string1+(string2)*

\2: string2

后向引用：引用前面的分组括号中的模式所匹配字符(而非模式本身)

逻辑或

‘(root|bash)’ #匹配root或bash

‘\(ba|c\)sh’ #匹配bash或csh

egrep及扩展的正则表达式，省略了转义符

egrep = grep -E #可使用扩展的正则表达式

字符匹配： . [] [^]

次数匹配： * ? + {n} {m,n}

位置锚定： ^ $ \< \> \b

分组： (``) 后向引用：\1,\2...

逻辑或: (a|b) (a|b)c

+ 与 * 的区别：* 匹配的是零次或者多次，被重复的内容可能并不会出现；+ 至少出现一次如ca+t会匹配cat和caaat，但不会匹配ct

注意：使用grep -E或者egrep时不要添加上述符号的转义符

练习

原创文章，作者：helloc，如若转载，请注明出处：http://www.178linux.com/30332

赞 (0)

0

Linux中查看文本工具

上一篇 2016-08-07

Linux—文本处理（查看，统计，排序，抽取，合并,grep，基本正则表达式）

下一篇 2016-08-07

linux 怎么使用帮助

linux怎么使用帮助 Which命令 whatis命令使用手册来获取帮助-man命令通过info命令查看帮助使用软件自带的帮助文档来获取帮助通过在线文档获取帮助使用网站和搜索 linux 怎么使用帮助在linux中有很多命令，配置文件，很多命令选项和参数，我们不可能完全记住的，那工作中遇到怎么办，我们可以查看linux自带的帮助文档，或者利用搜…

Linux干货 2016-09-05
N26第五周博客作业

1、显示/boot/grub/grub.conf中以至少一个空白字符开头的行；grep “^[[:space:]]+” /boot/grub/grub.conf 2、显示/etc/rc.d/rc.sysinit文件中以#开头，后面跟至少一个空白字符，而后又有至少一个非空白字符的行；grep “^#[[:space:…

Linux干货 2017-03-06
Linux干货

防火墙之iptables使用

一、防火墙简介 Firewall：防火墙，隔离工具；工作于主机或网络边缘，对于进出本主机或本网络的报文根据事先定义的检查规则作匹配检测，对于能够被规则匹配到的报文作出相应处理的组件；软件防火墙（软件逻辑）：一般寄生在操作系统…

2017-06-18
linux系统启动详解

主要内容：系统启动过程 init启动过程 chkconfig的增，删，查 Linux组成 Linux: kernel+rootfs kernel: 进程管理、内存管理、网络管理、驱动程序、文件系统、安全功能 rootfs:程序和glibc 库：函数集合, function, 调用接口…

Linux干货 2016-09-08
DNS and BIND 配置指南

前言说来接触Linux也有一年了，BIND是我曾经学习RH系Linux接触的第一个服务，对我有着莫大的意义，当初差点因为这个服务难以配置而放弃Linux，今天学完马哥的bind相关系列视频之后，写一篇DNS and BIND的基础到进阶。一、DNS的基础知识 DNS是什么？ DNS(Domain Name …

Linux干货 2016-03-21
linux 路由配置及其网络组配置实例

linux 路由配置及其网络组配置实例 §·路由配置网络简单拓扑图如下： ※·实例要求：主机A可以ping同主机B即可。 ※·实验步骤及其要点： 1.主机A设置IP地址与默认网关； 2.配置路由器1两接口的IP地址，并开启主机的路由功能,添加172.14.16.0路由条目； 3.配置路由器1两接口的IP地址，并开启主机的路由功能…

Linux干货 2016-09-06