文本处理学习小结

抽取文本的工具

文件内容:less和cat

文件截取：head和tail

按列抽取：cut

按关键字抽取：grep

文件查看

复制标准输入到标准输出

文件查看命令：cat, tac,rev

cat命令：

cat [OPTION]… [FILE]…

-E: 显示行结束符$

-n: 对显示出的每一行进行编号

-A：显示所有控制符

-b：非空行编号

-s：压缩连续的空行成一行

-T:查看tab键

-v:显示非打印字符

tac：倒看cat的内容

用于将文件已行为单位的反序输出，即第一行最后显示，最后一行先显示

rev命令：

rev命令将文件中的每行内容以字符为单位反序输出，即第一个字符最后输出，最后一个字符最先输出，依次类推

分页查看文件内容

vmore: 分页查看文件

more [OPTIONS…] FILE…

-d: 显示翻页及退出提示

vless：一页一页地查看文件或STDIN输出

查看时有用的命令包括：

/：往下文本搜索文本

n/N：跳到下一个or 上一个匹配

less：命令是man命令使用的分页器

?：往上搜索，此时n/N跳到上一个or 下一个匹配

显示文本前或后行内容

head命令：

默认是前10行

head [OPTION]… [FILE]…

-c #: 指定获取前#字节

-n #: 指定获取前#行

-#：指定行数

Tail命令：

默认是后10行

tail [OPTION]… [FILE]…

-c #: 指定获取后#字节

-n #: 指定获取后#行

-#：指定行数

-f: 跟踪显示文件新追加的内容,常用日志监控,

缺点是会占据终端资源

不占据终端，追踪显示新增加的内容在屏幕上显示，不影响在屏幕上操作

按列抽取文本cut和合并文件paste

cut命令：

切的是文本的列

cut [OPTION]… [FILE]…

-d DELIMITER: 指明分隔符，默认tab

-f FILEDS:

#: 第#个字段

#,#[,#]：离散的多个字段，例如1,3,6

#-#：连续的多个字段, 例如1-6

混合使用：1-3,7

-c按字符切割

–output-delimiter=STRING指定输出分隔符

v显示文件或STDIN数据的指定列

取passwd下的1，2，3，7列

paste命令：

paste 合并两个文件同行号的列到一行

paste [OPTION]… [FILE]…

-d 分隔符:指定分隔符，默认用TAB

-s : 所有行合成一行显示

paste f4 f5

paste -s f4 f5

收集文本统计数据wc

计数单词总数、行总数、字节总数和字符总数

可以对文件或STDIN中的数据运行

使用-l来只计数行数

使用-w来只计数单词总数

使用-c来只计数字节总数

使用-m来只计数字符总数

Ctrl –d 终止输入

文本排序sort

对列排序，用什么作为分隔符的列（默认是按字符排序）

把整理过的文本显示在STDOUT，不改变原始文件

$sort [options] file(s)

常用选项

-r执行反方向（由上至下）整理

-n执行按数字大小整理

-f选项忽略（fold）字符串中的字符大小写

-u选项（独特，unique）删除输出中的重复行

-t c选项使用c做为字段界定符

-k X选项按照使用c字符分隔的X列来整理能够使用多次

将用户按照UID从小到大排序

uniq

uniq命令：从输入中删除重复的前后相接的行

uniq [OPTION] … [FILE] …

-c: 显示每行重复出现的次数；

-d: 仅显示重复过的行；

-u: 仅显示不曾重复的行；

连续且完全相同方为重复

常和sort 命令一起配合使用：

sort f2 | uniq -c

统计/etc/init.d/functions每个单词出现的字数

Linux上文本处理三剑客

grep：文本过滤(模式：pattern)工具;

grep, egrep, fgrep（不支持正则表达式搜索）

sed：stream editor，文本编辑工具；

awk：Linux上的实现gawk，文本报告生成器；

grep

grep: Global search REgularexpression and Print out the line.

作用：文本搜索工具，根据用户指定的“模式”对目标文本逐行进行匹配检查；打印匹配到的行；

模式：由正则表达式字符及文本字符所编写的过滤条件

grep [OPTIONS] PATTERN [FILE…]

grep root /etc/passwd

grep "$USER" /etc/passwd（变量）

grep '$USER' /etc/passwd

grep `whoami` /etc/passwd（命令替换）

grep命令选项

–color=auto: 对匹配到的文本着色显示；

alias grep='grep –color=auto'

-v: 显示不能够被pattern匹配到的行；（取反）

-i: 忽略字符大小写

-n：显示匹配的行号

-c: 统计匹配的行数

-o: 仅显示匹配到的字符串；

-q: 静默模式，不输出任何信息

只关心命令执行成功与否，不显示信息

-A #：after, 后#行

显示匹配到的并且显示匹配到的后三行

-B #: before, 前#行

-C #：context, 前后各#行

-e：实现多个选项间的逻辑or关系

grep –e ‘cat ’ -e ‘dog’ file

或者的关系

并且的关系

-w：整行匹配整个单词

-E：使用ERE(=egrep)，即扩展正则表达式

正则表达式（1）

REGEXP：由一类特殊字符及文本字符所编写的模式，其中有些字符（元字符）不表示字符字面意义，而表示控制或通配的功能

程序支持：grep, vim, less,nginx等

分两类：

基本正则表达式：BRE

扩展正则表达式：ERE

grep -E, egrep

正则表达式引擎：

采用不同算法，检查处理正则表达式的软件模块

PCRE（Perl Compatible Regular Expressions）

元字符分类：字符匹配、匹配次数、位置锚定、分组

man 7 regex

基本正则表达式元字符

字符匹配:

. ：匹配任意单个字符；

[] ：匹配指定范围内的任意单个字符

[^] ：匹配指定范围外的任意单个字符

[:digit:]、[:lower:]、[:upper:]、[:alpha:]、[:alnum:]、[:punct:]、[:space:]

正则表达式（2）

匹配次数：用在要指定次数的字符后面，用于指定前面的字符要出现的次数

*：匹配前面的字符任意次，包括0次

*号表示*号前面的字符重复不确定次数，包括0此和n次

贪婪模式：尽可能长的匹配，只要出现t就可以匹配

.*：任意长度的任意字符

\?：匹配其前面的字符0或1次

a\?:表示a有一个或者没有

\+：匹配其前面的字符至少1次

a\+:a出现一次以上

\{m\}：匹配前面的字符m次

\{m,n\}：匹配前面的字符至少m次，至多n次

\{,n\}：匹配前面的字符至多n次

\{m,\}：匹配前面的字符至少m次

正则表达式（3）

位置锚定：定位出现的位置

^：行首锚定，用于模式的最左侧

以root开头的行

$：行尾锚定，用于模式的最右侧

以bash结尾的行

^PATTERN$: 用于模式匹配整行

^$: 空行（行内没有任何字符）

^[[:space:]]*$ ：空白行（行内可有空格，tab字节）

[[:space:]]：包含tab键和空白行

\< 或\b：词首锚定，用于单词模式的左侧

\> 或\b：词尾锚定；用于单词模式的右侧

\<PATTERN\>：匹配整个单词

正则表达式（4）

分组：：将一个或多个字符捆绑在一起，当作一个整体进行处理，

如：$root$\+ 表示root重复一次以上

分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中，这些变量的命名方式为: \1, \2, \3, …

\1: 从左侧起，第一个左括号以及与之匹配右括号之间的模式所匹配到的字符；

实例：$string1\+\(string2$*\)

\1: string1\+$string2$*

\2: string2

$r..t$.*\1 中的1表示匹配第一个分组

符合第二个分组条件的组

后向引用：引用前面的分组括号中的模式所匹配字符(而非模式本身)

正则表达式（5）

正则表达式元字符	定义
^	行首
$	行尾
.	任意单一字符
[]	[]内任意单一字符
[^]	除[]内任意单一字符
*	*前面字符重复不确定次数
\+	\+前面字符重复一次以上不确定次数
\?	？前面字符重复0或1次
\	转义符
.*	任意长度字符
\{n\}	前面字符重复n次
\{n,\}	前面字符重复n次以上
\{m,n\}	前面字符重复m次和n次之间

正则表达式（6）

正则表达式元字符	定义
[:alpha:]	所有字母，包括大、小写
[:alnum:]	所有字母和数字
[:upper:]	所有大写字母
[:lower:]	所有小写字母
[:digit:]	所有数字
[:punct:]	所有标点符号
[:space:]	空格和Tab

egrep及扩展的正则表达式

egrep= grep -E

egrep[OPTIONS] PATTERN [FILE…]

扩展正则表达式的元字符：

字符匹配：

. 任意单个字符

[] 指定范围的字符

[^] 不在指定范围的字符

次数匹配：

*：匹配前面字符任意次

?: 0或1次

+：1次或多次

{m}：匹配m次

{m,n}：至少m，至多n次

位置锚定：

^ :行首

$ :行尾

\<, \b :语首

\>, \b :语尾

分组：

()

后向引用：\1, \2, …

或者：

a|b

C|cat: C或cat

(C|c)at:Cat或cat

原创文章，作者：Mr.Lee，如若转载，请注明出处：http://www.178linux.com/30319