linux 中的 文本处理工具

文本处理工具 

在linux系统中 文本工具有很多 现在具体介绍几款 如 抽取文本的工具 和文件三剑客 



文件内容:less和 cat  

文件截取:head和tail  

按列抽取:cut  

按关键字抽取:grep egrep



首先 有 查看文件的cat tac 



cat [OPTION]… [FILE]… 

  -E: 显示行结束符$ 

  -n: 对显示出的每一行进行编号 

  -A:显示所有控制符 

  -b:非空行编号 

  -s:压缩连续的空行成一行


tac 与cat 命令 一样 不过是取反


more: 分页查看文件 

more [OPTIONS…] FILE… 

  -d: 显示翻页及退出提示


less:一页一页地查看文件或STDIN输出 查看时有用的命令包括: /文本 搜索 文本 n/N 跳到下一个 or 上一个匹配 less 命令是man命令使用的分页器


显示文本前或后行内容


head head [OPTION]… [FILE]… 

  -c #: 指定获取前#字节 

  -n #: 指定获取前#行 

  -#: 指定行数 


tail tail [OPTION]… [FILE]… 

  -c #: 指定获取后#字节 

  -n #: 指定获取后#行 -#: 

  -f: 跟踪显示文件新追加的内容,常用日志监控


按列抽取文本cut和合并文件paste


  cut [OPTION]… [FILE]… 

  -d DELIMITER: 指明分隔符,默认tab 

  -f FILEDS: #: 第#个字段 #,#[,#]:离散的多个字段,例如1,3,6 #-#:连续的多个字段, 例如1-6 混合使用:1-3,7 -c 按字符切割 –output-delimiter=STRING指定输出分隔符



显示文件或STDIN数据的指定列 

  cut -d: -f1 /etc/passwd 

  cat /etc/passwd |cut -d: -f7 cut -c2-5 /usr/share/dict/words

  

paste 合并两个文件同行号的列到一行 

  paste [OPTION]… [FILE]… 

  -d 分隔符:指定分隔符,默认用TAB 

  -s : 所有行合成一行显示 

  paste f1 f2 paste  -s f1 f2


还有一些分析文本工具例如 文本数据统计:wc 整理文本:sort 比较文件:diff和patch


可收集文本统计数据wc


计数单词总数、行总数、字节总数和字符总数 可以对文件或STDIN中的数据运行 $ wc story.txt 39 237 1901 story.txt 行数 字数 字符数

   -l 来只计数行数

   -w 来只计数单词总数

   -c 来只计数字节总数

   -m 来只计数字符总数


文本排序用到的sort


把整理过的文本显示在STDOUT,不改变原始文件 $ sort [options] file(s)

常用选项  

  -r 执行反方向(由上至下)整理  

  -n 执行按数字大小整理  

  -f 选项忽略(fold)字符串中的字符大小写  

  -u 选项(独特,unique)删除输出中的重复行

  -t  c 选项使用c做为字段界定符  

  -k  X 选项按照使用c字符分隔的X列来整理能够使用多次



uniq的多次性


uniq命令:从输入中删除重复的前后相接的行

uniq [OPTION]… [FILE]… 

  -c: 显示每行重复出现的次数; 

  -d: 仅显示重复过的行; 

  -u: 仅显示不曾重复的行; 连续且完全相同方为重复 常和sort 命令一起配合使用:sort  userlist.txt  |  uniq -c


比较文件时用到的diff


比较两个文件之间的区别 $ diff foo.conf-broken foo.conf-works 5c5 < use_widgets = no –> use_widgets = yes 注明第5行有区别(改变)


打补丁的patch


 diff 命令的输出被保存在一种叫做“补丁”的文件中  

    使用 -u 选项来输出“统一的(unified)”diff格式文 件,最适用于补丁文件。

    patch 命令复制在其它文件中进行的改变(要谨慎使用 !)  

    适用 -b 选项来自动备份改变了的文件 $ diff -u foo.conf-broken foo.conf-works > foo.patch $ patch -b foo.conf-broken foo.patch 



最后压轴的 文本处理工具三剑客的 grep 以及它的扩展正则表达式 egrep 其他两剑客分别为 sed 和awk


grep:文本过滤(模式:pattern)工具; grep, egrep, fgrep(不支持正则表达式搜索)

sed:stream editor,文本编辑工具;

awk:Linux上的实现gawk,文本报告生成器


grep: Global search REgular expression and Print out the line. 


作用:文本搜索工具,根据用户指定的“模式”对目标文 本逐行进行匹配检查;打印匹配到的行; 模式:由正则表达式字符及文本字符所编写的过滤条件

  grep [OPTIONS] PATTERN [FILE…] 

  grep root /etc/passwd grep "$USER"  /etc/passwd 

  grep '$USER'  /etc/passwd grep `whoami`  /etc/passwd


grep 的命令行有 


  –color=auto: 对匹配到的文本着色显示;  

  -v: 显示不能够被pattern匹配到的行;  

  -i: 忽略字符大小写  

  -n:显示匹配的行号  

  -c: 统计匹配的行数  

  -o: 仅显示匹配到的字符串;  

  -q: 静默模式,不输出任何信息  

  -A #:after, 后#行  

  -B #: before, 前#行  

  -C #:context, 前后各#行  

  -e:实现多个选项间的逻辑or关系 grep –e ‘cat ’  -e ‘dog’  file  

  -w:整行匹配整个单词  

  -E:使用ERE



正则表达式详解


REGEXP:由一类特殊字符及文本字符所编写的模式,其中有 些字符(元字符)不表示字符字面意义,而表示控制或通配 的功能 程序支持:grep, vim, less,nginx等 分两类: 基本正则表达式:BRE 扩展正则表达式:ERE grep -E, egrep 正则表达式引擎: 采用不同算法,检查处理正则表达式的软件模块 PCRE(Perl Compatible Regular Expressions) 元字符分类:字符匹配、匹配次数、位置锚定、分组 


基本正则表达式元字符 字符匹配 匹配次数 和位置锚定以及分组


字符匹配

  .   : 匹配任意单个字符; 

  []  : 匹配指定范围内的任意单个字符 

  [^] :匹配指定范围外的任意单个字符 

  [:digit:] 所有数字

  [:lower:] 所有小写字母

  [:upper:] 所有大写字母

  [:alpha:] 所有字母

  [:alnum:] 所有的字母和数字

  [:punct:] 所有的标点符号

  [:space:] 空格和tab



匹配次数:用在要指定次数的字符后面,用于指定前面的字 符要出现的次数 

  *:匹配前面的字符任意次,包括0次 贪婪模式:尽可能长的匹配 

  .*:任意长度的任意字符 

  \?:匹配其前面的字符0或1次 

  \+:匹配其前面的字符至少1次 

  \{m\}:匹配前面的字符m次 

  \{m,n\}:匹配前面的字符至少m次,至多n次 

  \{,n\}:匹配前面的字符至多n次 

  \{m,\}:匹配前面的字符至少m次



位置锚定:定位出现的位置 

  ^:行首锚定,用于模式的最左侧 

  $:行尾锚定,用于模式的最右侧 

  ^PATTERN$: 用于模式匹配整行 

  ^$: 空行 ^[[:space:]]*$ :空白行 

  \< 或 \b:词首锚定,用于单词模式的左侧 

  \> 或 \b:词尾锚定;用于单词模式的右侧 

  \<PATTERN\>:匹配整个单词



分组:\(\):将一个或多个字符捆绑在一起,当作一个整体进 行处理,


  如:\(root\)\+ 分组括号中的模式匹配到的内容会被正则表达式引擎记录 于内部的变量中,这些变量的命名方式为: \1, \2, \3, … \1: 从左侧起,第一个左括号以及与之匹配右括号之间 的模式所匹配到的字符; 


实例: \(string1\+\(string2\)*\) \1: string1\+\(string2\)* \2: string2 后向引用:引用前面的分组括号中的模式所匹配字符(而 非模式本身)


egrep及扩展的正则表达式 与基本正则表达式 差不多 只有少数元字符 变得更加简洁 


egrep = grep -E egrep [OPTIONS] PATTERN [FILE…]  

  扩展正则表达式的元字符:  

  字符匹配: 

  . 任意单个字符 

  [] 指定范围的字符 

  [^] 不在指定范围的字符



次数匹配: 

  *:匹配前面字符任意次 

  ?: 0或1次 +:1次或多次 

  {m}:匹配m次 

  {m,n}:至少m,至多n次


位置锚定: 

  ^  :行首 

  \<, \b :语首 

  \>, \b :语尾  

  分组: () 后向引用:\1, \2, …  

  或者: a|b C|cat: C或cat (C|c)at:Cat或cat



正则表达式 为本章重点 个人理解 正则表达式不难 难在 正则表达式的灵活 性 需要利用正则表达式 写出按不同要求的搜索 相对应的 表达式 导致 每个人的方法可能不尽 相同 但结果却一样 这正是 正则表达式的精髓所在 可以自由组合 没有规律可寻 因题而定 还有最最重要的 理解能力 



作业


找出/proc/meminfo文件中,所有以大写或小写s开头的行,至少三种方式:

  grep -i "^s" /proc/meminfo

  grep "^[sS]" /proc/meminfo

  grep -E "^(s|S)" /proc/meminfo


电脑演示


[root@localhost Desktop]# echo "/etc/sysconfig/" |grep -oE "[^/]+/?$"

sysconfig/

[root@localhost Desktop]# echo "/etc/sysconfig/" |grep -oE "[^/]+/?$"|cut -d/ -f1

sysconfig

[root@localhost Desktop]# grep -i '^s' /proc/meminfo 

SwapCached:            0 kB

SwapTotal:       2047996 kB

SwapFree:        2047996 kB

Shmem:              2512 kB

Slab:              87860 kB

SReclaimable:      21188 kB

SUnreclaim:        66672 kB

[root@localhost Desktop]# grep -E '^(S|s)' /proc/meminfo 

SwapCached:            0 kB

SwapTotal:       2047996 kB

SwapFree:        2047996 kB

Shmem:              2512 kB

Slab:              87876 kB

SReclaimable:      21196 kB

SUnreclaim:        66680 kB

[root@localhost Desktop]# grep '^]Ss]' /proc/meminfo 

[root@localhost Desktop]# grep '^[Ss]' /proc/meminfo 

SwapCached:            0 kB

SwapTotal:       2047996 kB

SwapFree:        2047996 kB

Shmem:              2512 kB

Slab:              87860 kB

SReclaimable:      21188 kB

SUnreclaim:        66672 kB

[root@localhost Desktop]# 





显示当前系统上tian1 tian2或者tian3用户的相关信息

  grep -E "^(tian1|tian2|tian3)\>" /etc/passwd 


电脑演示


[root@localhost ~]# cat  /etc/passwd |grep -E "^(tian1|tian2|tian3)\>"

tian1:x:505:505::/home/tian1:/bin/bash

tian2:x:506:506::/home/tian2:/bin/bash

tian3:x:507:507::/home/tian3:/bin/bash





找出/etc/rc.d/init.d/functions文件中行首为某单词(包括下划线)后面跟一个小括号的行

  grep -E -o "[_[:alnum:]]+\(\)" /etc/rc.d/init.d/functions


电脑演示


[root@localhost ~]# grep -E -o "[_[:alnum:]]+\(\)" /etc/rc.d/init.d/functions

fstab_decode_str()

checkpid()

__readlink()

__fgrep()

__kill_pids_term_kill_checkpids()

__kill_pids_term_kill()

__umount_loop()

__umount_loop_2()

__source_netdevs_fstab()

__source_netdevs_mtab()

__umount_loopback_loop()

__find_mounts()

__pids_var_run()

__pids_pidof()

daemon()

killproc()

pidfileofproc()

pidofproc()

status()

echo_success()

echo_failure()

echo_passed()

echo_warning()

update_boot_stage()

success()

failure()

passed()

warning()

action()

action_silent()

strstr()

confirm()

get_numeric_dev()

is_ignored_file()

is_true()

is_false()

apply_sysctl()

key_is_random()

find_crypto_mount_point()

init_crypto()

[root@localhost ~]# 




使用echo命令输出一绝对路径,使用egrep取出基名

  echo /etc/sysconfig/ | grep -E -o "[^/]+/?$" | cut -d/ -f1


电脑演示


root@localhost Desktop]# echo "/etc/sysconfig/" |grep -oE "[^/]+/?$"

sysconfig/

[root@localhost Desktop]# echo "/etc/sysconfig/" |grep -oE "[^/]+/?$"|cut -d/ -f1

sysconfig

[root@localhost Desktop]# 







找出ifconfig命令结果中1-255之间的数值

  ifconfig | grep -E -o "\<([1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\>"


电脑演示


[root@localhost ~]# ifconfig | grep -E -o "\<([1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\>"

29

67

46

172

18

16

92

172

18

16

255

255

255

255

64

1

62

120

8

5

1

127

1

255

1

128

1

12

12

[root@localhost ~]# 



找出ifconfig命令结果中所有IPv4地址

  ifconfig | grep -E -o "(\<([1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\>\.)(\<([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\>\.){2}\<([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\>"


电脑演示


[root@localhost ~]# ifconfig | grep -E -o "(\<([1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\>\.)(\<([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\>\.){2}\<([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\>"

172.18.16.92

172.18.16.255

255.255.255.0

127.0.0.1

255.0.0.0



找出/etc/passwd文件中用户名同shell名的行

  grep -E "^([^:]+\>).*\1$" /etc/passwd


电脑演示



[root@localhost ~]# grep -E "^([^:]+\>).*\1$" /etc/passwd

sync:x:5:0:sync:/sbin:/bin/sync

shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown

halt:x:7:0:halt:/sbin:/sbin/halt

[root@localhost ~]# 
















原创文章,作者:a1215276209,如若转载,请注明出处:http://www.178linux.com/33224

(0)
a1215276209a1215276209
上一篇 2016-08-11
下一篇 2016-08-11

相关推荐

  • systemd

    1、systemd (1)CentOS 7 使用systemd替换了SysV。Systemd目的是要取代一直在使用的init系统,兼容SysV和LSB的启动脚本,负责在系统启动或运行时,激活系统资源、服务器进程和其它进程。 (2)systemd的新特性: 系统引导是实现服务并行启动 按需启动守护进程 自动化管理各服务间的依赖关系 同时采用sockets式与D…

    Linux干货 2016-09-21
  • 马哥教育网络第21期-第五周课程练习

    1、显示/boot/grub/grub.conf中以至少一个空白字符开头的行; [root@6 ~]# grep '^[[:space:]]\+' /boot/grub/grub.conf 2、显示/etc/rc.d/rc.sysinit文件中以#开头,后面跟至少一个空白字符,而后又有至少一个非空白…

    Linux干货 2016-08-15
  • Linux常见文件管理命令

    1、Linux上的文件管理类命令都有哪些,其常用的使用方法及其相关示例演示。2、bash的工作特性之命令执行状态返回值和命令行展开所涉及的内容及其示例演示。3、请使用命令行展开功能来完成以下练习:(1)、创建/tmp目录下的:a_c, a_d, b_c, b_d(2)、创建/tmp/mylinux目录下的:mylinux/├── bin├── boot│  …

    2018-02-26
  • Linux简介和基础

    一、系统和硬件 无论是Linux、OS X、Windows操作系统,他们都是由以下部分组成(分层结构): 最底层:硬件 底层之上:将硬件的接口抽象成为系统调用(kernel) 再之上:库 再此之上为:应用程序 程序的运行可以有两种方式: 1、开机自动启动运行 2、用户通过交互式接口登陆或者连接系统上去,来手动运行程序 二、终端: 1、物理终端:我们可以将显示…

    Linux干货 2017-09-02
  • shell脚本之变量、运算、条件测试。

    概述 程序:指令+数据 程序编程风格: 过程式:以指令为中心,数据服务于指令 对象式:以数据为中心,指令服务于数据 shell程序:提供了编程能力,解释执行 计算机:运行二进制指令; 编程语言: 低级:             汇编 高级:…

    Linux干货 2016-08-15
  • find命令、归档压缩工具、xargs、exec、tar、xz、cpio

    find命令、归档压缩工具、xargs、exec、tar、xz、cpio find命令 Linux中的文件查找工具常见的有locate和find以及whereis.他们适用于不同的场合,如whereis只能用于搜索程序的二进制文件、源代码文件和man手册等相关文件,find和local能够查找磁盘上的所有文件(不包括proc和sys目录下的虚拟文件)。fin…

    Linux干货 2016-08-18