Linux中的文本处理工具

本章内容:

  一、各种文本工具来查看、分析,统计文本文件

  二、grep

  三、正则表达式

  四、扩展正则表达式

  五、Sed


具体内容如下:


一、抽取文本的工具:

     文件内容:lesscat

     文件截取:headtail

     按列抽取:cut

     按关键字抽取:grep


  1.文件查看命令cat, tac,rev

   cat [OPTION]… [FILE]…

       -E: 显示行结束符$

       -T:显示Tab键

wKiom1enBv7BTh_5AAAZoUMJ0zs211.png

      -v:显示Windows的空格字符

wKiom1enB02ytBZ5AAARLysOr7Y342.png

      -A:显示所有控制符

wKiom1enBMuQM1rgAAARt6anBOI366.png

     -n: 对显示出的每一行进行编号 

wKioL1enBPuiD_1wAAAcq_qZtvU387.png

     -b:非空行编号

wKiom1enBRvzcrXbAAAV5vnDOwE861.png     

   -s:压缩连续的空行成一行

wKioL1enBUGBN7eiAAATV3WUPNc368.png

    cat 也可以作为一个简单的文本编辑器

wKiom1enB-eimISMAAEia6gXeNw291.png  

   rev命令,可以逆序显示字符

wKiom1enCEjQgymuAAAezgqO_m8717.png


  2.分页查看内容:more,less


    more [OPTIONS…] FILE…

        -d: 显示翻页及退出提示 (空格 是继续看下一屏,q是退出)

         !command在看文件的时候可以执行命令

   less:一页一页地查看文件或STDIN输出

   查看时有用的命令包括:

        /,文本搜索文本

         n/N跳到下一个or 上一个匹配

         less命令是man命令使用的分页器


  3.head,tail显示文本前行或后行内容

    head

    head [OPTION]… [FILE]…

      -c #: 指定获取前#字节

       -n #: 指定获取前#行

       -#  指定行数

wKioL1enCNWwOr1jAAAkzQpXq9U710.png

    tail

    tail [OPTION]… [FILE]…

       -c #: 指定获取后#字节

        -n #: 指定获取后#行

        -# 同上

wKiom1enCQzyrZvrAAAV7xOleYA423.png

      -f: 跟踪显示文件新追加的内容,常用日志监控

wKioL1enCR6zVoWgAAImpqICppE677.png

   4.按列抽取文本cut和合并文件paste

    cut 显示文件或STDIN数据的指定列

    cut [OPTION]… [FILE]…

      -d DELIMITER: 指明分隔符,默认tab

      -f FILEDS:

           #: 第#个字段

           #,#[,#]:离散的多个字段,例如1,3,6

           混合使用:1-3,7

wKiom1enCujjkWo4AAAhMDbXdX0571.png

    –output-delimiter=STRING指定输出分隔符(也可以用tr命令转换分隔符

wKioL1enCwii2IwcAAAYyHTHTR4578.png         

     -c按字符切割

        举例:

       cut -d: -f1 /etc/passwd

          cat /etc/passwd|cut -d: -f7

          cut -c2-5 /usr/share/dict/words

    paste 合并两个文件同行号的列到一行

    paste [OPTION]… [FILE]…

        -d 分隔符:指定分隔符,默认用TAB

        -s : 所有行合成一行显示

     如:paste f1 f2

         paste -s f1 f2


  5.wcsort ,diff和path 分析文本工具

 wc (word count)收集文本统计数据

      计数单词总数、行总数、字节总数和字符总数

      可以对文件或STDIN中的数据运行,不跟任何选项,直接根文档,则会把行数、次数、和字符数依次输出。

    选项:

      使用-l来只计数行数

       使用-w来只计数单词总数

       使用-c来只计数字节总数

       使用-m来只计数字符总数

wKiom1enDGWxLJNuAAAa-PckbOY620.png

  6.sort文本排序

   把整理过的文本对列进行排序,显示在STDOUT,不改变原始文件。

     $sort [options] file(s)

   常用选项:

       -r执行反方向(由上至下)整理

       -n执行按数字大小整理

       -f选项忽略(fold)字符串中的字符大小写

       -u选项(独特,unique)删除输出中的重复行

       -t c选项使用c做为字段界定符

       -k X选项按照使用c字符分隔的X列来整理能够使用多次

wKiom1enDYDDyhGGAAAy0CDCyyw929.png

  7.uniq命令:

   从输入中删除重复的前后相接的(相邻的行)

    uniq[OPTION]… [FILE]…

      -c: 显示每行重复出现的次数

wKioL1enDi7BM0UeAAAIWmNw02Q238.png 

      

        -d: 仅显示重复过的行;

        -u: 仅显示不曾重复的行;

        连续且完全相同方为重复

   常和sort 命令一起配合使用:

    sort userlist.txt | uniq-c

wKioL1enDm_wnWb-AAAkm9pjG2Y079.png

  8.diff命令

  比较两个文件之间的区别

    举例如下:

     $diff foo.conf-brokenfoo. conf-works

      5c5

      <use_widgets=no

      —

      >use_widgets=yes

   注明第5行有区别(改变)


 9.patch 复制对文件的改变

   diff命令的输出被保存在一种叫做“补丁”的文件中

    使用-u选项来输出“统一的(unified)”diff格式文件,最适用于补丁文件。

   patch命令复制在其它文件中进行的改变(要谨慎使用 !)

   用-b选项来自动备份改变了的文件

wKioL1enD-vBSgZpAAI0LGWKcsg891.png

 

二、Linux上文本处理三剑客

    grep:文本过滤(模式:pattern)工具;

    grep, egrep, fgrep(不支持正则表达式搜索)

    sed:stream editor,文本编辑工具;

    awk:Linux上的实现gawk,文本报告生成器;

 

  1.grep

    grep: Global search REgularexpression and Print out the line.(全球搜索正则表达式,并打印成一行)

    作用:文本搜索工具,根据用户指定的“模式”对目标文本逐行进行匹配检查;打印匹配到的行

    模式:由正则表达式字符及文本字符所编写的过滤条件

wKioL1enFXqzshLvAAAj8LPkzdg050.png

     grep [OPTIONS] PATTERN [FILE…]

      grep root /etc/passwd

      grep "$USER" /etc/passwd

      grep '$USER' /etc/passwd

      grep `whoami` /etc/passwd

wKiom1enFgLzrEXwAAAihQ-S-cs285.png

  2.grep命令表达式:

     –color=auto: 对匹配到的文本着色显示

      -v: 显示不能够被pattern匹配到的行;

       -i: 忽略字符大小写

wKiom1enFkqhoB99AAARoZ2Np1M917.png

      -n:显示匹配的行号

wKioL1enFmnx5fuCAAAQIkpz0ao289.png

     -c: 统计匹配的行数

wKiom1enFo_yyLI_AAAUvf9MKIY047.png

      -o: 仅显示匹配到的字符串;

wKioL1enFr7wLmwUAAALNegOQLE414.png

      -q: 静默模式,不输出任何信息

wKiom1enFuCTRXzOAAAl6qGgPeE013.png

      -A #:after, 后#行

wKioL1enFv2D4VKBAAAm27cQHqw005.png

      -B #: before, 前#行

      -C #:context, 前后各#行

      -e:实现多个选项间的逻辑or关系

         如:grep –e ‘cat ’ -e ‘dog’ file

wKiom1enF-WTCHYXAAAf4nsaX30269.png

      -w:整行匹配整个单词

wKioL1enGAWiViK8AAAduCj0OX0073.png

      -E:使用ERE

 

三、正则表达式

   REGEXP:由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面意义,而表示控制或通配的功能

   程序支持:grep, vim, less,nginx

   分两类:

     基本正则表达式:BRE

     扩展正则表达式:ERE

      grep -E, egrep

   正则表达式引擎:

     采用不同算法,检查处理正则表达式的软件模块

     PCRE(Perl Compatible Regular Expressions)

   元字符分类:字符匹配、匹配次数、位置锚定、分组

   man 7 regex


  1.基本正则表达式元字符

    字符匹配:

      . :匹配任意单个字符;

wKiom1enHcrRqhUxAAANe8ggU84204.png

       [] :匹配指定范围内的任意单个字符

wKioL1enHf-BuWexAAAVr3BtNdQ340.png

       [^] :匹配指定范围外的任意单个字符

wKiom1enHlPyH6NCAAAQwAlnNjY674.png

       [:digit:]、[:lower:]、[:upper:]、[:alpha:]、[:alnum:]、 

       [:punct:]、[:space:]

    匹配次数

     匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数

         * 匹配前面的字符任意次,包括0

            贪婪模式:尽可能长的匹配

         .* :任意长度的任意字符

           \? :匹配其前面的字符01

          \+  :匹配其前面的字符至少1

          \{m\} :匹配前面的字符m

          \{m,n\}:匹配前面的字符至少m次,至多n

          \{,n\}:匹配前面的字符至多n

          \{m,\}:匹配前面的字符至少m次 

    位置锚定

      位置锚定:定位出现的位置

       ^:行首锚定,用于模式的最左侧

          $:行尾锚定,用于模式的最右侧

wKioL1enHubQfh44AAAtdqFRs8k264.png

         ^PATTERN$: 用于模式匹配整行

         ^$: 空行,不包含有空格的行

wKioL1enH0egspXqAAEWwREczjM325.png

         ^[[:space:]]*$ :空白行,包含有空格的行

wKiom1enH6jirLgsAAFxv_iAwYY509.png

         \< 或\b:词首锚定,用于单词模式的左侧

wKioL1enH-6iL5baAAAQGiAIxFc107.png

         \> 或\b:词尾锚定;用于单词模式的右侧

wKioL1enIALD56SSAAAVmBgV3qc191.png

         \<PATTERN\>:匹配整个单词

wKiom1enICXBg_DIAAAUBcaaVDA026.png

    分组

     (1)分组:\(\):将一个或多个字符捆绑在一起,当作一个整体进行处理,如:\(root\)\+

    (2)分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式为: \1, \2, \3, …

    (3)\1: 从左侧起,第一个左括号以及与之匹配右括号之间的模式所匹配到的字符;

       实例:\(string1\+\(string2\)*\)

        \1: string1\+\(string2\)*

        \2: string2

    (4)后向引用:引用前面的分组括号中的模式所匹配字符(而非模式本身)

wKiom1enINKz1-JqAAD3WOugbI4925.png

wKioL1enINLBW7CPAACaAHhi4AA264.png

   2.egrep和扩展的正则表达式

     egrep= grep -E

      egrep[OPTIONS] PATTERN [FILE…]

    扩展正则表达式的元字符

      字符匹配:

         . 代表任意单个字符

         [] 指定范围的字符

         [^] 不在指定范围的字符

      次数匹配:

        *:匹配前面字符任意次

         ?: 0或1次

         +:1次或多次

        {m}:匹配m次

        {m,n}:至少m,至多n次

      位置锚定:

        ^ :行首

         $ :行尾

        \<, \b:语首

        \>, \b:语尾

      分组:

       ()

        后向引用:\1, \2,

      或者:

        a|b

         C|cat: Ccat

        (C|c)at:Catcat


原创文章,作者:zhumengxiaotao,如若转载,请注明出处:http://www.178linux.com/30751

(0)
zhumengxiaotaozhumengxiaotao
上一篇 2016-08-08
下一篇 2016-08-08

相关推荐

  • Http虚拟主机的应用

    一、http 1、 基于主机名实现三个虚拟主机 (1)yum安装httpd (2)注释中心主机的网页路径 (3)创建三个虚拟机主机的文件路径 (4)创建三个虚拟机主机的文件网页index.html (5)更改hosts文件进行映射 (6)关闭防火墙和Selinux进行测试(测试步骤是在本机的虚拟机上测试) 2、每虚拟主机使用独立的访问日志和错误日志 (1)给…

    Linux干货 2016-10-08
  • Samba & Vsftp

    1、建立samba共享,共享目录为/data,要求:(描述完整的过程)   1)共享名为shared,工作组为magedu;   2)添加组develop,添加用户gentoo,centos和ubuntu,其中gentoo和centos以develop为附加组,ubuntu不属于develop组;密码均为用户名;   3)添加s…

    Linux干货 2016-12-20
  • SecureCRT 8.0的安装及Linux基本命令介绍

    在CentOS虚拟中安装并打开图形界面后,可以在图形界面和命令行界面之间任意切换。在打开终端后输入init3可以切换至命令行界面,输入init5返回到图形界面。 这里我们用SecureCRT 8.0来远程的对虚拟机进行操作,对于SecureCRT 8.0的安装步骤就不详细介绍,简单介绍下如何连接到CentOS。 1. 2.点击完成。   &nbsp…

    2017-07-13
  • grep、egrep、fgrep 正则表达式详解

    大纲一、grep分类       –1.1基本定义       –1.2常用选项       –1.3不常用选项二、正则表达式       –2.1基本…

    Linux干货 2015-07-01
  • Linux磁盘及文件系统管理

    磁盘(Hard Disk Drive,简称HDD)是一种存储介质,传统的机械硬盘由一个或多个铝制或玻璃制的碟片组成,碟片外覆盖有铁磁性材料。 磁盘的物理结构一般由磁头与碟片、电动机、主控芯片与排线等部件组成;当主电动机带动碟片旋转时,副电动机带动一组(磁头)到相对应的碟片上并确定读取正面还是反面的碟面,磁头悬浮在碟面上画出一个与碟片同心的圆形轨道(磁轨或称柱…

    Linux干货 2015-04-20
  • smb

    练习: 创建一个共享ftp,路径为/var/ftp/pub;要求仅centos和gentoo用户能上传;此路径对其它用户不可见; [root@node1 ~]# yum -y install samba [root@node1 ~]# vim /etc/samba/smb.con…

    Linux干货 2016-10-23