文本处理工具

文件 查看命令:cat, tac,rev
cat [OPTION]… [FILE]…
-E: 显示行结束符$
-n: 对显示出的每一行进行 编号
-A :显示所有控制符
-b: : 非空行编号
-s :压缩连续的空行成一行

分页查看文件内容
more: 分页查看文件
more [OPTIONS…] FILE…
-d: 显示翻页及退出提示
less :一页一页地查看文件或STDIN 输出

查看时有用的命令包括:
n/N 跳到下一个 个 或 或 上 一个匹配
less 命令是man

显示文本前或后行内容
head [OPTION]… [FILE]…
-c #: 指定获取前# 字节
-n #: 指定获取前#行 行
-#: : 指定行数
tail
tail [OPTION]… [FILE]…
-c #: 指定获取后# 字节
-n #: 指定获取后#行 行
-#: :
-f: 跟踪显示文件新追加的内容

按列抽取文本cut 和合并文件paste
cut [OPTION]… [FILE]…
-d DELIMITER: 指明分隔符,默认tab
-f FILEDS:

: 第# 个字段

,#[,#] :离散的多个字段,例如1,3,6

-# :连续的多个字段, 例如1-6

混合使用:1-3,7
-c 按字符切割
–output-delimiter=STRING 指定输出分隔符

cut 和paste
显示文件或STDIN 数据的指定列
cut -d: -f1 /etc/passwd
cat /etc/passwd | cut -d: -f7
cut -c2-5 /usr/share/dict/words
  paste 合并两个文件同行号的列到一行
paste [OPTION]… [FILE]…
-d 分隔符: 指定分隔符,默认用TAB
-s : 所有行合成一行显示
paste f1 f2
paste -s f1 f2

分析文本的工具
 文本数据统计:wc
 整理文本:sort
 比较文件:diff 和patch

收集文本统计数据wc
 计数单词总数、行总数、字节总数和字符总数
 可以对文件或STDIN 中的数据运行
$ wc story.txt
39 237 1901 story.txt
行数 字数 字符数
使用 -l 来只计数行数
使用 -w 来只计数单词总数
使用 -c 来只计数字节总数
使用 -m 来只计数字符总数

文本排序sort
 把整理过的文本显示在STDOUT ,不改变原始文件
sort [options] file(s)
  常用选项
  -n 执行按数字大小整理
  -f 选项忽略(fold )字符串中的字符大小写
  -u 选项(独特,unique )删除输出中的重复行
  -t c 选项使用c 做为字段界定符
  -k X 选项按照使用c 字符分隔的X

uniq
 uniq 命令:从输入 中删除前后相接的 重复的 行
 uniq [OPTION]… [FILE]…
-c: 显示每行重复出现 的次数
-d: 仅显示重复过 的行
-u: 仅显示不曾重复 的行
连续且完全相同方为重复
  常和sort 命令一起配合使用:
sort userlist.txt | uniq -c

比较文件
 比较两个文件之间的区别
$ diff foo.conf-broken foo.conf-works
5c5
< use_widgets = no

> use_widgets = yes
? 注明第5 行有区别(改变)

复制对文件改变patch
 diff 命令的输出被保存在一种叫做“补丁”的文件中
  使用 -u 选项来输出“统一的(unified )”diff 格式文件,最适用于补丁文件。
 patch 复制在其它文件中进行的改变(要谨慎使用)
  适用 -b 选项来自动备份改变了的文件
$ diff -u foo.conf-broken foo.conf-works > foo.patch
$ patch -b foo.conf-broken foo.patch

文件查找
 在文件系统上查找符合条件 的文件
 文件查找:locate, find
非实时查找( 数据库查找) :locate
实时查找:find

locate
  查询系统上预建的文件索引数据库
/var/lib/mlocate/mlocate.db
  依赖于事先构建 的索引
索引的构建是在系统较为空闲时自动进行( 周期性 任务),管理员 手动更新数据库(updatedb)
  索引构建过程需要遍历整个根文件系统,极 消耗资源
  工作特点:
? 查找 速度 快
? 模糊 查找
? 非实时查找
? 搜索的是文件的全路径,不仅仅是文件名
? 可能只搜索用户具备读取和执行权限的目录

locate 命令
  locate KEYWORD
  有用的选项
-i 不区分大小写的搜索
-n N 只列举前N 个匹配项目
  locate conf
搜索名称或路径中带有“conf ”的文件
  locate -r ‘.conf$’
使用Regex 来搜索以“.conf ”结尾的文件

find
  实时查找工具,通过遍历指定路径完成文件查找
  工作特点:
查找速度略慢
精确查找
实时查找
可能只搜索用户具备读取和执行权限的目录
find
  语法:
  find [OPTION]… [ 查找路径] [ 查找条件] [ 处理动作]
查找路径:指定具体目标路径;默认为当前目录
查找条件:指定的查找标准,可以文件名、大小、类型、
权限等标准进行;默认为找出指定路径下的所有文件
处理动作:对符合条件的文件做操作,默认输出至屏幕
查找条件
指搜索层级
-maxdepth level 最大搜索目录深度, 指定 目录为第1级 级
-mindepth level 最大 搜索目录深度
  根据文件名和inode 查找:
-name ” 文件名称” :支持使用glob
*, ?, [], [^]
-iname ” 文件名称” :不区分字母大小写
-inum n 按inode 号查找
-samefile name 相同inode 号的文件
-links n 链接数为n 的文件
-regex “PATTERN” :以PATTERN 匹配整个文件路径字符串,而不仅仅是文件名称
根据属主、属组查找:
-user USERNAME :查找属主为指定用户(UID) 的文件
-group GRPNAME: 查找属组为指定组(GID) 的文件
-uid UserID :查找属主为指定的UID 号的文件
-gid GroupID :查找属组为指定的GID 号的文件
-nouser :查找没有属主的文件
-nogroup
根据文件类型查找:
-type TYPE:
? f: 普通文件
? d: 目录文件
? l: 符号链接文件
? s :套接字文件
? b: 块设备文件
? c: 字符设备文件
? p: 管道文件
组合条件:
与:-a
或:-o
非:-not, !
  德 德· 摩根 定律:
(非 非 P) 或 或 (非 非 Q) = 非(P 且 且 Q)
(非 非 P) 且 且 (非 非 Q) = 非(P 或 或 Q)
  示例:
!A -a !B = !(A -o B)
!A -o !B = !(A -a B)

find 示例
  find -name snow.png
? 搜索名为snow.png 的文件
  find -iname snow.png
? 不分大小写地搜索名为snow.png 、Snow.png、 、
SNOW.PNG 等等的文件
  find / -name “.txt”
  find /var –name “
log
  find -user joe -group joe
  搜索被用户joe 以及组群joe
? find -user joe -not -group joe
? find -user joe -o -user jane
? find -not ( -user joe -o -user jane )
? find / -user joe -o -uid 500
找出/tmp 目录下,属主不是root ,且 文件名 不以f 开头的 文件
find /tmp ( -not -user root -a -not -name ‘f
‘ ) -ls
find /tmp -not ( -user root -o -name ‘f‘ ) –ls
  排除 目录
? 示例:查找/etc/ 下,除/etc/sane.d 目录的其它所有.conf 后缀的文件
find /etc -path ‘/etc/sane.d’ -a -prune -o -name “
.conf” -print
根据文件大小来查找:
-size [+|-]#UNIT
常用单位:k, M, G

UNIT: (#-1, #]

如:6k 表示(5k,6k]
-#UNIT :[0,#-1]
如: :-6k 表示[0,5k]
+#UNIT :(#, ∞ )
如: :+6k 表示(6k ,∞ )

根据时间戳:
以“天”为单位;
-atime [+|-]#,

: [#,#+1)

+#: [#+1, ∞ ]
-#: [0,#)
-mtime
-ctime
以“分钟”为单位:
-amin
-mmin
-cmin
根据权限查找:
-perm [/|-]MODE
MODE: 精确权限匹配
/MODE :任何一类(u,g,o) 对象的权限中只要能一位匹配即可,或关系,+ 从centos7 开始淘汰
-MODE :每一类对象都必须同时拥有指定权限,与关系0 表示不关注
? find -perm 755 会匹配权限模式恰好是755 的文件
? 只要当任意人有写权限时,find -perm +222 就会匹配
? 只有当每个人都有写权限时,find -perm -222 才会匹配
? 只有当其它人(other )有写权限时,find -perm -002才会匹配

处理动作
  -print :默认的处理动作,显示至屏幕
  -ls :类似于对查找到的文件执行“ls -l” 命令
  -delete :删除查找到的文件
  -fls file :查找到的所有文件的长格式信息保存至指定文件中
  -ok COMMAND {} \; 对查找到的每个文件执行由 COMMAND指定的命令,对于每个文件执行命令之前,都会交互式要求用户确认
-exec COMMAND {} \; 对查找到的每个文件执行由COMMAND 指定的命令
  {}: 用于引用查找到的文件名称自身
  find 传递查找到的文件至后面指定的命令时,查找到所有符合条件的文件一次性传递给后面的命令

参数 替换 换xargs
  用于 产生 某个命令的 参数, ,xargs 入 可以读入 stdin 的数据,并且以空格符 或 回车符将 将 stdin 的数据分隔 成为arguments
  注意:文件 名 或者是其他意义的名词内含有 空格符 的情况
  有些命令不能接受过多参数 ,命令执行 可能会 失败,xargs可以解决
  示例:
find | xargs COMMAND
find /sbin -perm +7000 | xargs ls -l

find 示例
  find -name “.conf” -exec cp {} {}.orig \;
? 备份配置文件,添加.orig 这个扩展名
  find /tmp -ctime +3 -user joe -ok rm {} \;
? 提示删除存在时间超过3天以上的joe 的临时文件
  find ~ -perm -002 -exec chmod o-w {} \;
? 在你的主目录中寻找可被其它用户写入的文件
  find /data –type f -perm 644 -name “
.sh” –exec
chmod 755 {} \;
  find /home –type d -ls

原创文章,作者:SDS,如若转载,请注明出处:http://www.178linux.com/71274

(0)
SDSSDS
上一篇 2017-03-17
下一篇 2017-03-18

相关推荐

  • Linux软件包管理之程序包编译安装

    程序包编译 程序包编译安装: Application-VERSION-release.src.rpm–>      安装后,使用rpmbuild命令制作成二进制格式的rpm包,而后再安装 源代码–>预处理–>编译(gcc)–>汇编&#82…

    Linux干货 2016-08-25
  • 远程使用sshd连接不上服务器解决方案

    前些天在学习linux的时候CRT怎么也连接不上我的linux服务器了,整了半天,请教了一些高人才把这个问题解决,现在整理一下我的解决方案。 大家可以看到配置都正确但就是连不上。 通过查看得出原来是22端口拒绝~! 那么我就去查看22端口有没有开启 大家可以看到我的22端口也就是sshd服务并没有开启。 我去开启我的sshd服务器,但是又出现了问题~! 随后…

    Linux干货 2016-03-28
  • M25初尝试部署RAID磁盘阵列组

    在学习了linux系统管理硬盘设备的基础后,现在尝试部署RAID10硬盘组技术,在部署前我们先了解一下什么叫“RAID”磁盘冗余阵列(Redundant Array of Independent Disks)。 RAID技术就是把多块硬盘设备组合成一个容量更大、更安全的硬盘组,可以把数据切割成多个区段后分别存在各个不同物理硬盘设备上,然后利用分散读写需求赖提…

    2017-07-12
  • Linux基础之创建私有CA过程详解

    创建私有CA过程详解 颁发CA自签证书 创建序列号文件,序列号从01开始 echo 01 > /etc/pki/CA/serial 基于rsa算法生成非对称加密的密钥对 umask 077; openssl genrsa -out/etc/pki/CA/private/cakey.pem 2048 颁自签证书 openssl req -new -x50…

    2017-09-16
  • Linux中一些常用的命令(一)

    ls命令 ls命令:用来列出当前目录的内容或指定目录,是使用频率较高的命令 -l:以长格式显示目录下的内容列表。输出的信息从左到右依次包括文件名,文件类型、权限模式、硬连接数、所有者、组、文件大小和文件的最后修改时间等 -a:列出所有隐藏文件和目录 -h:以人类可读的方式将文件或者目录大小显示出来 -R:把当前目录下的目录的所有内容列出来(递归) -d:显示…

    Linux干货 2017-03-30
  • N22第三周作业

    1、列出当前系统上所有已经登录的用户的用户名,注意:同一个用户登录多次,则只显示一次即可 [root@localhost ~]# who |cut -d' ' -f1 |sort -u   root   xuc 2、取出…

    Linux干货 2016-08-29