第十二章、正规表示法与文件格式化处理
最近升级日期:2009/08/26

大标题的图示重点回顾
  • 正规表示法就是处理字串的方法,他是以行为单位来进行字串的处理行为;
  • 正规表示法透过一些特殊符号的辅助,可以让使用者轻易的达到『搜寻/删除/取代』某特定字串的处理程序;
  • 只要工具程序支持正规表示法,那么该工具程序就可以用来作为正规表示法的字串处理之用;
  • 正规表示法与万用字节是完全不一样的东西!万用字节 (wildcard) 代表的是 bash 操作介面的一个功能, 但正规表示法则是一种字串处理的表示方式!
  • 使用 grep 或其他工具进行正规表示法的字串比对时,因为编码的问题会有不同的状态,因此, 你最好将 LANG 等变量配置为 C 或者是 en 等英文语系!
  • grep 与 egrep 在正规表示法里面是很常见的两支程序,其中, egrep 支持更严谨的正规表示法的语法;
  • 由於编码系统的不同,不同的语系 (LANG) 会造成正规表示法撷取数据的差异。因此可利用特殊符号如 [:upper:] 来替代编码范围较佳;
  • 由於严谨度的不同,正规表示法之上还有更严谨的延伸正规表示法;
  • 基础正规表示法的特殊字符有: *, ?, [], [-], [^], ^, $ 等!
  • 常见的正规表示法工具有: grep , sed, vim 等等
  • printf 可以透过一些特殊符号来将数据进行格式化输出;
  • awk 可以使用『栏位』为依据,进行数据的重新整理与输出;
  • 文件的比对中,可利用 diff 及 cmp 进行比对,其中 diff 主要用在纯文字文件方面的新旧版本比对
  • patch 命令可以将旧版数据升级到新版 (主要亦由 diff 创建 patch 的补丁来源文件)

大标题的图示本章习题
( 要看答案请将鼠标移动到『答:』底下的空白处,按下左键圈选空白处即可察看 )
  • 情境模拟题一:透过 grep 搜寻特殊字串,并配合数据流重导向来处理大量的文件搜寻问题。

    • 目标:正确的使用正规表示法;
    • 前提:需要了解数据流重导向,以及透过子命令 $(command) 来处理档名的搜寻;

    我们简单的以搜寻星号 (*) 来处理底下的任务:

    1. 利用正规表示法找出系统中含有某些特殊关键字的文件,举例来说,找出在 /etc 底下含有星号 (*) 的文件与内容:

      解决的方法必须要搭配万用字节,但是星号本身就是正规表示法的字符,因此需要如此进行:
      [root@www ~]# grep '\*' /etc/*
      
      你必须要注意的是,在单引号内的星号是正规表示法的字符,但我们要找的是星号,因此需要加上跳脱字符 (\)。但是在 /etc/* 的那个 * 则是 bash 的万用字节! 代表的是文件的档名喔!不过由上述的这个结果中,我们仅能找到 /etc 底下第一层子目录的数据,无法找到次目录的数据, 如果想要连同完整的 /etc 次目录数据,就得要这样做:
      [root@www ~]# grep '\*' $(find /etc -type f)
      

    2. 但如果文件数量太多呢?如同上述的案例,如果要找的是全系统 (/) 呢?你可以这样做:
      [root@www ~]# grep '\*' $(find / -type f)
      -bash: /bin/grep: Argument list too long
      
      真要命!由於命令列的内容长度是有限制的,因此当搜寻的对象是整个系统时,上述的命令会发生错误。那该如何是好? 此时我们可以透过管线命令以及 xargs 来处理。举例来说,让 grep 每次仅能处理 10 个档名,此时你可以这样想:

      1. 先用 find 去找出文件;
      2. 用 xargs 将这些文件每次丢 10 个给 grep 来作为参数处理;
      3. grep 实际开始搜寻文件内容。

      所以整个作法就会变成这样:
      [root@www ~]# find / -type f | xargs -n 10 grep '\*'
      

    3. 从输出的结果来看,数据量实在非常庞大!那如果我只是想要知道档名而已呢?你可以透过 grep 的功能来找到如下的参数!
      [root@www ~]# find / -type f | xargs -n 10 grep -l '\*'
      

  • 情境模拟题二:使用管线命令配合正规表示法创建新命令与新变量。我想要创建一个新的命令名为 myip , 这个命令能够将我系统的 IP 捉出来显示。而我想要有个新变量,变量名为 MYIP ,这个变量可以记录我的 IP 。

    处理的方式很简单,我们可以这样试看看:

    1. 首先,我们依据本章内的 ifconfig, sed 与 awk 来取得我们的 IP ,命令为:
      [root@www ~]# ifconfig eth0 | grep 'inet addr' | \
      >  sed 's/^.*inet addr://g'| cut -d ' ' -f1
      
    2. 再来,我们可以将此命令利用 alias 指定为 myip 喔!如下所示:
      [root@www ~]# alias myip="ifconfig eth0 | grep 'inet addr' | \
      >  sed 's/^.*inet addr://g'| cut -d ' ' -f1 "
      
    3. 最终,我们可以透过变量配置来处理 MYIP 喔!
      [root@www ~]# MYIP=$( myip )
      
    4. 如果每次登陆都要生效,可以将 alias 与 MYIP 的配置那两行,写入你的 ~/.bashrc 即可!


简答题部分:
  • 我想要知道,在 /etc 底下,只要含有 XYZ 三个字节的任何一个字节的那一行就列出来,要怎样进行?
    grep [XYZ] /etc/*
  • 将 /etc/termcap 内容取出后,(1)去除开头为 # 的行 (2)去除空白行 (3)取出开头为英文字母的那几行 (4)最终统计总行数该如何进行?
    grep -v '^#' /etc/termcap | grep -v '^$' | grep '^[[:alpha:]]' | wc -l

大标题的图示参考数据与延伸阅读

 
     
http://linux.vbird.org is designed by VBird during 2001-2011. ksu.edu 

本网页主要以Firefox配合解析度 1024x768 作为设计依据     鸟哥自由软件整合应用研究室