[转帖]使用 sed 处理文本文件

使用,sed,处理,文本文件 · 浏览次数 : 0

小编点评

**sed 编辑器简介** sed 是一个用于处理文本文件的 GNU 流编辑器，它允许您按照指定的规则去处理文本文件或流。使用户可以在命令中快捷地修改文本文件成为可能。 **安装** sed 是默认安装在 Linux（Ubuntu）系统上的，但它需要在 Mac OS 和 Windows 系统上安装。 **基本选项和参数** * `-n`:取消默认输出。 * `-e`:添加脚本至要运行的命令。 * `-f`:添加脚本文件的内容到要运行的命令。 * `-i`:在文件存在时编辑已存在的文件。 * `-s`:替换多行时，要在文本内部需换行的位置用反斜杠续行。 * `-`:在匹配行或范围以外的区域执行地址类型单地址类型描述类型描述类型含义。 * `-p`:匹配从第 p 行开始到第 q 行的范围。 * `-N`:匹配第 p 行和从第 p 行开始每隔 N 行后的下一行。 * `-`:在匹配行或范围以外的区域执行地址类型单地址类型描述类型描述类型含义。 * `-r`:使用扩展的正则表达式。 * `-regexp-extended`:开启正则表达式模式。 **示例** ``` # 将所有以 "love" 开头的行替换成 " **love**" sed 's/love/ **love**/' file.txt # 将所有以 "red" 或 "blue" 开头的行隐藏 sed '/red|blue/ s/^/&\0/g' file.txt # 将所有包含 "hello" 的行删除 sed '/hello/d' file.txt # 将所有包含连续 5 个 "d" 的行删除 sed '/d{5,}/d' file.txt # 将所有包含数字的行显示出来 sed '/^[0-9]+$/p' file.txt ``` **其他** * `sed` 可以使用正则表达式进行匹配。 * `sed` 可以使用 `-i`选项在文件存在时编辑已存在的文件。 * `sed` 可以使用 `-r`选项开启正则表达式模式。 * `sed` 可以使用 `-regexp-extended`选项开启正则表达式模式。

正文

https://www.cnblogs.com/wx2020/p/16269905.html
复制

前言

sed 是一款 GNU 流编辑器，可以按照指定的规则去处理文本文件或流，其强大的功能使用户在命令中快捷地修改文本文件成为可能。

它不会修改文件，除非使用shell重定向来保存结果。默认情况下，所有的输出行都被打印到屏幕上。

sed编辑器逐行处理文件（或输入），并将结果发送到屏幕。具体过程如下：

首先sed把当前正在处理的行保存在一个临时缓存区中（也称为模式空间），然后处理临时缓冲区中的行，完成后把该行发送到屏幕上。sed每处理完一行，先将处理得到的结果保存到一个暂存缓冲区中（也称为保存空间），再将其从临时缓冲区删除，然后将下一行读入，进行处理和显示。处理完输入文件的最后一行后，sed便结束运行。sed把每一行都存在临时缓冲区中，对这个副本进行编辑，所以不会修改原文件。

安装

Linux（Ubuntu）系统已经自带，mac OS系统也默认安装，Windows 需要安装一个名为 msys2 的软件，安装过程暂略。

Ps. 经搜索，Windows 也可以安装一款名为 Gow 的软件，这一款软件也含有一些简单 Linux 命令，比 msys2 更加轻量，下载地址在这里。

使用

摘要

sed [选项] [选项参数] [脚本] [输入文件] [其他参数]

基本选项及其参数

短选项	功能	对应长选项
-n	取消默认输出	--quiet, --silent
-e 脚本	添加脚本至要运行的命令	--expression=脚本
-f 脚本文件	添加脚本文件的内容到要运行的命令	--file=脚本文件
-i [后缀]	编辑已存在的文件。如果提供了后缀则生成指定后缀的备份文件	--in-place[=后缀]
-E, -r	在脚本中使用扩展的正则表达式	--regexp-extended

脚本

格式

[addr1[,addr2]][!]{命令}

地址

脚本中可以不指定地址，这样命令将会为输入的所有行执行
如果脚本给出了1个地址，那么命令将只会为匹配此地址上的行执行（单地址类型）
如果脚本给出了2个地址，那么命令将会对从匹配的第一个地址到第二个地址的区域的所有输入行执行（双地址类型）
命令前的 ! 会使命令在指定地址或地址范围以外的区域执行

地址类型

单地址类型

类型描述	类型含义
number (数字)	只匹配行号为 number 的行
first~step (eg:1~2)	匹配每一个第 step 行并从 first 开始计数
$	只匹配最后一行
/regexp/	匹配符合正则表达式 `regexp` 的行
\a`regexp`b	匹配符合正则表达式 `regexp` 的行，其中的a、b为任意字符，用于辅助定位

双地址类型

类型描述	类型含义
p,q (数字)	匹配从第 p 行开始到第 q 行的范围
p,+N (数字)	匹配从第 p 行开始到其之后的 N 行
p,~N (数字)	匹配第 p 行和从第 p 行开始每隔 N 行后的下一行
p, /regexp/ (p为数字,regexp为正则表达式)	匹配从第 p 行开始，直到首次发现符合正则表达式regexp的行（不含第 p 行，见注1）

注1：

若 p 为 0，则含义为匹配从文件首字符开始，直到首次发现符合正则表达式regexp的行
若 p 为大于 0 的行号，则 regexp 不会对第 p 行进行测试

命令

命令描述	命令含义
a \ text	在匹配的行后追加文本text
i \ text	在匹配的行前插入文本text
c \ text	用文本text替换匹配行或范围
d	删除匹配行或范围
p	输出匹配行或范围
s/regexp/replacement/[替换标记]	在匹配行或范围内，用 replacement 替换使用正则 `regexp` 匹配到的内容

注2：追加 / 插入 / 替换多行时，要在 text 内部需换行的位置用反斜杠续行。

替换标记

标记描述	标记含义
g	行内全面替换
Ng	行内从第N处匹配开始替换
\1...\9	子串匹配(?)

正则表达式元字符集

由于脚本中的命令支持正则表达式，在这就不得不提一下正则表达式的元字符集，不同的元字符在正则表达式中可以覆盖不同的匹配场景。

字符	行为描述	示例
^	行首匹配	`/^sed/`匹配所有以sed开头的行
$	行尾匹配	`/sed$/`匹配所有以sed结尾的行
.	非换行符单个匹配	`/s.d/`匹配s后接一个任意字符，最后是d
*	0至多个字符匹配	`/sed/`匹配一个或多个空格后紧跟sed的行; `/sed/`匹配se后紧跟0至多个d的行
[]	字符组内单个匹配	`/[sS]ed/`匹配sed和Sed
[^]	字符组外单个匹配	/[^A-RT-Z]ed/匹配不包含A-R和T-Z的一个字母开头，紧跟ed的行
$..$	匹配子串,以在之后使用	s/$love$able/\1rs，loveable被替换成lovers，见注3
&	匹配搜索串,以在之后使用	s/love/ &/，love被替换成 love
\<	匹配单词的开始	`/\<sed/`匹配包含以sed开头的单词的行
\>	匹配单词的结束	`/sed\>/`匹配包含以sed结尾的单词的行
x\	匹配字符x，m次	`/d\{5\}/` 匹配含连续5个d的行
x\	匹配字符x，至少m次	`/d\{5,\}/` 匹配至少含连续5个d的行
x\	匹配字符x，至少m次，至多n次	`/d\{5,9}/` 匹配含连续5到9个d的行

范例

注释掉 build.gradle 中 implementation 'org.greenrobot:greendao:3.3.0

# 在含有 org.greenrobot:greendao:3.3.0 的行上进行替换，替换i为 //i
sed '/org.greenrobot:greendao:3.3.0/s/i/\/\/i/' build.gradle 
# 替换 implementation 'org.greenrobot:greendao:3.3.0 为 在其之前加上//
sed "s/implementation 'org.greenrobot:greendao:3.3.0'/\/\/&/" build.gradle
复制