详解Shell cut用法

cut是以每一行为一个处理对象的,这种机制和sed一样。

cut接受三个定位方法:

1)byte: -b

2)characters: -c

3)fields: -d

eg:提取第3,4,5,9的字节: cut -b 3-5,9

注意:cut命令如果使用-b选项,执行时会先把-b后面所有的定位进行从小到大排序,然后再提取,不能颠倒顺序。

-3 表示从第一字节到第三字节;

3- 表示从第三字节到结尾。

对于中文提取,-c 会以字符为单位,输出正常;-b以字节(8位二进制)计算。

当遇到多字节字符时,使用-n选项,不会将多字节字符拆开。cut -nb 1,2,3

对于非固定格式信息,需要域。之前需要先设置间隔符,再提取第几个域。

cut -d : -f 1

-d设置间隔符为:,-f 1 为提取第一个域。

注意:如果遇到空格和制表符时,怎么辨认?

先检查这段空格是由空格组成还是制表符组成:

cat tab_space.txt
sed -n l tab_space,txt

如果是制表位(TAB),就会显示\t, 如果是空格,就会原样显示。(sed中n后面的l是小写的L)

cut -d 用什么符号表示制表符或空格?

cut -d 默认间隔为制表符,可以省略。若设置空格为间隔符,则 cut -d ' ' -f 4

(两个单引号中要有一个空格)

而且只能在-d 后面设置一个空格,不允许有多个空格。cut允许的间隔符是一个字符。

总结

相关推荐