【AWK】一行野郎と複数行野郎

シェルスクリプトと組み合わせて AWK を使用した場合のプログラム。

  • gawk がインストールされていることを前提にしている (gensub関数を使っている)
    • sudo apt-get install -y gawk としてインストールすること
  • シェルのエラー系処理は省いて書いている
  • AWK で実現が難しいことは無理せずにシェルに任せている
  • AWK + シェルでも難しい内容は、GAWK では無く別スクリプトを使う方針

 

一行野郎

連続するブスペースを1個にする
  oneline_tabs_to_tab.sh
連続する半角スペースを1個にする
  oneline_spaces_to_space.sh
「aaa#bbb」 といった「#」 1個区切りのパターンがあれば 、1番目の要素のみを取り出す'破壊的'パターン
  oneline_gensub_1.sh
「1:22:333:4444:55555:666666」の区切りを「:」として末尾「666666」のみを取り出す
  oneline_gensub_2.sh
「1:22:333:4444:55555:666666」の区切りを「:」として末尾以外の「1:22:333:4444:55555」を取り出す
  oneline_gensub_3.sh
「1:22:333:4444:55555:666666」の区切りを「:」として先頭「1」のみを取り出す
  oneline_gensub_4.sh

複数行野郎

ps -ef コマンドで得られるプロセスの個数を算出するプログラム
  ps_ef_wc_l.sh
ps -ef の結果から、ユーザ単位で発生しているプロセス個数を表示する
  ps_ef_wc_l_per_uid.sh
inittab からランレベル毎に実行される内容を表示するプログラム (簡易 chkconfig )
  simple_chkconfig.sh
xxd コマンドによるダンプの結果から、右のテキスト部を1行に連結して表示するコマンド
  xxd_text_part.sh
参考:Gerrit で使う commit-msg の転記
  commit-msg

 

一行野郎

  • といっても、見やすさを優先して複数行に分けて書いている 

oneline_gensub_1.sh

  • 「aaa#bbb」 といった「#」 1個区切りのパターンがあれば 、1番目の要素のみを取り出す'破壊的'パターン
#!/bin/sh
awk  '{
    $0 = gensub(/(.+)#(.+)/, "\\1", "G", $0)
    print $0
}' $1

 

oneline_gensub_2.sh

  • 「1:22:333:4444:55555:666666」の区切りを「:」として末尾「666666」のみを取り出す
  • echo "1:22:333:4444:55555:666666" | sed -n 's/\(.*\):\(.*\)/\2/p' と同じこと
#!/bin/sh
echo "1:22:333:4444:55555:666666" |
awk  '{
    $0 = gensub(/(.+):(.+)+/, "\\2", "G", $0)  #=> 666666
    print $0
}'

 

oneline_gensub_3.sh

  • 「1:22:333:4444:55555:666666」という入力があった場合に、区切りを「:」として末尾以外の「1:22:333:4444:55555」を取り出す
  • echo "1:22:333:4444:55555:666666" | sed -n 's/\(.*\):\(.*\)/\1/p' と同じこと
#!/bin/sh

echo "1:22:333:4444:55555:666666" |
awk  '{
    $0 = gensub(/(.+):(.+)+/, "\\1", "G", $0)
    print $0
}'

 

oneline_gensub_4.sh

  • 「1:22:333:4444:55555:666666」という入力があった場合に、区切りを「:」として先頭「1」のみを取り出す
#!/bin/sh

echo "1:22:333:4444:55555:666666" |
awk  '{
    $0 = gensub(/[(.+):](.+)+/, "\\2", "G", $0)
    print $0
}'

 

oneline_tabs_to_tab.sh

連続するタブスペースを1個にする

echo "			" | awk  '{ gsub(/(\t)+/, "\t", $0); print $0 }'

 

oneline_spaces_to_space.sh

連続する半角スペースを1個にする

echo "                  " | awk '{ gsub(/( )+/, " ", $0); print $0 }'

 

複数行野郎

ps_ef_wc_l.sh

  • ps -ef コマンドで得られるプロセスの個数を算出するプログラム
    • ps -ef の 1行目はヘッダなので読み飛ばしており、実質の処理は以下である
      • ps -ef | sed -n '2,$p' | wc -l
  • 個人的に注意すべき文法上の注意点としては以下の2点がある
    • BEGIN の後は改行せずに { を書くこと
    • END の後は開業せずに } を書くこと
#!/bin/sh

ps -ef | sed -n '2,$p' |
awk 'BEGIN {
    ps_cnt = 0
}
{
    ps_cnt++
}
END {
    printf("process nums => %d\n", ps_cnt)
}'

 

ps_ef_wc_l_per_uid.sh

ps -ef の結果から、ユーザ単位で発生しているプロセス個数を表示するプログラム

  • シェル変数を AWK に渡す場合は -v オプションを使う
  • $USERS に格納されたユーザ数とユーザ名は split 関数を使って取り出している
    • 取り出したユーザ名の配列は 0 オリジンでは無く、1オリジンである
    • ユーザ毎のプロセス出現個数は encount[] 配列で保持している
      • ユーザ名とプロセス出現回数を2次元配列を使って管理するスキルは無い *1
#!/bin/bash

# ps -ef コマンドの結果を書き出すための一時ファイル
TMPFILE=`mktemp -p /tmp`

# ps -ef の結果を一時ファイルに書き出す
ps -ef | sed -n '2,$p' > $TMPFILE

# ps -ef に出現したユーザ名を抽出する
USERS=`cut -d' ' -f 1 $TMPFILE | sort -u`

# $TMPFILE ファイルを読み込む際に、シェル変数 $USERS を awk の変数 users として渡す
awk -v "users=$USERS" '
BEGIN {
    TU = split( users, users_list ) # TU: ユーザの総数(Total num Uses)
    encount[TU] = 0                 # 該当ユーザの出現回数
}
{
    for( i = 1; i <= TU; i++ ) {    # 1 オリジンに注意!
        if( match( $1, users_list[i]) != 0 ) {
            encount[i] =  encount[i] + 1    # 出現回数を加算する
        }
    }
}
END {
    ps_cnt = 0
    for( i = 1; i < TU; i++ ) {
        printf("%s => %d\n", users_list[i], encount[i])
        ps_cnt += encount[i]
    }
    printf("---------------\n")
    printf("ps_cnt => %d\n", ps_cnt)    # プロセス総数を表示する
}' $TMPFILE

rm -f $TMPFILE

 

simple_chkconfig.sh

inittab からランレベル毎に実行される内容を表示するプログラム (簡易 chkconfig )

  • /etc/inittab の第2フィールドを見て、ランレベル毎に結果を表示する
    • 実際の出力例は本プログラムの後ろに記載した
  • ファイル表示を AWK 関数で実現する方法が今ひとつ分からなかったので、system() で逃げた
    • が、sprintf() でコマンドを組み立てて、system() で呼び出す方法は応用し易い
#!/bin/sh

test   -z "$1" && echo "Usage: `basename $0` inittab"    && exit 2
test ! -f "$1" && echo "Error: $1 was not found"         && exit 2

TMPF_R0=`mktemp --suffix=".0" -p /tmp`  # ランレベルなしの処理を書き出す
TMPF_R1=`mktemp --suffix=".1" -p /tmp`  # ランレベル 1 の処理を書き出す
TMPF_R2=`mktemp --suffix=".2" -p /tmp`  # ランレベル 2 の処理を書き出す
TMPF_R3=`mktemp --suffix=".3" -p /tmp`  # ランレベル 3 の処理を書き出す
TMPF_R4=`mktemp --suffix=".4" -p /tmp`  # ランレベル 4 の処理を書き出す
TMPF_R5=`mktemp --suffix=".5" -p /tmp`  # ランレベル 5 の処理を書き出す
TMPF_R6=`mktemp --suffix=".6" -p /tmp`  # ランレベル 6 の処理を書き出す

awk -v "OF0=$TMPF_R0"   \
    -v "OF1=$TMPF_R1"   \
    -v "OF2=$TMPF_R2"   \
    -v "OF3=$TMPF_R3"   \
    -v "OF4=$TMPF_R4"   \
    -v "OF5=$TMPF_R5"   \
    -v "OF6=$TMPF_R6"   \
'BEGIN {
    FS=":"                      # 区切り文字を「:」にする
    for( r = 0; r < 7; r++ ) {  # ランレベル判定処理に使う
        RUN_LEVELS[r] = r
    }
    ofile[0] = OF0
    ofile[1] = OF1
    ofile[2] = OF2
    ofile[3] = OF3
    ofile[4] = OF4
    ofile[5] = OF5
    ofile[6] = OF6
}
/^#/       { next }     # 行頭 # は読み飛ばす
/^$/       { next }     # 空行は読み飛ばす
/^[ \t]+$/ { next }     # 空白のみの行も読み飛ばす (「+」は1回以上の出現)
{
    for( i = 1; i < length(RUN_LEVELS); i++ ) {
        if ( $2 ~ RUN_LEVELS[i] ) {  #正規表現一致「~」で判定する。(完全一致「==」では無い)
            print $0 >> ofile[i]
        }
    }
    if( $2 == "" ) {    # フィールドが存在しない場合 (「==」による完全一致判定をする)
        print $0 >> ofile[0]
    }
}
END {
    for( i = 0; i < length(RUN_LEVELS); i++ ) {
        cmd = sprintf("test -f %s && cat %s", ofile[i], ofile[i])
        gsub(/0/, "NONE", i)
        printf("----------- %s ------------\n", i)
        system(cmd)
    }
}' $1

 
入力ファイル= inittab

# ブート後に入るべきランレベル
id:2:initdefault:

# 何より先ずシステムの初期化をする。
si::sysinit:/etc/rc.d/bcheckrc

# ランレベル0及び6はそれぞれ haltとreboot。
# 1 はメンテナンスモード
l0:0:wait:/etc/rc.d/rc.halt
l1:1:wait:/etc/rc.d/rc.single
l2:2345:wait:/etc/rc.d/rc.multi
l6:6:wait:/etc/rc.d/rc.reboot

# "三つ指をついてリセット"された時に何をすべきか。
ca::ctrlaltdel:/sbin/shutdown -t5 -rf now

# ランレベル2及び3: コンソールでgettyを実行する
# (レベル3の場合はモデムポートでも)。
1:23:respawn:/sbin/getty tty1 VC linux
2:23:respawn:/sbin/getty tty2 VC linux
3:23:respawn:/sbin/getty tty3 VC linux
4:23:respawn:/sbin/getty tty4 VC linux
S2:3:respawn:/sbin/uugetty ttyS2 M19200

 
出力例

----------- NONE ------------
si::sysinit:/etc/rc.d/bcheckrc
ca::ctrlaltdel:/sbin/shutdown -t5 -rf now
----------- 1 ------------
l1:1:wait:/etc/rc.d/rc.single
----------- 2 ------------
id:2:initdefault:
l2:2345:wait:/etc/rc.d/rc.multi
1:23:respawn:/sbin/getty tty1 VC linux
2:23:respawn:/sbin/getty tty2 VC linux
3:23:respawn:/sbin/getty tty3 VC linux
4:23:respawn:/sbin/getty tty4 VC linux
----------- 3 ------------
l2:2345:wait:/etc/rc.d/rc.multi
1:23:respawn:/sbin/getty tty1 VC linux
2:23:respawn:/sbin/getty tty2 VC linux
3:23:respawn:/sbin/getty tty3 VC linux
4:23:respawn:/sbin/getty tty4 VC linux
S2:3:respawn:/sbin/uugetty ttyS2 M19200
----------- 4 ------------
l2:2345:wait:/etc/rc.d/rc.multi
----------- 5 ------------
l2:2345:wait:/etc/rc.d/rc.multi
----------- 6 ------------
l6:6:wait:/etc/rc.d/rc.reboot

 

commit-msg

  • 本家のコード置き場が分からなかったので、こちらから引用した
    • AWK を使う際はかなり参考にさせてもらっている
  • 結構古めの Linux マシンでも使用できそうなシェルスクリプトのように思う
    • bash 固有の処理が無いように思う
#!/bin/sh
# From Gerrit Code Review 2.11.4
#
# Part of Gerrit Code Review (http://code.google.com/p/gerrit/)
#
# Copyright (C) 2009 The Android Open Source Project
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
#

unset GREP_OPTIONS

CHANGE_ID_AFTER="Bug|Issue"
MSG="$1"

# Check for, and add if missing, a unique Change-Id
#
add_ChangeId() {
	clean_message=`sed -e '
		/^diff --git .*/{
			s///
			q
		}
		/^Signed-off-by:/d
		/^#/d
	' "$MSG" | git stripspace`
	if test -z "$clean_message"
	then
		return
	fi

	if test "false" = "`git config --bool --get gerrit.createChangeId`"
	then
		return
	fi

	# Does Change-Id: already exist? if so, exit (no change).
	if grep -i '^Change-Id:' "$MSG" >/dev/null
	then
		return
	fi

	id=`_gen_ChangeId`
	T="$MSG.tmp.$$"
	AWK=awk
	if [ -x /usr/xpg4/bin/awk ]; then
		# Solaris AWK is just too broken
		AWK=/usr/xpg4/bin/awk
	fi

	# How this works:
	# - parse the commit message as (textLine+ blankLine*)*
	# - assume textLine+ to be a footer until proven otherwise
	# - exception: the first block is not footer (as it is the title)
	# - read textLine+ into a variable
	# - then count blankLines
	# - once the next textLine appears, print textLine+ blankLine* as these
	#   aren't footer
	# - in END, the last textLine+ block is available for footer parsing
	$AWK '
	BEGIN {
		# while we start with the assumption that textLine+
		# is a footer, the first block is not.
		isFooter = 0
		footerComment = 0
		blankLines = 0
	}
	# Skip lines starting with "#" without any spaces before it.
	/^#/ { next }
	# Skip the line starting with the diff command and everything after it,
	# up to the end of the file, assuming it is only patch data.
	# If more than one line before the diff was empty, strip all but one.
	/^diff --git / {
		blankLines = 0
		while (getline) { }
		next
	}
	# Count blank lines outside footer comments
	/^$/ && (footerComment == 0) {
		blankLines++
		next
	}
	# Catch footer comment
	/^\[[a-zA-Z0-9-]+:/ && (isFooter == 1) {
		footerComment = 1
	}
	/]$/ && (footerComment == 1) {
		footerComment = 2
	}
	# We have a non-blank line after blank lines. Handle this.
	(blankLines > 0) {
		print lines
		for (i = 0; i < blankLines; i++) {
			print ""
		}
		lines = ""
		blankLines = 0
		isFooter = 1
		footerComment = 0
	}
	# Detect that the current block is not the footer
	(footerComment == 0) && (!/^\[?[a-zA-Z0-9-]+:/ || /^[a-zA-Z0-9-]+:\/\//) {
		isFooter = 0
	}
	{
		# We need this information about the current last comment line
		if (footerComment == 2) {
			footerComment = 0
		}
		if (lines != "") {
			lines = lines "\n";
		}
		lines = lines $0
	}
	# Footer handling:
	# If the last block is considered a footer, splice in the Change-Id at the
	# right place.
	# Look for the right place to inject Change-Id by considering
	# CHANGE_ID_AFTER. Keys listed in it (case insensitive) come first,
	# then Change-Id, then everything else (eg. Signed-off-by:).
	#
	# Otherwise just print the last block, a new line and the Change-Id as a
	# block of its own.
	END {
		unprinted = 1
		if (isFooter == 0) {
			print lines "\n"
			lines = ""
		}
		changeIdAfter = "^(" tolower("'"$CHANGE_ID_AFTER"'") "):"
		numlines = split(lines, footer, "\n")
		for (line = 1; line <= numlines; line++) {
			if (unprinted && match(tolower(footer[line]), changeIdAfter) != 1) {
				unprinted = 0
				print "Change-Id: I'"$id"'"
			}
			print footer[line]
		}
		if (unprinted) {
			print "Change-Id: I'"$id"'"
		}
	}' "$MSG" > "$T" && mv "$T" "$MSG" || rm -f "$T"
}
_gen_ChangeIdInput() {
	echo "tree `git write-tree`"
	if parent=`git rev-parse "HEAD^0" 2>/dev/null`
	then
		echo "parent $parent"
	fi
	echo "author `git var GIT_AUTHOR_IDENT`"
	echo "committer `git var GIT_COMMITTER_IDENT`"
	echo
	printf '%s' "$clean_message"
}
_gen_ChangeId() {
	_gen_ChangeIdInput |
	git hash-object -t commit --stdin
}


add_ChangeId

 

xxd_text_part.sh

  • xxd コマンドによるダンプの結果から、右のテキスト部を1行に連結して表示するコマンド
  • xxd の結果は次の書式を前提にしている
    • ただし、xxd の最終行のみ書式が異なる
 00255570: 5b31 5d67 6974 6875 622e 636f 6d2f 6a75  [1]github.com/ju
  • 16進数部とテキスト部との間には半角スペース2個がある
    • この半角スペース2個を区切り文字と見なす
    • ただし、テキスト部にも半角スペース2個が存在する場合がある
      • そこで1番目に出現する半角スペース2個を区切りと見なすこと
      • 2番目以降に出現する半角スペース2個はテキスト部と見なす
  • プログラムの 16行目付近の行頭コメント部を外すとバッファリングして、最後にダンプする
#!/bin/sh

test   -z "$1" && echo "Usage: `basename $0` [file]" && exit 2
test ! -f "$1" && echo "Error: $1 was not found"     && exit 2

xxd $1 |
awk ' BEGIN {
    i = 0
    buff[NR] = 0
}
{
    # パターンに一致しない場合は最終行と見なす
    if( match($0, /^[a-fA-F0-9]{8}:( [a-fA-F0-9]{4}){8}( ){2}(.+)/) ) {
        sub(/  /, "\t\t", $0)
        $0 = gensub( /(.+)\t\t(.+)/ , "\\2", 1, $0 )
#       buff[i++] = $0
        printf("%s", $0)
    }
    else if( match($0, /^[ \t]*$/) ) {
        # 空行であればファイルの終端に達したとみなす
        exit(0)
    }
    else {
        # 非空行、かつ、パターン不一致であれば最終行として END に進む
        exit(0)
    }
}
END {
    # 最終行は半角スペース2個を区切りと見なして第2フィールドを取り出す
    buff[i++] = gensub(/(.+)  (.+)/, "\\2", "G", $0)
    for( n = 0; n < i; n++ ) {
        print(buff[n])
    }
}'

*1:最近不人気の Perl を使う方が100倍マシ