match = 正規表現の登場位置を調べる - AWK
○(文字数)Gawk on Windows ○(文字数)Gawk ○(バイト数)mawk32 ○(全角不可)Mawk ○(全角不可)awk
文字列の登場位置を調べます。正規表現を使用出来ます。o Gawkでは、3つ目の引数を指定する事が出来ます。
**** 書式
--------
match( 検索対象文字列, 検索条件 )
Gawkの場合は
match( 検索対象文字列, 検索条件 [, 検索結果詳細] )
--------
o 検索対象文字列
o 検索条件 -- 正規表現で指定します。
+ 文字列で指定する事も出来ました。
o 検索結果詳細 -- Gawkの拡張です。配列を返します。
+ 詳細は下の通りです。呼び出す時に、値を設定する必要はありません。
o 戻り値 -- キーワードが見つかった位置(先頭は1)。
+ 文字を数える時の単位は、処理系によって異なります。詳細は、下の通りです。
+ 見つからない時は 0を返します。
o この機能を呼び出すと、次の2つの変数に値が入ります。
+ 変数 RSTART -- キーワードが見つかった位置(先頭は1)。見つからない時は 0が入ります。
+ 変数 RLENGTH -- 見つかったキーワードの長さ。見つからない時は -1が入ります。
** 文字を数える時の単位について
o 戻り値や、変数 RSTART、RLENGTHに設定する値の単位は、処理系によって異なります。
+ (漢字などの全角文字が混じっている場合、長さが変わります。)
+ Gawk系は、文字数で数えます。
+ Gawk on Windows 3.1.7
+ Gawk for Windows 3.1.6
+ その他は、バイト数で数えます。
+ mawk MBCS (32bit版) 1.3.3
+ 但し、全角文字を使うと、結果不正になる事のある処理系もありました。
+ Mawk for Windows 1.3.3
+ original = the one true awk(updated May 1, 2007)
** Gawk拡張引数「検索結果詳細」について
o 例えば、次のように書いた時、検索条件で見つかった値を、簡単に取り出す事が出来ます。
--------
BEGIN {
match("ミクさんの誕生日は8月31日です。", /([0-9]+)月([0-9]+)日/, a);
for (i in a) {
print "a[" i "] = [" a[i] "]";
}
}
--------
o a[0]には、検索条件で見つかった値が入ります。開始位置と長さも取得出来ました。
+ a[0] = [8月31日]
+ a[0 start] = [10] -- 見つかった文字列の開始位置
+ a[0 length] = [5] -- 長さ
o a[1]には、検索条件内に書いた「1つ目の丸括弧」に相当する値が入ります。
+ a[1] = [8]
+ a[1 start] = [10]
+ a[1 length] = [1]
o a[2]には、検索条件内に書いた「2つ目の丸括弧」に相当する値が入ります。
+ a[2] = [31]
+ a[2 start] = [12]
+ a[2 length] = [2]
**** 使用例
--------
BEGIN {
n = match("ミクさん、おはようございます。ミクさん。", /ミクさん/); # 1
print "位置 = " RSTART; # 1
print "長さ = " RLENGTH; # 4 (or 8)
print n "番目で見つかりました。";
n = match("おはようございます。ミクさん。", /ミクさん/); # 11 (or 21)
print "位置 = " RSTART; # 11 (or 21)
print "長さ = " RLENGTH; # 4 (or 8)
print n "番目で見つかりました。";
n = match("おはようございます。ミクさん。", /MEIKOさん/); # 0
print "位置 = " RSTART; # 0
print "長さ = " RLENGTH; # -1
print n "番目で見つかりました。";
}
--------
o 行末のセミコロンは、C言語の書き方に合わせました。無くても動きます。
**** 機能
o 2番目に指定した正規表現を使って、1番目の文字列を検索します。
o 先頭で見つかった時、1を返します。
+ 先頭は0ではありません。JavaScriptに慣れている方は、要注意です。
o 見つからなかった時、0を返します。
o 検索結果を、変数 RSTARTとRLENGTHに設定します。見つかった位置と長さです。
o 複数見つけた時、先頭に最も近い位置を返します。
o 文字列の代わりに数値を指定すると、数値を文字列に変換してから使用します。
+ 長い整数を指定すると、最後の方の桁が0になったり、浮動小数点形式になります。
+ 実数を指定すると、6桁までに丸めたり、浮動小数点形式になります。
+ この動作は変える事も出来ます。詳しくは、「数値から文字列にする時に、実数を7桁以上表示させる方法」
** 処理系に依存するかもしれない動作
o 検索対象文字列を文字列を使って指定した時も、正規表現として認識されました。但し、仕様としては明記されていません。
** 処理系に依存する動作
o 文字を数える時の単位は、処理系によって異なります。
+ 文字数で数える処理系
+ Gawk on Windows 3.1.7
+ Gawk for Windows 3.1.6
+ バイト数で数える処理系
+ mawk MBCS (32bit版) 1.3.3
+ バイト数で数える処理系、かつ全角文字を使うと結果不正になる事のある処理系
+ Mawk for Windows 1.3.3
+ original = the one true awk(updated May 1, 2007)
**** 確認した処理系
o Gawk on Windows 3.1.7
o Gawk for Windows 3.1.6
o mawk MBCS (32bit版) 1.3.3 -- バイト数で数える
o Mawk for Windows 1.3.3 -- バイト数で数える。全角不可。関数が非対応
o original = the one true awk(updated May 1, 2007) -- バイト数で数える。全角不可。処理系が非対応
==
関連ページ:
▼AWKの文字列操作関数と関連機能(▼ABC順)
▼AWKプログラムを書く(▼ABC順)
▼AWK
▼制作メモ
> substr = 文字列の一部を取り出す
int = 実数や文字列を整数化する
strtonum = 10進数、8進数、16進数の文字列を数値に変換する
+
RSTART = match関数で見つけた文字列の先頭位置
RLENGTH = match関数で見つけた文字列の長さ
IGNORECASE = 文字列比較の時に、大文字小文字を区別させない(Gawk専用)
index = 文字列の登場位置を調べる
length = 文字列や配列の長さを調べる
(2010年9月3日追加。Gawk拡張の引数3)