2010年6月10日木曜日

match = 正規表現の登場位置を調べる - AWK

AWKの文字列操作関数と関連機能
○(文字数)Gawk on Windows ○(文字数)Gawk ○(バイト数)mawk32 ○(全角不可)Mawk ○(全角不可)awk
文字列の登場位置を調べます。正規表現を使用出来ます。

o Gawkでは、3つ目の引数を指定する事が出来ます。


**** 書式
--------
match( 検索対象文字列, 検索条件 )
Gawkの場合は
match( 検索対象文字列, 検索条件 [, 検索結果詳細] )
--------

o 検索対象文字列
o 検索条件 -- 正規表現で指定します。
   + 文字列で指定する事も出来ました。
o 検索結果詳細 -- Gawkの拡張です。配列を返します。
   + 詳細は下の通りです。呼び出す時に、値を設定する必要はありません。
o 戻り値 -- キーワードが見つかった位置(先頭は1)。
   + 文字を数える時の単位は、処理系によって異なります。詳細は、下の通りです。
   + 見つからない時は 0を返します。

o この機能を呼び出すと、次の2つの変数に値が入ります。
   + 変数 RSTART -- キーワードが見つかった位置(先頭は1)。見つからない時は 0が入ります。
   + 変数 RLENGTH -- 見つかったキーワードの長さ。見つからない時は -1が入ります。

** 文字を数える時の単位について
o 戻り値や、変数 RSTART、RLENGTHに設定する値の単位は、処理系によって異なります。
   + (漢字などの全角文字が混じっている場合、長さが変わります。)
   + Gawk系は、文字数で数えます。
      + Gawk on Windows 3.1.7
      + Gawk for Windows 3.1.6
   + その他は、バイト数で数えます。
      + mawk MBCS (32bit版) 1.3.3
   + 但し、全角文字を使うと、結果不正になる事のある処理系もありました。
      + Mawk for Windows 1.3.3
      + original = the one true awk(updated May 1, 2007)

** Gawk拡張引数「検索結果詳細」について
o 例えば、次のように書いた時、検索条件で見つかった値を、簡単に取り出す事が出来ます。
--------
BEGIN {
  match("ミクさんの誕生日は8月31日です。", /([0-9]+)月([0-9]+)日/, a);
  for (i in a) {
    print "a[" i "] = [" a[i] "]";
  }
}
--------

o a[0]には、検索条件で見つかった値が入ります。開始位置と長さも取得出来ました。
    + a[0] = [8月31日]
    + a[0 start] = [10] -- 見つかった文字列の開始位置
    + a[0 length] = [5] -- 長さ
o a[1]には、検索条件内に書いた「1つ目の丸括弧」に相当する値が入ります。
    + a[1] = [8]
    + a[1 start] = [10]
    + a[1 length] = [1]
o a[2]には、検索条件内に書いた「2つ目の丸括弧」に相当する値が入ります。
    + a[2] = [31]
    + a[2 start] = [12]
    + a[2 length] = [2]


**** 使用例
--------
BEGIN {
n = match("ミクさん、おはようございます。ミクさん。", /ミクさん/); # 1
print "位置 = " RSTART; # 1
print "長さ = " RLENGTH; # 4 (or 8)
print n "番目で見つかりました。";

n = match("おはようございます。ミクさん。", /ミクさん/); # 11 (or 21)
print "位置 = " RSTART; # 11 (or 21)
print "長さ = " RLENGTH; # 4 (or 8)
print n "番目で見つかりました。";

n = match("おはようございます。ミクさん。", /MEIKOさん/); # 0
print "位置 = " RSTART; # 0
print "長さ = " RLENGTH; # -1
print n "番目で見つかりました。";
}
--------

o 行末のセミコロンは、C言語の書き方に合わせました。無くても動きます。


**** 機能
o 2番目に指定した正規表現を使って、1番目の文字列を検索します。
o 先頭で見つかった時、1を返します。
   + 先頭は0ではありません。JavaScriptに慣れている方は、要注意です。
o 見つからなかった時、0を返します。
o 検索結果を、変数 RSTARTRLENGTHに設定します。見つかった位置と長さです。
o 複数見つけた時、先頭に最も近い位置を返します。

o 文字列の代わりに数値を指定すると、数値を文字列に変換してから使用します。
   + 長い整数を指定すると、最後の方の桁が0になったり、浮動小数点形式になります。
   + 実数を指定すると、6桁までに丸めたり、浮動小数点形式になります。
   + この動作は変える事も出来ます。詳しくは、「数値から文字列にする時に、実数を7桁以上表示させる方法

** 処理系に依存するかもしれない動作
o 検索対象文字列を文字列を使って指定した時も、正規表現として認識されました。但し、仕様としては明記されていません。

** 処理系に依存する動作
o 文字を数える時の単位は、処理系によって異なります。
   + 文字数で数える処理系
      + Gawk on Windows 3.1.7
      + Gawk for Windows 3.1.6
   + バイト数で数える処理系
      + mawk MBCS (32bit版) 1.3.3
   + バイト数で数える処理系、かつ全角文字を使うと結果不正になる事のある処理系
      + Mawk for Windows 1.3.3
      + original = the one true awk(updated May 1, 2007)


**** 確認した処理系
o Gawk on Windows 3.1.7
o Gawk for Windows 3.1.6
o mawk MBCS (32bit版) 1.3.3 -- バイト数で数える
o Mawk for Windows 1.3.3 -- バイト数で数える。全角不可。関数が非対応
o original = the one true awk(updated May 1, 2007) -- バイト数で数える。全角不可。処理系が非対応


==
関連ページ:
    ▼AWKの文字列操作関数と関連機能▼ABC順
    ▼AWKプログラムを書く▼ABC順
    ▼AWK
    ▼制作メモ
    > substr = 文字列の一部を取り出す
    int = 実数や文字列を整数化する
    strtonum = 10進数、8進数、16進数の文字列を数値に変換する
    +
    RSTART = match関数で見つけた文字列の先頭位置
    RLENGTH = match関数で見つけた文字列の長さ
    IGNORECASE = 文字列比較の時に、大文字小文字を区別させない(Gawk専用)
    index = 文字列の登場位置を調べる
    length = 文字列や配列の長さを調べる
(2010年9月3日追加。Gawk拡張の引数3)