2010年8月10日火曜日

FIELDWIDTHS = 固定長ファイルを読み込む為の設定(Gawk専用) - AWK

AWKの入出力関数とコマンド実行機能
○(文字数)Gawk on Windows ○(バイト数)Gawk ×mawk32 ×Mawk ×awk
固定長ファイルを読み込む為の設定です。
o Gawk on Windows 3.1.7で使用する時は、少しコツが必要です。

**** 書式
--------
FIELDWIDTHS
もしくは
FIELDWIDTHS = "空白区切りの数字"
--------

o この変数は、Gawkの拡張機能です。
o FIELDWIDTHSは変数です。
o 空白区切りの数字 -- 各列の長さを指定します。例 = "3 9 3"
   + 長さの単位は、処理系によって異なります。


**** 使用例
o 固定長のファイルをタブ区切りに変更する例
    + Gawk on Windows 3.1.7の場合は、「 -Wctype=ASCII」オプションを付けて実行します。
--------
BEGIN {
  FIELDWIDTHS = "3 9 3"; # 読み込みは固定長
  OFS = "\t"; # 書き出しはタブ区切り(printのカンマを変換)
}
{
  for (i = 1; i <= NF; ++i) {
    sub(/^([ \t]| )+/, "", $i); # 先頭の空白文字除去は、お好みで。
    sub(/([ \t]| )+$/, "", $i); # 最後の空白文字を除去します。
    gsub(/\t/, " ", $i); # データの途中にあるタブ文字は、とりあえず半角空白化。
  }
  print $1, $2, $3;
}
--------

o 行末のセミコロンは、C言語の書き方に合わせました。無くても動きます。


**** 機能
o この変数を設定すると、次回以降の読み込みを固定長ファイル形式に切り替えます。
   + 関数を使わずに 1行読み込んだ時(= $1などの値を入れる時に使います)
   + getline関数で、読み込んだデータを入れる変数を指定しなかった時(= $1などの値を入れる時に使います)
o 長さの単位は、処理系によって異なります。文字数で数える処理系と、バイト数で数える処理系があります。
o 変数FSと競合します。Gawkが行を読み込む時、最後に設定した方の値を使います。
o 設定を途中で変える事が出来ます。設定した値は、次の行の読み込み時に反映されます。
o この機能をサポートしていない処理系があります。

** 処理系に依存する動作
o この機能をサポートしている処理系は、次の通りです。
   + Gawk on Windows 3.1.7
   + Gawk for Windows 3.1.6

o 読み込むファイルに漢字などの全角文字が混じっている場合、処理系によって動きが異なります。
o 文字数で数える処理系
   + Gawk on Windows 3.1.7
   + 但し、バイト数で数えさせるオプションもあります。「 -Wctype=ASCII」を付けて実行します。
   + この時、文字列操作関数が全角文字を2文字と数えますので、mawkと同じように書きます。
o バイト数で数える処理系
   + Gawk for Windows 3.1.6
   + バイト数で数える場合、全角文字の途中で区切らないように注意します。
   + 理由は、全角文字の途中で区切ると、文字が分割されて文字化けするからです。


**** メモ
o 文字化けが起こる場合の原因は、おそらく、バイト単位で数える処理系を使っていて、全角文字の途中で区切ったからです。
o 企業が公開している固定長データの数え方は、おそらくバイト数です。
   + 趣味で作っているような場合は、文字数になっているかもしれません。
o データには半角カタカナが混じっている事もあります。必要に応じて全角カタカナに変換します。
   + 濁点などは要注意。「が」や「ぱ」を半角文字で表現すると、2文字になります。
o この変数は、文字列操作関数のsplit(文字列の分割)には影響を与えません。変数FSとは異なります。


**** 確認した処理系
o Gawk on Windows 3.1.7 -- 数える単位は文字数。「 -Wctype=ASCII」オプションでバイト数
o Gawk for Windows 3.1.6
o mawk MBCS (32bit版) 1.3.3 -- 非対応
o Mawk for Windows 1.3.3 -- 非対応
o original = the one true awk(updated May 1, 2007) -- 非対応


==
関連ページ:
    ▼AWKの入出力関数とコマンド実行機能▼ABC順
    ▼AWKプログラムを書く▼ABC順
    ▼AWK
    ▼制作メモ
    > BINMODE = バイナリモードで読み書きする
    /inet = AWKからインターネットにアクセスする(Gawk専用)
    /dev/stdout = 標準出力を示すファイル名
    +
    getline = ファイル(やパイプ)から1行読み込む
    FS = 読み込んだ行を列に分割する時の区切り文字
    RS = 1行読み込む時の改行文字
(2010年10月4日変更。Gawk on WindowsのACSIIオプションは、-Wとctypeの間を詰める)
(2010年9月6日変更。Gawk on Windowsの判定を△から○に変更)
(2010年8月10日追加。Gawk on Windowsにバイト数で数えさせる方法)