FIELDWIDTHS = 固定長ファイルを読み込む為の設定(Gawk専用) - AWK
○(文字数)Gawk on Windows ○(バイト数)Gawk ×mawk32 ×Mawk ×awk
固定長ファイルを読み込む為の設定です。o Gawk on Windows 3.1.7で使用する時は、少しコツが必要です。
**** 書式
--------
FIELDWIDTHS
もしくは
FIELDWIDTHS = "空白区切りの数字"
--------
o この変数は、Gawkの拡張機能です。
o FIELDWIDTHSは変数です。
o 空白区切りの数字 -- 各列の長さを指定します。例 = "3 9 3"
+ 長さの単位は、処理系によって異なります。
**** 使用例
o 固定長のファイルをタブ区切りに変更する例
+ Gawk on Windows 3.1.7の場合は、「 -Wctype=ASCII」オプションを付けて実行します。
--------
BEGIN {
FIELDWIDTHS = "3 9 3"; # 読み込みは固定長
OFS = "\t"; # 書き出しはタブ区切り(printのカンマを変換)
}
{
for (i = 1; i <= NF; ++i) {
sub(/^([ \t]| )+/, "", $i); # 先頭の空白文字除去は、お好みで。
sub(/([ \t]| )+$/, "", $i); # 最後の空白文字を除去します。
gsub(/\t/, " ", $i); # データの途中にあるタブ文字は、とりあえず半角空白化。
}
print $1, $2, $3;
}
--------
o 行末のセミコロンは、C言語の書き方に合わせました。無くても動きます。
**** 機能
o この変数を設定すると、次回以降の読み込みを固定長ファイル形式に切り替えます。
+ 関数を使わずに 1行読み込んだ時(= $1などの値を入れる時に使います)
+ getline関数で、読み込んだデータを入れる変数を指定しなかった時(= $1などの値を入れる時に使います)
o 長さの単位は、処理系によって異なります。文字数で数える処理系と、バイト数で数える処理系があります。
o 変数FSと競合します。Gawkが行を読み込む時、最後に設定した方の値を使います。
o 設定を途中で変える事が出来ます。設定した値は、次の行の読み込み時に反映されます。
o この機能をサポートしていない処理系があります。
** 処理系に依存する動作
o この機能をサポートしている処理系は、次の通りです。
+ Gawk on Windows 3.1.7
+ Gawk for Windows 3.1.6
o 読み込むファイルに漢字などの全角文字が混じっている場合、処理系によって動きが異なります。
o 文字数で数える処理系
+ Gawk on Windows 3.1.7
+ 但し、バイト数で数えさせるオプションもあります。「 -Wctype=ASCII」を付けて実行します。
+ この時、文字列操作関数が全角文字を2文字と数えますので、mawkと同じように書きます。
o バイト数で数える処理系
+ Gawk for Windows 3.1.6
+ バイト数で数える場合、全角文字の途中で区切らないように注意します。
+ 理由は、全角文字の途中で区切ると、文字が分割されて文字化けするからです。
**** メモ
o 文字化けが起こる場合の原因は、おそらく、バイト単位で数える処理系を使っていて、全角文字の途中で区切ったからです。
o 企業が公開している固定長データの数え方は、おそらくバイト数です。
+ 趣味で作っているような場合は、文字数になっているかもしれません。
o データには半角カタカナが混じっている事もあります。必要に応じて全角カタカナに変換します。
+ 濁点などは要注意。「が」や「ぱ」を半角文字で表現すると、2文字になります。
o この変数は、文字列操作関数のsplit(文字列の分割)には影響を与えません。変数FSとは異なります。
**** 確認した処理系
o Gawk on Windows 3.1.7 -- 数える単位は文字数。「 -Wctype=ASCII」オプションでバイト数
o Gawk for Windows 3.1.6
o mawk MBCS (32bit版) 1.3.3 -- 非対応
o Mawk for Windows 1.3.3 -- 非対応
o original = the one true awk(updated May 1, 2007) -- 非対応
==
関連ページ:
▼AWKの入出力関数とコマンド実行機能(▼ABC順)
▼AWKプログラムを書く(▼ABC順)
▼AWK
▼制作メモ
> BINMODE = バイナリモードで読み書きする
/inet = AWKからインターネットにアクセスする(Gawk専用)
/dev/stdout = 標準出力を示すファイル名
+
getline = ファイル(やパイプ)から1行読み込む
FS = 読み込んだ行を列に分割する時の区切り文字
RS = 1行読み込む時の改行文字
(2010年10月4日変更。Gawk on WindowsのACSIIオプションは、-Wとctypeの間を詰める)
(2010年9月6日変更。Gawk on Windowsの判定を△から○に変更)
(2010年8月10日追加。Gawk on Windowsにバイト数で数えさせる方法)