目次
こんにちは.高山です.
先日の記事で告知しました手話入門記事の第十七回になります.
今回はこれまでと異なり,認識モデルの処理負荷軽減に主眼を置いた手法を紹介します.
具体的には,手話動画から抽出した追跡点系列を時間方向にリサイズすることで,処理を軽量化します.
手話認識のような時系列を扱うタスクでは様々な系列長のデータを扱わなければなりません.
図1に,KaggleのGoogle Isolated Sign Language Recognition (GISLR) データセットの時系列長ヒストグラムを示します.
青の縦棒は時系列長が一定範囲に収まるデータの頻度示しており,橙線は累積頻度を示しています.
大部分のデータは1秒から2秒程度ですが,10秒以上のデータも含まれていることが分かります.
(通常は手話単語の表出でこのような時間はかからないので,多くの場合は撮影時のトラブルか,手話を始めるまでの待機時間が長いケースです)
推論にかかる処理時間や処理負荷は系列長に比例して増加します.
そのため,このような長いデータをそのまま処理してしまうと,データが入力されてから結果を得るまでの待ち時間 (レイテンシと言います) が長くなり,メモリ容量も増えるという問題が発生します.
実際のアプリケーション開発では,(認識性能は維持して) レイテンシや処理負荷はできるだけ小さくしたいというニーズがあります.
この課題への対処方法の一つとして,時間方向にデータをリサイズする方法が挙げられます.
実装方法は色々と考えられますが,今回は下記の2手法を紹介します.
- 前処理: 線形補間で選択的にリサイズ
- 内部処理: Strided feature extraction
手法については次節以降で説明します.
今回解説するスクリプトはGitHub上に公開しています.
複数の実験を行っている都合で,CPUで動かした場合は結構時間がかるのでご注意ください.
更新履歴 (大きな変更のみ記載しています)
- 2024/09/18: カテゴリを変更しました
- 2024/09/17: タグを更新しました
- 2024/07/29: Gitスクリプトのダウンロード元を
master
からv0.1
タグに変更 - 2024/07/23: 第1節の構成を見直し
- 2024/07/19: 第1.3項 図5 の実験コードに不備があったため,再実験を行い図を差し替えました.
1. 時系列のリサイジング方法
1.1 線形補間で選択的にリサイズ
最初に紹介する手法は,入力データの時系列長に応じて,選択的にリサイズをする手法です.
この処理は前処理で行います.
図2に手法の概要を示します.
この処理では予め処理後の系列長の範囲を定めておきます.
短い入力は線形補間で伸長し,長い入力は同じく線形補間を用いて縮小します.
結果として,レイテンシおよび処理負荷を (ある程度) 制御することができます.
また,系列長が一定の範囲内に収まることで,認識モデルが対処すべき系列長が限定されるため,問題が単純化される場合があります.
"場合がある"と述べたのは,系列長のバリエーションが減る分,動作速度のバリエーションが増えるためです.
認識モデルがどちらの問題を上手く処理できるかはケースバイケースになります.
1.2 Strided feature extraction
次に紹介する手法は,特徴抽出を \(N\) フレーム事に行う手法です.
一般的な呼び名が無いので,本記事では Strided feature extraction と (勝手に) 呼ぶことにします(^^;).
図3に手法の概要を示します.
Neural network でよく使われる Pooling レイヤや,Convolution レイヤは,画素やフレームなどのようにメモリ上に連続して並んだ信号に対して処理を行います.
これらのレイヤには処理間隔を制御する stride
というパラメータがあります.
(この設定のレイヤをStrided pooling や Strided convolution と呼ぶ場合もあります)
図3下側の例に示すように,stride
を増やして \(N\) フレーム毎に処理をすると出力特徴量は小さくなるため,結果としてリサイズを同時に行うことができます.
これらのレイヤはモデルの入力層に近い場所 (特徴抽出層など) に配置されることが多いので,後段の処理を軽量化することができます.
また,追跡点データのように隣接フレーム間で特徴量が似ている場合は,冗長な特徴量を除去されるので特徴抽出の性能向上にも繋がります.
2. 実験結果
次節以降では,いつも通り実装の紹介をしながら実験結果をお見せします.
コード紹介記事の方針として記事単体で全処理が分かるように書いており,少し長いので結果を先にお見せしたいと思います.
2.1 頻度の多い10単語を学習させた結果
図4は,リサイジング方法毎のValidation Lossと認識率の推移を示しています.
横軸は学習・評価ループの繰り返し数 (Epoch) を示します.
縦軸はそれぞれの評価指標を示します.
各線の色と実験条件の関係は次のとおりです.
- 青線 (Default): Pre-LN構成のTransformer
- 橙線 (+ R-32): 前処理で 8 - 32 フレームの範囲にリサイズ
- 緑線 (+ R-64): 前処理で 8 - 64 フレームの範囲にリサイズ
- 赤線 (+ R-128): 前処理で 8 - 128 フレームの範囲にリサイズ
- 紫線 (+ R-128 + P-A): 前処理で 8 - 128 フレームの範囲にリサイズ + Strided average pooling を適用
- 茶線 (+ R-128 + P-M): 前処理で 8 - 128 フレームの範囲にリサイズ + Strided max pooling を適用
デフォルトのモデルには,第九回の記事で紹介した,Pre-LN構成のTransformerモデルを用います.
R-128 で少しロスが不安定になっていますが,認識性能はどれも差が無いように見えますね.
今回は処理の軽量化が主眼なので,認識性能が大きく悪化していないことが重要です.
2.2 250単語を学習させた結果
データが少なくて学習が不安定になっている可能性がありますので,全データ (250単語) を学習させた場合の挙動を図5に示します.
なお,こちらの実験はメモリや処理時間の都合でColab上では実行が難しいので,ローカル環境で行いました.
データの分割方法やパラメータは10単語のときと同じです.
ただし,学習時間を短縮するためにバッチ数は256に設定しています.
(本来はバッチ数を変えた場合は学習率も調整した方が良いのですが,今回はママで実験を行っています)
全データを学習させた結果では,ほとんど差がありませんでした.
(よく見るとR-128が少し良い感じです)
この結果から,今回のタスクとデータセットではリサイジングで処理を軽量化しても,認識性能への影響は軽微であることが言えます.
なお,今回の実験では話を簡単にするために,実験条件以外のパラメータは固定にし,乱数の制御もしていません.
必ずしも同様の結果になるわけではないので,ご了承ください.
3. 前準備
3.1 データセットのダウンロード
ここからは実装方法の説明をしていきます.
まずは,前準備としてGoogle Colabにデータセットをアップロードします.
ここの工程はこれまでの記事と同じですので,既に行ったことのある方は第3.3項まで飛ばしていただいて構いません.
まず最初に,データセットの格納先からデータをダウンロードし,ご自分のGoogle driveへアップロードしてください.
次のコードでGoogle driveをColabへマウントします.
Google Driveのマウント方法については,補足記事にも記載してあります.
1 2 3 |
|
ドライブ内のファイルをColabへコピーします.
パスはアップロード先を設定する必要があります.
# Copy to local.
!cp [path_to_dataset]/gislr_dataset_top10.zip gislr_top10.zip
データセットはZIP形式になっているので unzip
コマンドで解凍します.
!unzip gislr_top10.zip
Archive: gislr_top10.zip
creating: dataset_top10/
inflating: dataset_top10/16069.hdf5
...
inflating: dataset_top10/sign_to_prediction_index_map.json
成功すると dataset_top10
以下にデータが解凍されます.
HDF5ファイルはデータ本体で,手話者毎にファイルが別れています.
JSONファイルは辞書ファイルで,TXTファイルは本データセットのライセンスです.
!ls dataset_top10
16069.hdf5 25571.hdf5 29302.hdf5 36257.hdf5 49445.hdf5 62590.hdf5
18796.hdf5 26734.hdf5 30680.hdf5 37055.hdf5 53618.hdf5 LICENSE.txt
2044.hdf5 27610.hdf5 32319.hdf5 37779.hdf5 55372.hdf5 sign_to_prediction_index_map.json
22343.hdf5 28656.hdf5 34503.hdf5 4718.hdf5 61333.hdf5
単語辞書には単語名と数値の関係が10単語分定義されています.
!cat dataset_top10/sign_to_prediction_index_map.json
{
"listen": 0,
"look": 1,
"shhh": 2,
"donkey": 3,
"mouse": 4,
"duck": 5,
"uncle": 6,
"hear": 7,
"pretend": 8,
"cow": 9
}
ライセンスはオリジナルと同様に,CC-BY 4.0 としています.
!cat dataset_top10/LICENSE.txt
The dataset provided by Natsuki Takayama (Takayama Research and Development Office) is licensed under CC-BY 4.0.
Author: Copyright 2024 Natsuki Takayama
Title: GISLR Top 10 dataset
Original licenser: Deaf Professional Arts Network and the Georgia Institute of Technology
Modification
- Extract 10 most frequent words.
- Packaged into HDF5 format.
次のコードでサンプルを確認します.
サンプルは辞書型のようにキーバリュー形式で保存されており,下記のように階層化されています.
- サンプルID (トップ階層のKey)
|- feature: 入力特徴量で `[C(=3), T, J(=543)]` 形状.C,T,Jは,それぞれ特徴次元,フレーム数,追跡点数です.
|- token: 単語ラベル値で `[1]` 形状.0から9の数値です.
1 2 3 4 5 6 7 8 9 |
|
['1109479272', '11121526', ..., '976754415']
<KeysViewHDF5 ['feature', 'token']>
(3, 23, 543)
[1]
3.2 モジュールのダウンロード
次に,過去の記事で実装したコードをダウンロードします.
本項は前回までに紹介した内容と同じですので,飛ばしていただいても構いません.
コードはGithubのsrc/modules_gislr
にアップしてあります (今後の記事で使用するコードも含まれています).
まず,下記のコマンドでレポジトリをダウンロードします.
(目的のディレクトリだけダウンロードする方法はまだ調査中です(^^;))
!wget https://github.com/takayama-rado/trado_samples/archive/refs/tags/v0.1.zip -O master.zip
--2024-01-21 11:01:47-- https://github.com/takayama-rado/trado_samples/archive/master.zip
Resolving github.com (github.com)... 140.82.112.3
...
2024-01-21 11:01:51 (19.4 MB/s) - ‘master.zip’ saved [75710869]
ダウンロードしたリポジトリを解凍します.
!unzip -o master.zip -d master
Archive: master.zip
641b06a0ca7f5430a945a53b4825e22b5f3b8eb6
creating: master/trado_samples-main/
inflating: master/trado_samples-main/.gitignore
...
モジュールのディレクトリをカレントディレクトリに移動します.
!mv master/trado_samples-main/src/modules_gislr .
他のファイルは不要なので削除します.
!rm -rf master master.zip gislr_top10.zip
!ls
dataset_top10 drive modules_gislr sample_data
3.3 モジュールのロード
今回は処理負荷を見積もるために,下記のコードでまずライブラリをインストールします.
!pip3 install torchinfo
torchinfo は PyTorch のモデル情報を出力するためにライブラリで,モデルのパラメータ数や計算量 (和と積の数),メモリ容量を見積もることができます.
Colaboratory やデスクトップPC のような環境では,他の処理の影響で推論時間を正確に計測することが難しいです.
そこで今回は, torchinfo
の出力を見て処理が軽量化できているかを見ていきます.
主要な処理の実装に先立って,下記のコードでモジュールをロードします.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 |
|
【コード解説】
- 標準モジュール
- copy: データコピーライブラリ.Transformerブロック内でEncoder層をコピーするために使用します.
- json: JSONファイル制御ライブラリ.辞書ファイルのロードに使用します.
- math: 数学計算処理ライブラリ
- os: システム処理ライブラリ
- random: ランダム値生成ライブラリ
- sys: Pythonインタプリタの制御ライブラリ.
今回はローカルモジュールに対してパスを通すために使用します.
- functools: 関数オブジェクトを操作するためのライブラリ.
今回はDataLoaderクラスに渡すパディング関数に対して設定値をセットするために使用します.
- inspect.signature: オブジェクトの情報取得ライブラリ.
- pathlib.Path: オブジェクト指向のファイルシステム機能.
主にファイルアクセスに使います.osモジュールを使っても同様の処理は可能です.
高山の好みでこちらのモジュールを使っています(^^;).
- typing: 関数などに型アノテーションを行う機能.
ここでは型を忘れやすい関数に付けていますが,本来は全てアノテーションをした方が良いでしょう(^^;).
- 3rdパーティモジュール
- numpy: 行列演算ライブラリ
- torch: ニューラルネットワークライブラリ
- torchinfo: PyTorchモデル解析ライブラリ.
今回は処理負荷を見積もるために用います.
- torchvision: PyTorchと親和性が高い画像処理ライブラリ.
今回はDatasetクラスに与える前処理をパッケージするために用います.
- ローカルモジュール: sys.pathにパスを追加することでロード可能
- dataset: データセット操作用モジュール
- defines: 各部位の追跡点,追跡点間の接続関係,およびそれらへのアクセス処理を
定義したモジュール
- layers: ニューラルネットワークのモデルやレイヤモジュール
- transforms: 入出力変換処理モジュール
- train_functions: 学習・評価処理モジュール
- utils: ユーティリティ関数モジュール
4. 選択的リサイズ処理の実装
選択的リサイズ処理の実装は下記のようになります.
選択的リサイズ処理は前処理に実装しますので,データ拡張と同様にクラスを定義して呼び出せるように実装したいと思います.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 |
|
【コード解説】
- 引数
- min_tlen: 最小時間長.
入力の時間長 < `min_tlen` の場合は,線形補間でデータを伸長します.
- max_tlen: 最大時間長.
入力の時間長 > `max_tlen` の場合は,線形補間でデータを縮小します..
- 5-7行目: 初期化処理
- 9-38行目: リサイズ処理
- 12-21行目: 入力の時系列長を調べ,伸縮するか (enlarge),縮小するか (shrink),
そのままか (return) を決める
- 25行目: 線形補間の並列処理のために,特徴量の形状を `[C, T, J] -> [T, C*J]` に変更
- 28行目: リサイズ後の時系列長を決定
- 30-32行目: 線形補間の適用
- 34-35行目: 特徴量形状を `[T, C*J] -> [C, T, J]` に戻す
5. Strided poolingの実装
次に,下記のコードで Transformer 認識モデルに Strided pooling を実装します.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 |
|
ベースの実装は第九回の記事で説明したコード (第3.6項を参照してください) を用いており,下記の点を拡張しています.
- 引数:
pooling_type
を追加 (7行目)none
: Poolingレイヤは使用しない (今までと同様)average
: Average pooling レイヤを適用max
: Max pooling レイヤを適用
- Poolingレイヤの初期化 (23-34行目)
pooling_type
の値に応じてレイヤを初期化しています.
インスタンス化引数にstride=[2, 1]
を与えることで,Pooling処理は2フレームに1回行われることになります (出力系列長は半分になります). - Poolingレイヤの適用 (76-85行目)
Transformer レイヤ用のマスク配列にもPooling処理を適用して,時系列長を揃えている点に注意してください.
6. 認識モデルの動作確認
認識性能の評価に先立って,実装した処理が正常に動作するかを確認します.
まずは,次のコードでデータセットからHDF5ファイルとJSONファイルのパスを読み込みます.
1 2 3 4 5 6 7 8 |
|
dataset_top10/sign_to_prediction_index_map.json
[PosixPath('dataset_top10/2044.hdf5'), PosixPath('dataset_top10/32319.hdf5'), PosixPath('dataset_top10/18796.hdf5'), PosixPath('dataset_top10/36257.hdf5'), PosixPath('dataset_top10/62590.hdf5'), PosixPath('dataset_top10/16069.hdf5'), PosixPath('dataset_top10/29302.hdf5'), PosixPath('dataset_top10/34503.hdf5'), PosixPath('dataset_top10/37055.hdf5'), PosixPath('dataset_top10/37779.hdf5'), PosixPath('dataset_top10/27610.hdf5'), PosixPath('dataset_top10/53618.hdf5'), PosixPath('dataset_top10/49445.hdf5'), PosixPath('dataset_top10/30680.hdf5'), PosixPath('dataset_top10/22343.hdf5'), PosixPath('dataset_top10/55372.hdf5'), PosixPath('dataset_top10/26734.hdf5'), PosixPath('dataset_top10/28656.hdf5'), PosixPath('dataset_top10/61333.hdf5'), PosixPath('dataset_top10/4718.hdf5'), PosixPath('dataset_top10/25571.hdf5')]
次のコードで辞書ファイルをロードして,認識対象の単語数を格納します.
1 2 3 4 5 |
|
次のコードで前処理を定義します.
固定の前処理には,以前に説明した追跡点の選定と,追跡点の正規化を適用して実験を行います.
選択的リサイズ処理は動的な前処理として,transforms_resize_32
(13-15行目, 最大32フレーム),transforms_resize_64
(17-19行目, 最大64フレーム),transforms_resize_128
(21-23行目, 最大128フレーム) にそれぞれ定義しています.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 |
|
次のコードで,前処理を適用したHDF5DatasetとDataLoaderをインスタンス化し,データを取り出します.
HDF5Dataset
をインスタンス化する際に,pre_transforms
と transforms
引数に変数を渡してデータ拡張を有効にしています (11行目).
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
|
torch.Size([2, 2, 232, 130])
torch.Size([2, 2, 32, 130])
torch.Size([2, 2, 64, 130])
torch.Size([2, 2, 128, 130])
適用したリサイズ処理に応じて,時系列長が変化していることが確認できます.
次のコードでモデルをインスタンス化して,動作チェックをします.
追跡点抽出の結果,入力追跡点数は130で,各追跡点はXY座標値を持っていますので,入力次元数は260になります.
出力次元数は単語数なので10になります.
また,Transformer層の入力次元数は64に設定し,PFFN内部の拡張次元数は256に設定しています.
pooling_type
が新しく加わっている点に注意してください.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 |
|
TransformerEnISLR(
(linear): Linear(in_features=260, out_features=64, bias=True)
(activation): ReLU()
(pooling): Identity()
(tr_encoder): TransformerEncoder(
(pos_encoder): PositionalEncoding(
(dropout): Dropout(p=0.1, inplace=False)
)
(layers): ModuleList(
(0-1): 2 x TransformerEncoderLayer(
(self_attn): MultiheadAttention(
(w_key): Linear(in_features=64, out_features=64, bias=True)
(w_value): Linear(in_features=64, out_features=64, bias=True)
(w_query): Linear(in_features=64, out_features=64, bias=True)
(w_out): Linear(in_features=64, out_features=64, bias=True)
(dropout_attn): Dropout(p=0.1, inplace=False)
)
(ffw): PositionwiseFeedForward(
(w_1): Linear(in_features=64, out_features=256, bias=True)
(w_2): Linear(in_features=256, out_features=64, bias=True)
(dropout): Dropout(p=0.1, inplace=False)
(activation): ReLU()
)
(dropout): Dropout(p=0.1, inplace=False)
(norm1): LayerNorm((64,), eps=1e-05, elementwise_affine=True)
(norm2): LayerNorm((64,), eps=1e-05, elementwise_affine=True)
)
)
(norm): LayerNorm((64,), eps=1e-05, elementwise_affine=True)
)
(head): GPoolRecognitionHead(
(head): Linear(in_features=64, out_features=10, bias=True)
)
)
torch.Size([2, 10])
(2, 2, 128, 128) (2, 2, 128, 128)
7. 処理負荷の見積もり
ここでは,torchinfo
を用いてモデルの処理負荷 (見積もり値) を見ていきます.
下記のコードで,入力サイズに応じたモデル処理負荷を検査することができます.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 |
|
【出力内容】
- 1-17行目: レイヤ構成,対応する出力特徴量形状,およびパラメータ数
- 18-22行目: パラメータのサマリ
- Total params: 全パラメータ数
- Trainable params: 学習パラメータ数
- Non-trainable params: 非学習パラメータ数
- Total mult-adds: 計算処理 (和と積) の数
- 23-27行目: 計算容量のサマリ
- Input size: 入力データ容量
- Forward/backward pass size: Forward/Backward計算に必要なメモリ容量
- Params size: パラメータのメモリ容量 (Total params * Tensorサイズ(4) )
- Estimated Total Size: 総計算容量
今回の実験条件で変化する箇所は,Input size
と Forward/backward pass size
です.
表1に各設定毎の出力を記載します (コードは冗長なので割愛させていただきます).
設定 | Input (MB) | F/B(MB) |
---|---|---|
Default | 1.13 | 13.34 |
R-32 | 0.07 | 0.79 |
R-64 | 0.13 | 1.57 |
R-128 | 0.27 | 3.15 |
R-128 + P | 0.27 | 1.64 |
設定内容は下記のとおりです.
- Default:
pooling_type="none", max_tlen=584
- R-32:
pooling_type="none", max_tlen=32
- R-64:
pooling_type="none", max_tlen=64
- R-128
pooling_type="none", max_tlen=128
- R-128 + P:
pooling_type="average", max_tlen=128
Defaultでは最大サイズの入力に対する計算容量を示しています.
また,Poolingの種別で計算容量は変わらないのでここでは Average pooling の結果だけを示しています.
リサイズと Pooling 処理によって計算容量が減っていることが分かります.
8. 学習と評価
8.1 共通設定
では,実際に学習・評価を行います.
まずは,実験全体で共通して用いる設定値を次のコードで実装します.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
|
Using 2 cores for data loading.
Using cuda for computation.
8.2 学習・評価の実行
次のコードで学習・バリデーション・評価処理それぞれのためのDataLoaderクラスを作成します.
今回は,データ拡張処理の有無および種類による認識性能の違いを見たいので,実験毎にデータセットクラスをインスタンス化します.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
|
次のコードでモデルをインスタンス化します.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 |
|
TransformerEnISLR(
(linear): Linear(in_features=260, out_features=64, bias=True)
(activation): ReLU()
(pooling): Identity()
(tr_encoder): TransformerEncoder(
(pos_encoder): PositionalEncoding(
(dropout): Dropout(p=0.1, inplace=False)
)
(layers): ModuleList(
(0-1): 2 x TransformerEncoderLayer(
(self_attn): MultiheadAttention(
(w_key): Linear(in_features=64, out_features=64, bias=True)
(w_value): Linear(in_features=64, out_features=64, bias=True)
(w_query): Linear(in_features=64, out_features=64, bias=True)
(w_out): Linear(in_features=64, out_features=64, bias=True)
(dropout_attn): Dropout(p=0.1, inplace=False)
)
(ffw): PositionwiseFeedForward(
(w_1): Linear(in_features=64, out_features=256, bias=True)
(w_2): Linear(in_features=256, out_features=64, bias=True)
(dropout): Dropout(p=0.1, inplace=False)
(activation): ReLU()
)
(dropout): Dropout(p=0.1, inplace=False)
(norm1): LayerNorm((64,), eps=1e-05, elementwise_affine=True)
(norm2): LayerNorm((64,), eps=1e-05, elementwise_affine=True)
)
)
(norm): LayerNorm((64,), eps=1e-05, elementwise_affine=True)
)
(head): GPoolRecognitionHead(
(head): Linear(in_features=64, out_features=10, bias=True)
)
)
次のコードで学習・評価処理を行います.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
|
Start training.
--------------------------------------------------------------------------------
Epoch 1
Start training.
loss:4.126297 [ 0/ 3881]
loss:1.948109 [ 3200/ 3881]
Done. Time:6.517917484999998
Training performance:
Avg loss:2.210513
Start validation.
Done. Time:0.2436770109999884
Validation performance:
Avg loss:1.985109
Start evaluation.
Done. Time:1.3543222810000088
Test performance:
Accuracy:30.0%
--------------------------------------------------------------------------------
...
--------------------------------------------------------------------------------
Epoch 50
Start training.
loss:0.129627 [ 0/ 3881]
loss:0.115906 [ 3200/ 3881]
Done. Time:4.387751489999971
Training performance:
Avg loss:0.181103
Start validation.
Done. Time:0.256983469999966
Validation performance:
Avg loss:0.859618
Start evaluation.
Done. Time:1.1931464009999786
Test performance:
Accuracy:79.0%
Minimum validation loss:0.6492272232260022 at 24 epoch.
Maximum accuracy:84.0 at 43 epoch.
以後,同様の処理を設定毎に繰り返します.
コード構成は同じですので,ここでは説明を割愛させていただきます.
また,この後グラフ等の描画も行っておりますが,本記事の主要点ではないため説明を割愛させていただきます.
今回は前処理およびモデル内部で特徴系列を時間軸方向にリサイズすることで,処理負荷を軽減する手法を紹介しましたが,如何でしたでしょうか?
実際のアプリケーション開発では,認識性能だけでなく計算負荷も考慮する必要があります.
特徴系列をリサイズする方法はシンプルですが,簡単に計算負荷を軽減することができ,タスクによっては認識性能が向上する場合もあります.
計算負荷でお悩みの場合は,難しいモデル改良に手を出す前にリサイズ処理を試してみては如何でしょう.
今回紹介した話が,これから手話認識を勉強してみようとお考えの方に何か参考になれば幸いです.