目次
こんにちは.高山です.
先日の記事で告知しました手話入門記事の第五回になります.
今回は,Recurrent Neural Network (RNN) を用いた孤立手話単語認識モデルを実装する方法を紹介します.
当初の予定では,この回でTransformerを用いた孤立手話単語認識モデルを紹介する予定だったのですが,先にRecurrent Neural Network (RNN) を用いたモデルを紹介した方が分かりやすいと思い,予定を変更しました.
RNNは元々時系列データを処理するために提案されたニューラルネットワークで,手話認識とは相性が良いです.
今まで使用していたシンプルなトイモデルにRNN層を加えることで,時間方向の関係性を考慮した特徴抽出が可能になります.
RNNは様々な設計パターンが提案されており少し複雑です.
PyTorchで簡単に実装可能な設計上のポイントを下記に記します.
- レイヤ構成: Stacked RNNとBidirectional RNN
- Padding信号のマスキング
- レイヤ種別: LSTMとGRU
PyTorchのRNNは少し癖があり,一回で上記全てを説明すると長くなってしまいますので,今回は"レイヤ構成"について取り上げます.
他の項目については次回以降に説明します.
RNNは最新の研究でも未だに使われている (例えば [Hu'23, Zheng23]) 手法ですので,今回の記事で少しでも興味を持っていただけたらうれしいです.
なお,RNNは "RNNタイプのレイヤ" を指す場合と,"初期に発表された具体的な実装形態 (simple RNN: SRNN)" を指す場合があります.
本記事では,特定の実装を指している場合は "SRNN" の用語を使い,一般論を述べている場合は "RNN" の用語を使います.
今回解説するスクリプトはGitHub上に公開しています.
色々な実験を行っている都合で,CPUで動かした場合は結構時間がかるのでご注意ください.
- [Hu'23]: L. Hu, et al., "Continuous Sign Language Recognition with Correlation Network," Proc. of the IEEE CVPR, available here, 2023.
- [Zheng'23]: J. Zheng, et al., "CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language Recognition with Variational Alignment," Proc. of the IEEE CVPR, available here, 2023.
更新履歴 (大きな変更のみ記載しています)
- 2024/07/29: Gitスクリプトのダウンロード元を
master
からv0.1
タグに変更 - 2024/07/23
- 第1節の構成を見直し
- 記事最終部の実験結果を削除して第3節に統合
1. モデルの改良内容
第二回の記事では,線形変換層とGlobal average poolingを用いた出力層だけを備えたシンプルなモデルを紹介しました.
図1に示すように今回は,このモデルにRNN層を加えて認識性能の改善を試みます.
2. SRNN層の挙動
図2は,信号を入力したときの,線形変換層とSRNN層の挙動の違いを示しています.
線形変換層では,入力 (\(\boldsymbol{x}_1, \boldsymbol{x}_2\) など) は互いに独立して計算されるため,隣接フレーム間で依存関係を持ちません.
一方,RNN層は入力と同時に,過去の出力 (\(\boldsymbol{h}_1, \boldsymbol{h}_2\) など) を用いて現在の出力を計算します.
そのため,RNNは時間的な依存関係を持った特徴量を抽出することが可能です.
図2の右上に示すように,SRNNでは,入力と過去の出力をそれぞれ線形変換し,足し合わせた後に活性化関数を適用します.
一番最初の入力 (\(\boldsymbol{x}_1\)) に対しては,ゼロベクトル (\(\boldsymbol{h}_0 = \boldsymbol{0}\)) が用いられることが多いです.
今回はSRNNを用いて実験を行います.
他のRNNタイプのレイヤ (LSTMやGRUなど) については,別記事で解説したいと思います.
3. RNNの設計ポイント: レイヤ構成
図3に示すように,PyTorchのRNNクラスではインスタンス化時の設定に応じて,レイヤ構成を変えることができます.
図3(a) はデフォルト引数を用いた場合のレイヤ構成を示しています.
図3(b) は num_layers
に1より上の値を指定した場合のレイヤ構成を示しています.
この設定では,指定数に応じてRNN層がカスケード接続されます.
このような構成のRNNは Stacked RNN と呼ばれます.
図3(c) は bidirectional=True
とした場合のレイヤ構成を示しています.
この設定では,下記に示す2種類のRNN層が内部で作られます.
- forward RNN (FRNN): 順送りで計算を行う (過去の情報を用いる)
- backward RNN (BRNN): 逆送りで計算を行う (未来の情報を用いる)
各層の出力を連結した特徴量が出力になるため,出力次元数は設定値の倍になります.
このような構成のRNNは Bidirectional RNN と呼ばれます.
今回は,これらの設定値を用いてレイヤ構成毎に認識性能がどのように変わるかを実験してみたいと思います.
4. 実験結果
次節以降では,いつも通り実装の紹介をしながら実験結果をお見せします.
今回はレイヤ構成の効果を見るために複数の実験条件を実装しており,少し冗長な展開が続きますので結果を先にお見せしたいと思います.
図4はレイヤ構成毎のValidation Lossと認識率の推移を示しています.
横軸は学習・評価ループの繰り返し数 (Epoch) を示します.
縦軸はそれぞれの評価指標を示します.
各線の色と実験条件の関係は次のとおりです.
- 青線 (Default): デフォルト設定 (
num_layers=1, bidirectional=False
) - 橙線 (+ Stacked): Stacked RNN (
num_layers=2
) - 緑線 (+ Bidir): Bidirectional RNN (
bidirectional=False
) - 赤線 (+ Stacked + Bidir): Stacked - Bidirectional RNN (
num_layers=2, bidirectional=True
)
デフォルト設定に比べて,レイヤ構成を変えた場合は認識性能が向上していることが分かります.
単純な線形変換だけを用いた認識モデルに比べて,SRNN層を加えた場合は複雑な学習推移を示します.
特にデフォルト設定は過学習や局所解に陥っている兆候が見られ,認識性能もあまり良くありません.
これには,欠落データなどの影響が全体に伝搬してしまうことや,学習率との兼ね合いなど様々な要因が考えられます.
対策も,パラメータ調整や今回紹介したレイヤ構成の工夫に加えて,データ拡張や学習方法の工夫など色々と提案されています.
これらについては,追々別記事で取り上げたいと思います.
なお,今回の実験では話を簡単にするために,実験条件以外のパラメータは固定にし,乱数の制御もしていません.
複数回試して認識性能の傾向は確認していますが,必ずしも同様の結果になるわけではないので,ご了承ください.
5. 前準備
5.1 データセットのダウンロード
ここからは実装方法の説明をしていきます.
まずは,前準備としてGoogle Colabにデータセットをアップロードします.
以前までは,gdown
を用いてダウンロードしていたのですが,このやり方ですと多数の方がアクセスした際にトラブルになるようなので (多数のご利用ありがとうございます!),セットアップの方法を少し変えました.
まず最初に,データセットの格納先からデータをダウンロードし,ご自分のGoogle driveへアップロードしてください.
次のコードでGoogle driveをColabへマウントします.
Google Driveのマウント方法については,補足記事にも記載してあります.
1 2 3 |
|
ドライブ内のファイルをColabへコピーします.
パスはアップロード先を設定する必要があります.
# Copy to local.
!cp [path_to_dataset]/gislr_dataset_top10.zip gislr_top10.zip
データセットはZIP形式になっているので unzip
コマンドで解凍します.
!unzip gislr_top10.zip
Archive: gislr_top10.zip
creating: dataset_top10/
inflating: dataset_top10/16069.hdf5
...
inflating: dataset_top10/sign_to_prediction_index_map.json
成功すると dataset_top10
以下にデータが解凍されます.
HDF5ファイルはデータ本体で,手話者毎にファイルが別れています.
JSONファイルは辞書ファイルで,TXTファイルは本データセットのライセンスです.
!ls dataset_top10
16069.hdf5 25571.hdf5 29302.hdf5 36257.hdf5 49445.hdf5 62590.hdf5
18796.hdf5 26734.hdf5 30680.hdf5 37055.hdf5 53618.hdf5 LICENSE.txt
2044.hdf5 27610.hdf5 32319.hdf5 37779.hdf5 55372.hdf5 sign_to_prediction_index_map.json
22343.hdf5 28656.hdf5 34503.hdf5 4718.hdf5 61333.hdf5
単語辞書には単語名と数値の関係が10単語分定義されています.
!cat dataset_top10/sign_to_prediction_index_map.json
{
"listen": 0,
"look": 1,
"shhh": 2,
"donkey": 3,
"mouse": 4,
"duck": 5,
"uncle": 6,
"hear": 7,
"pretend": 8,
"cow": 9
}
ライセンスはオリジナルと同様に,CC-BY 4.0 としています.
!cat dataset_top10/LICENSE.txt
The dataset provided by Natsuki Takayama (Takayama Research and Development Office) is licensed under CC-BY 4.0.
Author: Copyright 2024 Natsuki Takayama
Title: GISLR Top 10 dataset
Original licenser: Deaf Professional Arts Network and the Georgia Institute of Technology
Modification
- Extract 10 most frequent words.
- Packaged into HDF5 format.
次のコードでサンプルを確認します.
サンプルは辞書型のようにキーバリュー形式で保存されており,下記のように階層化されています.
- サンプルID (トップ階層のKey)
|- feature: 入力特徴量で `[C(=3), T, J(=543)]` 形状.C,T,Jは,それぞれ特徴次元,フレーム数,追跡点数です.
|- token: 単語ラベル値で `[1]` 形状.0から9の数値です.
1 2 3 4 5 6 7 8 9 |
|
['1109479272', '11121526', ..., '976754415']
<KeysViewHDF5 ['feature', 'token']>
(3, 23, 543)
[1]
5.2 モジュールのダウンロード
次に,過去の記事で実装したコードをダウンロードします.
本項は前回までに紹介した内容と同じですので,飛ばしていただいても構いません.
コードはGithubのsrc/modules_gislr
にアップしてあります (今後の記事で使用するコードも含まれています).
まず,下記のコマンドでレポジトリをダウンロードします.
(目的のディレクトリだけダウンロードする方法はまだ調査中です(^^;))
!wget https://github.com/takayama-rado/trado_samples/archive/refs/tags/v0.1.zip -O master.zip
--2024-01-21 11:01:47-- https://github.com/takayama-rado/trado_samples/archive/master.zip
Resolving github.com (github.com)... 140.82.112.3
...
2024-01-21 11:01:51 (19.4 MB/s) - ‘master.zip’ saved [75710869]
ダウンロードしたリポジトリを解凍します.
!unzip -o master.zip -d master
Archive: master.zip
641b06a0ca7f5430a945a53b4825e22b5f3b8eb6
creating: master/trado_samples-main/
inflating: master/trado_samples-main/.gitignore
...
モジュールのディレクトリをカレントディレクトリに移動します.
!mv master/trado_samples-main/src/modules_gislr .
他のファイルは不要なので削除します.
!rm -rf master master.zip gislr_top10.zip
!ls
dataset_top10 drive modules_gislr sample_data
5.3 モジュールのロード
主要な処理の実装に先立って,下記のコードでモジュールをロードします.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 |
|
【コード解説】
- 標準モジュール
- json: JSONファイル制御ライブラリ.辞書ファイルのロードに使用します.
- math: 数学計算処理ライブラリ
- sys: Pythonインタプリタの制御ライブラリ.
今回はローカルモジュールに対してパスを通すために使用します.
- functools: 関数オブジェクトを操作するためのライブラリ.
今回はDataLoaderクラスに渡すパディング関数に対して設定値をセットするために使用します.
- pathlib.Path: オブジェクト指向のファイルシステム機能.
主にファイルアクセスに使います.osモジュールを使っても同様の処理は可能です.
高山の好みでこちらのモジュールを使っています(^^;).
- typing: 関数などに型アノテーションを行う機能.
ここでは型を忘れやすい関数に付けていますが,本来は全てアノテーションをした方が良いでしょう(^^;).
- 3rdパーティモジュール
- numpy: 行列演算ライブラリ
- torch: ニューラルネットワークライブラリ
- torchvision: PyTorchと親和性が高い画像処理ライブラリ.
今回はDatasetクラスに与える前処理をパッケージするために用います.
- ローカルモジュール: sys.pathにパスを追加することでロード可能
- dataset: データセット操作用モジュール
- defines: 各部位の追跡点,追跡点間の接続関係,およびそれらへのアクセス処理を
定義したモジュール
- layers: ニューラルネットワークのモデルやレイヤモジュール
- transforms: 入出力変換処理モジュール
- train_functions: 学習・評価処理モジュール
6. 認識モデルの実装
6.1 RNN Encoder層
ここから先は,認識モデルを実装していきます.
まずは,RNNを適用して特徴抽出を行うブロックを実装します.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 |
|
【コード解説】
- 引数
- in_channels: 入力特徴量の次元数
- out_channels: 出力特徴量の次元数.
bidir=Trueの場合,出力特徴量次元数は設定値の倍になります.
- num_layers: RNN層の数
- activation: RNN層内の活性化関数.
["tanh"/"relu"]で指定します.
- bidir: Trueの場合,Bidirectional RNNを使用
- dropout: Dropoutレイヤの欠落率
- 9-26行目: 初期化処理
- 12行目: RNN内のDropoutは `num_layers > 1` の場合のみ有効という仕様であるため,
警告を避けるために `num_layers=1` の場合は設定値を上書きしています.
- 14-20行目: SRNN層の作成
- 23-26行目: RNN内のDropoutは最後のRNN層には適用されないという仕様であるため,
明示的にDropout層を作成しています.
- 28-32行目: 推論処理
6.2 認識モデル
次に,認識モデル全体を実装します.
実装したレイヤを順次呼び出しているだけですので,細かな説明は省略させていただきます.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 |
|
【コード解説】
- 引数
- in_channels: 入力特徴量の次元数
- hidden_channels: RNN層の次元数.
rnn_bidir=Trueの場合,内部では設定値の倍次元の特徴量を出力します.
- out_channels: 出力特徴量の次元数.単語応答値を出力したいので,全単語数と同じにします.
- rnn_num_layers: RNN層の数
- rnn_activation: RNN層内の活性化関数.
["tanh"/"relu"]で指定します.
- rnn_bidir: Trueの場合,Bidirectional RNNを使用
- rnn_dropout: Dropoutレイヤの欠落率
- 10-26行目: 初期化処理
- 23-26行目: rnn_bidirの設定に応じて,出力層の入力次元を調整しています.
- 28-44行目: 推論処理
6.3 動作チェック
認識モデルの実装ができましたので,動作確認をしていきます.
次のコードでデータセットからHDF5ファイルとJSONファイルのパスを読み込みます.
1 2 3 4 5 6 7 8 |
|
dataset_top10/sign_to_prediction_index_map.json
[PosixPath('dataset_top10/2044.hdf5'), PosixPath('dataset_top10/32319.hdf5'), PosixPath('dataset_top10/18796.hdf5'), PosixPath('dataset_top10/36257.hdf5'), PosixPath('dataset_top10/62590.hdf5'), PosixPath('dataset_top10/16069.hdf5'), PosixPath('dataset_top10/29302.hdf5'), PosixPath('dataset_top10/34503.hdf5'), PosixPath('dataset_top10/37055.hdf5'), PosixPath('dataset_top10/37779.hdf5'), PosixPath('dataset_top10/27610.hdf5'), PosixPath('dataset_top10/53618.hdf5'), PosixPath('dataset_top10/49445.hdf5'), PosixPath('dataset_top10/30680.hdf5'), PosixPath('dataset_top10/22343.hdf5'), PosixPath('dataset_top10/55372.hdf5'), PosixPath('dataset_top10/26734.hdf5'), PosixPath('dataset_top10/28656.hdf5'), PosixPath('dataset_top10/61333.hdf5'), PosixPath('dataset_top10/4718.hdf5'), PosixPath('dataset_top10/25571.hdf5')]
次のコードで辞書ファイルをロードして,認識対象の単語数を格納します.
1 2 3 4 5 |
|
次のコードで前処理を定義します.
今回は,以前に説明した追跡点の選定と,追跡点の正規化を前処理として適用して実験を行います.
1 2 3 4 5 6 7 8 9 10 |
|
次のコードで,前処理を適用したHDF5DatasetとDataLoaderをインスタンス化し,データを取り出します.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
|
torch.Size([2, 2, 24, 130])
次のコードでモデルをインスタンス化して,動作チェックをします.
追跡点抽出の結果,入力追跡点数は130で,各追跡点はXY座標値を持っていますので,入力次元数は260になります.
出力次元数は単語数なので10になります.
また,SRNN層の次元数は64に設定しています.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
|
RNNISLR(
(linear): Linear(in_features=260, out_features=64, bias=True)
(activation): ReLU()
(rnn): RNNEncoder(
(rnn): RNN(64, 64, batch_first=True)
(dropout): Dropout(p=0.1, inplace=False)
)
(head): GPoolRecognitionHead(
(head): Linear(in_features=64, out_features=10, bias=True)
)
)
torch.Size([2, 10])
7. 学習と評価の実行
7.1 共通設定
では,実際に学習・評価を行います.
まずは,実験全体で共通して用いる設定値を次のコードで実装します.
前回まで用いていた学習率 (lr = 1e-3
) だと,学習が安定しない傾向がありましたので,少し学習率を落としています.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
|
Using cpu for computation.
次のコードで学習・バリデーション・評価処理それぞれのためのDataLoaderクラスを作成します.
1 2 3 4 5 6 7 8 9 10 11 |
|
7.2 学習・評価の実行
次のコードでモデルをインスタンス化します.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
|
RNNISLR(
(linear): Linear(in_features=260, out_features=64, bias=True)
(activation): ReLU()
(rnn): RNNEncoder(
(rnn): RNN(64, 64, batch_first=True)
(dropout): Dropout(p=0.1, inplace=False)
)
(head): GPoolRecognitionHead(
(head): Linear(in_features=64, out_features=10, bias=True)
)
)
次のコードで学習・評価処理を行います.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 |
|
Start training.
--------------------------------------------------------------------------------
Epoch 1
Start training.
loss:2.438656 [ 0/ 3881]
loss:2.169352 [ 3200/ 3881]
Done. Time:8.977812445999916
Training performance:
Avg loss:2.254690
Start validation.
Done. Time:0.3972259900001518
Validation performance:
Avg loss:2.100680
Start evaluation.
Done. Time:1.1756815200005803
Test performance:
Accuracy:21.0%
--------------------------------------------------------------------------------
...
--------------------------------------------------------------------------------
Epoch 50
Start training.
loss:1.522435 [ 0/ 3881]
loss:1.242285 [ 3200/ 3881]
Done. Time:8.391038106999986
Training performance:
Avg loss:1.549366
Start validation.
Done. Time:0.4106935540003178
Validation performance:
Avg loss:1.707978
Start evaluation.
Done. Time:1.4809079639999254
Test performance:
Accuracy:48.0%
Minimum validation loss:1.4419490269252233 at 43 epoch.
Maximum accuracy:56.00000000000001 at 42 epoch.
以後,同様の処理をレイヤ構成毎に繰り返します.
コード構成は同じですので,ここでは説明を割愛させていただきます.
今回はRNN層を用いた孤立手話単語認識モデルを紹介しましたが,如何でしたでしょうか?
段々とモデルが複雑になるにつれて,学習を安定させるのが難しくなって時間がかかってしまいました(^^;).
冒頭で述べたとおり,RNNは最新の研究でも未だに使われている手法ですが,学習の制御には結構苦労します.
また,PyTorchのRNN実装は増築を重ねた結果,少し癖が強いです.
リファクタリングの必要性は以前から議論されていますが,あまり進んでいないようです.
実際の研究開発で用いる場合は,サードパーティ製の実装や自前での拡張を検討する必要があるかもしれません.
今回紹介した話が,これから手話認識を勉強してみようとお考えの方に何か参考になれば幸いです.