手話認識に関する記事が増えてきましたので,まとめページを作りました.
今後記事をアップする毎にリンクを追加していく予定です.
1. 手話認識入門
連載記事「手話認識入門」のリンク集です.
KaggleのGoogle Isolated Sign Language Recognition (以下,GISLR) を題材として,孤立手話単語認識モデルを実装する方法を紹介しています.
1.1 メイン記事
メイン記事では,手話認識を実装する方法を実際のコードを示しながら説明しています.
どこから手を付けたら良いか分からない場合は,STEP0 から順番に読んでいくと理解がし易いと思います.
-
STEP0: 概要
-
STEP1: データベースの操作方法
-
STEP2: シンプルな孤立手話単語認識モデル
-
STEP3: 特徴量エンジニアリング1 - 追跡点の選定
-
STEP4: 特徴量エンジニアリング2 - 追跡点の正規化
-
STEP5: RNNを用いた孤立手話単語認識モデル1 - レイヤ構成の設計
-
STEP6: RNNを用いた孤立手話単語認識モデル2 - Padding信号のマスキング
-
STEP7: RNNを用いた孤立手話単語認識モデル3 - レイヤ種別の選択
-
STEP8: シンプルなAttention層の適用
-
STEP9: Transformerを用いた孤立手話単語認識モデル
-
STEP10: 様々な改善手法1 - ラベルスムージングによる正則化
-
STEP11: 様々な改善手法2 - 追跡点の左右入れ替えによるデータ拡張
-
STEP12: 様々な改善手法3 - 時系列クリッピングによるデータ拡張
-
STEP13: 様々な改善手法4 - 時系列ワーピングによるデータ拡張
-
STEP14: 様々な改善手法5 - アフィン変換によるデータ拡張
-
STEP15: 様々な改善手法6 - ノイズ付加によるデータ拡張
-
STEP16: 様々な改善手法7 - 追跡点のマスキングによるデータ拡張
-
STEP17: 様々な改善手法8 - 時系列リサイジングによる処理軽量化
1.2 補足記事
補足記事では,メイン記事では割愛した Tips,各手法の細かい背景,および理論などを説明しています.
-
補足1: Google Driveのマウント
-
補足2: 深掘りRNN1: SRNNからLSTMとGRUへの変遷
-
補足3: 深掘りRNN2: LSTMとGRUの動作について
-
補足4: 深掘りRNN3: PyTorchのRNNクラスの出力について
-
補足5: 深掘りTransformer1: Positional encoding の処理について
-
補足6: 深掘りTransformer2: Multi-head self-attention の処理について
-
補足7: 深掘りTransformer3: 正規化層について
-
補足8: 深掘りTransformer4: 欠損値の補間は認識性能を向上させるのか?
-
補足9: 実験用GISLRデータセットの作成方法
-
補足10: 深掘りTransformer5: GISLRタスクに合う正規化層は何か?
2. 実践手話認識
連載記事「実践手話認識」のリンク集です.
基本的には「手話認識入門」から続いている内容ですが,より高度な技術や最近の研究に沿った話題を書いています.
2.1 モデル開発編
モデル開発編では,深層学習ベースの手話認識モデルを学習する方法を実際のコードを示しながら説明しています.
なお,"STEP〇〇"と書いてますが各記事は独立した内容が多いです.
-
STEP1: Macaron Net を用いた孤立手話単語認識モデル
-
STEP2: Conformer を用いた孤立手話単語認識モデル
-
STEP3: Encoder-Decoder を用いた系列認識の処理
-
STEP4: RNN Encoder-Decoderを用いた連続指文字認識モデル
-
STEP5: Transformer Encoder-Decoderを用いた連続指文字認識モデル
-
STEP6: Temporal CNNで孤立手話単語認識モデルを改良
2.2 補足記事
補足記事では,モデル開発編などでは割愛した Tips,各手法の細かい背景,および理論などを説明しています.
-
補足1: Macaron Net のアイデアについて
-
補足2: Conformer の Convolution module について
-
補足3: GAFSデータセットについて
-
補足4: 時系列認識におけるLoss計算のハマりどころ
-
補足5: Word error rate について
-
補足6: Multi-head cross-attention について
-
補足7: Pydanticを用いてNNモデルのハイパーパラメータをまとめる方法
-
補足7: Pydanticを用いてTransformerベース孤立手話単語認識モデルをリファクタリング
3. 参考書籍
手話言語に関する参考書籍のリンク集です.
4. その他
上記カテゴリ外の記事リンク集です.
