Kaggle の孤立手話単語認識コンテスト Google Isolated Sign Language Recognition に参加しました

This image is generated with ChatGPT-4, and edited by the author.
作成日:2023年06月25日(日) 00:00
最終更新日:2024年09月29日(日) 18:13
カテゴリ:Kaggle
タグ:  孤立手話単語認識 GISLR

Kaggleの手話認識コンテストに参加しました.Kaggle初参加で分からないことだらけで,最終順位は283/1165位でしたが,色々と勉強になりました.

こんにちは.高山です. 少し時間が経ってしまいましたが,KaggleのGoogle Isolated Sign Language Recognitionというコンテストに参加していました.
Kaggle自体が初めてで中々思ったような結果が出せず,最終順位は283/1165位でしたが色々と勉強になりました.

更新履歴 (大きな変更のみ記載しています)

  • 2024/09/17: タイトル,タグ,節構成を更新しました

コンテストの紹介

このコンテストでは図1に示すように,手話動画から孤立単語を認識して精度を競い合います.

孤立手話単語認識の全体像と,コンテストの対象範囲を説明する図です.画像に続いて詳細説明があります.
追跡点ベースの孤立手話単語認識

骨格追跡点ベースの孤立手話単語認識では,最初に手話動画から骨格追跡点を抽出して,その後認識モデルを用いて手話単語を出力します.
今回のコンテストでは,MediaPipe [MediaPipe'23]で抽出した骨格追跡点データが,学習およびテスト用として提供されます (生動画は与えられない).
参加者は提供データを用いて,各自で認識モデルを作成して精度を競い合います.

オーソドックスなタスクですが,下記のような特徴があります.

  • 対象はアメリカ手話
  • 提出モデルはTensorflow Liteの形式でなければならない
  • テスト時の平均推論時間は100msec以内でなければならない

スポンサーはモバイルアプリの開発に繋げたいようで,そこを意識した制約が盛り込まれています.

手話認識の個人研究者としては,データが商用利用可の条件で公開されたのは大きいです.
手話認識の研究は人材および研究データ不足が長年の課題になっていますが,生の手話動画データは個人情報が満載でセンシティブな取り扱いが必要です.
手話動画データベースは非公開であったり,学術機関しか利用できなかったりと制約が厳しい場合が多く,一般の開発者は手を出すことが難しい状況が続いていました.
動画ではなく骨格追跡点で,かつ,量もそこまで多くはないですが,このようなデータベースをきっかけに,手話認識の研究開発も盛り上がってくれると良いですね.

Googleが手話関連の研究を行っている (例えば[Moryossef'20]) ことは以前から知っていましたが,続報がなかったので休眠状態なのかと思っていました.
今は (2023年6月現在) 指文字のコンテスト も主催しているようで,今後さらなる動きがあるのか楽しみですね.

このコンテストとデータベースは色々と面白そうなので,またどこかのタイミングで記事を出せればと思っています.

  • [MediaPipe'23]: "Google MediaPipe," available here, 2023.
  • [Moryossef'20]: A. Moryossef, et al., "Real-Time Sign Language Detection using Human Pose Estimation," Proc. of the ECCV 2020, pp.237-248, available here, 2020.