Google Isolated Sign Language Recognitionに参加しました

著者: Natsuki Takayama
作成日: 2023年06月25日(日) 00:00
最終更新日: 2024年03月05日(火) 17:14
カテゴリ: Kaggle

こんにちは.高山です. 少し時間が経ってしまいましたが,KaggleのGoogle Isolated Sign Language Recognitionというコンテストに参加していました.
Kaggle自体が初めてで中々思ったような結果が出せず,最終順位は283/1165位でしたが色々と勉強になりました.

このコンテストは図1に示すように,手話動画から孤立単語を認識して精度を競い合う,というオーソドックスなタスクなのですが,下記のような特徴があります.

図1: 追跡点ベースの孤立手話単語認識
追跡点ベースの孤立手話単語認識
  • 対象はアメリカ手話
  • 入力はMediaPipe[1]で抽出した骨格追跡点の座標 (生動画は与えられない)
  • 提出モデルはTensorflow Liteの形式でなければならない
  • テスト時の平均推論時間は100msec以内でなければならない

スポンサーはモバイルアプリの開発に繋げたいようで,そこを意識した制約が盛り込まれています.

手話認識の個人研究者としては,データが商用利用可の条件で公開されたのは大きいです.
手話認識の研究は人材および研究データ不足が長年の課題になっていますが,生の手話動画データは個人情報が満載でセンシティブな取り扱いが必要です.
手話動画データベースは非公開であったり,学術機関しか利用できなかったりと制約が厳しい場合が多く,一般の開発者は手を出すことが難しい状況が続いていました.
動画ではなく骨格追跡点で,かつ,量もそこまで多くはないですが,このようなデータベースをきっかけに,手話認識の研究開発も盛り上がってくれると良いですね.

Googleが手話関連の研究を行っている (例えば[2]) ことは以前から知っていましたが,続報がなかったので休眠状態なのかと思っていました.
今は (2023年6月現在) 指文字のコンテスト も主催しているようで,今後さらなる動きがあるのか楽しみですね.

このコンテストとデータベースは色々と面白そうなので,またどこかのタイミングで記事を出せればと思っています.

  • [1]: "Google MediaPipe," available here, 2023.
  • [2]: A. Moryossef, et al., "Real-Time Sign Language Detection using Human Pose Estimation," ECCV 2020, pp.237-248, 2020.