Google American Sign Language Fingerspelling Recognitionに参加しました

作成日: 2023年08月26日(土) 00:00
最終更新日: 2024年03月05日(火) 17:12
カテゴリ: Kaggle
タグ:  Kaggle 手話認識 AI コンピュータビジョン

こんにちは.高山です. KaggleのGoogle American Sign Language Fingerspelling Recognitionというコンテストに参加していました.
手持ちのPCスペックで何とかしようと四苦八苦した結果,最終順位は678/1315位とぐうの音も出ないほどの惨敗でした(;;).
一番の敗因は,色々なモデルを試した結果から明らかに学習データを拡張しなければ状況だったのに,モデルと学習の工夫で何とかしようと粘ってしまったことです(PCが貧弱なのに).
前処理や後処理,およびデータ拡張などのGPU依存じゃない部分に時間をかけるべきだったと反省しています.
結果は悔しいですが,その分学びが多いコンテストになりました.

このコンテストは図1に示すように,手話動画から指文字を認識して精度を競い合うというタスクです.下記のような特徴があります.

図1: 追跡点ベースの連続指文字認識
追跡点ベースの連続指文字認識
  • 対象はアメリカ手話の指文字
  • 指文字で表現された文字列を認識する
  • 文章内容は住所,電話番号,URLなど
  • 入力はMediaPipe[1]で抽出した骨格追跡点の座標 (生動画は与えられない)
  • 提出モデルはTensorflow Liteの形式でなければならない
  • テスト時の合計推論時間は5時間以内でなければならない

前回の孤立単語認識コンテストから間をおかずに手話関連のコンテストが開催されて驚いています.
この分野がこのまま盛り上がってくれるとうれしいですね.
順当に行けば次は手話翻訳コンテストが開かれるのでは?,と予想しています.
開かれたらまた参加して楽しみたいと思います(リベンジを目指して).

今回のタスクについてはトップランカーの手法を参考にして自分の手法を改良しようと思っています(あまりにも悔しいので(^^;)).
まとまればどこかのタイミングで記事にしたいなと思います.

  • [1]: "Google MediaPipe," available here, 2023.