Kaggle の連続指文字認識コンテスト Google American Sign Language Fingerspelling Recognitionに参加しました

This image is generated with ChatGPT-4, and edited by the author.
作成日:2023年08月26日(土) 00:00
最終更新日:2024年10月06日(日) 20:38
カテゴリ:Kaggle
タグ:  手話認識 連続指文字認識 GAFS

Kaggleの指文字認識コンテストに参加しました.かなり苦戦をして最終順位は678/1315位と惨敗でしたが,学びが多いコンテストでした.

こんにちは.高山です. KaggleのGoogle American Sign Language Fingerspelling Recognitionというコンテストに参加していました.
手持ちのPCスペックで何とかしようと四苦八苦した結果,最終順位は678/1315位とぐうの音も出ないほどの惨敗でした(;;).
一番の敗因は,色々なモデルを試した結果から明らかに学習データを拡張しなければ状況だったのに,モデルと学習の工夫で何とかしようと粘ってしまったことです(PCが貧弱なのに).
前処理や後処理,およびデータ拡張などのGPU依存じゃない部分に時間をかけるべきだったと反省しています.
結果は悔しいですが,その分学びが多いコンテストになりました.

更新履歴 (大きな変更のみ記載しています)

  • 2024/09/17: タイトル,タグ,節構成を更新しました

コンテストの紹介

このコンテストは図1に示すように,手話動画から指文字を認識して精度を競い合うというタスクです.

連続指文字認識の全体像と,コンテストの対象範囲を説明する図です.画像に続いて詳細説明があります.
追跡点ベースの連続指文字認識

コンテストの特徴を下記に記します.

  • 対象はアメリカ手話の指文字
  • 指文字で表現された文字列を認識する
  • 文章内容は住所,電話番号,URLなど
  • 入力はMediaPipe[MediaPipe'23]で抽出した骨格追跡点の座標 (生動画は与えられない)
  • 提出モデルはTensorflow Liteの形式でなければならない
  • テスト時の合計推論時間は5時間以内でなければならない

前回の孤立単語認識コンテストから間をおかずに手話関連のコンテストが開催されて驚いています.
この分野がこのまま盛り上がってくれるとうれしいですね.
順当に行けば次は手話翻訳コンテストが開かれるのでは?,と予想しています.
開かれたらまた参加して楽しみたいと思います(リベンジを目指して).

今回のタスクについてはトップランカーの手法を参考にして自分の手法を改良しようと思っています(あまりにも悔しいので(^^;)).
まとまればどこかのタイミングで記事にしたいなと思います.

  • [MediaPipe'23]: "Google MediaPipe," available here, 2023.