研究紹介

作成日: 2023年06月18日(日) 00:00

最終更新日: 2025年07月19日(土) 12:53

本ページでは，今までに携わってきた研究プロジェクトの概要を紹介しています．
著書・論文等の業績一覧は Researchmap(外部サイト) に掲載しています．

手話認識 (コンピュータビジョン/動作認識分野)

こちらはポスドク時代に産学連携プロジェクトとして企業様と共同で取り組んでいた研究テーマです．
現在も個人的に継続して取り組んでいます．

この研究テーマでは，手話を母語としている方と音声言語を母語としている方とのコミュニケーションツールの構築を目指して研究に取り組みました．

図1に示すような，手話映像から話者が発している手話単語を読み取る「手話単語認識」の研究開発を高山が担当しています．

手話単語認識の処理概要を説明する画像です．手話動画をモデルに入力すると，手話単語列が得られる様子が描かれています． — 手話単語認識の処理イメージ

この研究はかなり規模が大きく難度も高いテーマでした．
研究にあたっては下記に示すようなサブテーマに分けてそれぞれ手法を提案しています．
これらは追々解説記事を追加していこうと思います．

単語アノテーションシステムおよびアノテーション法
骨格追跡点ベースの手話単語認識
孤立単語のデータから連続単語の文章データを作成する人工手話データ作成法
リアルタイム手話認識/翻訳システム

ブラー領域分割 (コンピュータビジョン/画像解析分野)

こちらは博士後期過程時代に取り組んでいた研究テーマです．
研究自体は完了していますが，今でも関連研究の査読依頼が時々来ます．

被写体だけが鮮明に写り背景がボヤケている写真は誰もが見たことがあると思います．
このような画像はブラー画像と呼びます．
写真家はポートレートを撮影する場合，望遠レンズなどを使って意図的にブラー画像を撮影することがよくあります．

一方，ブラー画像を入力として画像検索などを行うと，背景のボケた部分が邪魔をして性能を下げてしまうことがあります．
この研究テーマでは，このような場面で有効な前処理の一つとして，「ブラー領域分割」に取り組みました．

図2に示しているのは大まかな処理概要です．
画像からブラー量 (または鮮明さ) に比例した特徴量を取り出して各画素に割り当てます．
その後，大津法[1]とGraphcuts[2, 3]という，グレー画像を白黒画像に変換する処理 (2値化処理と言います) を用いて被写体抽出を行っています．
詳しい研究内容は高山の博士論文にまとめてあります．

ブラー領域分割の処理構成を説明する画像です．画像からブラー特徴を抽出し，大津法とGraphcutsをもちいて被写体領域を得る様子が描かれています． — ブラー領域分割の処理概要

深層学習全盛となった今となっては，"あの手この手でどうにかした"感がありますね(^^;)．
この頃は深層学習に耐えうるブラー領域分割用のデータが不足していたので，こういった手法の利点を主張できました．
もう1年遅ければ論文を通すのは難しかったかもしれませんね．

と言いつつも最近Kaggleに取り組んでみて，何だかんだ最終的には"あの手この手でどうにかする"が重要と改めて思っています．

[1]: N. Otsu, "A threshold selection method from gray-level histograms, " IEEE Trans. Sys. Man. Cyber. Vol.9, No.1, pp.62-66, 1979.
[2]: Y.Y. Boykov and M.-P. Jolly, "Interactive graph cuts for optimal boundary and region segmentation of objects in n-d images," Proc. IEEE ICCV, Vol.1, pp.105-112, 2001.
[3]: C. Rother, V. Kolmogorov, and A. Blake "Grabcut: Interactive foreground extraction using iterated graph cuts," ACM Trans. on Graph., Vol.23, No.3, pp.309-314, 2004.

彫紙作製システム (コンピュータグラフィックス/ファブリケーション分野)

こちらは学部生時代と博士後期過程の初期に取り組んでいた研究テーマです．
自分の研究者人生が始まった (呪いにかかったとも言えます(^^;)) 原点です．
彫紙という芸術技法があるのですが，これの製作を画像処理を使ってサポートしようという研究テーマです．

図3に示しているのは大まかな処理概要です．
まず，入力画像を色が似ている箇所で区分けしています (領域分割と言います)．
ここでは当時よく使われていた Mean Shift法[4]という手法を使っています．
その後，色紙で再現できる色数を考慮して減色を行い，減色の結果同一色になった領域を統合しています．
最後に領域分割画像から彫紙用の切削データを出力します．
出力したデータはCGを使って完成形状がシミュレーションできるようになっています．
また，出力したデータをカッティングプロッタに入力することで機械的に切削できるようになっています．

彫紙作製システムの処理構成を説明する画像です．画像をMeanShiftで領域分割した後に，紙の色数に減色します．同時に領域の統合も行います．最終的に彫紙用のデータを生成することでCG上で完成図の確認と実物の作成ができるようになります． — 彫紙作製システムの処理概要

学部生が1年でやった研究にしては頑張った方じゃないでしょうか(^^;)．
(とはいえ，この記事を書くにあたって当時の自分が書いた原稿や実験コードを読み返してみると，中々キツイです(^^;))
この研究はプロトタイプで止まってしまって未完なのですが，今からやると一からやり直さざる得ない感じですね．
恐らく良い思い出として自分が墓まで持っていくことになると思います(^^;)．

[4]: D. Comaniciu, P. Meer and S. Member, "Mean shift: A robust approach toward feature space analysis," IEEE Trans. on PAMI, Vol.24, No.5, pp.603-619, 2002.

手話認識 (コンピュータビジョン/動作認識分野)

ブラー領域分割 (コンピュータビジョン/画像解析分野)

彫紙作製システム (コンピュータグラフィックス/ファブリケーション分野)

月別アーカイブ