主な更新履歴

作成日: 2024年07月07日(日) 00:00
最終更新日: 2024年09月14日(土) 23:28

2024年9月14日

  • 実践手話認識-モデル開発編4において,問題があるコードがあったため修正しました.
    本来は再実験も同時に行うべきですが,時間がかかるためコードの更新のみ先に行います.
    • テスト時の最大ループ数 max_seqlen を 31 から 60 に変更しました.
      正しくは <eos> の分を含め 32 に設定すべきでした.
      また,本来はテストデータの最大ラベル長は未知なので,学習時よりも大きい値を設定すべきと判断して,現在の値に変更しました.
    • 旧処理で最終ラベルの推論が行われないバグがあったっため,RNNCSLR の forward() メソッドを更新しました.
# 【旧処理】
def forward(self,
              feature, tokens,
              feature_pad_mask=None, tokens_pad_mask=None):
      """Forward computation for train.
      """
      enc_seqs, enc_hstate = self._apply_encoder(feature, feature_pad_mask)

      # Apply decoder.
      self.decoder.init_dec_hstate(enc_hstate)
      dec_inputs = tokens[:, 0:1]
      preds = None
      for t_index in range(1, tokens.shape[-1]):
          pred = self.decoder(
              dec_inputs=dec_inputs,
              enc_seqs=enc_seqs,
              enc_mask=feature_pad_mask)
          if preds is None:
              preds = pred
          else:
              # `[N, T, C]`
              preds = torch.cat([preds, pred], dim=1)

          # Teacher forcing.
          dec_inputs = tokens[:, t_index:t_index+1]
      return preds
# 【新処理】
def forward(self,
            feature, tokens,
            feature_pad_mask=None, tokens_pad_mask=None):
    """Forward computation for train.
    """
    enc_seqs, enc_hstate = self._apply_encoder(feature, feature_pad_mask)

    # Apply decoder.
    self.decoder.init_dec_hstate(enc_hstate)
    preds = None
    for t_index in range(0, tokens.shape[-1]):
        # Teacher forcing.
        dec_inputs = tokens[:, t_index].reshape([-1, 1])
        pred = self.decoder(
            dec_inputs=dec_inputs,
            enc_seqs=enc_seqs,
            enc_mask=feature_pad_mask)
        if preds is None:
            preds = pred
        else:
            # `[N, T, C]`
            preds = torch.cat([preds, pred], dim=1)
    return preds

2024年9月8日

2024年9月4日

2024年9月1日

2024年8月31日

2024年8月17日

  • 各記事に目次を追加しました.
  • 細かなデザインを更新しました.
  • 参考文献の形式を更新しました.

2024年8月15日

  • Pre-LN構成の Transformer ブロック図に誤りがありましたので,修正しました.
  • 修正内容: 手話認識入門9 図1(c) の PFFN ブロック周りで Residual Connection のパスが誤っていたので修正しました.

    旧図1: Transformerベースの認識モデル
    旧図1: Transformerベースの認識モデル
    新図1: Transformerベースの認識モデル
    新図1: Transformerベースの認識モデル
    [手話認識9]({filename}/articles/cv/slr_tutorial_simple_transformer.md)の差し替え内容

  • 修正内容: 手話認識入門-補足記事10 図3(b) の PFFN ブロック周りで Residual Connection のパスが誤っていたので修正しました.

    旧図3: 今回の実験内容
    旧図3: 今回の実験内容
    新図3: 今回の実験内容
    新図3: 今回の実験内容
    [手話認識入門-補足記事10]({filename}/articles/cv/slr_tutorial_simple_transformer_comp_norm.md)の差し替え内容

2024年8月14日

  • 特集ページ「作りながら学ぶ手話認識」を追加しました.
  • 各記事にサムネイル画像を追加しました.
  • 細かなデザインを更新しました.

2024年8月5日

2024年7月23日

  • 「手話認識入門」の記事前半部 (記事全体の説明部) の構成を見直しました.
  • いくつかの記事で,記事前半と記事終盤で2度実験結果を示していましたが,冗長と判断して記事終盤の実験結果を削除しました.
  • 手話認識入門15の実験結果を更新しました.
    • 修正内容: 以前は1種類のノイズ付加設定で実験結果を示していましたが,設定値の種類を増やして実験結果を更新しました.
    • 修正1: 手話認識入門15の図4を削除して,新しく図4から図9を追加しました.
      旧図4: 認識性能比較結果
      旧図4: 認識性能比較結果
      新図4: 認識性能比較結果 (Top10, 全身一括, 正規化前)
      新図4: 認識性能比較結果 (Top10, 全身一括, 正規化前)
      新図5: 認識性能比較結果 (Top10, 全身一括, 正規化後)
      新図5: 認識性能比較結果 (Top10, 全身一括, 正規化後)
      新図6: 認識性能比較結果 (Top10, 部位毎)
      新図6: 認識性能比較結果 (Top10, 部位毎)
      新図7: 認識性能比較結果 (Full, 全身一括, 正規化前)
      新図7: 認識性能比較結果 (Full, 全身一括, 正規化前)
      新図8: 認識性能比較結果 (Full, 全身一括, 正規化後)
      新図8: 認識性能比較結果 (Full, 全身一括, 正規化後)
      新図9: 認識性能比較結果 (Full, 部位毎)
      新図9: 認識性能比較結果 (Full, 部位毎)
      手話認識15の差し替え内容
    • 修正2: 実験結果の更新に併せて第1.3項の文章とコード解説 (第4説) を修正しました.
      (長いので詳細は割愛します)

2024年7月20日

  • タイトルの「【コード解説・〇〇】」が冗長だと感じたので,タグに移動しタイトルからは削除しました.
  • 一部の実験コードにバグがあったため,再実験をし記事を修正しました.
    • バグ内容: 手話認識入門の「全単語を用いた認識評価」でテスト時にデータ拡張が適用されていました.
    • 修正1: 手話認識入門16の第1.3項 図6を差し替えました.
      認識性能比較結果 (旧)
      (a): 認識性能比較結果 (旧)
      認識性能比較結果 (新)
      (b): 認識性能比較結果 (新)
      手話認識入門16の差し替え内容
      また,実験結果の更新に併せて文章を修正しました.

      【旧記事】

      D-Joints, D-Temporal, D-Spatial-O に関しては,認識性能がやや悪化していますが,微妙な差ですのでパラメータ次第では結果が変わるかもしれません.

      一方,D-Spatial-Wでは大きく認識性能が悪化するという結果になりました.
      D-Spatial-Wでは,座標空間の外縁部がマスキングされやすい傾向があります.
      10単語の場合は性能が保てていたことを考えると,追加した単語の中に外縁部のマスキングが影響されやすい単語が多く含まれていた可能性があります.

      【新記事】

      D-Joints, D-Temporal, D-Spatial に関しては,認識性能が変わらないまたはやや悪化していますが,微妙な差ですのでパラメータ次第では結果が変わるかもしれません.

    • 修正2: 手話認識入門17の第1.3項 図5を差し替えて,文章を更新しました.
      認識性能比較結果 (旧)
      (a): 認識性能比較結果 (旧)
      認識性能比較結果 (新)
      (b): 認識性能比較結果 (新)
      手話認識入門17の差し替え内容
      こちらは,結論に影響が出るような変化がありませんでしたので,文章はそのままです.

2024年7月7日

  • 細かなデザインを更新しました.
  • ヘッダ領域にTag一覧と更新履歴のリンクを追加しました.

2023年12月8日

  • Google Adsense を追加しました.
  • 細かなデザインを更新しました.

2023年10月5日

  • サイドバー領域に月別アーカイブを追加しました.

2023年6月20日

  • Webサイトを新規開設しました.