AbstractClub - 英文技術専門誌の論文・記事の和文要約


[インデックス] [前の年] [次の年]


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.33, No.1


三次元平面対向型多様体オブジェクト認識のための陰線を持つ複雑な線画の分解
Decomposition of Complex Line Drawings with Hidden Lines for 3D Planar-Faced Manifold Object Reconstruction

Jianzhuang Liu, The Chinese University of Hong Kong, Hong Kong Yu Chen, University of Cambridge, Cambridge Xiaoou Tang, The Chinese University of Hong Kong, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 1, pp. 3-15 , January 2011

Keywords: 3D reconstruction, divide and conquer, internal face, line drawing, manifold.

単一の二次元線画からの三次元オブジェクトの復元はコンピュータビジョンにおける重要な問題である。この問題を解くために多くの方法が提案されてきたが、三次元オブジェクトの幾何構造が複雑になると、通常これらの手法は失敗する。本稿では分割統治戦略に基づいた新しいアプローチを提案する。これにより、陰線を持つ二次元線画から、面対向型の複雑な多様体オブジェクトの三次元構造の復元を行う。このアプローチは4つのステップからなる。1)線画の内向面(internal faces)の同定、2)この内向面に基づいて線画を単純なものに分解、3)これらの単純化された線画から三次元形状を再構成、4)そして、これらの三次元形状を統合することで、もともとの線画で表されるオブジェクト全体の表現を得る。多数の例を示すことで、我々のアプローチが従来手法よりも更に複雑なオブジェクトの三次元構造の復元問題を取り扱えることを示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テクスチャのある画像の高速分割
Turbo Segmentation of Textured Images

Frederic Lehmann, Institut TELECOM, TELECOM SudParis, Evry

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 1, pp. 16-29 , January 2011

Keywords: Texture segmentation, Markov random field, hidden Markov autoregressive model, factor graph, forward-backward algorithm, turbo processing.

テクスチャのある画像の準教師付き分割問題を検討する。既存のモデルベースの手法は、テクスチャ画像の強度場をガウス?マルコフ確率場としてモデル化し、これにより局所空間的な画素間の依存性を処理に利用する。古典的なベイズ分割では、ラベル場をマルコフ確率場としてモデル化することにより、隣接画素が高い確率で同一のテクスチャクラスに対応することを確保している。この手法では、良く知られた弛緩法を利用することが可能であり、これにより最大事後確率もしくは最大事後モード指標(maximum posterior mode criterion)に対する最適なラベル場を見つけることができる。しかしこれらの手法は、収束のために多数回の反復計算を必要とするため計算量が多い。本稿では2次元テクスチャ画像を、線と列それぞれに対応する2つの1次元隠れマルコフ自己回帰モデルの連鎖としてモデル化する新しいベイズフレームワークを提案する。要素グラフアプローチに基づいて、エラー修正コードにおける高速デコーディング(turbo decoding)に似た分割アルゴリズムが得られる。提案手法は期待値最大化法(Expectation-Maximization: EM)を用いて未知のパラメタを推定する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


木構造に基づいた識別器を利用したウェブカムからのビデオ情報の2レイヤー分割
Bilayer Segmentation of Webcam Videos Using Tree-Based Classifiers

Pei Yin, Microsoft Corp, Redmond Antonio Criminisi, Microsoft Research Cambridge, Cambridge John Winn, Microsoft Research Cambridge, Cambridge Irfan Essa, Georgia Institute of Technology, Atlanta

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 1, pp. 30-42 , January 2011

Keywords: Computer vision, image understanding, machine learning, decision tree, random forests, boosting, motion analysis.

2眼カメラからの画像情報を利用した奥行き情報の正確な近似を行う(単眼の)ウェブカムにより取得されたビデオフレームのための自動領域分割アルゴリズムを紹介する。各ビデオフレームは、前景レイヤーと背景レイヤーに分離される。それぞれのレイヤーは、対象オブジェクト(参加者)と、他のオブジェクト及び他の参加者を含むものである。このアルゴリズムは、ほぼ定常的な前景と、大きな動きを伴う背景の2つのレイヤーを生成する。本研究の成果は以下の3つである。まず、オブジェクト認識からヒントを得た新しい動き表現、次にセグメンテーション尤度を動きの空間コンテキストから推定する方法の提案。この推定はランダムフォレスト法により効率的に学習される。最後に木構造に基づいた識別器のための一般的な分類法を導入する。これによりいくつかの既知の識別アルゴリズムの理論的及び実験的な比較を簡易にし、また新しい識別アルゴリズムの開発も助ける。我々の2レイヤーセグメンテーションアルゴリズムは、条件付き確率場(conditional random field: CRF)を利用することで、様々な視覚情報中のキューを統合する。このキューには動き、動きコンテキスト、色、コントラスト、及び空間的事前確率が含まれる。そして二値min-cut法を利用することで画像のセグメンテーションを行う。ビデオチャットアプリの多数の画像系列を利用した試験により、我々のアルゴリズムは初期化を必要としないにもかかわらず、両眼システムによるものに伍する効果を持つことが示される。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所画像記述子の判別学習
Discriminative Learning of Local Image Descriptors

Matthew Brown, Ecole Polytechnique F?d?rale de Lausanne, Lausanne Gang Hua, Nokia Research Center Hollywood, Santa Monica Simon Winder, Microsoft Research Redmond, Redmond

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 1, pp. 43-57 , January 2011

Keywords: Image descriptors, local features, discriminative learning, SIFT.

本稿では、訓練データに基づいた局所画像記述子の学習のための手法を探索する。この記述子を構成するための要素となる一群のビルディングブロックを説明する。これらの複数の記述子は、組み合わせて利用することが可能であり、また、最近傍識別の誤りを最小化するために、同時に最適化することも可能である。次元削減を伴う線形変換及び非線形変換の両方を考慮に入れ、線形判別分析(Linear Discriminat Analysis: LDA)やPowell最小化判別学習法を利用してパラメタ学習とその推定を行う。これらの手法を用いることで、他の最新の画像記述子を上回る性能を、それらよりも低い次元性で達成することができる。記述子学習のための新しい実験及びレコメンデーションに加え、新しく、且つ現実的な、マルチビュー両眼立体視データに基づいた正解画像データセットを提供する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


柔軟な被写界深度(depth of field:DOF)を持つ写真
Flexible Depth of Field Photography

Sujit Kuthirummal, Sarnoff Corporation, Princeton Hajime Nagahara, Osaka University, Osaka Changyin Zhou, Columbia University, New York Shree K. Nayar, Columbia University, New York

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 1, pp. 58-71 , January 2011

Keywords: Imaging geometry, programmable depth of field, detector motion, depth-independent defocus blur.

画像中での焦点の合う奥行き距離は、被写界深度(depth of field:DOF)として知られている。従来のカメラは、場の奥行きとSN比(signal-to-noise ratio)との基本的なトレードオフに起因する制約があった。暗いシーンに対してはSN比を良好に保つために、レンズのアパーチャーは開いておらねばならず、その場合、被写界深度は浅くなって(焦点の合う奥行き距離の範囲が狭くなって)しまう。更に、今日のカメラは非常に被写界深度が浅くなっており、光軸に対して垂直な板のようなものである。本稿では被写界深度を制御する新しい強力な画像システムを紹介する。我々のアプローチは、単一写真の統合時に画像検出器の位置及び/もしくは方位を変化させる。(数十マイクロメートル単位の)検出器の動きが極めて小さい場合でも、(数メートル単位の)シーンの合焦距離に対応することができる。これは更に合焦面の前後も含めて取得することができる。我々のプロトタイプカメラはマイクロアクチュエータを用いて、画像統合時の光軸に沿った検出器の変換を行う。この装置を用いることで、柔軟な被写界深度を利用した4つのアプリケーションを紹介する。第一に、非常に広いアパーチャー(つまりノイズは少ない)且つ、合焦距離に殆ど依存しないぼけを持つ被写界深度拡張法。単一のぼけ量計算カーネルを用いることで、入力画像を解析し、被写界深度の拡張とノイズ低減を両立させた画像を得る。次に不連続な被写界深度を持つ画像の撮像方法について述べる。これは例えば、手前と奥にある2つのオブジェクトの両方に合焦しシャープに写るが、これら2つのオブジェクトの中間の被写界深度にある画像は相当のぼけ量を持つような画像を意味している。第三に、我々のカメラシステムは、撮像素子を傾けることなく、変化する被写界深度を持った画像(Scheimpflug imaging)を撮影できることを示す。最後に我々のシステムを利用することで、非平面被写界深度面を持つ画像を撮影することができることを示す。柔軟な被写界深度を持つ写真の撮影技術は、新しいクリエイティブな写真の世界を切り開くものであり、科学、視覚、グラフィック研究における新しい能力をもたらすものであると信じている。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


部分指紋同定のための大域リッジ(指紋像中の峰)方位モデリング
Global Ridge Orientation Modeling for Partial Fingerprint Identification

Yi (Alice) Wang, The University of New South Wales, Sydney Jiankun Hu, RMIT University, Melbourne

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 1, pp. 72-87 , January 2011

Keywords: Partial fingerprint identification, global ridge orientation estimation, model-based approach.

大規模な指紋データベースからの部分指紋もしくは不完全指紋の同定は、未だ困難な課題である。部分指紋に関する既存の研究は、詳細な局所リッジ(指紋像中の峰)情報を用いた1対1対応にフォーカスしている。本稿では、大域位相幾何的な特徴を利用して部分指紋の照合を行うための候補リストの検索問題を検証する。特に、部分指紋から大域位相幾何表現を再構成するための解析的アプローチを提案する。第一に、逆方位モデル(inverse orientation model)を利用して、上記の再構成問題を説明する。次にこの逆モデルを全ての有効解のための一般的な表現を与える。これにより既知の部分のデータ忠実性を保持しつつ、未知の部分の不明構造の探索を行うことができる。我々は更に、リッジのトポロジー特徴のいくつかの事前知識に基づいて不明な方位構造を推定するためのアルゴリズムも開発した。我々の統計的実験により、本稿で提案するモデルに基づいたアプローチにより、対毎の指紋照合のための候補の数を効果的に減らすことができること、及びそれにより部分指紋同定のためのシステムの検索性能を顕著に向上させうることを示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


潜在型指紋照合
Latent Fingerprint Matching

Anil K. Jain, Michigan State University, East Lansing Jianjiang Feng, Tsinghua University, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 1, pp. 88-100 , January 2011

Keywords: Fingerprint, minutiae, latent, descriptor, matching, forensics, extended features.

潜在型指紋(latent fingerprint:犯罪現場などに残される肉眼では見えづらい指紋)同定は法執行機関が被疑者を同定するために極めて重要である。潜在型指紋は物体表面に偶然残された指紋像である。平面上もしくは曲面上の指紋照合においては、大きな技術的進展があったが、潜在指紋照合は依然困難な課題である。リッジ(指紋像中の峰)が不鮮明であり、指紋の小領域しか映っておらず、且つ重度の非線形歪みがあることが、他の指紋照合に比べ潜在指紋照合が持つ難しさである。本稿で我々は、犯罪現場で発見された潜在型指紋を、法執行機関のデータベースに登録された曲面上の指紋と照合するためのシステムを提案する。マイニューシャに加え、特異点、リッジ品質マップ、リッジフローマップ、リッジ波長マップ、およびスケルトンなどの拡張特徴セットも利用する。NIST SD27データベースにおける258の潜在指紋画像を、NIST SD4, SD14, SD27データベースから取得された29,257の指紋画像に対して照合した。ベースラインとなるマイニューシャに基づいたrank-1同定率は34.9%であったが、本方式の拡張特徴セット用いることで74%に向上した。本研究で利用した拡張特徴それぞれの重要性を評価するために、これらの特徴を順次足していく。これは潜在指紋調査の専門家がマーキングをするためのコストの順番に追加していく。実験結果により、特異点、リッジ品質マップ、およびリッジフローマップが照合精度を向上させるために最も効果的な特徴であることが示される。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


頭部の姿勢及び会議のコンテキスト情報を利用した、多人数の注意の視覚焦点の抽出
Multiperson Visual Focus of Attention from Head Pose and Meeting Contextual Cues

Sileye O. Ba, LabSTICC, Ecole Nationale des T?l?communications de Bretagne, Technopole Brest-Iroise Jean-Marc Odobez, Idiap Research Institute, Martigny

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 1, pp. 101-116 , January 2011

Keywords: Visual focus of attention, conversational events, multimodal, contextual cues, dynamic Bayesian network, head pose, meeting analysis.

会議における視聴覚の知覚的手がかりから、参加者の注意の視覚焦点(Visual Focus of Attention: VFOA)を認識するための、新たなコンテキストモデルを紹介する。より詳細には、各参加者のVFOAをそれぞれの頭部の姿勢から個別に認識する代わりに、複数の参加者の視覚注意を統合的に認識することを提案する。これによりコンテキスト依存性のインタラクションモデルを導入する。このモデルは会議参加者グループの活動とコミュニケーションの社会的ダイナミクスに関連する。会議のコンテキスト情報は参加者の位置、floor holding patternsを同定する会話イベント、及びプレゼンテーション活動の変数により表現される。様々なコンテキスト間のインタラクションのモデル化と、注視行動に対するこれらのコンテキストの結合的、時には矛盾するインパクトをモデル化することで、我々のモデルによるVFOA認識が可能になる。このコンテキストとは、資料、プレゼンテーション、及び参加者が動きまわるような、困難なタスクに基づいた会議におけるものである。一般に利用可能な12の実際の会議(5時間のデータ)の困難なデータセットを用いた厳密な評価により、我々のモデルを検証した。検証の結果は、我々のモデルを用いてプレゼンテーション及び会話のダイナミクスコンテキストを統合することにより、顕著な性能向上が得られることを示している。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最近傍探索のための積量子化(product quantization)
Product Quantization for Nearest Neighbor Search

Herv? J?gou, INRIA Rennes, Rennes Matthijs Douze, INRIA Rh?ne-Alpes, Saint Ismier Cordelia Schmid, INRIA Rh?ne-Alpes, Saint Ismier

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 1, pp. 117-128 , January 2011

Keywords: High-dimensional indexing, image indexing, very large databases, approximate search.

本稿では、近似最近傍探索のための積量子化(product quantization)に基づいたアプローチを紹介する。このアイディアは、データ点が分布する空間を、低次元部分空間の直交座標系による積に分解し、各部分空間を 独立に量子化することである。あるベクトルは、部分空間量子化インデックスの短いコードにより表現される。2つのベクトル間のユークリッド距離は、このコードを用いることで効率的に推定することができる。本方式の非対称版は、ベクトルとコードの間の距離の近似を計算することで、より高い精度を達成している。実験結果により我々のアプローチが最近傍データ点を効率的に検索できることが示される。特に反転ファイルシステムが利用可能な場合には顕著である。SIFT及びGIST画像記述子と共に用いた試験の結果は、非常に良好な検索精度を示しており、他の最新の4つのアプローチを凌駕する性能を示している。20億ベクトルのデータセットを用いた試験により、本アプローチの拡張性を検証する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数の準教師付き仮定に基づいた、正規化ブースティングによる準教師付き学習
Semi-Supervised Learning via Regularized Boosting Working on Multiple Semi-Supervised Assumptions

Ke Chen, The University of Manchester, Manchester Shihai Wang, The University of Manchester, Manchester

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 1, pp. 129-143 , January 2011

Keywords: Semi-supervised learning, boosting framework, smoothness assumption, cluster assumption, manifold assumption, regularization.

準教師付き学習には、ラベル付きデータ及びラベル無しデータの両方を用いて学習を行うこと自体の問題が付きまとう。いくつかのブースティングアルゴリズムにより、準教師付き学習は様々な方針で拡張されてきた。しかし我々の知る限りでは、準教師付き学習の3つの仮定の全てをブースティング学習で考慮する方法は、これまでには無かった。これらの仮定とは、平滑性の仮定、クラスターの仮定、及び多様体の仮定である。本稿では、左記の3つの仮定に基づいた、新しいラベル付きデータに対するマージンコスト、及びラベル無しデータに対する正規化ペナルティ項により構成背されるコスト汎関数を提案する。貪欲且つステージ毎の汎関数最適化手法を利用することで、このコスト汎関数を最小化し、準教師付き学習のための生成的ブースティングアルゴリズムを与える。大規模な実験により我々のアルゴリズムが、ベンチマーク及び実世界の識別タスクに対して良好に働くことが示される。この評価は、新たに開発したブースティングアルゴリズムを含む既存の最新手法との比較で行った。最後に関連事項について議論し、これまでの研究と我々のアルゴリズムの関係について検証する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフカットによる隠蔽条件下でのトラッキング
Tracking with Occlusions via Graph Cuts

Nicolas Papadakis, Image Group, Barcelona Media, Barcelona Aur?lie Bugeau, Image Group, Barcelona Media, Barcelona

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 1, pp. 144-157 , January 2011

Keywords: Tracking, interacting objects, occlusions, graph cuts optimization.

本稿では、時系列に沿ったインタラクションを行う画像系列中のオブジェクトの切り出しと追跡のための新しい方法を紹介する。本研究の主な成果の一つは、可視部分と隠蔽部分の意味するところを定式化したことである。各オブジェクトについて、これらの2つの部分を追跡する。各オブジェクトの速度が力学の法則によるものだとすると、連続推定のために予測法を利用することができる。これらの予測された部分を、最終分割結果に関して良いか悪いか区別し、これらのオブジェクトを可視部分と隠蔽部分により表現することにより、部分及び完全隠蔽を取り扱うことができるようになる。このトラッキングを行うために、各オブジェクトに対して単一のラベルを与え、マルチラベル問題を表すエネルギー関数をグラフカット最適化により最小化する。このエネルギー関数には、画像強度に基づいた項が含まれ、これによりオブジェクトの可視部分の切り出しと正規化が可能になる。このエネルギー関数にはまた、隠蔽部分及び消失部分の管理のためだけに利用される項も含まれている。これらはオブジェクトの予測領域の定義に基づいている。いくつかの困難な画像系列を利用した試験により、提案アプローチの良好な性能が示される。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動的テクスチャを用いたビデオの位置合わせ
Video Registration Using Dynamic Textures

Avinash Ravichandran, The Johns Hopkins University, Baltimore Ren? Vidal, The Johns Hopkins Univeristy, Baltimore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 1, pp. 158-171 , January 2011

Keywords: Dynamic textures, video registration, nonrigid dynamical scenes.

本稿では、複数のダイナミックなシーンのビデオ画像系列の、空間及び時間的位置合わせ問題を取り扱う。本研究の対象のビデオには、様々な地点から撮影された花火、風にはためく旗などの非剛体オブジェクトも含まれるが、本手法は非剛体オブジェクトに限定したものではない。前記のようなダイナミックなシーンの外観における複雑な変動のために、この問題は非常に困難なものになっている。本稿では、このような複雑なシーンのマッチングのためのシンプルなアルゴリズムを提案する。このアルゴリズムでは、撮影に利用される各カメラが同期している必要がなく、フレーム毎の位置決めも、ボリューム単位での位置決めにも基づいていない。その代わりに、線形動力学系の出力として、各ビデオ画像系列をモデル化する。これによりビデオ画像系列の位置決め問題を、対応する動力学系モデルのパラメタ決定問題に落とし込んでいる。これらのパラメタが一意に定義されないため、これらを直接比較してパラメタ決定を行うことはできない。複数のビデオ画像系列から同時にパラメタを同定することで、これらの不明確性を解消し、同定されたパラメタを標準形式に変換する。これによりビデオ位置決め問題を、既存のマッチング手法で効率的に解くことが可能な複数画像の位置決め問題に簡単化する。様々な種類の困難なビデオ画像系列を用いて我々のアルゴリズムを試験したところ、他の顕著に計算量の多い手法と伍する性能を示した。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


時間自己相似性(self-similarity)による視点非依存の行動認識
View-Independent Action Recognition from Temporal Self-Similarities

Imran N. Junejo, University of Sharjah, Sharjah, UAE Emilie Dexter, INRIA Rennes-Bretagne Atlantique, Universitaire de Beaulieu, France Ivan Laptev, INRIA Paris-Rocquencourt/ENS, Paris Patrick P?rez, Thompson R&D, Cesson-S?vign?

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 1, pp. 172-185 , January 2011

Keywords: Human action recognition, human action synchronization, view invariance, temporal self-similarities, local temporal descriptors.

本稿では、視点移動がある場合の人間の行動の認識問題を取り扱う。視点変化がある場合でも高い安定性を持つ、行動系列の時間上の自己類似性を検証する。この観測事実に基づいて、行動系列中の時間的類似性と同非類似性の構造を符号化する、行動記述子(action descriptor)を開発する。この時間的自己相似性記述子は、厳密な意味では視点非依存ではないが、視点移動に際しても高い安定性を持つことを、直感的および実験的に示す。各個の速度の揺らぎを無視した場合、特定クラスに属する行動による性能変動条件下にあっても、自己相似記述子は安定していることが示される。動的時間ワープ法(dynamic time warping)を用いることで、同一の行動クラスに属する2つの異なる行動インスタンスの間の、このような揺らぎを明示的にモデル化することもできる。これは、将来、視点間の行動同期を実行するために必要となる技術である。左記はあくまでも将来の話であり、本稿でより重要なのは、bag-of-features型のアプローチでは、局所自己相似記述子の時間順序を無視することができることである。この方式により、視点非依存の行動認識システムを構築するための、充分な行動記述を維持することができる。面白いことに、様々な画像特徴から計算された自己相似性の間には類似した特性があり、これらの相似性を相補的に用いることが可能である。我々の方法はシンプル且つ、構造復元や複数視点の対応推定も必要としない。その代わりに、本手法は、弱度の幾何的特性に依存し、これらを機械学習と組み合わせることで効率的な視点間行動認識を行う。3つの一般入手可能なデータセットを用いて本手法を検証する。本手法は、既存手法と同様もしくはそれらよりも優れた性能を持つことが示される。また更に、側面視点からの画像系列のみを用いて学習し、認識は上部から撮影された画像系列で行うような、極端な条件下でも良く働くことも示される。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオ画像系列と慣性センサーを用いた高速な動きからの双一次構造復元アルゴリズム
A Fast Bilinear Structure from Motion Algorithm Using a Video Sequence and Inertial Sensors

Mahesh Ramachandran, University of Maryland, College Park Ashok Veeraraghavan, Mitsubishi Electric Research Labs, Cambridge Rama Chellappa, University of Maryland, College Park

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 1, pp. 186-193 , January 2011

Keywords: Structure from motion, multiple view geometry, computer vision.

本稿では特定の形態の追加情報の利用可能性の利点について検討する。垂直方向(重力)及びカメラの高さ位置は、どちらも慣性センサーと三次元都市部モデリングのための単眼ビデオシーケンスを用いることで好適に測量可能である。この追加情報がある場合には、SfM(Structure from Motion: 動きからの構造復元)の式は、双一次形式で書きなおせることを示す。これにより、大規模アプリケーションのための、高速、頑健、且つ拡張性のあるSfMアルゴリズムを導出することができる。本稿で開発するSfMアルゴリズムが、疎な束整列アルゴリズム(sparse bundle adjustment algorithm)に比べ、より好ましい性質を持つことを実験的に示す。本稿で提案するアルゴリズムは、最新の束整列アルゴリズムよりも、多くの場合で小さい誤差を持つ解に収束する。大規模な再構成問題の場合、提案アルゴリズムは、束整列アルゴリズムより少ない時間で解を導出することができることを示す。Googleストリートビューの研究データセットを用いて我々のSfMアルゴリズムを検証してみた。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチラベル識別のための正準相関解析(canonical correlation analysis):最小二乗定式化、拡張、及び解析
Canonical Correlation Analysis for Multilabel Classification: A Least-Squares Formulation, Extensions, and Analysis

Liang Sun, Arizona State University, Tempe Shuiwang Ji, Arizona State University, Tempe Jieping Ye, Arizona State University, Tempe

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 1, pp. 194-200 , January 2011

Keywords: Canonical correlation analysis, least squares, multilabel learning, partial least squares, regularization.

正準相関解析(Canonical Correlation Analysis: CCA)は、2セットの多次元変量の間の相関を見つけるための良く知られた手法である。この手法では、2セットの変量間の相関が最大となるような低次元空間に、各変量セットを投影する。CCAは、2セットの変量がデータ及びクラスラベルからそれぞれ導出されるような、教師付きの次元削減に良く用いられる。二値クラスの場合、CCAが最小二乗問題として定式化できることはよく知られているが、より一般的な場合への拡張は未だ不明確である。本稿では、高次元データでは成立することが多いような緩い条件下では、マルチラベル設定下におけるCCAが最小二乗問題として定式化できることを示す。この等価関係により、CCAを非常に大きなデータセットに対して拡張するために、効率的な最小二乗アルゴリズムが利用可能である。更に本稿では、1ノルム正則化(1-norm regularization)に基づいた疎なCCA定式化を含む、いくつかのCCA拡張を提案する。更に前記の定式化を部分最小二乗問題に拡張する。これに加え、1つの変量セットのCCA投影が、他方の多次元変量の正則化と独立であることを示す。これはCCAの正則化の効果についての洞察を与えるものである。ベンチマークデータセットを用いた実験を行った。マルチラベルデータセットを用いた実験の結果、前記の等価関係が確認された。またこの結果は本稿で提案するCCA拡張の効果と効率性を示すものである。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ランダムウォークセグメンテーションの結合性
Connectedness of Random Walk Segmentation

Ming-Ming Cheng, TNList Tsinghua University, Beijing Guo-Xin Zhang, TNList Tsinghua University, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 1, pp. 200-202 , January 2011

Keywords: Image segmentation, random walk, Laplace's equation, counterexample, connectednes.

ランダムウォークセグメンテーションの結合性を検証し、ランダムウォークに等価な電気回路を考慮することで、新しい性質を発見した。論理的解析により、以前のランダムウォークセグメンテーションの結合性に関する結論は正しくないことを示し、そのための凡例を与える。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.33, No.2


指紋画像の再構成:指紋特徴から位相へ
Fingerprint Reconstruction: From Minutiae to Phase

Jianjiang Feng, Tsinghua University, Beijing Anil K. Jain, Michigan State University, East Lansing and WCU Project, Korea University

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 2, pp. 209-223 , February 2011

Keywords: Fingerprint synthesis, fingerprint reconstruction, interoperability, minutiae, phase image, orientation field, singularity, AM-FM.

指紋のマッチングシステムでは通常4つの表現形式を採用する:濃淡画像、位相画像、スケルトン画像、および、指紋特徴(minutiae)であり、指紋特徴に基づく表現法は最も広く採用されている。指紋特徴表現のコンパクト性から、指紋特徴のテンプレートには十分な情報量が無く、これから元の濃淡指紋画像が復元できないとの印象を与えている。この印象が嘘であることを示そう:指紋特徴から元の濃淡画像が再構成出来るいくつかのアルゴリズムが提案されている。これらの手法はスケルトン画像をまず構成し次に濃淡画像に変換されるか、あるいは、特徴テンプレートから直接濃淡画像をこうせいする。しかし、これらの手法には共通の欠点がある。すなわち、原画には存在しない多くの疑似特徴が含まれ、再構成される。さらに、これらの再構成法のいくつかは部分的な指紋画像しか再構成できない。本論文では指紋位相画像を再生し、これを濃淡画像に変換する新規なアルゴリズムを提案する。本提案の再生アルゴリズムは全指紋画像を再構成するだけでなく、疑似特徴がほとんど含まれてない。特に指紋画像は位相画像として表現され、これには特徴量から連続的位相と渦巻状の位相(これは特徴量に対応する)が含まれる。指紋特徴から連続的な位相の再構成をするアルゴリズムを提案した。本アルゴリズムは市販の指紋再構成システムを使って、I型攻撃(元の指紋画像に対して再構成した指紋画像をマッチングさせる)、および、II型攻撃(元の指紋画像の異なる特徴量に対してマッチングさせる)によって評価した。我々のアルゴリズムによる再構成画像から、両方の攻撃に対して正しく識別したことを示す。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


K-Flat領域に基づく超接続性属性フィルター
Hyperconnected Attribute Filters Based on k-Flat Zones

Georgios K. Ouzounis, IPSC—Joint Research Centre—European Commission, Ispra Michael H.F. Wilkinson, University of Groningen, Groningen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 2, pp. 224-239 , February 2011

Keywords: Image enhancement, object detection, hyperconnectivity, connectivity, Max-Tree, document processing, anisotropic diffusion, attribute filter.

本論文では新規な属性(attribute)フィルターを提案するが、これはコントラスト情報と構造情報をまとめたものである。k-flat領域に基づく超接続性(hyperconnectivity)を利用して、検出された対象物の内部の詳細を保ったまま属性のフィルターの能力を改善する。同時に、背景中の不要な微細ノイズを抑圧する。この属性フィルターを超接続性へと拡張して、新規な高速アルゴリズムを示す。この新規な手法は、標準的なMax-Treeアルゴリズムと比べ、接続属性フィルターにおいて僅かに遅いだけで、画素やボクセル数に対して比例的である。不均一な拡散については2桁高速である。本手法は、属性が増加する場合(サイズ)と、増加しない場合(形状)の両方に適した形で実装化された。この新規な手法は、天文学の2D画像、文書処理、顕微鏡画像、3D-CTスキャン画像のような増加しない形状フィルターに適用し、ノイズに対するロバスト性が増加しながら従来の特徴を保持していることを確認した。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複雑な視覚事象を学習し認識するための拡張文法システム
An Extended Grammar System for Learning and Recognizing Complex Visual Events

Zhang Zhang, Chinese Academy of Sciences, Beijing Tieniu Tan, Chinese Academy of Sciences, Beijing Kaiqi Huang, Chinese Academy of Sciences, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 2, pp. 240-255 , February 2011

Keywords: Rule induction, parsing, event recognition.

文法による視覚事象の認識には、実用化に対する2点の主要な限界がある。その一つはルールが予めドメインエクスパートによって定義される必要があり、そのためのコストが極めて高いことである。他は、通常用いられる文法は部分事象間の逐次的事象のみ記述可能で、部分事象だけでは並行した部分事象のような複雑な事象の記述に不適当なことである。この解決のために、複雑な視覚事象をモデル化し認識する拡張文法手法を提案する。まず、元の特徴量の軌跡が、個々のオブジェクトの基本的軌跡集合に変換される。特に、文法システムのプリミティブ(端点シンボル)として。次に、最小記述長(MDL)に基づくルール誘導アルゴリズムが実行され、プリミティブ中に隠れた時制構造を見つける。ここで確率的内容非依存文法 (SCFG)がAllenの時制ロジックによって部分事象間の複雑な時間的関係をモデル化するために拡張される。最後に、多重スレッド構文解析アルゴリズムが興味ある複雑な事象をプリミティブな流れの中に認識する。なお、挿入や除去と言った大規模な誤差を処理するためにViterbi様の誤動作復元戦略が提案されている。体操練習、交差点信号、多数エージェントの相互作用が実験的に行われ、本提案システムの妥当性と効果が実証された。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像分割問題のために特徴テストを応用する
Applying Property Testing to an Image Partitioning Problem

Igor Kleiner, University of Haifa, Haifa Daniel Keren, University of Haifa, Haifa Ilan Newman, University of Haifa, Haifa Oren Ben-Zwi, University of Haifa, Haifa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 2, pp. 256-265 , February 2011

Keywords: Property testing, image partitioning.

特性テストという分野は現在急速に伸びている研究分野である。典型的には特性テストアルゴリズムとは、ほとんどの入力情報は与えられた条件を満足しないという前提で、合致する条件を高速に決定する方法である。もし、入力情報が与えられた条件から大きく外れている場合は、高い確率でこれを排除することが保証されている。この考えを画像検出に利用するのは望ましい。なぜなら、画像は大量のオブジェクトから構成されるので、利用者が全く興味の無い画像を高速で拒絶することは時間節約の効果が大きい。実際、多くの入力情報は探求画像とは程遠い。これを実演するために、2値画像を解析し正方格子によるテンプレートで分割できるかどうか、それによって高速な拒絶器を紹介しよう。これは入力画像から抽出された画像に対して高速拒絶をするが、これを構成するサイズや処理時間が、入力画像のサイズに影響されない。本拒絶器は高い確率で、テンプレートと大きく異なるものを無視する。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


概略最近傍部分空間の探索
Approximate Nearest Subspace Search

Ronen Basri, Weizmann Institute of Science, Rehovot Tal Hassner, The Open University of Israel, Raanana Lihi Zelnik-Manor, The Technion?Israel Institute of Technology, Haifa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 2, pp. 266-278 , February 2011

Keywords: Approximate nearest neighbor search techniques, subspace representations.

近傍空間は多くのパターン認識、マシンビジョン、統計的学習応用などに安易な情報表現手段を与える。部分空間表現法の人気の高まりにもかかわらず、巨大な部分空間の探索効率向上はほとんど注目されなかった。本論文では、概略最近傍部分空間の探索問題の一般解を示す。この解は、検索やデータベース要素の次元が異なり、データベースが異なる次元の部分空間を含む場合の点空間や部分空間を対象として均一に扱う。この目的のために、部分空間から点への、すなわち、良く研究された点に関する概略最近傍部分空間の単純なマッピング問題に絞る。ここに、本問題の正しさの理論的証明と本構成の限界誤差を示し、合成データと実データの両方の可能性を実証する。我々の実験によれば、概略最近傍部分空間は、精度をほとんど落とさずに最近傍部分空間の探索空間を狭めることが可能になる。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


厳密な手法によるクラスター集合調整
Coordination of Cluster Ensembles via Exact Methods

Ioannis T. Christou, Athens Information Technology, Paiania and Carnegie-Mellon University, Pittsburgh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 2, pp. 279-293 , February 2011

Keywords: Clustering, machine learning, constrained optimization, combinatorial algorithms.

我々はクラスター集合の組合せに対して、2乗最小和(MSSC)のようなクラスター内の基準による新規な最適組合せを提示する。ここで示すのは、この種の問題に対して単純で効率的なEXAMCEと呼ばれる手法で、元のクラスタリング問題から集合分割則によって思いついた。本アルゴリズムから得られた理論的性質を証明し、特に、解の断片を寄せ集めて解集合全体を覆う弛緩解(solution of Set-Covering relaxation)を見つけるのではあるが、一般的に解集合の一部よりはすぐれた解が見つかることが保証されている。特にMSSC問題に関しては、我々のプロトタイプを実装化したところ、40例のTSPLIBベンチマークデータ集合で[CHECK END OF SENTENCE], [CHECK END OF SENTENCE], and [CHECK END OF SENTENCE]について知られている21個の解より優れた解が、そして、たった過去において5回しか知られてない最良解よりは最悪解が得られた。MSSC解が知られている他の公表されたベンチマークデータ集合に対しては解は一致した。本アルゴリズムはクラスター数が大きい時に特に有効であり、解集合から求めたk-meanによる再結合解による局小値を避けることが出来る。本アルゴリズムを大量のデータに適用し、多くのEXAMCE計算をクラスタリングに対して実施してそのAdjusted Rand Indexが0,95以上の解である高品質の解を求め、解が安定的であることを示す。最後に外部の基準によってクラスタリングの正当性を評価し、EXAMCEが、従来の最良のクラスタリングアルゴリズムと同等の高品質であることを示す。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


コストに敏感なブースティング
Cost-Sensitive Boosting

Hamed Masnadi-Shirazi, University of California at San Diego, La Jolla Nuno Vasconcelos, University of California at San Diego, La Jolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 2, pp. 294-309 , February 2011

Keywords: Boosting, AdaBoost, cost-sensitive learning, asymmetric boosting.

コストに敏感なブースティング法の設計についての新規な枠組みを提案する。この枠組みは最適なコストを学習するための、次のような2つの条件の同定に基づいている1) 予想される損失は最適なコストでの決定則に基づいていること、2)経験的な損失の最低値は目標のコストの範囲内近傍に入らなければならない。これらの条件によってコストに敏感な損失を導くことができ、これが弱学習器の凸結合の関数空間における勾配降下法によって最低値になり、新規なブースティングアルゴリズムを生成することが示される。この提案された枠組みは、コストに敏感なAdaBoost, RealBoost, およびLogitBoostに応用される。っこの手法が顔や車の検出問題などの人工データや標準的データなどのコンピュータビジョン課題に適用され、新規なアルゴリズムとしてコストに敏感な最適解が得られたことが、実験的に示される。この性能は、従来のコストに敏感なブースティング法のみならず、人気のあるマージンの大きな識別法や確率的検定法と比較された。本コストに敏感なブースティング法は他の手法を常に上回っていたことが示される。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


境界検出のための非協調的動的輪郭法
Decoupled Active Contour (DAC) for Boundary Detection

Akshaya Kumar Mishra, University of Waterloo, Waterloo Paul W. Fieguth, University of Waterloo, Waterloo David A. Clausi, University of Waterloo, Waterloo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 2, pp. 310-324 , February 2011

Keywords: Snake, deformable model, active contour, importance sampling, Viterbi algorithm, statistical data fusion.

動的輪郭法による対象物の正確な検出は現在進行中の研究トピックである。ほとんどの動的輪郭法は内部(事前)と外部(画像測定)のエネルギー項の和を最小化することで目的の輪郭へと収束する。このような手法はエレガントであるが収束が遅いこととノイズや複雑な輪郭によって収束を間違えることがある。この限界に対処するため、非協調的な動的輪郭法(decoupled active contour:DAC)が開発されたが、これは2つのエネルギー項が独立に作用する。要するにDACは隠れマルコフ法とViterbi探索を使って測定値の更新を行い、次に事前ステップを分離し、不確実性の相対的強さと可動な事前ステップに応じて更新カーブを変形する。測定と事前ステップを分離することで、本アルゴリズムの収束ミスは減るだけでなく、Viterbi最適化の利用でエネルギーに基づく繰返し解法より高速で収束する。この結果から、本提案手法はノイズに強く、高曲率でも領域把握が可能で、輪郭の初期値やパラメータ値にロバストであるであることが明瞭に解る。5種の以前の手法や多数の画像データに比べ、本DAC法は高速でセグメンテーション精度が高い。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


1Dホモグラフィーと疎な対応関係から稠密な表面の復元
Dense Mirroring Surface Recovery from 1D Homographies and Sparse Correspondences

Stas Rozenfeld, Technion, Israel Institute of Technology, Haifa Ilan Shimshoni, University of Haifa, Haifa Michael Lindenbaum, Technion, Israel Institute of Technology, Haifa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 2, pp. 325-337 , February 2011

Keywords: Mirroring objects, 3D shape reconstruction, 1D homographies, stability.

本研究においては鏡、サングラス、ステンレススチールの3D形状を復元する。コンピュータモニター上には異なった角度からの平行な縞模様を表示する。これらの平行線は鏡面によって反射されるがこれはカメラで撮影される。すべての画像点、表示された縞模様、および、その反射画像は1D平面射影変換行列(homography matrix)によって関連付けられており、これは統計学的に正確な異分散の手法によってロバストに計算される。モニターされた画像の対応付けが計算された疎な画像点に焦点を当てることによって、これらのホモグラフィーから深さと局部形状が推定できる。この深さの推定は統計的に正確な最小値に依存しており、これから正確で信頼性のある結果が得られる。深さ推定の過程が本質的に宇安定であっても、この不安定さを特徴付け、これを検出・訂正するアルゴリズムを開発することができる。不安定さを修正した後、鏡面反射物体の稠密な表面復元が条件付き挿入法によってなされるが、これは単純に表面の深さ値を内挿するだけではなく、深さ値、対応点、および、局所表面形状を解くために局所的にホモグラフィー行列を解く。本手法は実装化されいくつかの対象物の形状はミリメートル以下の稠密度で復元された。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像記述子の次元削減のための線形判別投影の学習
Learning Linear Discriminant Projections for Dimensionality Reduction of Image Descriptors

Hongping Cai, National University of Defense Technology, Changsha Krystian Mikolajczyk, University of Surrey, Guildford Jiri Matas, Czech Technical University, Prague

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 2, pp. 338-352 , February 2011

Keywords: Linear discriminant projections, dimensionality reduction, image descriptors, image recognition, image matching.

本論文では線形判別投影法(Linear Discriminant Projections (LDP))によって次元を削減し局所的画像記述子の判別性を改善する。我々はLDPを最新の判別投影の環境に置き、この性質を解析する。LDPは点同士が対応した大量データによって実物を学習させる必要がある。画像変換によるシミュレーションで生成された学習データは、対応する実データによる結果とほぼ等しいことを実証しよう。これによって他の判別投影法と同様にLDPを画像のカテゴリー化のように、対応する実データが得られない場合にも適用できることを実証する。我々は大規模な実験的評価を画像マッチングとカテゴリー化に関して標準データ集合に対して実施する。これによってLDPが局所記述子の顕著な次元削減を可能にし、異なる用途への性能増強を実演する。本結果は、128次元から30次元へと削減すると同時に最新の認識性能を上回る。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非凸面のオンラインのサポートベクトルマシン
Nonconvex Online Support Vector Machines

?eyda Ertekin, Massachusetts Institute of Technology, Cambridge L?on Bottou, NEC Labs America, Princeton C. Lee Giles, The Pennsylvania State University, University Park

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 2, pp. 368-381 , February 2011

Keywords: Online learning, nonconvex optimization, support vector machines, active learning.

この論文では、我々はアルゴリズム(LASVM-NC)が反りによる損失に基づいた非凸面のオンラインのサポートベクトルマシン(SVM)を紹介する。これは外れ値の影響を抑制する高い能力を持つ。そしてオンライン学習設定の中で、再び我々は凸面の最適化の中で非凸面の動作に近づくことに基づく、外れ値にフィルタをかけるメカニズム(LASVM-I)を提案する。これらの2つのアルゴリズムは、斬新なもう一つのSVMアルゴリズム(LASVM-G)の上に造られる。そしてそのSVMアルゴリズムは双対ギャップ(duality gap)を利用することによってその反復的なステップにおける正確な中間モデルを生成することができる。我々は、誤ったラベルを付けられたトレーニング例が多い中で、あるノイズが多いデータの分類において、外れ値に対する高い頑健性を与える我々のフレームワークの長所を示す実験的な結果を提示する。実験的な評価は、提案アプローチが訓練及び認識フェーズ両方において、汎化性能を犠牲にすることのない、よりまばらなモデルと、より少ない計算の実行タイムを持った、よりスケーラブルなオンラインSVMアルゴリズムを与えることを示す。 我々はまた、非凸面の最適化とマージンの最小化の能動学習の関係を指摘する。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


The Ovuscule
The Ovuscule

Philippe Th?venaz, ?cole polytechnique f?d?rale de Lausanne (EPFL), Lausanne Ricard Delgado-Gonzalo, ?cole polytechnique f?d?rale de Lausanne (EPFL), Lausanne Michael Unser, ?cole polytechnique f?d?rale de Lausanne (EPFL), Lausanne

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 2, pp. 382-393 , February 2011

Keywords: Snakuscule, snake, dynamic contour, ellipse.

我々は、楕円形の動的輪郭法、Snakeを提案する。この動的輪郭は、2つの要素からなる表面項により駆動される、内側の楕円に沿った全データの線積分と、これに釣り合う外側の円の全外側データの線積分である。我々は前記の2つの要素の比を最大にするように、繰り返し動的輪郭を適応させる。そしてこれにより楕円形の明るい斑点(blob)捜すためのSnakeが得られる。我々はそれが定義するパラメータに関して、Snakeのグラディエントの解析的な表現を提供する。これにより効率的な最適化方法の使用が可能となる。本研究の重要な成果は、全てのパラメータが等しい重要性を持つそのような方法において定義される楕円型Snakeのパラメタ化である。;これは、最適化方法が上手く働く有望な環境をつくる。我々は、合成データによる我々の構成を確認して、実データでもその使用法を図示する。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


1つの顔のリファレンス形状を使った1つの画像からの3次元顔認識
3D Face Reconstruction from a Single Image Using a Single Reference Face Shape

Ira Kemelmacher-Shlizerman, University of Washington, Seattle Ronen Basri, Weizmann Institute of Science, Rehovot

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 2, pp. 394-405 , February 2011

Keywords: Computer vision, photometry, shape from shading, 3D reconstruction, lighting, single images, face, depth reconstruction.

人間の顔は、サイズ、縦横比と主な特徴の配置を含む、グローバルな特性の点で著しく似通っているが、個人、性、人種を通して、または顔の表情のためにかなり詳細に変化する。我々は、顔の類似性を利用した顔の3次元形状を復元する新しい方法を提案する。我々の方法は、入力情報として一つの画像を利用し、異なる人の顔の一つの3次元の参照モデルを使う。陰影からの形状復元(shape-from-shading)として知られる、一つの画像からの古典的な復元方法は、反射率特性と照明についての知識に加え、境界条件のための奥行き情報を必要とする。最近の方法は、入力された顔を3次元モデルの(何百ものの)組合せであるとみなすことによってこれらの要求を回避する。我々は、その代わりにターゲットの3次元形状を復元するために一人の参照モデルを「形作る」ためのガイドとして入力画像を使うことを提案する。我々の方法は、ランバート反射の仮定のもとで、照明の調和的な表現を使う。それはインターネットからダウンロードされた撮影条件のない画像と同様に、特定の条件で撮影された画像でテストされた。そして、表情、性と人種の違いを含む、参照モデルと入力画像との間での様々な画像の条件下での大きな形状の差異を克服し、その精度と頑健性を示した。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


デジタル地形図を使ったビデオに基づくナビゲーションのための直接的方法
Direct Method for Video-Based Navigation Using a Digital Terrain Map

Ronen Lerner, Advanced Technical Center-Israel, General Motors R&D, Herzliya Ehud Rivlin, Google Inc. and Technion - Israel Institute of Technology, Haifa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 2, pp. 406-411 , February 2011

Keywords: Pose estimation, vision-based navigation, direct methods, DTM.

新しい画像情報に基づくナビゲーションアルゴリズムを提案する。ナビゲーションパラメータへの制約を定義するために、デジタル地形図(Digital Terrain Map:DTM)と共に、2つのグレーレベル画像を直接利用する。アルゴリズムの実行可能性を、シミュレーション環境と実際のフライトデータの両方を用いて調べる。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオにおける多目的のテキスト検出へのラプラシアンを用いたアプローチ
A Laplacian Approach to Multi-Oriented Text Detection in Video

Palaiahnakote Shivakumara, National University of Singapore, Singapore Trung Quy Phan, National University of Singapore, Singapore Chew Lim Tan, National University of Singapore, Singapore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 2, pp. 412-419 , February 2011

Keywords: Connected component analysis, frequency domain processing, text detection, text orientation.

この論文において、我々はビデオからのテキスト検出のために周波数領域におけるラプラシアンに基づいた手法を提案する。テキストが水平方向にあると仮定する多くの他のアプローチと違って、我々の方法は、任意の方位のテキストを取り扱うことができる。入力画像は、フーリエ-ラプラシアンで最初にフィルタを掛けられる。次にK-means法により、最大の差異に基づいてテキスト候補領域を同定する。接続された構成要素のスケルトンは、異なる文字列を分離する助けとなる。最後に、文字列の直線性とエッジ密度が、誤検出の除去のために使われる。実験結果により、提案方法がグラフィックス・テキストとシーンテキストを、水平方向や非水平方向の両方で取り扱うことができることが示される。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3視点からの立体視による影部の克服
Overcoming Shadows in 3-Source Photometric Stereo

Carlos Hern?ndez, Google Inc., Seattle George Vogiatzis, Aston University, Birmingham Roberto Cipolla, University of Cambridge, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 2, pp. 419-426 , February 2011

Keywords: Photometric stereo, shadows.

光隠蔽は両眼立体視の手法の最も重大な課題のうちの1つである。3つ以上の画像が隠蔽なしで利用可能な時、表面の局所方位は優決定(変数を一意に決定するために必要以上の条件が利用可能な状態)であり、オブジェクト形状が計算可能で、影部の画素を使わずに表面を再構成することが出来る。この論文では、2つの画像だけが隠蔽なしで利用できるような困難なケースを取り扱う。そして、これにより、局所方位は1画素につき自由度1の曖昧さになる。ノイズがある場合、可積分性のみではこの曖昧さを解決することができないこと、また陰になる領域において外形を復元できないことを示す。ノイズがある場合、これは不良設定問題である。我々はデータを保存すると同時にアルゴリズムの数値解析性能を向上させる2つの正則化スキームを記述する。最後に、この論文では、従来の方法が3つの画像を必要とし、隠蔽条件が共通である場合に、この理論をカラー立体両眼視に適用する方法について述べる。合成画像系列及び実画像系列の実験を紹介する。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非剛体点対応のためのトポロジー保持型弛緩法によるラベル付け
Topology Preserving Relaxation Labeling for Nonrigid Point Matching (HTML)

Jong-Ha Lee, Temple University, Philadelphia Chang-Hee Won, Temple University, Philadelphia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 2, pp. 427-432 , February 2011

Keywords: Point pattern matching, graph matching, registration, relaxation labeling, nonrigid point matching.

この論文は、一般的な非剛体点対応問題を解くために新しく定義された互換性尺度を利用した、弛緩法によるラベル付けプロセスについて紹介する。過去の研究では、弛緩法によるラベル付けを用いた点対応法がある。しかし、互換性係数は、点と隣りが対応する点を持つかどうかを示す、0または1の二値のいずれかを取る。我々のアプローチは、弛緩法によるラベル付け法を一般化する。互換性係数は、点対の間で相関関係を計るためにn個の離散値をとる。アルゴリズムの速度を改善するために、我々は相関関係を計算するために対数距離と極座標における離散化された角度を使う。大規模な実験により、本論文で提案するトポロジー保持型弛緩法アルゴリズムが、他の最新技術の点対応アルゴリズムと比較して、適応性能が明らかに改善していることを示す。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.33, No.3


P300信号検出のための畳み込み型ニューラルネットワークと、その脳-コンピュータインターフェースのための応用
Convolutional Neural Networks for P300 Detection with Application to Brain-Computer Interfaces

Hubert Cecotti, University of Bremen, Bremen Axel Gr?ser, University of Bremen, Bremen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 3, pp. 433-445 , March 2011

Keywords: Neural network, convolution, gradient-based learning, spatial filters, brain-computer interface (BCI), electroencephalogram (EEG), P300.

脳?コンピュータインターフェース(Brain-Computer Interface: BCI)は脳活動の測量を解析することによる、人間とコンピュータの直 接的なコミュニケーションを可能にする特殊なインターフェースである。Oddballパラダイムは、P300波などの、ユーザにより選択された ターゲットに対するイベントに関連する脳電位(event-related potentials: ERP)を生成するためにBCIで用いられる。P300スペラー (speller)はこの特性を利用しており、ユーザからP300波を検出し、それにより文字を描くことができる。P300スペラーは2つの識別問題 からなる。第一の識別は脳波(electroencephalogram:EEG)からP300波を検出することである。第二の識別は様々なP300波反応の組み合わ せから、描画するべき文字を決定することである。P300波検出のための新たな方法を紹介する。このモデルは畳み込み型ニューラルネット ワーク(convolutional neural network: CNN)に基づくものである。このネットワークのトポロジーは時間領域におけるP300波検出のた めに調整されている。CNNに基づいた7つの識別器を紹介する。これは様々な特徴セットを用いた単一識別器4つと、3つの複合識別器からな る。これらのモデルを、第三回BCIコンペティションにおけるData set IIを用いて比較する。ある複合識別器を用いた場合に最高の性能が 得られ、それは識別前のチャンネル選択なしで95.5%の認識率を達成している。CNNモデルの受領領域(reception field)の特性が利用で きるため、提案アプローチは脳活動の解析に対する新たな方法を示すものである。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


投影型変形及び照明変化の復元のための光線投影
Ray Projection for Recovering Projective Transformations and Illumination Changes

Yun Zhang, University of Louisiana at Lafayette, Lafayette Chee-Hung Henry Chu, University of Louisiana at Lafayette, Lafayette

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 3, pp. 446-458 , March 2011

Keywords: Image matching, image motion analysis, lighting change, projective transformation, stereo vision.

光線投影(ray projection)と、投影型幾何変形及び2つのオブジェクト間のアフィン型照明変化の復元のための応用について研究する。 光線投影を高精度に評価する新たな手法であるvariable contour(変形輪郭)を提案する。更に8つの投影型変形のパラメタ及び2つの照明 変更パラメタの統合的復元のために、光線投影の新しい柔軟なフレームワークを考案した。最後に様々な幾何的及び写真測量的な変形の復 元タスクにおいて、このフレームワークを実験的に評価する。後者のタスクは室内及び室外シーンの実画像間の変形を扱うものである。画 像のボケ及び隠蔽に対する頑健性を例として紹介する。様々な種類の様々なオブジェクトの間のマッチングタスクにより、提案手法の高い 適用性を示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


超高速かつ厳密なテンプレートマッチングのための上界および下界を利用したアルゴリズム
A Dual-Bound Algorithm for Very Fast and Exact Template Matching

Haim Schweitzer, The University of Texas at Dallas, Richardson, TX Rui (April) Deng, The University of Texas at Dallas, Richardson, TX Robert Finis Anderson, The University of Texas at Dallas, Richardson, TX

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 3, pp. 459-470 , March 2011

Keywords: Template matching, Walsh transform, pattern matching, real-time matching, priority queues.

近年、マッチング尺度の下界から導出された棄却法を利用する高速テンプレートマッチング技術が提案された。本稿では、このアイディア を一般化し、下界に加え、上界も検索を高速化するために利用することができることを示す。下界および上界の両方を利用し、ひとつの画 像の中のk個の最適マッチングを探すアルゴリズムを提案する。この上下界アルゴリズムの性能は保証されている。つまりこのアルゴリズ ムは常にk個の最適マッチングを見つけることができる。理論的解析および実験結果により、提案手法の実行時間は、すでに提案された実 時間厳密テンプレートマッチング法に伍するものである。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


構造化されていない表面メッシュからの効率的な三次元幾何Zernikeモメント計算
Efficient 3D Geometric and Zernike Moments Computation from Unstructured Surface Meshes

Jos? Mar?a Pozo, Universitat Pompeu Fabra, Barcelona and CIBER-BBN Maria-Cruz Villa-Uriol, Universitat Pompeu Fabra, Barcelona and CIBER-BBN Alejandro F. Frangi, Universitat Pompeu Fabra, Barcelona, CIBER-BBN, and Instituci? de Recerca i Estudis Avan?ats, Barcelona

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 3, pp. 471-484 , March 2011

Keywords: Image analysis, geometric moments, 3D Zernike moments, shape characterization, object characterization.

本稿では、単一の構造化されていない表面三角メッシュからの三次元幾何モメントの計算のための、高速かつ厳密なアルゴリズムと、より 高速な一連の近似アルゴリズムを紹介し評価する。オブジェクトの表面に基づくことで、体積型グリッドに基づくアルゴリズムに比べ、提 案アルゴリズムの計算複雑性を低減する。しかしこの手法は、均質オブジェクト(homogeneous objects)の幾何モメントの計算のみに適 用可能である。この利点と制約は、オブジェクトの境界に基づく他の提案アルゴリズムでも共通である。本稿で提案する厳密アルゴリズム は、以前に提案した厳密アルゴリズムに比べ、幾何モメントの計算複雑性を、最大でN^9ないしN^6まで削減する。また本稿で提案する一連 の近似型アルゴリズムは、三角形サイズとオブジェクトサイズの比率の冪級数として表現される。この級数は任意の次数で打ち切ることが できる。この次数が大きくなるか、三角形の近似精度が高くなるほど、より良い近似が得られる。この近似アルゴリズムは計算複雑性を N^3にまで低減させる。更に本稿では、予め計算された幾何モメントから三次元Zernikeモメントを計算するための高速アルゴリズムを紹介 する。以前に提案したアルゴリズムの計算複雑性はN^6であったが、このアルゴリズムの計算複雑性はN^4である。本提案アルゴリズムによ る誤差を様々な形状のオブジェクトにおいて評価し、誤差におけるコスト対利得比率及び計算時間を様々なモメントの次数に対して解析す る。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高速な画像フィルタリングのためのハッシュ化された非局所平均
Hashed Nonlocal Means for Rapid Image Filtering

Nicholas Dowson, Royal Brisbane and Women's Hospital, Herston Olivier Salvado, Royal Brisbane and Women's Hospital, Herston

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 3, pp. 485-499 , March 2011

Keywords: Nonlocal means, image filtering.

ノイズ除去アルゴリズムを用いることにより、ノイズレベルと撮像時間との間のトレードオフを緩和することができる。撮像時間の長さは 、未だに一部の画像タイプにとっては問題となっている。非局所平均は最近提案された手法であり、画像構造を保持しつつ、ノイズを除去 する能力において他の手法よりも優れているが、非常に計算コストが高い。この計算コストを低減するための手法の改良がいくつか提案さ れてきているが、これらを考慮してもこの手法は三次元画像の実用的フィルタリングに対しては遅すぎる。本稿ではこの問題を解消するた めのハッシュ化を利用したアプローチを提案する。このアプローチでは、全ての利用可能な画像データを利用することで、局所記述子(パ ッチ)の総和型周波数(ハッシュ)関数のうちの2つを明示的に表現する。他のアプローチと違い、ハッシュ空間は規則的なグリッド上で 離散化される。この性質のため、本アプローチでは主に線形演算が用いられる。ハッシュ空間の反復型演算により、大量のメモリ要求を克 服している。周辺線形補間法(marginal linear interpolation method)を用いることにより更なる速度向上を得ている。パッチ特徴を慎 重に選ぶことで、同程度の精度を保ちつつ高い計算効率を達成している。提案アプローチにより三次元画像を1分未満で処理することがで きる。これに対して従来の非局所平均法では15分?3時間かかる。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大規模な位置ずれのあるオプティカルフロー:変分法的動き推定における記述子マッチング
Large Displacement Optical Flow: Descriptor Matching in Variational Motion Estimation

Thomas Brox, University of California at Berkeley, Berkeley Jitendra Malik, University of California at Berkeley, Berkeley

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 3, pp. 500-513 , March 2011

Keywords: Motion, video, optical flow.

オプティカルフロー推定では、古典的に時間領域における密なサンプリングを必要とすると考えられてきた。疎密戦略による変形スキーム を利用することで、多少なりともこの必要性を緩和することができていたが、未だに構造スケールと推定されるべき速度の間の依存性が存 在している。これは特に、小さい部分が高速に動くような人の動きの詳細な推定において問題となる。本稿ではこの問題に対するアプロー チを紹介する。これは変分法的オプティカルフローにリッチな記述子を統合するものである。この方法により、既知の変分法的オプティカ ルフローによるものと同等の精度を保ちつつ、密なオプティカルフロー場を推定することができる。この手法は、密な時間領域におけるサ ンプリング条件が満たされないような条件下での動きの解析という、新たな技術領域を切り開くものである。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


乗算型カーネルを用いた検出器群の学習
Learning a Family of Detectors via Multiplicative Kernels

Quan Yuan, Sony Electronics Inc., San Jose Ashwin Thangali, Boston University, Boston Vitaly Ablavsky, Boston University, Boston Stan Sclaroff, Boston University, Boston

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 3, pp. 514-530 , March 2011

Keywords: Object recognition, object detection, object tracking, pose estimation, kernel methods.

オブジェクトクラス内の変動が大きい場合、オブジェクト抽出は困難な課題となる。本稿では、前景-背景識別(検出)について紹介し、 前景クラスにおけるクラス内識別(姿勢推定)が2つのカーネル関数の乗算型として学習できることを示す。モデル訓練は標準的なSVM学習 を用いて行われる。訓練時に前景オブジェクト検出のためのマスクが与えられた場合、オブジェクト検出器によりオブジェクト画像領域分 割を行うこともできる。我々のモデルを用いた、検出によるトラッキング(tracking-by-detection)フレームワークによるビデオ画像系 列からの前景状態の再構成法についても提案する。オブジェクト検出、視野角推定、及びトラッキングの各タスクにおいて、我々のモデル の利点を例証する。我々のアプローチは、既存の手および車オブジェクト検出タスクのための方法と伍する性能を持っている。動いている 車両と人の顔のビデオ画像系列におけるトラッキングタスクでの定量的な実験結果を紹介する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


双対分解(dual decomposition)によるMRFエネルギー最小化とその発展
MRF Energy Minimization and Beyond via Dual Decomposition

Nikos Komodakis, University of Crete, Heraklion Nikos Paragios, Ecole Centrale de Paris/INRIA Saclay Ile-de-France, Chatenay-Malabry Georgios Tziritas, University of Crete, Heraklion

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 3, pp. 531-552 , March 2011

Keywords: Discrete optimization, linear programming, Markov random fields, graphical models, message-passing, graph-cuts.

本稿では、コンピュータビジョンにおける離散MRFに基づいた最適化を取り扱うための新しい厳密な理論的フレームワークを紹介する。こ のフレームワークは双対分解(dual decomposition)という強力な手法を利用する。これは投影型サブグラディエント法に基づくものであ る。これはまず一組の適切に選択された部分問題に分解し、その上でそれらの解をある原則に基づいて組み合わせることでMRF最適化問題 を解く傾向を持っている。この手法の限界を見極めるために、それらの部分問題が満たさねばならない条件について解析し、このようなア プローチの持つ非常に高い一般性と柔軟性を例証する。利用するべき部分問題を適切に選ぶことで、新しく非常に強力なMRF最適化アルゴ リズムを設計出来ることを示す。たとえばこの方法で、以下のような性質を持ったアルゴリズムを導出することが出来る。1)最新のメッセ ージパッシング法を一般化して拡張する。2)非常に緊密なLP弛緩法をMRF最適化に対して最適化する。3)特定のMRFでありうる特別な構造 の利点を充分に活かし、グラフカット法などの効率的な推論法を利用できるようにする。我々のフレームワークから導出される様々なアル ゴリズムの拘束に関連する理論的解析と、合成データ、実データの両方を用いて行ったコンピュータビジョンの様々なタスクに対する実験 の結果及び比較により、我々のアプローチの高い潜在能力を例証する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テンソルスプラインを用いた非ランバート反射モデル化及び顔の形状復元
Non-Lambertian Reflectance Modeling and Shape Recovery of Faces Using Tensor Splines

Ritwik Kumar, University of Florida, Gainesville Angelos Barmpoutis, University of Florida, Gainesville Arunava Banerjee, University of Florida, Gainesville Baba C. Vemuri, University of Florida, Gainesville

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 3, pp. 533-567 , March 2011

Keywords: Tensor splines, non-Lambertian reflectance, face relighting, 3D shape recovery, facial image analysis.

照明効果と顔の姿勢変動のモデリングは顔画像解析分野において非常に重要なものである。これらの問題を同時に扱うような従来の手法の 多くはランバート仮定を必要とし、それゆえに複雑な明度の変動を高精度に計測することができなかった。しかしこのような複雑性は顔画 像や、鏡面性の表面及び影のある状況での三次元の顔形状の復元で頻繁に見られることである。本稿では顔画像解析のための新しいテンソ ルスプラインに基づいたフレームワークを紹介する。このフレームワークを用いることで、影の投影及び鏡面性を保ちつつ、顔の表面的な BRDF(Bidirectional Reflectance Distribution Function:双方向反射分布関数)場を高精度に推定することができることを示す。更に 局所近傍情報を用いることで、上記と同じフレームワークを(姿勢の変動を取り扱うための)顔の三次元形状復元に用いることができる。 単葉性(single-lobed)球関数の混合に基づく、より一般的なモデルを用いてこのテンソルスプラインモデルの精度を定量的に検証する。 我々の手法の効果を、顔の照明変更、三次元形状復元、及び顔認識に関する大規模な実験の結果を示しつつ例証する。この実験は拡張Yale Bベンチマークデータセットと、同じくCMU PIEベンチマークデータセットを用いて行った。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


分散システムにおける並列分光クラスタリング
Parallel Spectral Clustering in Distributed Systems

Wen-Yen Chen, Yahoo! Inc,, Sunnyvale Yangqiu Song, Microsoft Research Asia, Beijing Hongjie Bai, Google Information Technology (China) Co, Ltd., Beijing Chih-Jen Lin, National Taiwan University, Taipei Edward Y. Chang, Google Research, Palo Alto

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 3, pp. 568-586 , March 2011

Keywords: Parallel spectral clustering, distributed computing, normalized cuts, nearest neighbors, Nystr?m approximation.

分光クラスタリングアルゴリズムは、k-means法などのいくつかの従来手法よりも、効率的にクラスタを見つけられることが示されてきて いる。しかし分光クラスタリングには、データセットのサイズが大きくなった場合にメモリ使用量と計算量両方に対する拡張性に関する問 題がある。大規模なデータセットでクラスタリングを行うために、密な類似性行列を近似する2つの代表的な手法を調査する。Nystr?m法に より一方のアプローチの行列を他方のアプローチを使って疎にすることにより、これら2つのアプローチを比較する。次に最近傍を保持し つつ行列疎化を行うこの戦略を取り上げ、その並列化を検討する。ここで我々は分散型コンピュータにおいて使用メモリと計算の両方を並 列化する。193,844画像からなる文書画像データセットと、2,121,863画像からなる写真データセットを利用した実証的な検証により、我々 の並列アルゴリズムが上記問題を効率的に取り扱うことができることを示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


条件付き期待値最大化による関節で接続された剛体上の点群の位置決め
Rigid and Articulated Point Registration with Expectation Conditional Maximization

Radu Horaud, INRIA Grenoble Rh?ne-Alpes, Montbonnot Saint-Martin Florence Forbes, INRIA Grenoble Rh?ne-Alpes, Montbonnot Saint-Martin Manuel Yguel, INRIA Grenoble Rh?ne-Alpes, Montbonnot Saint-Martin Guillaume Dewaele, INRIA Grenoble Rh?ne-Alpes, Montbonnot Saint-Martin Jian Zhang, The University of Hong Kong, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 3, pp. 587-602 , March 2011

Keywords: Point registration, feature matching, articulated object tracking, hand tracking, object pose, robust statistics, outlier detection, expectation maximization, EM, ICP, Gaussian mixture models, convex optimization, SDP relaxation.

本稿では、確率論的な点群の位置決めによる、関節で接続された剛体のマッチングの課題を取り扱う。この問題は未知の対応が混合モデル として取り扱われる欠落データフレームワークとして再定義することができる。最尤推定の原理を適用することで、新たな期待値最大化的 なアルゴリズムを開発した。これを点群位置決めのための条件付き期待値最大(Expectation Conditional Maximization for Point Registration: ECMPR)アルゴリズムと名付けた。このアルゴリズムでは、上記混合モデル成分のために一般的な共分散行列を利用するこ とが可能であり、これにより共分散が等方性である場合に比べ性能を向上させることができる。位置決めパラメタの推定の結果に関して、 詳細な解析を行い、準正定符号弛緩法(semidefinite positive relaxation)に基づいて、回旋型のパラメタ及び変換型のパラメタの推定 のための最適な方法を提案する。剛体位置決め法を、関節接続された剛体の位置決めに拡張する。この方法は、ガウス混合モデルに一定値 の成分を付加することではずれ値を検出及び棄却し、これにより頑健性を保証している。我々の方法の詳細な解析を行い、理論的、実証的 に、点群位置決めのための他の頑健な手法と比較する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ウェアラブルデバイスのカメラを利用した頑健な2レイヤー分割及び動き/奥行き推定
Robust Bilayer Segmentation and Motion/Depth Estimation with a Handheld Camera

Guofeng Zhang, Zhejiang University, Hangzhou Jiaya Jia, The Chinese University of Hong Kong, Hong Kong Wei Hua, Zhejiang University, Hangzhou Hujun Bao, Zhejiang University, Hangzhou

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 3, pp. 603-617 , March 2011

Keywords: Bilayer segmentation, depth recovery, motion estimation, video editing.

ビデオ画像系列から動的な前景レイヤーを高品質に抽出することは、色、動き、及び隠蔽が絡み合うために困難な課題である。これに対す る多くのアプローチでは、背景シーンが静的であるか、背景シーンが平面型の透視変換によるものであるという仮定に基づいている。本稿 ではこれらの拘束を緩和し、オブジェクトの動き、レイヤー、及び奥行き情報を正確に計算するための総合的なシステムを紹介する。様々 なキューを組み合わせて前景レイヤーを抽出する新しいアルゴリズムを提案する。最適化過程では、はずれ値に対する耐性が高い投票に似 た仕組みを利用する。このシステムは背景が非平面な場合や、ビデオ撮影時にカメラが自由に動くような場合などの困難な例も扱うことが できる。本研究により、高品質視点補間やビデオ編集などの応用用途が見つかった。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


小ビデオ(Tiny Videos):ノンパラメトリックビデオ検索及びフレーム識別のための大規模データセット
Tiny Videos: A Large Data Set for Nonparametric Video Retrieval and Frame Classification

Alexandre Karpenko, University of Toronto, Toronto Parham Aarabi, University of Toronto, Toronto

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 3, pp. 618-630 , March 2011

Keywords: Image classification, content-based retrieval, tiny videos, tiny images, data mining, nearest-neighbor methods.

本稿ではYouTubeでユーザによりラベル付けされた、50,000を超えるビデオデータの大規模データベースを紹介する。“小ビデオ(tiny video)”と名付けたコンパクトな映像表現を開発し、これにより時間変化するビデオの視覚表現全体を保ったまま、高い圧縮率を達成す る。サンプルに基づくクラスタリングアルゴリズムである類似性伝播(affinity propagation)を用いたフレームサンプリングにより、圧 縮率とビデオの再現能力との最良のトレードオフを達成している。この大規模なユーザによりラベル付けされたビデオコレクションと簡単 なデータマイニング技法を用いて関連ビデオ検索と画像及びビデオフレームの識別を行う。様々な認識タスクにおいて、小ビデオ(tiny video)による識別結果を、以前の小画像(tiny image)フレームワークと比較する。この小画像データセットはインターネットから取得 された8千万画像からなる大規模なものである。これはビデオと画像の研究用のデータセットとしては世界最大のものである。風景とスポ ーツの識別に対しては小ビデオがより良い性能を示すこと、画像中のオブジェクトの認識に関しては小画像の方が良い性能を持つことを示 す。更に、広範な種類のカテゴリにおいて、小画像と小ビデオデータセットの組み合わせにより識別精度を向上させられることを示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


判別分析におけるカーネル最適化
Kernel Optimization in Discriminant Analysis

Di You, The Ohio State University, Columbus Onur C. Hamsici, The Ohio State University, Columbus Aleix M. Martinez, The Ohio State University, Columbus

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 3, pp. 631-638 , March 2011

Keywords: Kernel functions, kernel optimization, feature extraction, discriminant analysis, nonlinear classifiers, face recognition, object recognition, pattern recognition, machine learning.

カーネルマッピングは非線形識別器を導出するアプローチの中で最も利用されているものの一つである。基本的なアイディアは、カーネル 関数を用いてオリジナルの非線形分離問題を、クラスが線形分離できるような、オリジナルの特徴空間より大きな次元の空間に投影するこ とである。カーネル法の一種であるこの方式の主な問題は、投影先の空間で分布が線形分離できるようなカーネルパラメタを見つけること である。本稿ではベイズ識別器が線形になるカーネル表現をも付けることを目的とした最初の評価指標を導出する。この結果を成功裏にい くつかのカーネル判別分析アルゴリズムに適用する方法について述べる。多数のデータベースと識別器を利用した実験の結果により、提案 アプローチの有益性が示される。本稿では更にサブクラス判別分析のカーネルバージョンが最高の認識率を与えることを、(理論的及び実 験的に)示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


警察の捜査で利用される犯人のスケッチ画像と顔写真のマッチング
Matching Forensic Sketches to Mug Shot Photos

Brendan F. Klare, Michigan State University, East Lansing Zhifeng Li, Michigan State University, East Lansing Anil K. Jain, Michigan State University, East Lansing and Korea University, Seoul

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 3, pp. 639-646 , March 2011

Keywords: Face recognition, forensic sketch, viewed sketch, local feature discriminant analysis, feature selection, heterogeneous face recognition.

本稿では、警察の捜査で利用される犯人のスケッチと顔写真のコレクションとの間のマッチング問題を扱う。スケッチマッチングにおける 以前の研究では、対象人物を観察しながら描かれた精巧なスケッチに対する解法しか提供されてこなかった。しかし犯人のスケッチはこの ような精巧なスケッチではなく、警察のスケッチ画科が目撃者により提供された対象者の記述を元に描くものである。このような犯人のス ケッチの同定を行うために、我々が局所特徴に基づく判別分析(Local Feature-based Discriminant Analysis :LFDA)と呼ぶフレームワ ークを紹介する。スケッチと写真をそれぞれSIFTによる特徴とマルチスケール局所二値パターン(Multi-scale Local Binary Pattern: MLBP)を用いて記述する。次に複数の判別投影(discriminant projection)を、最小距離マッチングのための特徴に基づく表現の区分ベ クトル(partitioned vector)に適用する。159の犯人のスケッチからなるデータセットと10,159の写真画像からなるデータセットとのマ ッチングをとるタスクに対してこの方法を適用した。市場で最先端の顔認識システムと比較しても、LFDAは、スケッチと顔画像との対応付 けタスクにおいて、かなりの性能向上を果たしている。人種と性別の情報を用いることで、マッチング対象の写真データセットを絞り込め るため、更にマッチング性能を向上させることが可能であった。更なる実験により、対象人物を観察しながらのスケッチの場合、提案フレ ームワークは最新のアルゴリズムと同等の性能持つことが示される。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単一画像における部分隠蔽の除去
Removal of Partial Occlusion from Single Images

Scott McCloskey, McGill University, Montreal Michael Langer, McGill University, Montreal Kaleem Siddiqi, McGill University, Montreal

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 3, pp. 647-654 , March 2011

Keywords: Focus, matting, partial occlusion, curve evolution.

本稿では、単一画像中で、前景オブジェクトからかなりフォーカスがずれている場合に、奥行き不連続近辺で起きる大規模な部分隠蔽につ いて検討する。遮蔽物(occluder)のピンホール射影と、フォーカスずれによるボケの計算のためのカーネルの多々編み込みにより決定さ れるアルファチャネルの値を、マット化と共に用いることでこれらの部分隠蔽をモデル化する。本研究の主な成果は、部分隠蔽領域におけ る前景遮蔽物の影響を取り除く方法を提供したことである。これにより背景シーンの可視性を高めることができる。金方法は次の3つのス テップからなる。まず曲線展開法(curve evolution method)を用いて完全隠蔽の領域を推定する。次に部分隠蔽された領域の各画素にお けるアルファチャネルの値を推定する。最後に部分隠蔽領域における前景遮蔽物の画素値への影響を取り除く。実験結果により、本手法が 持つ、最小のユーザ入力による単一画像における部分隠蔽の影響の除去能力が示される。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.33, No.4


共分散演算子を利用した主要部分空間の次元削減法
Central Subspace Dimensionality Reduction Using Covariance Operators

Minyoung Kim, Seoul National University of Science and Technology, Seoul Vladimir Pavlovic, Rutgers University, Piscataway

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 4, pp. 657-670 , April 2011

Keywords: Dimensionality reduction, supervised learning, kernel methods, regression.

我々は実数多変量ラベルで表せる次元数の削減問題について考える。この問題はしばしば回帰のための次元削減(DRR)として扱われ、ゴールは低次元表現、即ち、ターゲットと統計的相関を保存する主要部分空間(central subspace)を見つけることである。DRR手法の1つのクラスは主要部分空間を見つけるために逆回帰の考え方を利用する。ここで、ほとんどの既存の逆回帰手法は特別の出力空間のスライスを利用する;この手法を新規な名称である、共分散演算子逆回帰法(Covariance Operator Inverse Regression (COIR))と呼ぶことにするが、これは、逆回帰を特定のターゲットスライスを仮定しないで、非線形の入出力空間に拡張したものである。このCOIR法によるユニークな特性のためDRRは潜在的に大量のノイズによって劣化した高次元データ出力の問題にも応用可能である。非凸面の繰返し最適化手法を利用した最近のカーネル次元数の削減法と異なり、COIRは閉形式の解を導く。さらに、COIRと他のDRR手法、および、標準的な相関分析や線形判別分析を含む教師付き次元削減法との関連を確立した。さらにCOIRを拡張して、多くの入力点においてラベルが不明な準教師付き法を示した。教師付きと準教師付きの両方の問題についてCOIRの利点を実証する。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


コード付き写真:高速の周期的ビデオの圧縮検出
Coded Strobing Photography: Compressive Sensing of High Speed Periodic Videos

Ashok Veeraraghavan, Mitsubishi Electric Research Labs, Cambridge Dikpal Reddy, University of Maryland, College Park Ramesh Raskar, Massachusettes Institute of Technology, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 4, pp. 671-686 , April 2011

Keywords: Computational imaging, high-speed imaging, compressive sensing, compressive video sensing, stroboscopy.

 時間的変調を通じて、低速フレーム速度のカメラを利用して、その能力を凌駕するような高速で周期的なビデオを撮影し観察することができることを示そう。各フレームの蓄積時間内にユニークな順番でストロボ露光し、動的事象をコード付きで撮影できる。このようなフレームの連続画像から、高周期のプロセスを高速ビデオとして再構成することができる。ストロボ撮影は娯楽用、医学用、産業検査用の低周期ビート画像として利用できる。しかし、この手法が応用可能なのは、検出可能な単一の主要周波数と、高輝度照明の適用が可能な場合である。本論文では、周期信号をNyquist信号以下でサンプリングし、これを再構成するための設計と取得について示す。本手法の主要な結論は、Nyquist周波数によるサンプリングの制約はストロボ周波数に与えられ、信号取得周期に与えられるのではないことである。この手法は周期信号の意図的なモアレ(エイリアシング)周期成分を利用し、信号の再構成には最新の疎な信号表現と信号検出の成果が利用されている。我々は、フーリエ空間での周期信号が疎であることと、高圧縮検出にヒントを得た再構成アルゴリズムを利用している。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自然画像の統計量と情景の意味を利用した色恒常性
Color Constancy Using Natural Image Statistics and Scene Semantics

Arjan Gijsenij, University of Amsterdam, Amsterdam Theo Gevers, Faculty of Science, University of Amsterdam, Amsterdam

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 4, pp. 687-698 , April 2011

Keywords: Color constancy, illuminant estimation, natural image statistics, scene semantics, computer vision.

従来の種々の色恒常性法は、物体の空間的・周波数的に関する特定な仮定に基づいている。その結果、どのアルゴリズムも普遍的とは言い難い。しかし、既存の多様な手法が既知であることを利用して、特定の画像に対してどの手法が最良の結果をもたらすかという問題と見なせる。色恒常性アルゴリズムのための選択と組合せを達成するために、本論文ではカラー画像の最重要特性を同定するために、自然画像の統計量を利用する。次に、これらの画像特性を利用して、特定の画像のための適当な色恒常性アルゴリズム(あるいは、最適なアルゴリズムの組合せ)を選択する。画像特徴を把握するため、Weibullのパラメータ化(つまり、粒径とコントラスト)を利用する。このWeibullのパラメータ化は利用される色恒常性法が鋭敏であるという画像特性と関連している。このWeibullのパラメータ化と画像特性(エッジの数、テクスチャーの数、SNR)の相関と重みを学習するためにMoG識別器が利用される。この識別器の出力は、ある画像に対して最適の色恒常性法を選ぶことである。実験によれば、単一の最新アルゴリズムよりも大きな改善が示された。11,000以上の画像から成るデータ集合に対して、色恒常性の計算結果は20%(真の色と推定色のベクトル間の角度差の中央値)にも達した。さらに、ある種の情景カテゴリーにおいては、複数のアルゴリズムの識別器を利用するよりは、特定の色恒常性アルゴリズムが利用された。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オブジェクト分類のためのコンテキストに依存したカーネル
Context-Dependent Kernels for Object Classification

Hichem Sahbi, CNRS, LTCI Lab, Telecom ParisTech, Paris Jean-Yves Audibert, Certis, Universit? Paris-Est, Ecole des Ponts ParisTech, Paris, LIGM, Imagine, Marne-la-Vall?e, and Willow, CNRS/ENS/INRIA, Paris Renaud Keriven, Certis, Universit? Paris-Est, Ecole des Ponts ParisTech, Paris, LIGM, Imagine, Marne-la-Vall?e

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 4, pp. 699-708 , April 2011

Keywords: Kernel design, statistical machine learning, support vector machines, context-free kernels, context-dependent kernels, object recognition.

 カーネルとはデータ間の類似性を把握するために設計された関数であり、その用途はサポートベクトルマシン(SVMs)を含む多様の機械学習手法に利用されている。その標準的な形態では、ガウスカーネルのような良く利用されているものは、以下のような多くの分類や認識の課題に対して比較的良い効果を示す:コンピュータビジョン、生物情報学、そして、テキスト処理など。特にオブジェクト認識に対しては、コンボリューションのような標準的カーネルの主な欠陥は、オブジェクトが不変であってもその形態的な構造をうまくとらえられないことにある。本論文においては「コンテキスト依存性」と言える新タイプのカーネルを利用することに焦点を当てよう。オブジェクトとは注目点の集合と見なせるが、次のようなエネルギー関数の最小化によって合致する1)形態特徴の尺度が合致する信頼性、2)オブジェクトの形状を捕まえる近傍性の評価、および、3)正則化の項。我々は、このエネルギーの定点がコンテキスト依存性カーネルであり正定値であることを示す。オブジェクト認識の実験によって我々のカーネルをSVMに接続した場合、自由コンテキストカーネルによってSVMの性能を凌駕することを示す。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ボクセル画像の、距離によるスケルトン化
Distance-Driven Skeletonization in Voxel Images

Carlo Arcelli, Institute of Cybernetics "E.Caianiello," CNR, Naples Gabriella Sanniti di Baja, Institute of Cybernetics "E.Caianiello," CNR, Naples Luca Serino, Institute of Cybernetics "E.Caianiello," CNR, Naples

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 4, pp. 709-720 , April 2011

Keywords: Voxel image, surface skeleton, curve skeleton, distance transform, symmetry point, topology preservation.

 3D画像をボクセル(voxel)表現したオブジェクトの距離に基づく表面と曲線スケルトン化の計算法を紹介する。本手法は、固定点(anchor point)の検出と位相を保持した除去演算の応用に(3,4,5)重み付き距離を使用する。得られた表面と曲線スケルトンはオブジェクト内部に集中しており、オブジェクトと同じ位相を保持しており、単位厚みを持っている。オブジェクトは表面スケルトンからほぼ完全に復元できるが、これがオブジェクト中に定義できる最大球のすべての中心を含んでいるからである。従って、表面スケルトンは忠実な表現である。逆に、曲線スケルトンからは部分的な復元しか得られないので、これによってオブジェクトの魅力的な表現が可能となる。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


コンピュータビジョンにおける動的計画法(ダイナミックプログラミング)
Dynamic Programming and Graph Algorithms in Computer Vision

Pedro F. Felzenszwalb, University of Chicago, Chicago Ramin Zabih, Cornell University, Ithaca

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 4, pp. 721-740 , April 2011

Keywords: Combinatorial algorithms, vision and scene understanding, artificial intelligence, computing methodologies.

課題を多様な領域で表現し問題を解くために最適化することは強力な理論的枠組みであり、多くの画像処理の問題に応用し、成功して来た。離散的最適化手法は特に興味深いが、それは問題の構造を注意深く活用することによって、質的に非自明な解が得られることがしばしば保証されるからである。本論文において、動的計画法とグラフアルゴリズムを概観し、これらがいくつかの古典的画像処理の問題に対して離散的最適化手法が用いられてきたかの表現例を考察する。我々は、低レベルのステレオ画像、中レベルの対話式オブジェクトセグメンテーション法、そして、高レベルのモデルに基づく認識、のそれぞれに関する画像問題に焦点を当てる。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


電子的眼球運動記録法を利用した能動的認識のための眼球の動き解析
Eye Movement Analysis for Activity Recognition Using Electrooculography

Andreas Bulling, University of Cambridge, Cambridge and Lancaster University, Lancaster Jamie A. Ward, Lancaster University, Lancaster Hans Gellersen, Lancaster University, Lancaster Gerhard Tr?ster, Swiss Federal Institute of Technology (ETH), Zurich

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 4, pp. 741-753 , April 2011

Keywords: Ubiquitous computing, feature evaluation and selection, pattern analysis, signal processing.

 本論文では、能動的認識における眼球の動き解析を新規な検出様式として研究する。眼球の動きは電子的眼球運動記録法(EOG)で記録される。まず、EOGの信号から3つの眼球運動の特徴である、サッカード(衝動運動)、凝視、瞬き、を記述し、評価するアルゴリズムを述べ、眼球運動の繰返しパターンの評価法を提案する。次に、これらの特徴に基づく90の異なる特徴量を考案し、最小冗長性最大関連性(mRMR)特徴量となる特徴選択量として、これらの部分集合を選択する。これらの妥当性を見るため、8人の参加者に、文書のコピー作業、文書の読み作業、手書きメモを取る作業、ビデオの観賞、Webの観察、の5つの作業をオフィスで行ってもらって観察した。全く作業の無い期間も観察に含めた。差ポーチベクトルマシン識別法と、人に依存しない学習法(1人除いた全部を学習に利用)を使って、全クラスと全参加者に対して平均正解率76.1%、リコール率70.5%を得た。この研究から眼球運動記録法による認識法の応用の有望性を示しており、本手法の、常識的には、困難で、時には不可能な、他の用途へのより広い応用可能性についての考察を可能にしている。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ウェブからイメージデータベースを収穫する
Harvesting Image Databases from the Web

Florian Schroff, University of California, San Diego, San Diego Antonio Criminisi, Microsoft Research Cambridge, Cambridge Andrew Zisserman, University of Oxford, Oxford

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 4, pp. 754-766 , April 2011

Keywords: Weakly supervised, computer vision, object recognition, image retrieval.

 本研究の目的は、膨大な画像から特定のオブジェクトクラスのための画像を自動的に生成することである。テキストやメタデータや視的特徴量から多様な手法を利用して、多くの高品質画像をウェブから収集された。候補画像はテキストに基づくウェブ探索から得られ、オブジェクトの同定には質問(例えば、単語の penguinのような)を利用した。そして、これが含まれる画像のウェブページがダウンロードされた。そして、不適切な画像を除き、残りは再ランク付けされた。まず最初に、画像は画像を取り巻くテキストやメタデータ特徴から再ランク付けされた。この再ランク付けには多くの手法が比較検討された。第2に、トップランクの画像は(ノイズを含む)SVMによる学習データとして利用され、ランクをより良いものに改善した。このノイズの多い学習データは相互検証法による機敏性のテストも行った。全体を通しての本手法の主な新規性は、テキスト・メタデータと視的特徴量を組み合わせて画像の完全自動的なランク付けを達成したことである。その例として、動物、車、その他のクラスなど18クラスを示す。その結果と、精度/リコール率のカーブは注釈付きの正解データと比較され、Berg and Forsyth [CHECK END OF SENTENCE] and Fergus et al. [CHECK END OF SENTENCE]を含む従来の手法と比べられている。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ハイブリッドHMM/ANN法によるオフラインの手書きテキスト認識の改善
Improving Offline Handwritten Text Recognition with Hybrid HMM/ANN Models

Salvador Espa?a-Boquera, Universitat Polit?cnica de Val?ncia, Valencia Maria Jose Castro-Bleda, Universitat Polit?cnica de Val?ncia, Valencia Jorge Gorbe-Moya, Universitat Polit?cnica de Val?ncia, Valencia Francisco Zamora-Martinez, Universidad CEU-Cardenal Herrera, Alfara del Patriarca and Universitat Polit?cnica de Val?ncia, Valencia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 4, pp. 767-779 , April 2011

Keywords: Handwriting recognition, offline handwriting, hybrid HMM/ANN, HMM, neural networks, multilayer perceptron, image normalization.

 本論文では、隠れマルコフ(HMM)と人工ニューラルネット(ANN)モデルを使ったハイブリッドによるオフラインの制約の無い手書きテキストの認識法と提案する。光学的モデルの構造的部分はマルコフ連鎖でモデル化され、さらに、多層パーセプトロンによって出力確率が予測されるようになっている。本論文は更に手書きテキスト文字列の基線(スロープ)の傾きと文字の傾斜(スラント)の影響を除去し、教師付き学習法によってテキスト画像のサイズを正規化する。スロープとサイズの矯正は、多層パーセプトロンによってテキスト輪郭線の極値を分類別けすることで達成される。スラントの除去には、人工ニューラルネットを利用して非均一的に行った。実験にはIAMデータベースを利用したオフライン手書き認識を実施し、従来報告された手法の一つと比較し、本手法は最良の結果を示した一つであった。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


関節平面のための線形動き予測
Linearized Motion Estimation for Articulated Planes

Ankur Datta, Carnegie Mellon University, Pittsburgh Yaser Sheikh, Carnegie Mellon University, Pittsburgh Takeo Kanade, Carnegie Mellon University, Pittsburgh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 4, pp. 780-793 , April 2011

Keywords: Registration, motion, tracking.

 本論文では関節でつながった平面の動き予測のための関節の束縛条件について述べる。関節を平面間の相対的なホモグラフィー(1:1対応付け)に関連付け、これらの関節から線形最小二乗系における線形の等式束縛条件に翻訳し、Karush-Kuhn-Tucker条件を利用して効率的に解く。関節の束縛条件は、勾配に基づく動き予測法と、特徴量に基づく動き予測法の両方に応用され、これを図解するために勾配に基づく動き予測法をアフィンカメラに応用し、特徴量に基づく動き予測法を射影カメラに応用し関節の束縛条件だけに利用する。この関節の束縛条件だけへの応用は動きの安定な数値予測につながる。情景内のすべての関節平面の動き予測を同時に計算することで、視野から制約付きのテクスチャー情報しか得られない場合でも扱うことを可能にする。我々の結果が示すように本アルゴリズムは広範囲の用途があり、人体の追跡とか、剛体の動き推定とか、継ぎ合わせの平面情景、そして、三角メッシュの動き予測などの実世界の困難な課題への対処可能性を示している。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所的な距離関数:分類法、新しいアルゴリズム、及び評価
Local Distance Functions: A Taxonomy, New Algorithms, and an Evaluation

Deva Ramanan, University of California Irvine, Irvine Simon Baker, Microsoft Research, Redmond

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 4, pp. 794-806 , April 2011

Keywords: Nearest neighbor classification, metric learning, metric tensor, local distance functions, taxonomy, database, evaluation.

本稿で我々は、局所的な距離関数のための分類法を紹介する。この方法を利用することにより、大多数の存在するアルゴリズムを、メトリックテンソル(metric tensor)により定義された測地距離の近似とみなすことができる。我々は、どのように、どこで、いつメトリックテンソルを評価するかによって存在するアルゴリズムを分類する。どのように:我々は、過剰適合を改善するための技術を組み合わせて使う複合型アルゴリズムを紹介する。どこで:我々は、メトリックテンソルが区分的に一定であるという仮定の下で、評価分布点群と訓練分布点群をそれぞれ結ぶ線に沿ってメトリックテンソルを統合するために正確な多項式時間アルゴリズムを提示する。いつ:我々は、オフライン段階において、メトリックテンソルを多くの参照点でサンプリングする補間アルゴリズムを提案する。この参照点は、オンライン分類段階で補間される。我々は、顔認識、オブジェクト認識と数字認識において作業で包括的な評価を提示する。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


適応的な正規化相互相関関数を使った頑健なステレオマッチング処理
Robust Stereo Matching Using Adaptive Normalized Cross-Correlation

Yong Seok Heo, Seoul National University, Seoul Kyoung Mu Lee, Seoul National University, Seoul Sang Uk Lee, Seoul National University, Seoul

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 4, pp. 807-822 , April 2011

Keywords: Stereo matching, color, radiometric variation, illumination, camera exposure, gamma correction.

既存のステレオマッチングアルゴリズムの大多数は、対応する色値がお互いに似ていると仮定する。しかし、画像の色値はいろいろ光学的な要因、例えば照明の方向、発光色と撮像装置の変更によって、たびたび影響を受けるので、実際には前記の仮定は成り立たないことがある。この理由のために、カメラで記録される生の色は完全に信頼出来ず、また、色の恒常性の仮定は実際の場面においてステレオ画像の間で必ずしも維持されるわけではない。従って、従来のステレオマッチングアルゴリズムの性能は、光学的要因の変化がある場合、ひどく質が下がる可能性がある。この論文において、我々は左右の画像の間で光学的な変化に反応しない、新しいステレオマッチング尺度を提示する。殆どの既存のステレオマッチング法と違って、提案手法では、我々のフレームワーク中で明示的にカラー形成モデルを使って、頑健且つ正確な相応計測のための適応的正規化相互相関関数(Adaptive Normalized Cross Correlation: ANCC)と呼ばれる新しい計測を提案する。我々の方法の利点は、左右の画像の間で幾何、発光色とカメラのパラメータ変化を照らし出すことに頑健で、従来の正規化相互相関関数(Normalized Cross Correlation: NCC)と違って太らせる効果による害を受けないということである。我々の実験の結果は、我々の方法がステレオ画像の間で大きく異なる光学条件で他の最新のステレオ法に優る性能を持っていることを示す。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


表面発展、モーフィングとマルチビュー再構築のためのトポロジー ? 適応性のあるメッシュ変形
Topology-Adaptive Mesh Deformation for Surface Evolution, Morphing, and Multiview Reconstruction

Andrei Zaharescu, INRIA Grenoble Rhone-Alpes, Montbonnot, Saint-Martin Edmond Boyer, INRIA Grenoble Rhone-Alpes, Montbonnot, Saint-Martin Radu Horaud, INRIA Grenoble, Montbonnot, Saint Ismier

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 4, pp. 823-837 , April 2011

Keywords: Mesh, surface, manifold mesh, triangulated mesh, mesh evolution, deformable objects, morphing, 3D reconstruction.

三角化メッシュは、広く用いられる離散的な表面の表現手段になった。この論文では、トポロジー変化を引き起こすかもしれない強い変形がある場合における、表面の多様体特性を維持する方法について取り扱う。我々は、新しい自己交差除去アルゴリズム(TransforMesh)を紹介し、このアルゴリズムに基づくメッシュ発展フレームワークを提案する。多数の形状モデリング・アプリケーションは、外観または精度のような形状特性を改善するために表面発展を使う。この目的のために明示的もしくは暗黙的な表現の利用が検討されてきた。しかし、明示的なメッシュ表現は、正確な表面モデリングができる一方、例えば自己交差と分割統合法のようなトポロジーの変化を扱う信頼性の本質的な難しさという損害を被っている。結果として多くの手法は、例えば自然にこれらの問題を克服するレベルセット法のように、表面の暗黙的な表現に頼っている。それにもかかわらず、これらの方法は容積離散化に基づいている。そして、それは不必要な精度と複雑さのトレードオフにつながる。我々が提案する方法は頑健な方法でトポロジーの変化を取り扱い、自己交差を削除し、そして、従来のメッシュに基づくアプローチの限界を克服する。TransforMeshの効果を例示するために、我々は難しいくつかのアプリケーションを記述する:表面モーフィングと3Dの再構成である。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像ボケのある顔画像の認識のための、部分空間解析を使った顔の画像ボケ除去推論
Facial Deblur Inference Using Subspace Analysis for Recognition of Blurred Faces

Masashi Nishiyama, Toshiba Corporation, Kawasaki Abdenour Hadid, University of Oulu, Oulu Hidenori Takeshima, Toshiba Corporation, Kawasaki Jamie Shotton, Microsoft Research Cambridge, Cambridge Tatsuo Kozakaya, Toshiba Corporation, Kawasaki Osamu Yamaguchi, Toshiba Corporation, Tokyo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 4, pp. 838-845 , April 2011

Keywords: Face recognition, inference, point spread function, deblur.

この論文では、画像ボケによって画質の落ちた画像からの、顔認識の新しい方法を提案する。主な問題は、顔画像領域に対する画像ボケの過程を表すPoint Spread Function(PSF)を推論する方法である。PSFを一つの顔の画像から推量することは、不良設定問題である。我々の方法は、問題をより扱いやすくするために、画像ボケを含む顔画像訓練集合から学習された事前情報を使う。我々は、同じPSFによる画像ボケにより画質の落ちた顔が、お互いに似通っている(近くにマップされる)ような特徴空間を作る。我々は、この特徴空間で、あらかじめ定義されたPSFセットについての事前知識を表現する統計モデルを学習する。未知の画像ボケのクエリ画像を各々のモデルと比較し、そして、最も近いものをPSF推論のために選ぶ。このクエリ画像は、認識の前処理として、対応するモデルのPSFを用いて画像ボケを付与される。焦点や動きの影響による画像ボケを持つ人工的に質を下げられた大規模な顔画像のデータベース(FERET)における実験により、我々の方法が既存の方法と比較して実質的に認識性能を向上させることを示す。FRGC 1.0の顔データベースで、画像ボケを持つ実画像の上で改善されたパフォーマンスについても示す。さらに局所位相量子化(local phase quantization : LPQ)と、本稿で提案された顔の画像ボケ除去推論を組み合わせることにより、パフォーマンスを強化する方法を説明する。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


投影に基づいたページ分割手法の性能に対する境界ノイズの影響
The Effect of Border Noise on the Performance of Projection-Based Page Segmentation Methods

Faisal Shafait, German Research Center for Artificial Intelligence, Kaiserslautern Thomas M. Breuel, Technical University of Kaiserslautern, Kaiserslautern

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 4, pp. 846-851 , April 2011

Keywords: Document page segmentation, OCR, performance evaluation, border noise removal, document cleanup.

投影法は、20年以上にわたり、ページ分割やスキュー補正のような様々な作業のために、複数諧調(bitonal)な文書画像の分析で使われてきた。しかし、これらのアルゴリズムは、文書画像中の境界ノイズに対して敏感である。境界ノイズは、スキャンや、複写によるページ境界に沿って現れることができる。長年にわたって、いくつかのページ分割アルゴリズムが提案されてきた。これらのアルゴリズムの一部は、境界ノイズに関して彼らの高い精度と頑健性のために広範囲にわたり用いられるようになった。この論文では、このコンテキストにおける2つの重要な質問について言及する:1)既存の境界ノイズ除去アルゴリズムは、投影法で充分なパフォーマンスを達成するために要求されるレベルにまで、文書画像を綺麗にすることができるか?2)投影法は、境界ノイズがうまく取り除かれた文書に対し、他の最新技術のページ分割アルゴリズム(例えばDocstrumやVoronoi)に伍する性能を持つか?我々は、6つの境界ノイズ除去方法について、ワシントン大学(UW-III)のデータセットを用いて大規模な実験を実施する。我々の実験結果は、これらの投影法は、ノイズ除去された文書画像で他の最新技術のアルゴリズムと同等の正確さを達成することができるが、既存の境界ノイズの除去法では、様々なスキャン条件で取得された文書を、充分な精度でノイズ除去することができないことを示している。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


曲線分析による部分的に類似した非剛体モデルの新しい3次元マッチング法
A New 3D-Matching Method of Nonrigid and Partially Similar Models Using Curve Analysis

Hedi Tabia, LAGIS FRE CNRS University Lille 1, Villeneuve d'Ascq Mohamed Daoudi, TELECOM Lille 1; Institut TELECOM University Lille 1, Villeneuve d'Ascq Jean-Philippe Vandeborre, TELECOM Lille 1; Institut TELECOM University Lille 1, Villeneuve d'Ascq Olivier Colot, LAGIS FRE CNRS University Lille 1, Villeneuve d'Ascq

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 4, pp. 852-858 , April 2011

Keywords: 3D-shape matching, curves analysis, belief functions, feature points.

3次元形状のマッチング問題は、多くのアプリケーション、例えばインデックス化やモデル化などで重大な課題となっている。ここでは、非剛体変換及び部分的に類似したモデルの場合に、3Dオブジェクトのマッチング法に対する新しいアプローチを紹介する。この論文において、我々は特徴点の周囲で抽出された3D曲線による表面の表現を使う。実際には、表面は閉曲線の集合で表現され、曲線の形状解析からのツールを用いて曲線の解析と比較を行う。3Dオブジェクト間の大域的距離を定義するために、確信度関数を用いる。TOSCAとSHREC07データセットを用いた実験の結果は、本稿で提案するシステムが、類似した3Dモデルの検索を効率的に実行することを示す。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


性別認識における線形判別法の再評価
Revisiting Linear Discriminant Techniques in Gender Recognition

Juan Bekios-Calfa, Universidad Cat?lica del Norte, Antofagasta Jos? M. Buenaposada, Universidad Rey Juan Carlos, M?stoles Luis Baumela, Universidad Polit?cnica de Madrid, Boadilla del Monte

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 4, pp. 858-864 , April 2011

Keywords: Computer vision, gender classification, Fisher linear discriminant analysis.

最近広まってきた、モバイル機器とネットワークコンピューティングにおけるコンピュータビジョンとパターン認識のアプリケーションは、リソースが限られたアルゴリズムの開発を必要とする。線形分類技術は、その単純さと計算リソースへの要求の低さから、このような関係において重要な役割を持っている。この論文は性識別の中で最新技術のものをチェックする。そして、線形の技術とそれらの関係に特別に注意を払う。ここでは、なぜ線形の技術が競争力のある性能を成し遂げていないのかと、他の最新技術に伍する性能を得る方法について論議する。我々の研究は、線形識別法が、単一データベース実験において、サポートベクトルマシン(SVMs)とブースティングアルゴリズムの組み合わせに非常に近い分類精度を持っているという以前の報告内容を確認するものである。我々は、線形に選ばれた特徴のセットに対する線形判別分析も、類似した精度を達成するということを証明した。我々は、クロスデータベース実験を実行し、単一データベース実験が楽観的に偏っていることを証明する。十分なトレーニング・データとコンピュータリソースが利用できるならば、SVMの性分類は他より優れている。コンピュータリソースは不十分だが、十分なデータがある場合、ブースティングや線形のアプローチが適切である。結論としてトレーニング・データとコンピュータリソースが非常に少ない場合には、線形のアプローチは最善の選択となる。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.33, No.5


単一のサンプルからの行動認識
Action Recognition from One Example

Hae Jong Seo, University of California Santa Cruz, Santa Cruz Peyman Milanfar, University of California Santa Cruz, Santa Cruz

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 5, pp. 867-882 , May 2011

Keywords: Action recognition, space-time descriptor, correlation, regression analysis.

本稿では、時空間局所適応的回帰カーネル(space-time locally adaptive regression kernels)と行列コサイン類似性尺度(matrix cosine similarity measure )に基づく新しい行動認識法を紹介する。提案手法では、行動(action)の単一のサンプルを類似した行動の検索のためのクエリとして用いる。本手法は、行動、 前景/背景分離、動き推定、及びトラッキングに関する事前知識を必要としない。また本手法は、クエリとなるビデオから抽出される新しい時空間記述子の計算に 基づいており、この記述子により隣接するボクセル間の類似性を計測する。更にこの記述子を用いて顕在特徴(salient features)を抽出し、ターゲットビデオの 類似特徴と比較を行う。この比較にはコサイン類似性尺度の行列一般化を用いる。本アルゴリズムは各ボクセルがスカラーを持つ類似性値空間(resemble volume) を与える。各ボクセルはクエリビデオとターゲットビデオの全てのボクセルとの類似性の尤度を示している。誤り発見率(false discovery rate: FDR)を制御する ことでノンパラメトリック有意性検定(nonparametric significance test)を用い、クエリビデオに類似する行動の現出と位置を同定する。高速な運動、変化する コンテキスト、そして込み入った背景を含む困難な行動データセットを用いて、本手法の高い性能を例証する。Weizmann及びKTHデータセットを用いた更なる実験に より、行動カテゴリ化における最新手法の性能を示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


データマイニングにより得られた階層型複合特徴を用いた行動認識
Action Recognition Using Mined Hierarchical Compound Features

Andrew Gilbert, University of Surrey, Guildford John Illingworth, University of Surrey, Guildford Richard Bowden, University of Surrey, Guildford

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 5, pp. 883-897 , May 2011

Keywords: Action recognition, data mining, real-time, learning, spatiotemporal.

近年、行動認識分野は大きな発展を遂げてきた。この発展の多くは、単一フレームからのオブジェクト認識のアイディアを取り入れたこと、及び、このアイディア を時間ベースの行動認識に適用したことによりなされたものである。二次元空間領域での注視点の成功からアイディアを得て、これを三次元(時空間)に展開した ものを考えた。注視点は行動を記述する基本要素として用いられるため、行動認識の用途では発火頻度が低くなるように調整されていることが多い。このような調 整ではクラス判別のための最適特徴が得られないため、認識精度を低下させる要因ともなっている。これと対照的に我々の提案するアプローチでは、まず時空間両 方での単純な二次元コーナー点の過完備(overcomplete)な組みを用いる。階層的処理でこれらの点をグループ化し、検索領域を拡大する。この階層処理の各段階 では、データマイニングにより識別能と記述性能が最も高い特徴を効率的に学習する。これにより、頻繁に現れる特徴のパターンを、大規模なデータから検索する ことができるようになる。これらの階層では、データマイニングにより得られた複合特徴(mined compound features)は、より複雑に、高識別能に、そして疎な分 布になっていく。これにより高解像度ビデオに対して実時間で動作する高速且つ高精度な認識器が得られる。複合特徴は弁別能に従って構築・選択されるため、各 階層においてこれらの速度と精度が向上する。4つの最新のデータセットを用いてこのアプローチをテストした。ポピュラーなKTHデータセットを用いて他の最新の アプローチとの比較を行った。Multi-KTHデータセットを用いて複数行動の同時識別タスクで試験した。この試験では、訓練時に行動の位置決めのための明示的な情 報は与えなかった。最新のHollywood及びHollywood2データセットを用いて、映画のシーンから抽出した困難な複雑行動に関しての試験を行った。これら4つのデー タセット全てにおいて、本稿で提案する階層型アプローチは他の最新の方法を上回る性能を示し、実時間での動作が可能であった。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


輪郭検出と階層的画像分割
Contour Detection and Hierarchical Image Segmentation

Pablo Arbel?ez, University of California at Berkeley, Berkeley Michael Maire, California Institute of Technology, Pasadena Charless Fowlkes, University of California at Irvine, Irvine Jitendra Malik, University of California at Berkeley, Berkeley

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 5, pp. 898-916 , May 2011

Keywords: Contour detection, image segmentation, computer vision.

本稿では、輪郭検出と画像分割というコンピュータビジョンにおける2つの基本的な問題について調査検討を行う。まずこれらのタスクの最新のアルゴリズムを紹介 する。我々の輪郭検出器は、複数の局所キューをスペクトルクラスタリングに基づく大域化フレームワークで統合する。我々の分割アルゴリズムは、任意の輪郭抽 出器からの出力を階層型領域木(hierarchical region tree)に変換するための、生成機構により構成されている。この方法により、画像分割問題を輪郭検出問題 に落とし込むことができる。大規模な実験による評価により、我々の輪郭抽出及び画像分割手法が、他のアルゴリズムを有意に上回る性能を持つことが示される。 ユーザーによるアノテーションを利用することで自動生成された階層型分割を順次詳細化することができる。複数の画像解像度での計算により、本システムを認識 系のアプリケーションに組み込む。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


陰影、ハイライト、及びテクスチャに頑健な色領域識別のための反射率記述
Describing Reflectances for Color Segmentation Robust to Shadows, Highlights, and Textures

Eduard Vazquez, Universitat Autonoma de Barcelona, Barcelona Ramon Baldrich, Universitat Autonoma de Barcelona, Barcelona Joost van de Weijer, Universitat Autonoma de Barcelona, Barcelona Maria Vanrell, Universitat Autonoma de Barcelona, Barcelona

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 5, pp. 917-930 , May 2011

Keywords: Segmentation, color.

オブジェクトの幾何的配置、影、及び反射により、画像としての情報が大きく変化するため、単一素材の反射面の分割は困難な課題である。これらの効果の組み合 わせは二色反射モデル(dichromatic reflection model)によりモデル化されてきた。しかし画像取得時の未知のパラメタと画像圧縮によるノイズのため、このモ デルを実世界の画像に対しての適用は限定的なものだった。本稿では、ヒストグラム空間における、単一素材表面の形状のための頑健なモデルを紹介する。このモ デルはヒストグラムの多局所重畳解析(multilocal creasoness analysis)に基づいており、これにより素材の反射率を表現するリッジの組みを与える。これらの リッジによる分割法は、実画像の陰影、シェーディング、反射、及びテクスチャなどに対して頑健である。更に画像統計に基づく事前知識を導入し、また、多重解 像度の色コントラスト情報を用いて空間コヒーレンス情報を統合することで、この方法の完成度を高める。実験の結果は我々の方法が他の最新の分割方法を明らか に上回る性能を持つことを示している。この実験は広く用いられている分割ベンチマークによるものである。本手法の利点は、陰影及びハイライトがある場合に、 少ない計算量で卓越した性能を示すことである。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単眼画像からの可変表面の再構成のための線形局所モデル
Linear Local Models for Monocular Reconstruction of Deformable Surfaces

Mathieu Salzmann, Toyota Technological Institute at Chicago, Chicago Pascal Fua, Ecole Polytechnique F?d?rale (EPFL), Lausanane

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 5, pp. 931-944 , May 2011

Keywords: Deformable surfaces, monocular shape recovery, deformation models.

非剛体表面の三次元形状を単眼画像から復元することは、不良設定問題であり、困難な課題であることが知られている。この不良設定性を解消するためには、多く の場合、最もありえそうな変形に対する事前知識を必要とする。これは訓練データから学習可能な大域的変形モデルとして利用されることが多い。これは効果的な 方法ではあるが、新たな表面に対して毎回学習過程を行わねばならない欠点もある。毎回新たな訓練データを入手することは難しく、実際のところ非実用的である 。本稿では、この大域モデルを表面パッチのための線形局所モデルにより置換する。この局所モデルの集合により、同一素材により構成される任意の表面形状を再 現する。このアプローチは、異なる表面形状のための複数のモデルを保持する必要がなくなるだけでなく、対応付けによる三次元形状再構成問題を、閉形式で解け る代数問題もしくは、標準的な数値解法で解ける凸最適化問題として定式化する。実画像に対する定性的な結果及び合成データを用いた実験の定量的結果を示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数特徴に基づく高解像度掌紋認証
Multifeature-Based High-Resolution Palmprint Recognition

Jifeng Dai, Tsinghua University, Beijing Jie Zhou, Tsinghua University, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 5, pp. 945-957 , May 2011

Keywords: Palmprint, orientation field, the composite algorithm, density map, data fusion.

掌紋(palmprint)はアクセスコントロール及び法務的な認証・証拠機能として有望な生体認証特徴である。掌紋認証の既存の研究は低解像度(主に100ppi程度)の 掌紋に特化してきた。しかし高度セキュリティアプリケーション(例えば法廷での証拠機能)のためには、有効な情報を抽出するために高解像度掌紋画像(500ppi もしくはそれ以上)が求められている。本稿では高解像度掌紋のための新たな認識アルゴリズムを提案する。このアルゴリズムの主な貢献は以下の通りである。1) 従来の掌紋認識アルゴリズムのマッチング性能を顕著に向上させるために複数特徴を利用すること。具体的にはマイニューシャ、密度方位、及び主線を用いる。2) 品質に基づく適応的方位場推定アルゴリズムの設計。これは掌紋に凹凸が多い場合には、従来のアルゴリズムよりも良好に働く。3)掌紋同定のための新たな情報融 合法の利用。これは加重和ルール、SVM、そしてNeyman-Pearsonルールなどの従来の情報融合法よりも良好に働く。更に、様々な特徴の組み合わせの識別能を解析し 、密度が掌紋認識に非常に有効であることを見出した。14576の完全掌紋画像からなるデータベースを用いた実験結果により、提案アルゴリズムが良好な性能を達成 していることを明らかにする。検証用途では、他人受け入れ率(false acceptance ratio: FAR)10^{-5}%における提案システムの本人拒否率(false rejection rate: FRR)は16%であった。これは従来のアルゴリズムよりも17%低い値である。掌紋同定実験ではrank-1のオンライン部分掌紋認識率は82.0%から91.7%に向上した 。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


MILIS:インスタンス選択による複数インスタンス学習
MILIS: Multiple Instance Learning with Instance Selection

Zhouyu Fu, Monash University, Victoria Antonio Robles-Kelly, National ICT Australia, Canberra Research Laboratory, Canberra and Australian National University Jun Zhou, National ICT Australia, Canberra Research Laboratory, Canberra and Australian National University

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 5, pp. 958-977 , May 2011

Keywords: Multiple instance learning, support vector machine, feature selection, alternating optimization.

複数インスタンス学習(Multiple instance learning: MIL)はバッグ(bags)と呼ばれるインスタンスの集合の識別を行うための教師付き学習パラダイムである。 各バッグは多数のインスタンスを含み、これらから特徴を抽出する。MILの複雑性は、訓練データセット中のインスタンスの数に依存するところが大きい。適度な大 きさの実世界データセットアプリケーションでも、大規模なインスタンス空間を持っていることが多いため、性能を犠牲にすることなく訓練過程を高速化するため には、効率的なインスタンス選択法の設計は重要である。本稿ではMILにおけるインスタンス選択問題を取り扱う。本研究では、我々がMILISと呼ぶ、適応的インス タンス選択に基づく新しいMILアルゴリズムを提案する。このアルゴリズムでは、収束が保証された反復型手法でインスタンス選択ステップと識別器学習ステップを 交互に行う交番最適化(alternating optimization)フレームワークを利用している。初期インスタンス選択は、ネガティブインスタンスに対してシンプルだが効 果的なカーネル密度推定を施すことで得られる。実験結果により、他の最新の手法と比較した場合の提案アプローチの有用性と効率性を示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


SIFTフロー:シーンとアプリケーション間の密な対応付け
SIFT Flow: Dense Correspondence across Scenes and Its Applications

Ce Liu, Microsoft Research New England, Cambridge Jenny Yuen, Massachusetts Institute of Technology, Cambridge Antonio Torralba, Massachusetts Institute of Technology, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 5, pp. 978-994 , May 2011

Keywords: Scene alignment, dense scene correspondence, SIFT flow, coarse to fine, belief propagation, alignment-based large database framework, satellite image registration, face recognition, motion prediction for a single image, motion synthesis via object transfer.

この数十年、画像の整列はコンピュータビジョンの様々な分野で研究されてきた。しかし様々なシーンの画像の整列は未だに困難な課題である。各画像を時間的に 近接するフレーム画像と整列するオプティカルフローと似た、SIFTフローを提案する。このSIFTフローは、ある入力画像をクエリとして、様々なシーンの画像から なる大規模な画像コーパス中の最近傍画像を見つける手法である。このアルゴリズムは、空間的な不連続を保持しつつ、2つの画像それぞれの密なサンプリングによ る画素毎のSIFT特徴のマッチングを行う。このSIFT特徴により、様々なシーン/オブジェクトの外観同士の頑健なマッチングが可能となる。また、不連続保存型空 間モデルによりシーン中の異なる位置にあるオブジェクトのマッチングが可能となる。実験により、提案アプローチが、充分な空間的差異を持つ複雑なシーン対を 頑健にマッチングできることが示される。SIFTフローに基づいて、画像解析及び合成のための整列に基づく大規模データベースフレームワークを提案する。このフ レームワークでは密なシーン対応を利用して画像情報を、各最近傍画像からクエリ画像に伝達する。単一画像からの動き場予測、オブジェクト伝達による動き合成 、衛星写真の位置決め、及び顔認識などの具体的なアプリケーションを用いて、このフレームワークを例証する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフカット最適化を用いた時空間超解像度処理
Space-Time Super-Resolution Using Graph-Cut Optimization

Uma Mudenagudi, BVB College of Engineering and Technology, Hubli Subhashis Banerjee, IIT Delhi, New Delhi Prem Kumar Kalra, IIT Delhi, New Delhi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 5, pp. 995-1008 , May 2011

Keywords: Super-resolution, Markov random field (MRF), maximum a posteriori (MAP), graph-cut, space-time, nonlinear, minimization.

本稿では、複数の低解像度入力画像/映像を用いて高解像度の画像/映像を得る、所謂超解像度処理問題を取り扱う。解像度向上は、時間次元、空間次元もしくは これら両方で行われる。画像形成過程の生成モデルを用いる統一的フレームワークを紹介する。このフレームワークは空間的超解像度、時空間超解像度、画像分解 (image decomposition)、単一画像拡張、ノイズ除去、及び画像復元を扱うことができる。高解像度画像/映像をマルコフ確率場としてモデル化し、これをグラフ カット最適化による事後確率最大化推定により最終的な解として利用する。どこまでの超解像度拡大率が可能か、またそのための条件について検討する。予想され た最大拡大率を超える倍率の空間的超解像度再構成の結果を示す。時間次元と空間次元の両方における解像度向上のための映像の選択的超解像度再構成法を定式化 する。選択的に超解像度拘束条件を適用することで、これまでの研究で述べられてきた最大の時空間倍率を超えることが可能であることを示す。合成データ及び実 データを利用した実験結果を示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


質問のカテゴリ化のための語句重み付け法
Term Weighting Schemes for Question Categorization

Xiaojun Quan, City University of Hong Kong, Hong Kong Wenyin Liu, City University of Hong Kong, Hong Kong Bite Qiu, City University of Hong Kong, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 5, pp. 1009-1021 , May 2011

Keywords: Question answering systems, term-weighting, question categorization, text categorization.

語句重み付けは、テキストカテゴリ化の性能向上のための効率的な手法であることが判っている。最近のユーザー対話式質問応答やコミュニティ質問応答などの発 展により、ユーザーの質問を、既定カテゴリに正確に分類するニーズが高まってきている。しかし通常、質問は短い文であるため、一般的な語句重み付け法により テキストカテゴリ化のようなレベルで質問のカテゴリ化ができるかどうかは疑問である。なぜなら我々の知る限り、この問題の重要性にも関わらず、これに関連し た研究は行われてこなかったからである。本研究では質問のカテゴリ化のために、一般に用いられている教師なし及び教師付き学習による語句重み付け法を調査す る。同時に3つの新しい教師付き語句重み付け法、つまりqf^{¥ast}icf, iqf^{¥ast}qf^{¥ast}icf, and vrfを提案する。Yahoo! Answersサービスの質問集を利用し た一連の実験により、上記の手法と既存の教師なし及び教師付き語句重み付け手法との比較を行う。実験結果により、iqf^{¥ast}qf^{¥ast}icf法が全ての語句重み 付け法の中で最良の性能を持つことが示される。またqf^{¥ast}icf法及びvrf法は質問カテゴリ化に関してはiqf^{¥ast}qf^{¥ast}icf法に比肩しうる性能を持ってい る。これらによりtf^{¥ast}OR法が既存手法の中で最も高性能な方法であることが証明される。更にiqf^{¥ast}qf^{¥ast}icf及びvrf法は、長文の文書カテゴリ化に 関しては効果的である。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大規模なウェブデータを利用した個人写真検索のためのテキストクエリ
Textual Query of Personal Photos Facilitated by Large-Scale Web Data

Yiming Liu, Nanyang Technological University, Singapore Dong Xu, Nanyang Technological University, Singapore Ivor Wai-Hung Tsang, Nanyang Technological University, Singapore Jiebo Luo, Kodak Research Laboratories, Eastman Kodak Company, Rochester

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 5, pp. 1022-1036 , May 2011

Keywords: Textual query-based consumer photo retrieval, large-scale Web data, cross-domain learning.

デジタルカメラ及び携帯電話のカメラの急速な普及により、コンシューマによる個人写真コレクションが爆発的に増大している。本稿では、ウェブ上の大量の画像 とそれらに関連付けられたテキスト記述(脚注、カテゴリなど)を利用し、実時間のテキストクエリに基づく個人写真検索システムを紹介する。ユーザによりテキ ストクエリ(例えば「水」)が与えられると、本システムは、反転ファイル(inverted file)を用いて自動的に正解のウェブ画像を見つける。上記の例ではテキス トクエリ「水」に関連付けられたテキストを持つ画像が検索される。また、同時にこのテキストクエリに関連しない不正解画像についても検索される。このように 自動的に抽出された関連及び非関連ウェブ画像に基づき、3つのシンプルだが効果的な識別法を利用し、これらの個人画像をランク付けする。ここで利用される識別 法は、k最近傍法(k-Nearest Neighbor: kNN)、決定木stump(decision stumps)及び線形SVMである。画像検索性能をさらに向上させるために、ウェブ画像と個人 画像の両方を利用する交差領域学習(cross-domain learning)を用いた2つの関連性フィードバック法を提案する。特に本稿で提案する交差領域学習法は、学習済 み線形SVM識別器を実時間で用いることで、極めて少数のラベル付けされた個人写真を基に、頑健な識別器を学習することができる。更に、大規模なカスタマ写真デ ータベースにおける関連性フィードバックプロセスを顕著に高速化するための漸増型交差領域学習法を提案する。2つのコンシューマ写真データベースセットにおけ る大規模な実験により、我々のシステムの効果と効率性を例証し、本質的にこのシステムが特定の既定辞書に依存しないことを示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


次元削減のための連続SDP弛緩法の利用によるMin-Max距離解析
Max-Min Distance Analysis by Using Sequential SDP Relaxation for Dimension Reduction

Wei Bian, University of Technology, Sydney Dacheng Tao, University of Technology, Sydney

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 5, pp. 1037-1050 , May 2011

Keywords: Fisher's linear discriminant analysis, dimension reduction, convex relaxation, data visualization, pattern classification.

本稿で我々は、新しい判別的次元削減法(discriminative dimension reduction)である、max-min距離解析(max-min distance analysis: MMDA)を提案する。複 数の等分散ガウシアン(homoscedastic Gaussians)により表されるC個のクラスを持つデータセットが与えられた場合、MMDAは選択された低次元部分空間において 、これらC個のクラスの対間距離の最小値を最大化する。それゆえフィッシャーの線形判別分析(Fischer’s linear discriminant analysis: FLDA)や他の一般的 な判別的次元削減指標と異なり、MMDAは全てのクラス対の適切な分離を行う。データ分布の一般的なケースを取り扱うために、このMMDAをカーネルMMDA(kernel MMDA: KMMDA)に拡張する。MMDA/KMMDAによる次元削減により、正規直行(orthonormal)拘束条件付きの非平滑なmax-min最適化問題が得られる。この問題を適切に 解くための連続型凸最適化アルゴリズムを開発した。提案する指標の効果を評価するために、識別及びデータ可視化実験を合成及び実データを利用して行う。実験 結果により、提案最適化アルゴリズムに関連するMMDA/KMMDAの効果が例証される。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マイニューシャシリンダーコードに基づく指紋インデキシング
Fingerprint Indexing Based on Minutia Cylinder-Code

Raffaele Cappelli, DEIS-Universit? di Bologna, Cesena Matteo Ferrara, DEIS-Universit? di Bologna, Cesena Davide Maltoni, University of Bologna, Cesena

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 5, pp. 1051-1057 , May 2011

Keywords: Fingerprints, identification, indexing, locality-sensitive hashing, minutiae cylinder-code.

本稿では大規模データベースにおける指紋同定の速度を向上させるための新しいハッシュ法に基づくインデキシング法を提案する。局所性感度ハッシュ (Locality-Sensitive Hashing: LSH)法は、マイニューシャシリンダーコード(Minutiae Cylinder-Code: MCC)を利用し設計されている。このMCCは、マイニュー シャに基づく表現(位置/角度のみ)を、変化に不変な固定長二値ベクトルに非常に効率的にマッピングするものである。MCCベクトル間の類似性の数値的近似を利 用した、新しい検索アルゴリズムを設計した。大規模な実験により提案アプローチと15種類の既存手法との比較を行った。この比較は、指紋インデキシングで一般 的に利用される全てのベンチマークを利用して行われた。小規模な特徴セットを利用したにもかかわらず(最良の性能を持つ方法の多くは更に多くの種類の特徴を 組み合わせて用いることが多い)、提案する新しいアプローチは既存手法を殆どのケースで上回る性能を持っている。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自由形状オブジェクトの自動位置決めのための最近傍点共有のペナルティ化
Penalizing Closest Point Sharing for Automatic Free Form Shape Registration

Yonghuai Liu, Aberystwyth University, Ceredigion

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 5, pp. 1058-1064 , May 2011

Keywords: Tentative correspondence, closest point sharing, penalization, weight, deterministic annealing, accurate and robust registration, overlapping free form shapes.

重複のある自由形状オブジェクトの高精度な位置決めのために、一つのオブジェクト上の様々な点と、他のオブジェクト上の様々な点を、最も関連性の高い点対と して関連付ける必要がある。この理想的な状況に至るために、一つのオブジェクト上の複数の点が、他のオブジェクト上の一つの点に仮に対応付けられた場合に、 それらの点にペナルティを与えるような、新たなアルゴリズムを開発した。この新しいアルゴリズムでは、時間変化する仮の対応付けの相対的な重みを、一つのオ ブジェクトに属する点の数の負関数(negative function)としてモデル化する。この関数により、実際にそして理想的に、他のオブジェクト上の同じ最近点を選択 する。このようなモデリングにより、様々な仮の対応の重みの最適推定が得られる。この推定は決定論的焼きなまし法で行われるため、カメラの動きパラメタを重 み付き最少二乗的に推定することが可能となる。位置決めするべき重複する複数の自由形状オブジェクトの、重心の差異から導出される純粋な変換動きを用いて、 提案アルゴリズムを初期化する。典型的な撮像条件下で2つの異なるレーザースキャナーを用いて取得した、重複のある自由形状の実オブジェクトの位置決め実験を 行った結果、提案アルゴリズムが、精度と頑健性両方においていくつかの他の最新のアルゴリズムを上回る性能を持つことが示された。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スペクトラム上の距離に基づく形状認識
Shape Recognition with Spectral Distances

Michael M. Bronstein, Technion - Israel Institute of Technology, Haifa Alexander M. Bronstein, Tel-Aviv University, Tel-Aviv

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 5, pp. 1065-1071 , May 2011

Keywords: Diffusion distance, commute time, spectral distance, eigenmap, Laplace-Beltrami operator, heat kernel, distribution, global point signature, nonrigid shapes, similarity.

最近の研究で、非剛体形状解析を含む様々な種類のパターン認識アプリケーションに対して拡散幾何が有用であることが判ってきた。本稿では、スペクトラムを利 用したオブジェクト形状間距離を、分布に基づくオブジェクト形状類似性のための一般的なフレームワークとして紹介し、Rustamov、Mahmoudi、及びSapiroにより 最近開発された2つのオブジェクト形状類似性が、本稿で提案するオブジェクト形状間距離の特殊例であることを示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.33, No.6


最近傍特徴空間埋め込み法による顔認識
Face Recognition Using Nearest Feature Space Embedding

Ying-Nong Chen, National Central University, Jhongli Chin-Chuan Han, National United University, Miaoli Cheng-Tzu Wang, National Taipei University of Education, Taipei Kuo-Chin Fan, National Central University, Jhongli

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 6, pp. 1073-1086 , June 2011

Keywords: Face recognition, nearest feature line, nearest feature space, Fisher criterion, Laplacianface.

顔認識アルゴリズムでは、顔の向き、照明、表情(Pose, Illumination, and Expression: PIE)などの問題点をまず解決する必要がある。この影響を減少するために 、多くの研究者はより良い認識結果を得るために、線形であろうと非線形であろうと、固有空間内での最良識別変換を見つけるための努力をしてきた。色んな研究 者たちもまたPIEの効果を減少させるための新規なマッチングアルゴリズムを試みてきた。本研究において、顔認識のための最近傍特徴空間(Nearest Feature Space: NFS)埋め込みアルゴリズムを提案する。この変換には、ある点と最近傍特徴ライン(Nearest Feature Line: NFL)、あるいは、NFS尺度の距離が判別分析を通 して埋め込まれている。固有空間において、クラス分離性、隣接構造保存性、NFS尺度を含む3つの因子が最も有効な識別変換を見出し得ると考えられる。本提案手 法は、いくつかのベンチマークデータベースによって評価され、最新のアルゴリズムとも比較された。その比較結果によれば、本提案手法は他のアルゴリズムを凌 駕した。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


バイナリー潜在木の貪欲な学習法
Greedy Learning of Binary Latent Trees

Stefan Harmeling, Max Planck Institute for Biological Cybernetics, T?bingen Christopher K.I. Williams, University of Edinburgh, Edinburgh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 6, pp. 1087-1097 , June 2011

Keywords: Unsupervised learning, latent variable model, hierarchical latent class model, greedy methods.

観察によって潜在的構造を推測することは根本的なデータ生成プロセスを理解したりモデル化するために役立つ。潜在構造の豊富なクラスは潜在木であり、即ち、 可視変数が葉である木構造の潜在変数を含む分布を持っている。これらはまた階層的な潜在クラス(Hierarchical Latent Class: HLC)モデルとも呼ばれている。 Zhang and Ko?kaは、ベイズネット構造の学習を目指したこのようなモデルを学習ための探索アルゴリズムを提案した。このような手法は良い解を見つける可能性が ある一方で、計算量が多くなる可能性もある。代替案として、我々は2つの貪欲な(最長マッチ)手法を調べた:BIN-Gアルゴリズムはボトムアップ法によって潜在的 変数の木構造と濃度の両方を決定する。BIN-Aアルゴリズムは、部分クラスから成る凝集階層クラスタリングを使って、まず木構造を決定し、次に、BIN-Gとしての 潜在変数の濃度を決定する。我々の対象をバイナリー木に限定したとしても、Zhangの解(log尤度による交差検定された)と同程度のHLCモデルが得られ、同時により 早い演算が可能となる。この主張はデータ集合の総合的比較において妥当である。さらに、本手法が多数の変数を有する実データの潜在構造を推定解釈することが 可能であることを実証する。本手法を20個のニュースグループデータに限定して応用し、本モデルがトピックモデルと関連し、PASCAL Visual Object Classes (VOC) 2007チャレンジからのデータに関して、この木構造モデルが画像中の共起オブジェクトを理解するのを助けるかを示そう。本論文の全ての実験の再現性に関 して、全てのコードと集合(あるいは、データへのリンクも)が以下のサイトで参照可能である:http://people.kyb.tuebingen.mpg.de/harmeling/code/ltt- 1.4.tar.

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2D-3Dの姿勢推定と2D画像セグメンテーションのための非剛体のカーネルに基づく手法
A Nonrigid Kernel-Based Framework for 2D-3D Pose Estimation and 2D Image Segmentation

Romeil Sandhu, Georgia Institute of Technology, Atlanta Samuel Dambreville, Georgia Institute of Technology, Atlanta and the Boston Consulting Group Anthony Yezzi, Georgia Institute of Technology, Atlanta Allen Tannenbaum, Georgia Institute of Technology, Atlanta and Technion, Israel-Institute of Technology, Haifa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 6, pp. 1098-1115 , June 2011

Keywords: 3D pose estimation, image segmentation, statistical learning, kernel PCA.

本研究において、我々は非剛体を対象とした、2D-3Dの姿勢推定と2D画像セグメンテーションの両者を同時に満足する解法を紹介する。一般的に、姿勢推定とセグメ ンテーションの両者を連携するほとんどの枠組みでは、その一方は3Dオブジェクトの正確な知識を有している。しかし、与えられた形状が与えられた(例えば車とか 、船とか、飛行機とかの)種類の一般的形状に属しているとの情報だけの非理想的条件なら、上記仮定は満たされてない。それ故、関連するスケルトンモデルを連想 することが難しい一般的形状のオブジェクトや変形の3Dモデルを内在する非線形な多様体を手がかりとする2D-3D姿勢推定と2D画像セグメンテーションの解法を提案 する。このように、我々の解法の新規性は3つあり、その第1は非剛体の姿勢推定と画像セグメンテーションの課題を勾配流として提示したことである。第2に、学習 集合が非線形構造である可能性によって、形状解析の課題のためにカーネルPCAによって得られた事前画像を進化させる。第3に、形状に関して、重みは一般的に導 かれた。このため、他の統計的学習法だけでなく、多様なカーネルを利用することが出来、全体的な形状の進化手法に僅かの変化を追加すれば済む。他の手法と比 べ、我々は、有限次元の最適化手法によって、無限次元である非剛体の課題に対処可能である。より重要なことは、スケルトンモデルで必要とされる形状学習によ って間接的に多数の形状相互の明確な違いを知る必要が無いことである。我々は、姿勢推定とセグメンテーションに対するいくつかの困難な課題にして、実験的結 果を示す。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般化形状のロバストな整列のためのグローバルな近似的最適化
Approximately Global Optimization for Robust Alignment of Generalized Shapes

Hongsheng Li, Lehigh University, Bethlehem Tian Shen, Lehigh University, Bethlehem Xiaolei Huang, Lehigh University, Bethlehem

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 6, pp. 1116-1131 , June 2011

Keywords: Shape alignment, point registration, matching, distance transform, particle swarm optimization.

本論文では我々は形状の整列問題を解くための新規な手法を紹介する。我々は元の形状の表現にグレイスケール画像を利用し、ターゲット形状のために新規な2成分 のガウス混合(Gaussian Mixture=GM)距離マップ表現することを提案する。この非対称な表現法は柔軟性のある表現法であり、連続輪郭線、非構造的な疎点集合、エ ッジマップ、グレイスケールの勾配マップなどを表現できる。本表現法を使って新規な2成分ガウス混合距離モデルに基づく新規なエネルギー関数を提案する。この 新規なエネルギー関数は経験的に評価した結果、計算が効果的で、よりロバストな形状の非類似性尺度を評価できる。このような高効率性はグローバルな最適化手 法には不可避である。我々はそのような手法の一つを採用し、これを変形したParticle Swarm Optimization (PSO)法によって、新規なエネルギー関数のグローバル な最適化を推定した。このオリジナルなPSOとは異なった、もっとロバストで、中途で収束することが無いような新規ないくつかの戦略を採用した。本提案手法全体 の効率は各アルゴリズム成分の特性と共に評価され、最新の手法と比較された。一般化された2D,3D形状のデータに対する広範な実験と比較から、本手法のロバスト 性と有効性が実証された。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


時間的変化を伴う濃度画像からの力の推定と予測
Force Estimation and Prediction from Time-Varying Density Images

Srinivasan Jagannathan, Massachusetts Institute of Technology, Cambridge Berthold Klaus Paul Horn, Massachusetts Institute of Technology, Cambridge Purnima Ratilal, Northeastern University, Boston Nicholas Constantine Makris, Massachusetts Institute of Technology, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 6, pp. 1132-1146 , June 2011

Keywords: Force estimation, density prediction, compressible flow estimation, minimum energy flow.

濃度画像系列から、動きを生じさせる力を推定する手法を提案する。これらの力を利用して速度を予測し濃度を進化させる手法を紹介する。そのためには最小エネ ルギーフロー(Minimum Energy Flow:MEF)法を定式化し、時間的に変化する濃度画像から非圧縮性、かつ、圧縮性のフローの両方を推定する。このMEFと力推定法の 両方は実験的に得られた濃度画像に、そして、マイクロメートルからキロメートルにわたる空間スケールに応用された。例えば、細胞分裂の連続濃度画像に適用し た結果、細胞内の明瞭な圧力勾配によって細胞分裂が駆動されていることが示された。魚群の濃度画像に対して、1) 何十キロメートルに及ぶ魚のグループ間の群れ の動力学、2) 大きな魚群の異なる部分間の魚集団のフロー、3) 大きな魚群に作用するストレス、を定量化した。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


次元削減のための複数カーネル学習法
Multiple Kernel Learning for Dimensionality Reduction

Yen-Yu Lin, Academia Sinica, Taipei Tyng-Luh Liu, Academia Sinica, Taipei Chiou-Shann Fuh, National Taiwan University, Taipei

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 6, pp. 1147-1160 , June 2011

Keywords: Dimensionality reduction, multiple kernel learning, object categorization, image clustering, face recognition.

複雑な視覚的学習課題を解く必要がある場合、その効率を改善するためには、複数の記述子を採用してデータをもっと詳細に特徴付けすることは妥当な手法である 。その結果得られるデータ表現は通常高次元となり、多様な形式を想定することになる。従ってこれらを低次元の統合空間に変換する手法を見つけるにはオブジェ クト認識やクラスタリングのような基本的課題を手助けする。本目的のために、提案手法(MKL-DRと称す)は次元削減のために複数のカーネル学習法を一般化し、以 下の3つの寄与による特異性を発揮する:第1に基本的データの多様な面を有効に特徴づける多様な表現を利用する。第2に既存の多様な次元削減手法を複数のカー ネル学習法に拡張し、その結果、その有効性を改善する。第3に次元削減に関する手法に焦点を当て、定式化は、複数カーネル学習という枠組から、教師付き学習だ けではなく、教師無し学習、あるいは、半教師付き学習を目指した新しい応用事例を紹介する。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


凸領域上の凸汎関数を介した多視野ステレオとシルエット画像の整合性
Multiview Stereo and Silhouette Consistency via Convex Functionals over Convex Domains

Daniel Cremers, Technical University of Munich, M?nchen Kalin Kolev, Technical University of Munich, M?nchen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 6, pp. 1161-1174 , June 2011

Keywords: Image-based modeling, silhouette and stereo fusion, convex optimization.

多視野画像による3D再構成画像のシルエット画像とステレオ融合のための凸定式化を提案する。そのカギとなるアイデアは、正確なシルエットが整合性を持つため には可能性のある関数の凸領域に限定した、凸汎関数の最小値を再構成することを示すことにある。その結果、コスト汎関数としてオリジナルのステレオ重み付き 表面領域を保持しながら、このエネルギーをバルーン項や他の戦略によって発見的に変形させないで、シルエットが正確に一致するような意味のある外形を復元す ることである。本提案の凸弛緩手法は最適解の範囲内の解を提供することを証明する。それ以外の従来手法と比べ、提案手法は初期条件に依存せず、凸集合として 投影される集合に整合性のある条件を付加するだけで、より簡単で、よりロバストな、数値解を導く。この投影は効率的なアルゴリズムによって厳密に解くことが 出来ることを示す。その結果としての凸最適化問題をグラフィックカード上に並行処理できる実装化を提案する。光学的整合性を有するマップと画像のシルエット の組が与えられれば、高精度でシルエットに合致する実世界のデータを再構成することができる。特に、実験画像が実証しているように、構造化した形状の詳細を 保存することが出来る。計算時間は入力画像の解像度に依存し、本論文のすべての実験に対して、数秒から数分に至るまでの変動幅がある。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Visual Hull(視体積交差領域)情報からのオンラインジェスチャー検出
Online Gesture Spotting from Visual Hull Data

Bo Peng, Arizona State University, Tempe Gang Qian, Arizona State University, Tempe

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 6, pp. 1175-1188 , June 2011

Keywords: Online gesture spotting, view invariance, multilinear analysis, visual hull, hidden Markov models, nongesture models.

本論文はVisual Hull (視交差領域)情報からオンラインで全身のジェスチャーを検出するためのロバストな枠組みを紹介する。観察したとき、視点に不変な姿勢特 徴量を利用してジェスチャーを検出するために、連続的な画像データの流れを利用して隠れマルコフ法(HMM)によって学習させる。本論文の主要な寄与項目は、1) Visual Hull情報から視点不変な姿勢特徴を抽出し、2) ジェスチャー検出のために外れ値を除外してHMMを利用した自動的に特定の非ジェスチャー的動きを検出・モ デル化するシステム的手法。この実験によれば、本提案方式は、学習した姿勢に関しても未知の非学習の姿勢に関してもいずれも視点不変の特徴を捕え、外れ値を 除外するための特定の非ジェスチャーも有効に利用した。IXMASのジェスチャーのデータ集合を利用して、提案手法は徹底的にテストされ、このジェスチャー検出法 の結果が従来のジェスチャー検出の最新手法に比べて優れた結果が得られた。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所的な幾何情報や統計情報に基づく特徴的パターンの選択
Selecting Critical Patterns Based on Local Geometrical and Statistical Information

Yuhua Li, University of Ulster, Londonderry Liam Maguire, University of Ulster, Londonderry

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 6, pp. 1189-1201 , June 2011

Keywords: Pattern selection, data reduction, border pattern, edge pattern.

パターン選択手法は伝統的に特定の識別器に依存して発達して来た。これに対し、基本的にどんな用途にも応用可能な基本的情報、特に空間的学習データ集合によ る識別器、を選ぶための手法を紹介する。特別なパターンとは、境界線を定義するエッジや、クラスを分離する境界上のパターンを含む。本提案手法は新たな観点 からパターンを選び、主として入力空間内の位置に依存している。これはクラス表面に概略接する超平面を利用したクラスの境界パターンを決定する。これはまた 、局所的確率を利用してクラス間の境界パターンをも同定する。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オブジェクト表面の明度とテクスチャー中のアンカーポイントを利用した陰影の除去
Shadow Removal Using Intensity Surfaces and Texture Anchor Points

Eli Arbel, University of Haifa, Haifa Hagit Hel-Or, University of Haifa, Haifa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 6, pp. 1202-1216 , June 2011

Keywords: Shadow removal, shading, color, texture, shadow detection, region growing, enhancement.

一枚の画像から影を除くことは困難な課題である。この画像が、もともと影の無い画像を目指すならもっと困難な課題である。画像中の影は、照明条件や陰影のあ る表面、および、隠蔽などのような物理現象の影響を受けたいくつかの現象によって生じる。さらに、陰影領域はもともと陰影の無い画像に、後からわざとコント ラストを強調するために陰影をつけるという人工的画像処理によっても付加される可能性がある。我々は単一画像から陰影を除去するという課題の複雑さに起因す る仮定を議論し、これらの手法によって除去可能な陰影画像に対象を絞る。本論文の目的は2つある:第1にこれらの課題に対する総合的な調査と単一画像から陰影 を除去する場合の困難さに挑戦することである。本論文の第2の部分では陰影の除去法を紹介し、その中では第1に述べた根本的な課題の解決法を紹介する。この実 験によって我々のアルゴリズムの可能性が実証できた。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


フィッシャー-マルコフ分類器:マルチクラス識別のための最大分化性能を持つ特徴サブセットの高速選択と、高次元のデータのためのアプリケーション
The Fisher-Markov Selector: Fast Selecting Maximally Separable Feature Subset for Multiclass Classification with Applications to High-Dimensional Data

Qiang Cheng, Southern Illinois University Carbondale, Carbondale Hongbo Zhou, Southern Illinois University Carbondale, Carbondale Jie Cheng, University of Hawaii at Hilo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 6, pp. 1217-1233 , June 2011

Keywords: Classification, feature subset selection, Fisher's linear discriminant analysis, high-dimensional data, kernel, Markov random field.

マルチクラス識別のために特徴を選ぶことは、パターン認識と機械学習アプリケーションのための大変重要な作業である。高次元データから最適な特徴サブセット を選ぶことは特に困難である。そして通常、観察値より多くの変数を持ち、顕著なノイズ、構成要素の欠落、及び外れ値の混入などが起こる。既存の方法は、高次 元のデータを効率的、もしくは高い拡張性を持って取り扱うことが出来ないか、大域最適値の代わりに局所最適値を得ることが出来るだけである。効率的で大域最 適な特徴サブセットの選択のために、新しい選択器を導入する。我々はこれをフィッシャー-マルコフ(Fisher-Markov)選択器と呼んでおり、これは可能性のある グループの中から本質的な違いを説明することに最も役立つ特徴を同定するためのものである。特に、この論文において、我々は最適化目的としてまばらさを伴っ た本質的な識別をするための特徴を表現する方法を提示する。まばらさと、高次元のデータを扱う場合における識別性のために適切に同定された尺度を利用するこ とで、我々は最良の特徴サブセットを選ぶための尺度を最適化するために組織的なアプローチをとる。我々は、同時特徴選択のために定式化された目的関数を解く ために、マルコフ確率場の最適化テクニックを使う。我々の結果は組み合わせに依存しない。また特定のカーネルのための目的関数の厳密な大域最適を達成するこ とができる。本手法は高速である。;特に、特徴数に対して線形であり、観測数の二乗に対して線形でありえる。我々は、本手法を様々な現実のデータに適用する 。それは中次元の光学的手書き数字データセットと、高次元マイクロアレイ遺伝子発現データセットを含んでいる。我々の方法の効果を、実験結果によって確認し た。パターン認識分野のモデル選択の視点から考えて、我々の手法を用いることで、明示的表現として得られる非常に単純な無拘束の目的関数を解くことによって 、変数で最も識別能の高いサブセットを選ぶことが出来ると言える。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般的な二値MRF最小化の一次の場合への変換
Transformation of General Binary MRF Minimization to the First-Order Case

Hiroshi Ishikawa, Waseda University, Tokyo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 6, pp. 1234-1249 , June 2011

Keywords: Energy minimization, pseudo-Boolean function, higher-order MRFs, graph cuts.

二値ラベルを持った一般的な高次マルコフ確率場を、同じ最小値を持つ一次マルコフ確率場へ変換する方法を紹介する。また、我々は高次マルチラベルのMRFエネル ギーを近似的に最小限にするための、融合移動(fusion-move)を伴う新しい次元削減法とQPBOアルゴリズムを組み合わせたフレームワークを定式化する。今日の多 くのコンピュータビジョン問題がエネルギーの最小化問題として定式化されているが、それらは殆どの場合単項と対のクリークポテンシャルから成る一次エネルギ ーを使用するのに限られている。例外的に3項からなるクリークポテンシャルを考慮する例もある。この原因は、高次相互作用に伴うエネルギーを最適化できる効率 的なアルゴリズムが無いためである。我々のアルゴリズムは、高次のエネルギーを用いて自然シーンが持つ統計量を充分に利用できるように、モデルの表現力に対 する制約を緩める。我々はいくつかの最小化法が、今回提示したフレームワークの特別なケースであると考えられることを示す。また本手法を他の手法と実験的に 比較する。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


部分最小二乗法を使った車両探知
Vehicle Detection Using Partial Least Squares

Aniruddha Kembhavi, Microsoft Corporation, Redmond David Harwood, University of Maryland, College Park Larry S. Davis, University of Maryland, College Park

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 6, pp. 1250-1265 , June 2011

Keywords: Vehicle detection, partial least squares, feature selection.

都市計画から画像による監視まで、航空写真における車両の検知には、広範囲にわたるアプリケーションがある。我々は、大規模且つ情報豊かな画像記述子の組み を取り入れることにより、従来のアプローチを改良する車両探知器を紹介する。指向グラデーション特徴のヒストグラムと対画素(Pairs of Pixels)と呼ばれるオブ ジェクトの構造的な特徴を取得する、簡素だが強力な画像記述子と一緒に、カラー確率マップと呼ばれる新しい特徴セットを用いることで、自動車とその周辺の色 の統計情報を獲得する。これらの特徴の組み合わせは、極めて高次元の特徴のセットとなる(およそ70,000の要素)。まず部分最小二乗法(Partial Least Squares )を用いて、データを非常に低い次元の部分空間に投影する。次に強力な特徴選択分析を使用して、計算が必要な特徴の数を大幅に減らしながら性能を向上させる 。2つの困難なデータセットを用いて、以前のアプローチと我々のシステムを比較したところ、我々の手法が優れた性能を示す。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ハイパーグラフの分割による教師なしの画像カテゴリ化
Unsupervised Image Categorization by Hypergraph Partition

Yuchi Huang, Rutgers University at New Brunswick, Piscataway Qingshan Liu, Rutgers University at New Brunswick, Piscataway Fengjun Lv, NEC Laboratories America, Inc, Cupertino Yihong Gong, NEC Laboratories America, Inc., Cupertino Dimitris N. Metaxas, Rutgers University at New Brunswick, Piscataway

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 6, pp. 1266-1273 , June 2011

Keywords: Unsupervised image categorization, hypergraph, hypergraph partition.

我々は特定の対象を含んでいる画像がハイパーグラフの中で頂点としてとられる、教師なし画像カテゴリ化のためのフレームワークを提示する。このフレームワー クでは画像クラスタリングはハイパーグラフ分割の問題として定式化される。最初に、提案手法により各画像の関心領域(ROI)を選ぶ。次に、ハイパーエッジを ROIから抽出した形状と外観の特徴に基づいて構成する。各頂点(画像)とその(形状や外観記述に基づく)k-近傍は、2種類のハイパーエッジを構成する。ハイパ ーエッジの重みは、ハイパーエッジの範囲内で対となる類似性の合計として計算される。全てのハイパーエッジを通して、画像間の局所的なグループ関係が記述さ れるだけでなく、形や外観の特徴を利用する利点もまた、クラスタリングの効率を強化するために一緒に統合される。最後に、一般的なスペクトルクラスタリング 手法を用いて、ハイパーグラフ分割問題を解く。提案手法をいくつかの方法と比較した。その効果を3つの画像データベースの大規模な実験によって示す。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


MRF モデルの画像マッチングに基づく姿勢に不変な顔認識のためのエネルギーの正規化
Energy Normalization for Pose-Invariant Face Recognition Based on MRF Model Image Matching

Shervin Rahimzadeh Arashloo, University of Surrey, Guildford Josef Kittler, University of Surrey, Guildford

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 6, pp. 1274-1280 , June 2011

Keywords: Markov random fields, structural image analysis, image matching, face recognition, pose invariance.

マルコフ確率場(Markov Random Fields: MRFs)上で定式化される画像マッチング方法に基づく姿勢に不変な顔認識システムを紹介する。この方法は、適合度の尺 度として画像間での一致のエネルギーを使う。この方法は、ギャラリー(検索対象画像)とテスト画像の間のある程度の大域的空間変換に対して耐性があり、シス テムの一部として位置合わせの処理段をカプセル化することによって、顔画像に対する幾何学的な前処理の必要性を軽減する。これは、非正面顔画像に対しては訓 練を必要としない。ラベル枝刈りや、エラーの事前白色化尺度(error prewhitening measure)に加え、ダイナミックブロックサイズとブロック形状適応などの多 くの革新的な技術を、このアプローチの有効性を高めるために導入する。この方法の実験的評価を、2つの公開データベース上で行う。最初に、この方法を検証段に おいてXM2VTSデータセットの回転ショットに関して試験する。次に、この評価をCMU-PIEデータベースで識別シナリオにおいて実施する。この方法は、識別と検証シ ナリオの両方で、両方のデータベース上の既存の2次元または3次元の生成モデルベースの方法と比べても遜色が無い。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.33, No.7


協調型且つコンテンツベースの統合型画像タグ付けのためのハイブリッド確率モデル
A Hybrid Probabilistic Model for Unified Collaborative and Content-Based Image Tagging

Ning Zhou, University of North Carolina, Charlotte William K. Cheung, Hong Kong Baptist University, Hong Kong Guoping Qiu, University of Nottingham, Nottingham Xiangyang Xue, Fudan University, Shanghai

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 7, pp. 1281-1294 , July 2011

Keywords: Automatic image tagging, collaborative filtering, feature integration, nonnegative matrix factorization, kernel density estimation.

ユーザから提供された大規模なラベル付き画像集の可用性が増してきており、これは画像検索を助けるための画像のタグ付けのための自動 化ツールの開発の機会となるものである。本稿では、新しいハイブリッド確率モデル(hybrid probabilistic model: HPM)を紹介する。こ れは低次元画像特徴と高次元のユーザ提供のタグを統合し、自動的に画像をタグ付けするものである。タグの無い画像については、HPMは低 次元画像特徴のみに基づいて新しいタグを推測する。ユーザ提供のタグのある画像については、HPMは追加で付与するタグをユーザに推薦す るための統一された確率論的フレームワークにより、画像特徴と既存のタグ両方を利用する。HPMフレームワークは、タグ?画像関連行列( tag-image association matrix: TIAM)を利用する。しかし、画像数が非常に多く、且つユーザ提供のタグがバラバラであるためTIAMは極 めて疎であり、それゆえタグ間の共起確率を高い信頼性で推定することが難しくなっている。本稿で我々は、このデータ疎性問題を取り扱 うための非負行列分解(nonnegative matrix factorization: NMF)に基づく協調フィルタリング法を開発する。更にL_1ノームカーネル法 を用いて、画像特徴とセマンティックなコンセプトの間の相関を推定する。提案アプローチの有効性を、3つのデータベースを用いた実験に より評価した。これらのデータベースにはそれぞれ、5000画像371タグ、31695画像5587タグ、269648画像5018タグが含まれる。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数画像レイヤーのためのαマットの推定
Estimation of Alpha Mattes for Multiple Image Layers

Dheeraj Singaraju, The Johns Hopkins University, Baltimore Ren? Vidal, The Johns Hopkins University, Baltimore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 7, pp. 1295-1309 , July 2011

Keywords: Image matting, alpha matte, multiple layers, matting Laplacian, superposition principle.

画像マット化とは、各画素におけるαマットの推定を取り扱う。αマットとは、画像中の前景及び背景オブジェクトがそれぞれ各画素にお いてどのような割合で寄与しているかを示すものである。画像マット化のための既存手法の多くは、2枚の画像のαマットの推定を行えるだ けだった。しかしいくつかのアプリケーションでは、複数オブジェクトの編集が興味の対象となる。本稿では、複数(2以上)の画像レイヤ ーのαマットの推定問題を取り扱う。この問題が、n個のより単純な2画像のαマット推定の部分問題に分解できることを示す。更に問題構 成の仕方によっては、各画素の複数画像レイヤーにおけるαマットの推定値の合計が1になることを示す。我々のフレームワークの主な特徴 は、αマットを閉形式で推定することができることである。この推定で用いられる空間的正則化の性質のため、最終的に推定されるアルフ ァマットは、0から1の間の値に拘束されないことを示す。それゆえ、αマットの値が非負であり、且つ各画素における合計が1になるという 条件下での、複数画像レイヤーのαマットの推定問題の最適化を検討する。我々の提案手法を用いて複数画像レイヤーのマット値を導出す ることができることを実験により示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


人間の行動認識のための隠蔽部分のモデル:確率論的手法v.s.マージン最大化法
Hidden Part Models for Human Action Recognition: Probabilistic versus Max Margin

Yang Wang, University of Illinois at Urbana-Champaign, Urbana Greg Mori, Simon Fraser University, Burnaby

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 7, pp. 1310-1323 , July 2011

Keywords: Human action recognition, part-based model, discriminative learning, max margin, hidden conditional random field.

本稿では、動きの特徴を用いたビデオ画像系列からの人間の行動認識のための部分に基づいた識別的アプローチを紹介する。我々のモデル は、最近提案された物体認識のための隠れ条件付き確率場(hidden conditional random field: HCRF)に基づいている。物体認識のための HCRFに類似して、画像観測の結果に基づいて条件付けされた体の部位の柔軟な配置により、人間の体をモデル化する。物体認識と異なり、 我々のモデルは大規模な大域特徴と局所パッチ特徴を組み合わせることで、様々な行動を識別する。実験結果により、我々のモデルが他の 最新の行動認識アプローチに伍する性能を持つことが示される。特に大規模な大域特徴と局所パッチ特徴の組み合わせが、HCRFを局所パッ チのみに直接適用するよりも顕著に優れた性能を持つことが実験の結果により示される。マージン最大化フレームワークにおいてHCRFモデ ルのパラメタ学習のための代替手法についても提案する。この方法をマージン最大化隠れ条件付き確率場(max-margin hidden conditional random field: MMHCRF)と呼ぶ。人間の行動認識においてMMHCRFがHCRFを上回る性能を持つこと示す。更にMMHCRFがこれまでの手法より大 幅にひろい種類の、コンピュータビジョンにおける様々な問題の複雑な隠れ構造を取り扱えることを示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高次次元のアフィン整列と画像処理アプリケーション
Higher-Dimensional Affine Registration and Vision Applications

S.M. Shahed Nejhum, University of Florida, Gainesville Yu-Tseh Chi, University of Florida, Gainesville Jeffrey Ho, University of Florida, Gainesville Ming-Hsuan Yang, University of California at Merced, Merced

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 7, pp. 1324-1338 , July 2011

Keywords: Affine registration, point matching, stereo correspondence.

アフィン整列はコンピュータビジョンの研究において、長らく研究されてきた。また様々な有用な成果も上がっている。特に{¥hbox{¥rlap {I}¥kern 2.0pt{¥hbox{R}}}}^2 and {¥hbox{¥rlap{I}¥kern 2.0pt{¥hbox{R}}}}^3設定におけるアフィン整列について大規模なな検討が行わ れてきた。本稿では典型的なmが4ないし12である場合の{{¥hbox{¥rlap{I}¥kern 2.0pt{¥hbox{R}}}}}^m設定におけるアフィン整列を取り扱 う。このように次元性の制約を取り払うことを正当化するために、本稿前半では、3次元以上の空間におけるアフィン点群整列問題として定 式化と解くことができる3つの新しいマッチング問題について説明する。これは即ち、動きのある条件下でのステレオ画像対応、画像セット のマッチング、共分散点群マッチング(covariant point-set matching)である。これらの問題は単に技術課題として面白いというだけで なく、重要なコンピュータビジョンのアプリケーションに対するポテンシャルを持っている。残念ながら、既存の殆どのアフィン整列アル ゴリズムは非効率的であり、そのため高次元データのための一般化が難しい。それゆえ本稿後半では、{¥hbox{¥rlap{I}¥kern 2.0pt{¥hbox {R}}}}^mにおける2つの点群間のアフィン変換を推定するための新しいアルゴリズムを開発する。特に、本アルゴリズムは、対応付けと変換 を反復的に解く一般的なアプローチに従っている。新たな局所スペクトラル特徴を用いることで、対応の初期値を決定する。この特徴は局 所距離尺度により構成される。他の対応付けに基づく方法の多くと異なり、提案アルゴリズムは、様々なサイズでの点群の位置決め能力が あり、局所特徴を用いることで、ノイズ及びはずれ値に対するある程度の頑健性を持っている。広範な変形具合とノイズ量における様々な 次元数の合成点群を用いて、提案アルゴリズムを検証する。また本稿では、本稿で提案するアフィン整列アルゴリズムを用いることで、前 述の3つのマッチング問題が充分に解けることを実証的に示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スケールと回転に不変な線形マッチング
Linear Scale and Rotation Invariant Matching

Hao Jiang, Boston College, Chestnut Hill Stella X. Yu, Boston College, Chestnut Hill David R. Martin, Google Inc., Mountain View

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 7, pp. 1339-1355 , July 2011

Keywords: Scale and rotation invariant matching, deformable matching, linear programming, action detection, shape matching, object matching.

スケールの変化と回転を伴い、更に各個が変形するような画像パターンのマッチングは困難な課題である。本稿で我々は、この課題の線形 の定式化を提案する。この定式化により、拘束線形空間(constrained linear space)において特徴点マッチングと大域的幾何変換を同時 に行う。この線形法により、より低次の凸交差領域特性(convex hull property)に基づく探索空間の絞り込みができる。これにより、元 々の困難な組み合わせ問題のサイズを大幅に縮小できる。そのため、我々の手法は、多数の候補特徴点を含む大規模な問題を解くために用 いることができる。事前の探索空間の枝刈を行うことなく、本手法は、弱特徴と散乱をより頑健に扱うことができる。提案手法を行動認識 と画像マッチングに適用する。様々な種類の画像及びビデオを対象とした実験の結果により、我々の手法が正確で効率的、そして頑健であ ることを示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多変量球面放射基底関数による双方向テクスチャ関数のモデリング
Modeling Bidirectional Texture Functions with Multivariate Spherical Radial Basis Functions

Yu-Ting Tsai, Yuan Ze University, Chung-Li City Kuei-Li Fang, National Chiao Tung University, Hsinchu Wen-Chieh Lin, National Chiao Tung University, Hsinchu Zen-Chung Shih, National Chiao Tung University, Hsinchu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 7, pp. 1356-1369 , July 2011

Keywords: Reflectance and shading models, bidirectional texture functions, parameterization, spherical radial basis functions.

本稿では双方向テクスチャ関数のための新しいパラメトリック表現を紹介する。提案手法は我々が開発した2つの技術に基づくものである。 すなわち多変量球面放射基底関数(spherical radial basis functions: SRBFs)および最適パラメタ化である。実世界オブジェクトの表面 の見えは、多くの場合さまざまな物理的要素の混合効果によるものである。そのため提案手法は、多変量SRBFに基づく積和モデルとなって いる。これは特に異質材質のための本質的且つ効率的な表現である。次に最適パラメタ化は特に従来の固定パラメタ化の主な欠点を克服す るためのものである。可変変換を行うためのパラメトリックモデルを用いることで、統合されたフレームワーク内でパラメタ化プロセスを 多変量SRBFと強固に結びつけることが出来る。最後に、双方向テクスチャ関数のための階層的フィッティングアルゴリズムを開発し、空間 的コヒーレンスの利用と計算コストの低減を行う。実験の結果により、本稿で提案する表現を用いることで、高品質近似および実時間レン ダリング性能を簡単に達成できることを示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Penrose画素による超解像度処理
Penrose Pixels for Super-Resolution

Moshe Ben-Ezra, Microsoft Research Asia, Beijing Zhouchen Lin, Microsoft Research Asia, Beijing Bennett Wilburn, Refocus Imaging Wei Zhang, The Chinese University of Hong Kong, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 7, pp. 1370-1383 , July 2011

Keywords: Super-resolution, Penrose tiling, CMOS sensor, CCD sensor.

再構成に基づく超解像度処理のための新しいアプローチを紹介する。本アプローチでは、Penroseタイリングや生物の網膜のような非周期的 画素タイリングを用いることで性能向上を行う。この目的のために、よく知られた誤差逆射影法(error back projection)による超解像度 アルゴリズムの新しい派生法を開発する。これにより、逆投影演算子の中で厳密検出器モデル(exact detector model)の利用が可能とな り、より高い精度を実現できる。我々のモデルにおける画素は、形状およびサイズが可変のものであり、隣接画素間にも間隙が存在しうる 。提案アルゴリズムは、周期型、および非周期型画素タイリングの両方に適用することができる。合成および実データを用いた解析および 大規模な実験の結果により、非周期レイアウトを用いる我々のアプローチが、既存の標準的な画素アレイのための再構成に基づく超解像度 処理の性能を顕著に上回ることを示す。PenroseタイリングによるCMOSやCCDの製造の実現性を議論し本稿を結論する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パワーウォーターシェッド:統合型のグラフに基づく最適化フレームワーク
Power Watershed: A Unifying Graph-Based Optimization Framework

Camille Couprie, Universit? Paris-Est, ESIEE, Noisy-le-Grand Leo Grady, Siemens Corporate Research, Princeton Laurent Najman, Universit? Paris-Est, ESIEE, Noisy-le-Grand Hugues Talbot, Universit? Paris-Est, ESIEE, Noisy-le-Grand

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 7, pp. 1384-1399 , July 2011

Keywords: Combinatorial optimization, image segmentation, graph cuts, random walker, shortest paths, optimal spanning forests, Markov random fields.

本研究では、グラフカット、ランダムウォーク、そして最短パス最適化アルゴリズムなどの一般的なグラフに基づく画像分割フレームワー クを拡張する。画像を重み付きグラフとみなし、これらのアルゴリズムは、隣接ノード間の差異に対する指数として異なるパラメタqを持つ 、同一のエネルギー関数を用いて表現できる。エッジに対する重みの指数として働くパラメタpを新たに導入し、これによりウォーターシェ ッド法のための最適スパニングフォレストアルゴリズム(optimal spanning forest algorithm)を、前記のフレームワークで用いことが可 能となる。このうえで新たな種類の分割アルゴリズムを提案する。これはpを固定し、且つqを通常のウォーターシェッドアルゴリズムを超 える値で変化させることで、最適なスパニングフォレストを与えるものであり、我々はこれをパワーウォーターシェッドと名付けた。特にq が2のとき、パワーウォーターシェッドはマルチラベル且つスケールとコントラストに不変な、単一の大域最適解を準線形時間で導出できる 。ウォーターシェッドアルゴリズムをエネルギー最小化フレームワークで取り扱うことで、従来のウォーターシェッド分割の単一項の利用 に新たな可能性を与え、画像分割のみならず、他のアプリケーションにおけるより一般的なモデルの最適化にウォーターシェッドを使える ようにする。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高品質奥行きマップのための飛行時間型奥行きと立体視計算ための幾何モデルにおける信頼性融合
Reliability Fusion of Time-of-Flight Depth and Stereo Geometry for High Quality Depth Maps

Jiejie Zhu, University of Kentucky, Lexington Liang Wang, University of Kentucky, Lexington Ruigang Yang, University of Kentucky, Lexington James E. Davis, University of California, Santa Cruz Zhigeng Pan, Zhejiang University, Hangzhou

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 7, pp. 1400-1414 , July 2011

Keywords: Time-of-Flight sensor, multisensor fusion, global optimization, stereo vision.

飛行時間奥行きセンサー(time-of-flight)は、受動型ステレオ法立体視に比べ誤差が出やすいが、白い壁などの受動型が上手く働かない 条件下でも実時間の奥行き推定を与えることができる。対照的に、これらのセンサーはノイズが多く、ステレオ法が上手く働くようなテク スチャのあるシーンでは性能が低下する傾向がある。本稿では、これらの相補的特性を調査し、両者からの結果を組み合わせることで、各 個の性能を上回る性能を持つ方法を提案する。我々の情報融合フレームワークでは、これら各個のセンサーモダリティから得られる、複数 の奥行きの確率分布関数を定式化し最適化する。各手法に対して計算される、画素毎の信頼性重み付け関数に基づいて頑健且つ適応的な情 報融合法を構築する。更に各飛行時間デバイスは各個に用いられてきたため、それぞれのキャリブレーション性能は低い。大規模な実験の 結果に基づいて、提案手法が精度及び頑健性を向上させることを例証する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ユークリッド空間における弾性曲線の形状解析
Shape Analysis of Elastic Curves in Euclidean Spaces

Anuj Srivastava, Florida State University, Tallahassee Eric Klassen, Florida State University, Tallahassee Shantanu H. Joshi, UCLA School of Medicine, Los Angeles Ian H. Jermyn, Durham University, Durham

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 7, pp. 1415-1428 , July 2011

Keywords: Elastic curves, Riemannian shape analysis, elastic metric, Fisher-Rao metric, square-root representations, path straightening method, elastic geodesics, parallel transport, shape models.

本稿では、平方根速度(square-root velocity: SRV)表現を紹介する。これは弾性距離を持つユークリッド空間における曲線の形状解析の ための表現である。このSRV表現では、弾性距離は{¥hbox{¥rlap{I}¥kern 2.0pt{¥hbox{L}}}}^2距離に簡単化される。再パラメタ化群 (reparameterization group)は等長写像(isometry)を利用して駆動される。単位長曲線の形状が単位球面となる。閉曲線の形状空間は 、この単位球面、合同回転(modulo rotation)、及び再パラメタ化群の(部分多様体の)商空間(quotient space)であり、この空間にお ける測地線をパス直線化アプローチ(path straightening approach)により見つける。これらの測地線(geodesics)及び測地距離 (geodesic distance)により、形状間の最適なマッチング、変形、そして比較のためのフレームワークが得られる。これらのアイディアを 以下の4つの項目により例証する。1)たんぱく質構造解析のためのシリンダー型螺旋形状解析、2)顔認識のための顔曲線の形状解析、3) 平面上の閉曲線形状の解析のためのwrapped確率分布、4)新たな姿勢からの形状推定のための変形の並行輸送。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数ビューを利用したシルエット分割
Silhouette Segmentation in Multiple Views

Wonwoo Lee, Gwnagju Institute of Science and Technology, Gwangju Woontack Woo, Gwnagju Institute of Science and Technology, Gwangju Edmond Boyer, INRIA Grenoble Rh?ne-Alpes, Saint Ismier

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 7, pp. 1429-1441 , July 2011

Keywords: Background region, foreground region, multiview silhouette consistency, silhouette segmentation.

本稿では、あるシーンに対して複数のビュー情報が得られる場合の整合的な前景領域抽出方法について述べる。本稿では、前景と背景が異 なる色特性を持っているという前提のもとに、自動的に各領域を同定するフレームワークを提案する。この目的を達成するためには、単眼 カラー画像情報だけでは不十分であり、同一空間領域のいくつかの画像投影が満たすべき空間的な整合性拘束条件の利用を検討する。単眼 色恒常性拘束条件を複数ビューの空間的拘束条件と組み合わせることで、自動的且つ同時に複数ビュー画像での前景及び背景領域を分割す ることができる。標準的な背景削除法とは対照的に、提案アプローチは背景に関する事前知識やユーザインタラクションを必要としない。 実際的なシナリオによる実験の結果により、複数カメラを利用した場合の提案手法の効果を例証する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


軌跡空間(trajectory space):動きからの非剛体構造復元のための双対表現
Trajectory Space: A Dual Representation for Nonrigid Structure from Motion

Ijaz Akhter, Lahore University of Management Sciences, Lahore Yaser Sheikh, Carnegie Mellon University, Pittsburgh Sohaib Khan, Lahore University of Management Sciences, Lahore Takeo Kanade, Carnegie Mellon University, Pittsburgh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 7, pp. 1442-1456 , July 2011

Keywords: Nonrigid structure from motion, 3D reconstruction, motion and tracking.

動きからの非剛体構造の復元のための既存アプローチは、可変オブジェクトの三次元形状の瞬間像が基本形状の線形結合であることを前提 としている。これらの基底形状はオブジェクト依存であるため、各ビデオシーケンスに対してそれぞれ推定される必要がある。これと対照 的に、本稿で我々は、基底起動の線形結合により、軌跡空間における発展する三次元構造を記述するための双対アプローチを提案する。こ れら2つのアプローチの間の双対関係を説明し、両者が三次元構造の表現のための等しい能力を持っていることを示す。更に、三次元軌跡の 時間平滑性(temporal smoothness)を単独で、動くカメラからの情報による非剛体構造の復元のために利用することができる事を示す。可 変三次元構造を軌跡空間で表現する最大の利点は、オブジェクトを基底と独立に定義できることである。これにより、未知オブジェクトの 数を大幅に低減し、推定過程における対応付けの安定性を向上させた。離散コサイン変換をオブジェクト独立基底として利用することを提 案し、本手法が自然な動きの主成分解析に等しいことを示す。モーションキャプチャデータを利用することで提案手法の性能を定量的に報 告する。また、非剛体運動を示すいくつかのビデオシーケンスを利用した実験により、定性的な評価も行う。これには対毎の剛体運動、部 分的非剛体運動(顔の表現など)、そして高度非剛体運動(動く人やダンスする人など)が含まれる。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


生成的かつ適応的な三次元車両モデルによる車両監視
Vehicle Surveillance with a Generic, Adaptive, 3D Vehicle Model

Matthew J. Leotta, Kitware, Inc., Clifton Park Joseph L. Mundy, Brown University, Providence

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 7, pp. 1457-1469 , July 2011

Keywords: Machine vision, road vehicle location monitoring, image shape analysis, image recognition, video signal processing.

自動監視分野では、路面を走る車両の監視、それらの3次元形状の計測、及び車両識別が課題となってきた。これらを同時に扱うための効率 的なアプローチは、三次元車両形状事前モデルを、制約付き整列で画像にあてはめる方法である。以前の三次元車両モデルは、生成的であ っても単純すぎるか、固定型且つ複雑すぎるかのいずれかであった。固定型モデルは特定の車両デザインを厳密に表現できるが、そのため に大規模なモデル集が必要である。生成モデルは単一モデルであっても様々な形状に対して変形できるが、これらの形状は単純すぎる。本 稿では、広範な形状の一般車両の形状に変形可能な生成的三次元車両モデルを用いる。本手法は前記の2つの極端な方法をうまく組み合わせ て調整できることに特徴がある。このモデルは画像強度のエッジを予測しマッチングすることで、画像間の整列を行う。複数の静止画に対 してモデルをフィットさせるためのアルゴリズム、そしてビデオ画像系列から形状を推定すると同時に車両の追跡を行うための新たなアル ゴリズムを紹介する。実験により提案モデルを単純な生成モデルと比較する。この比較は画像からの三次元形状の復元及び、ビデオ画像系 列における追跡における精度と信頼性について行った。また、識別のための標準的な手法との比較も行った。いずれの試験においても提案 モデルは既存の単純モデルを上回る性能を示した。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


疑似反転共分散学習(Pseudo-Inverse Covariance Learning)の精度:確率行列理論解析
Accuracy of Pseudo-Inverse Covariance Learning—A Random Matrix Theory Analysis

David C. Hoyle, University of Manchester, Manchester

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 7, pp. 1470-1481 , July 2011

Keywords: Pseudo-inverse, linear discriminants, peaking phenomenon, random matrix theory, bagging, random subspace method.

多くの学習問題において、逆母共分散(inverse population covariance)を推定することが必要であり、標本の共分散行列の反転として得 られることが多い。近年の科学的な用途におけるデータセットでは、データ点数は特徴数よりも少ないことがあり、この場合には標本の共 分散から逆行列を求めることができない。このような条件下では、非ゼロの標本共分散固有値に対応する固有ベクトルにより構成される Moore-Penroseの疑似反転標本共分散行列(Moore-Penrose pseudo-inverse sample covariance matrix)逆母共分散の近似として用いられ ることが多い。真の逆共分散を推定する際の、再構成における疑似標本逆母共分差行列(pseudo-inverse sample covariance matrix)の誤 差は、これら両者の間の差異のFrobeniusノルム(Frobenius norm)を用いて定量化できる。この再構成誤差に対しては、最小の非ゼロ標本 共分散固有値が支配的であり、標本サイズが特徴数に近づくにつれ、発散する。高次元データに対しては、確率行列理論の手法とその結果 を用いて処理を行い、様々な種類の母共分散行列に対する再構成誤差を検証する。バギングと確率部分空間法(random subspace method) の与える結果と、これらを組み合わせて用いることで、疑似逆標本共分散行列により識別器の精度を向上させる方法について述べる。合成 及びベンチマークデータセットを用いて我々の解析手法を検証した。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Kleinbergの推測統計学的識別手順について
On Kleinberg's Stochastic Discrimination Procedure

Albrecht Irle, University of Kiel, Kiel Jonas Kauschke, University of Kiel, Kiel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 7, pp. 1482-1486 , July 2011

Keywords: Pattern recognition, stochastic discrimination.

推測統計学的識別(stochastic discrimination:SD)法に対する、テストセットにおける高精度識別のための新しい条件を与える。SD法は Kleinbergにより導入されたパターン認識法である。この条件により、観測された良い一般化特性(generalization property)及び過訓練 (overtraining)の防止の単純な説明が得られる。再標本化のための有限空間における一様分布という元々の仮定を緩めることで、SD法は いまだ有効であることを示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.33, No.8


CENTRIST:情景の類別のための画像記述子
CENTRIST: A Visual Descriptor for Scene Categorization

Jianxin Wu, Nanyang Technological University, Singapore James M. Rehg, Georgia Institute of Technology, Atlanta

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 8, pp. 1489-1501 , August 2011

Keywords: Place recognition, scene recognition, visual descriptor, Census Transform, SIFT, Gist.

CENsus TRansform hISTogram (CENTRIST)とは、本論文で紹介される、位相的個所、つまり情景の類別のための新規な画像記述子である。この論文では、特に室内環境画像では、場所の特定や情景認識には他の情景におけるオブジェクト認識とは異なる新規な記述子が必要であることを示す。CENTRISTはこれらの要求を満たし、場所や情景の認識に適している。これは全体的な表現であり、情景類別には強力な一般化表現能力を持っている。CENTRISTは主として画像中の構造特徴を符号化し、微細なテクスチャー情報は抑圧する。我々の実験によれば、CENTRISTは、他のSIFT や Gistのような最新の手法と比べ顕著に優れた性能を示す。さらに、実装が容易で実行速度が極めて速い。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3角形パッチ表面上への、等高線、2等分線、および、Voronoi図の構築
Construction of Iso-Contours, Bisectors, and Voronoi Diagrams on Triangulated Surfaces

Yong-Jin Liu, Tsinghua University, Beijing Zhan-Qing Chen, Hong Kong University of Science and Technology, Hong Kong Kai Tang, Hong Kong University of Science and Technology, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 8, pp. 1502-1517 , August 2011

Keywords: Shape, geometric transformations, triangular meshes, exact geodesic metrics, point patterns.

コンピュータビジョンや機械認識において、3Dオブジェクトは通常2つの多様体の三角メッシュ(M)によって表現される。本論文では、上記三角メッシュ上に測地尺度に基づく等高線、2等分線、Voronoi図を構築するための実用的・効率的アルゴリズムを示す。ユークリッド尺度空間に比べ、M上のVoronoi図は、既存のユークリッドVoronoiアルゴリズムが持たない多くの特徴的性質を示す。M上に実用的測地尺度のVoronoi図を構築するため、本論文はM上の解析的等高線、2等分線、Voronoi図の構造を研究した。モデルMへの必要な予備処理の後、M上の等高線、2等分線、Voronoi図に関する完全な情報を手早く入手する実用的なアルゴリズムが提案された。この構築アルゴリズムの計算複雑度も解析された。最後に、3つの興味ある応用分野が示され、提案手法が、表面サンプリング、表面構築、3Dスケルトニングの分野へのパターン解析に使われる潜在的可能性が示された。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動的な屈折物体のステレオ
Dynamic Refraction Stereo

Nigel J.W. Morris, University of Toronto, Toronto Kiriakos N. Kutulakos, University of Toronto, Toronto

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 8, pp. 1518-1531 , August 2011

Keywords: Stereo, time-varying imagery, shape-from-X, transparency, refractive index estimation.

本論文では未知で任意の形状の屈折性物体の3D位置における表面に垂直な面を再構成する課題を考察する。本問題を一般的に解くには、屈折率が不明であっても2つの視点を考慮すれば十分であることを示す。その要件とは、1)2つの画像面上の点を、屈折する既知の3D点へと写像する関数と、2)屈折は各光について1回のみ、である。本結果を、液体の下に置かれたパターンから形成された、時間と共に変動する液体表面、の再構成問題に応用する。そのため、新規なステレオマッチング基準を設け、屈折不均衡と呼ぶことにする。これは屈折情景や個々の入力情景の投影画素に垂直な位置を再構成する最適化アルゴリズムに基づく手法を開発するのに適する。これを様々な複雑な物体や、変形する液体表面の再構成に適応した結果、本手法は自由な流体の動的振る舞いを把握し再構成することに適している。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所学習法クラスタリングのための特徴選択とカーネル学習
Feature Selection and Kernel Learning for Local Learning-Based Clustering

Hong Zeng, Southeast University, Nanjing and Hong Kong Baptist University, Hong Kong Yiu-ming Cheung, Hong Kong Baptist University, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 8, pp. 1532-1547 , August 2011

Keywords: High-dimensional data, local learning-based clustering, feature selection, kernel learning, sparse weighting.

ほとんどのクラスタリングアルゴリズムの性能は、入力空間や、カーネル法のヒルベルト空間のデータ表現に依存する。本論文は、特徴量の選択と、局所学習に基づくクラスタリング(LLC)のフレームワーク内でのカーネル学習法における適宜なデータ表現法を得、その結果多様体上の高次元データを扱う際のグローバルな学習法に基づく結果を凌駕することが目的である。特に、各特徴量やカーネルに重みを付け、クラスタリングのために各特徴量やカーネルの妥当性を考慮し、これをLLCアルゴリズムの既成の正則化に組み込んで利用することである。その結果、重みはクラスタリング過程で反復推定される。その結果、重みに追加制限を加え得られた重み正則化の結果は、spars-promoting penaltyとほぼ等しい。従って、これら非重要な特徴量やカーネルはゼロに向かって縮小する。ベンチマークデータに対する十分な実験から本手法の有効性が示された。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


データ表現のためのグラフ正規化された非負行列の因子分解
Graph Regularized Nonnegative Matrix Factorization for Data Representation

Deng Cai, Zhejiang University, Hangzhou Xiaofei He, Zhejiang University, Hangzhou Jiawei Han, University of Illinois at Urbana-Champaign, Urbana Thomas S. Huang, University of Illinois at Urbana-Champaign, Urbana

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 8, pp. 1548-1560 , August 2011

Keywords: Nonnegative matrix factorization, graph Laplacian, manifold regularization, clustering.

行列の因子分解法は情報検索、コンピュータビジョン、そして、パターン認識にしばしば利用されてきた。それらの中でも、非負行列の因子分解法(NMF)は、これの自然なデータ表現の一部が人間の脳に心理的・生理学的に基づいていると解釈できるため、大きな関心を集めてきた。他方、幾何学的観点から見れば、データは高次元の環境空間に埋め込まれた低次元の多様体からサンプリングされる。そのため、隠れた意味を明らかにし、同時に、入り込んだ幾何学的構造を明らかにするようなコンパクトな表現を見出したいと望む。本論文では、そのためグラフ正規化された非負行列因子分解法(GNMF)と呼ばれる新規なアルゴリズムを提案する。GNMFにおいては、幾何学的情報を符号化するためaffinity graphというものが構築され、グラフ構造を考慮した行列因子分解を探索する。我々の経験によれば、本アルゴリズムは、実世界における最新の技術成果と比較し、有望な結果を示す。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ロバストな顔認識のための最大相関エントロピー(Correntropy)基準
Maximum Correntropy Criterion for Robust Face Recognition

Ran He, Institute of Automation Chinese Academy of Sciences, Beijing and Dalian University of Technology, Dalian Wei-Shi Zheng, Queen Mary University of London, London and Sun Yat-sen University, China Bao-Gang Hu, Institute of Automation Chinese Academy of Sciences, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 8, pp. 1561-1576 , August 2011

Keywords: Information theoretical learning, correntropy, linear least squares, half-quadratic optimization, sparse representation, M-estimator, face recognition, occlusion and corruption.

本論文では、顔認識を目的とする、ロバストで疎な相関エントロピー(correntropy)を計算するための枠組みを提供する。最新成果であるl^1ノルムに基づく疎な表現の識別器(SRC)はノイズもまた疎であると仮定されているが、これと比較して、本表現は最大相関エントロピー基準に基づいているため、はずれ値に対して、あまり鋭敏ではない。もっと扱いやすく、実用的な手法として、我々は最大相関エントロピー基準の変数に対し非負の制約を課し、目的関数に対し概略最大化するための半2次最適化を開発したが、これは複雑な最適化問題が各繰返し計算において、非負の制約付きで、交互の重み付き線形最小2乗問題の疎な表現の学習法に単純化されるためである。我々の徹底的な実験によれば、本提案アルゴリズムは、最新の顔認識アルゴリズムに比べ、隠蔽やデータ欠損のある場合に、よりロバストで効率的であることが実証された。特に、提案手法は、SRC法と比べ、認識精度と受信者の操作特性(ROC)曲線において、改善が見られ、しかも、計算量は従来より少なかった。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


交互に撮影された画像からの動き場の推定
Motion Field Estimation from Alternate Exposure Images

Anita Sellent, TU Braunschweig, Braunschweig Martin Eisemann, TU Braunschweig, Braunschweig Bastian Goldlucke, TU Munich, Munich Daniel Cremers, TU Munich, Munich Marcus Magnor, TU Braunschweig, Braunschweig

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 8, pp. 1577-1589 , August 2011

Keywords: Motion field estimation, motion blur, optical flow, occlusion, computational video.

従来のオプティカルフローアルゴリズムは連続した短時間露光画像を利用する。本研究では、これに加えて長時間露光画像を利用する。長時間露光画像は運動情報を、動きボケとして積算された状態で記録する。この付加情報のお陰で、よりロバストで高精度の動き場が推定可能となる。さらに、隠蔽の生じた瞬間を決定できる。動き場推定における基本的な信号理論問題を考察してみると、長時間露出画像には動きが積算されて含まれる結果、時間モアレ(temporal aliasing)が防止される。長時間露光画像のモデルとしては、高密度の2D動画や画素毎の隠蔽や出現タイミングに関しての短時間露光画像に先行するか、あるいは、その後に引き続く長時間露光である。我々の画像形成モデルに基づいて、実用的な、認視可能な画像領域だけでなく隠蔽されつつある動き場も推定する変分アルゴリズムについて記述する。人工的な画像だけでなく、実画像にも適用された本手法の妥当性が示されている。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像解析のための移動土砂の距離尺度による非負行列の因子分解
Nonnegative Matrix Factorization with Earth Mover's Distance Metric for Image Analysis

Roman Sandler, Yahoo! Research, Haifa Michael Lindenbaum, Technion, Israel Institute of Technology, Haifa,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 8, pp. 1590-1602 , August 2011

Keywords: Nonnegative matrix factorization, earth mover's distance, image segmentation.

非負行列の因子分解法(NMF)は、与えられたデータ行列を2つの低ランクの非負行列の積として近似するが、通常、そのためにデータ行列と行列の積間のL_2距離やKL距離を最小化させる。この因子分解法はいくつかのコンピュータビジョン応用でも有用であることが示せる。ここに、移動土砂距離(EMD)のデータ行列と行列積の誤差を最小化する新たな2つのNMFアルゴリズムを提案する。この2つのアルゴリズム(EMD NMF と bilateral EMD NMF)は、反復法と線形計画法に基づく方法である。これらの収束性を証明し、数値計算上の困難さを議論し、効率的近似法を提案する。当然、MD NMFによって得られる行列は、L_2-NMFによって得られる行列とは異なっている。これらの差異について、テキスト識別と顔認識という2つの困難なコンピュータビジョン課題に関して考察する。まず初めにNMF-による画像識別を、次に新規な手法を共通のベンチマークに適用する。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


投影された動き経路の情景画像からのRichardson-Lucy法によるボケ修復
Richardson-Lucy Deblurring for Scenes under a Projective Motion Path

Yu-Wing Tai, Korea Advanced Institute of Science and Technology, Daejeon Ping Tan, National University of Singapore, Singapore Michael S. Brown, National University of Singapore, Singapore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 8, pp. 1603-1618 , August 2011

Keywords: Motion deblurring, spatially verying motion blur.

本論文は、遠方の情景を観察しながらカメラが動くと画像がボケるが、これを補正するためのモデル化と修正法について述べる。特に、綺麗な画像を撮影する際、これがカメラの軌跡を反映した連続平面投影画像(homography)の積分値としてどのようにモデル化されるかを議論する。この投影された動きの軌跡によるボケモデルは、従来の空間不変ボケ・カーネルによる手法より、空間的に変化する動きによるボケをモデル化するのに適している。このボケを修正するためには、この新規なボケモデルに協調してRichardson-Lucy (RL)法をどのように変形する必要があるかを述べる。さらに、この動き投影RLアルゴリズム法が、最新の手法と協力することで、改良されたボケ補正結果の初期画像となり得ることを示す。投影動き軌跡ボケモデルは、修正されたRLアルゴリズムとともに、その結果と総合的効果を実証し、詳細に記述される。本アルゴリズムの収束性を統計的解析とノイズに対するロバスト性からも述べている。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多数のオンライン・インスタンス学習によるロバストなオブジェクト追跡
Robust Object Tracking with Online Multiple Instance Learning

Boris Babenko, University of California, San Diego, La Jolla Ming-Hsuan Yang, University of California, Merced, Merced Serge Belongie, University of California, San Diego, La Jolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 8, pp. 1619-1632 , August 2011

Keywords: Visual Tracking, multiple instance learning, online boosting.

本論文では、ビデオ画像の最初の1フレーム中のオブジェクトの位置を指定するだけで、それ以外の指定が不要な追跡問題について述べる。最近、「検出による追跡」の手法が実時間処理に有望な結果を見せている。これらの手法は個別の識別器をオンラインで学習させ、オブジェクトを背景から分離する。また、この識別器は現有の追跡状態を利用して、その正と負の事例を現状のフレームから抽出して、能力を増強する。従って、追跡器のわずかな不正確さが不正確なラベル付け学習へと導き、識別器の能力を低下させ、識別結果の放浪となる。本論文では、従来の教師付き学習法ではなく、多数インスタンス学習(MIL)によって、上記の問題点を回避し、より少ない調節パラメータで、もっとロバストな追跡器を実現することを示す。我々は新規なオンラインMILアルゴリズムをオブジェクト追跡に利用し、優れた実時間追跡性能を示そう。我々はまた、多くの難しいビデオ映像に対して、徹底的(定性的定量的)な実験結果を示す。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ガウス混合モデル(Gaussian Mixture Models)を使った頑健な点集合の位置決め
Robust Point Set Registration Using Gaussian Mixture Models

Bing Jian, Siemens Healthcare, Malvern Baba C. Vemuri, University of Florida, Gainesville

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 8, pp. 1633-1645 , August 2011

Keywords: Point set registration, nonrigid registration, Gaussian mixtures, robust matching.

本論文では、我々はかなりの量のノイズと外れ値が存在する中での、剛体もしくは非剛体点集合の位置決め問題に対する統一フレームワークを提示する。この位置決めフレームワークについての鍵となるアイデアは、入力点集合をガウス混合モデルを使って表現することである。そして、2つの対応するガウス混合分布の間の統計的不一致が最小にされるように、点集合の位置決め問題を、2つのガウス混合分布の整列問題として再定式化する。我々は、一般的な反復最近似点(iterative closest point:ICP)法[1]と、いくつかの既存の点集合の位置決め方法[2]、[3]、[4]、[5]、[6]、[7]が、この分野では密接に関連しており、我々の一般的な枠組みの中で再解釈することができることを示す。この一般的フレームワークに基づく我々の方法は、2つのガウス混合分布の間のL2距離に基づいている。これは閉形式で表現されているため、計算効率の良い位置決めアルゴリズムが得られる。結果として得られる位置決めアルゴリズムは固有の統計的頑健性を示し、直感的に解釈することが出来て、実装が簡単である。我々はまた、点集合の位置決めのための他の頑健な方法で理論と実験の比較を提供している。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グレースケールのデジタル画像から離散モールス複合体を構築するための理論とアルゴリズム
Theory and Algorithms for Constructing Discrete Morse Complexes from Grayscale Digital Images

Vanessa Robins, The Australian National University, Canberra Peter John Wood, The Australian National University, Canberra Adrian P. Sheppard, The Australian National University, Canberra

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 8, pp. 1646-1658 , August 2011

Keywords: Discrete Morse theory, computational topology, persistent homology, digital topology.

我々は2次元または3次元のグレースケールのデジタル画像のモールス複合体(Morse complex)を決定するためのアルゴリズムを示す。モールス複合体の内の各セルは、グレースケール画像のレベルセットでのトポロジの変化(すなわち、臨界点)に対応している。1つ以上の臨界点が、画像の単一ボクセルに関連付けられている場合があるため、我々はデジタル画像を立方体の複合体によりモデル化する。新しいホモトピーアルゴリズムを、入力画像と一致する立方体型複合体における離散モールス関数を構築するために用いる。この複合体はまた、レベルセットでトポロジの変更を特徴付けるために必要な臨界ボクセルの数および型と一致する。我々は、離散モールス理論とそのアルゴリズムの正しさを証明する簡単なホモトピー理論を利用している。結果として得られるモールス複合体は立方体型複合体よりもかなり単純である。この立方体型複合体は、もともと画像を表現するために、永続的ホモロジーを計算するために使用されるものである。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


回帰木の自己適応型誘導
Self-Adaptive Induction of Regression Trees

Raul Fidalgo-Merino, Universidad de Malaga, Malaga Marlon Nunez, University of Malaga, Malaga

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 8, pp. 1659-1672 , August 2011

Keywords: Machine learning, mining methods and algorithms, knowledge acquisition, heuristics design.

バイナリ回帰木の漸増的構築のための新しいアルゴリズムを提示する。SAIRTと呼ばれるこのアルゴリズムは、緩やかなそして突然の機能ドリフト、機能の特定の領域の変化、ノイズ、および仮想ドリフトのような未知のダイナミクスを含むデータストリームに直面するとき誘導モデルを適合させる。また本アルゴリズムは、シンボリックと数値の両方の属性を扱う。提案アルゴリズムは、データストリームの現在のダイナミクスに応じて、新しいパターンを得るためにその内部パラメータとモデル構造を自動的に適応させることが出来る。SAIRTは、ノードの有用性を監視することができ、ツリーの葉に関連する局所のウィンドウの残余を格納している、選択された領域からのサンプルの影響を回避することが出来る。これらの条件で、現在の回帰法は、問題のダイナミクスに応じて、慎重に構成する必要がある。異なる速度、ノイズレベル、サンプルの標本分布を含んだ、もしくは基礎となる機能の部分的または完全な変更のあるデータストリームを扱うとき、提案アルゴリズムが現在のアルゴリズムよりも良い結果を与えることが、実験により示唆される。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率密度関数の推定のノンパラメトリック局所窓法のための簡易計算
Simplified Computation for Nonparametric Windows Method of Probability Density Function Estimation

Niranjan Joshi, University of Oxford, Oxford Timor Kadir, Mirada Medical, Oxford Michael Brady, University of Oxford, Oxford

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 8, pp. 1673-1680 , August 2011

Keywords: Probability density function, nonparametric estimation, signals and images, image registration, image segmentation.

最近、KadirとBrady[8]、[10]らはノンパラメトリック局所窓法(Nonparametric Windows method)によりデジタル信号の確率密度関数(Probability density functions: PDF)を推定する手法を提案した。その方法には、離散空間の連続的な空間表現と適切な補間法を用いてサンプリングされた信号の構築も含まれる。ノンパラメトリック局所窓法は、PDFを推定するために観測された信号サンプルを少数しか必要とせず、完全にデータ駆動型である。この論文では、まずそれぞれの補間方法のため、1D、2D、および3Dの信号用のノンパラメトリック局所窓法のPDFの推定値を得るために分析的公式を開発する。我々は、このPDF推定値を計算するために、元々の手続きを大幅に簡素化し、参照フレームの賢明な選択によってもっと計算的に効率化することが出来ることを示している。我々はまた、迅速な実装を可能にする手順の特定のアルゴリズムの詳細の概要を示している。我々のコンセプトを再定式化することで、直接ノンパラメトリック局所窓法とカーネル密度推定量との間の密接な関連性を実証する。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像の外観のモデルの物理学に基づく解析
A Physics-Based Analysis of Image Appearance Models

Yilei Xu, Navteq Corp., Chicago Amit K. Roy-Chowdhury, University of California, Riverside, Riverside

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 8, pp. 1681-1688 , August 2011

Keywords: Image appearance models, theoretical analysis, multilinear, deformation, face tracking.

オブジェクトの形状/外観の線形と多重線形モデル(AAM/ ASM PCA、3DMM、そして多重テンソル)は、コンピュータビジョンでは大変一般的になってきた。本稿では、オブジェクトの動きと画像形成の基本的な物理法則から、これらのヒューリスティックモデルの適用性を分析する。我々は、適切な条件下で、画像の外観の空間が3重線形で結ばれた動きと変形の部分空間の直和と組み合わされる照明とテクスチャの部分空間と、多重線形に近似できることを証明した。この結果は、既存のコンピュータビジョン研究の線形および多重アプローチの成功と限界に関して物理学に基づく理解を提供し、またそれらが有効となる条件のいくつかを明らかにする。それは、画像形成のプロセスに影響を与えるさまざまな物理的要因の観点から、画像空間の解析表現を提供する。物理ベースのモデルの精度の数値解析を行い、実際のデータの追跡結果を示す。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


メタ認識:認識率分析の理論と実践
Meta-Recognition: The Theory and Practice of Recognition Score Analysis

Walter J. Scheirer, University of Colorado at Colorado Springs, Colorado Springs Anderson Rocha, University of Campinas, Campinas Ross J. Micheals, National Institute of Standards and Technology, Gathersburg Terrance E. Boult, University of Colorado at Colorado Springs, Colorado Springs

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 8, pp. 1689-1695 , August 2011

Keywords: Meta-recognition, performance modeling, multialgorithm fusion, object recognition, face recognition, fingerprint recognition, content-based image retrieval, similarity scores, extreme value theory.

この論文で、我々は認識アルゴリズムの性能予測法であるメタ認識を定義し、統計の極値理論(extreme value theory :EVT)を用いて、認識後処理のスコア分析形式の理論的基礎を検証する。各適合のインスタンスに対して、その出力に基づいて認識システムの性能を予測する能力は多くの理由で望まれている。それは適合と非適合を決定するための閾値の自動選択や、複数のアルゴリズムの融合のための自動アルゴリズム選択や重み付けなどである。認識後処理のスコアの分析に関する研究の多くは、生体認証に対し大きく制限されてきた。そこでは分析が正常に働き、予測因子として画像品質尺度の代わりとなることが示されている。我々は、様々な認識問題でインスタンスごとの認識に基づいて正確な結果を生成するワイブル分布(Weibull distribution)に基づいて新たな統計的予測を開発する。実験結果は、2つの異なる顔認証アルゴリズム、指紋認証アルゴリズム、SIFTベースの物体認識システム、およびコンテンツベースの画像検索システムに提供されている。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.33, No.9


実時間単眼SLAMのための自動的再位置決め及びループ閉合
Automatic Relocalization and Loop Closing for Real-Time Monocular SLAM

Brian Williams, Jet Propulsion Laboratory, Pasadena Georg Klein, Microsoft Corporation, Seattle Ian Reid, University of Oxford, Oxford

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 9, pp. pp. 1699-1712 , September 2011

Keywords: Tracking, 3D/stereo scene analysis, autonomous vehicles.

単眼SLAM(Simultaneous Localization and Mapping:同時位置決めマッピング)により、ロボティクスや拡張現実(augmented reality: AR)などの分野で、安価なカメラを強力な姿勢センサーとして利用できる可能性がある。本稿で我々は、このようなシステムのための再位置決めモジュールを紹介する。このモジュールを利用することで、これまでの単眼SLAMシステムの持つ問題のいくつかを解消することができる。この問題とは例えば追跡誤り(tracking failure)、マップ統合(map merging)、ループ閉合検出(loop closure detection)などである。このモジュールは最近のキーポイント認識研究の成果を利用したものであり、画像中のランドマークに対するカメラの相対的な姿勢を33ミリ秒の単一フレーム中に決定することができる。まず上記のシステムの頑健性を向上させるためにこのモジュールを利用する方法について述べる。画像のぼけ、急峻な動き、そして隠蔽などは全て追跡誤りの原因となりうるし、更にその結果として得られるマップの誤りにもつながる。この再位置決めモジュールを利用することで、マップの整合性を保持したまま、追跡誤りの状態から自動的に復帰することができる。大規模な実験を行った結果、このシステムは、高頻度の追跡誤りがある場合でも長時間のシーケンスのマップを作成することができることが示された。再位置決めモジュールを用いて、カメラが以前にマッピングを行った場所に戻ってきた場合に起きるオーバーラップについても認識することができる。このオーバーラップ情報を構築することで、軌跡整合(trajectory alignment)を用いて各マップの相対姿勢を決定する。これにより独立した複数のマップを統合し、ループ閉合イベントを認識することができる。このシステムはこれら全ての能力を組み合わせ、更に大規模な環境や、従来の手法の限界を超える長さのシーケンスについてマッピングを行うことができる。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


C^4:クラスタサンプリングによるグラフモデルにおける複数解探索
C^4: Exploring Multiple Solutions in Graphical Models by Cluster Sampling

Jake Porway, R&D Division of The New York Times Song-Chun Zhu, University of California, Los Angeles (UCLA) and the Lotus Hill Research Institute

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 9, pp. pp. 1713-1727 , September 2011

Keywords: Markov random fields, computer vision, graph labeling, probabilistic algorithms, constraint satisfaction, Monte Carlo.

本稿では、C^4と呼ばれる新たなマルコフ連鎖モンテカルロ(Markov Chain Monte Carlo: MCMC)推論アルゴリズムを紹介する。これはマルコフ確率場(Markov Random Fields: MRF)、条件付き確率場(Conditional Random Fields: CRF)、そして階層的モデルなどのグラフモデル上の事後確率から複数の解を計算するための協調及び競合に基づく拘束条件(Cooperative and Competitive Constraints)である。本アルゴリズムで扱われるグラフは、協調及び競合の拘束条件について正負両方のエッジを持つことができる。C^4はSwendsen-Wang [34]の考えに基づく確率論的クラスタリングアルゴリズムである。正のエッジのオンとオフを確率論的に切り替えることで、C^4はグラフを多数の接続されたコンポーネント(connected comopntents: ccps)に分割し、各ccpは正エッジにより接続されるノードからなる結合型部分解(coupled subsolution)である。次に負のエッジのオンとオフを確率論的に切り替えることで、C^4は競合するccpsを負のエッジで結合した混合ccp(composite ccps: cccps)を得る。各ステップにおいて、C^4は正負両方の拘束条件を維持するために、各ccpのノードが同じラベルを持つように、そして異なるccpは異なるラベルを持つように、cccpの全てのノードのラベルを更新する。これにより本アルゴリズムは複数の競合する解(もしくは事後確率における複数のモード)の間を単一もしくは少数のステップでジャンプすることができる。本アルゴリズムは複数の別個の解を計算することにより本質的な不明瞭性を保持し、無効で不完全な単一解のみを後段で算出してしまうことを避けている。C^4は様々なギブスサンプラー [15], [26]、及びSwendsen-Wangカット[2], [34]などの既存のMCMC法よりも早い混合率を達成できる。本アルゴリズムは更に、ICM [3]、LBP [21], [37]、そしてグラフカット[4], [20]などの一般的な最適化手法よりも、更に「ダイナミック」である。線画解釈、シーンラベリング、及びオブジェクト認識において、C^4アルゴリズムを例証する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効率的な行動検出のための判別的ビデオパターン検索
Discriminative Video Pattern Search for Efficient Action Detection

Junsong Yuan, Nanyang Technological University, Singapore Zicheng Liu, Microsoft Research, Redmond Ying Wu, Northwestern University, Evanston

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 9, pp. pp. 1728-1743 , September 2011

Keywords: Video pattern search, action detection, spatiotemporal branch-and-bound search.

人間の行動は時空間的なパターンである。移動窓法(sliding window)に基づくオブジェクト検出と同様に、行動検出では、このような再起性時空間パターンをパターンマッチングにより検出する。これには散乱したダイナミックな背景情報と他の種類の行動のバリエーションが含まれる。本稿で我々は、パターンマッチングに基づく行動検出の以下の2つの重要な課題を取り扱う。1)行動のパターン内変動、2)散乱背景における行動パターン検索を行う場合の計算効率。まず我々は、ナイーブベイズ相互情報最大(naÏve Bayes mutual information maximization: NBMIM)と呼ばれる行動識別のための判別的パターンマッチング指標を提案する。各行動は、時空間不変特徴(spatiotemporal invariant features)の組みにより特徴付けられる。パターン間の総合情報量を計測することで、行動と行動クラスとのマッチングを行う。このマッチング指標を用いることで、行動検出は、特定の行動クラスに対する最大の相互情報量を持つ、体積ビデオ空間(volumetric video space)における部分空間(subvolume)の位置決め問題となる。最適解を効率的見つけるための、新しい時空間分岐統合(spatiotemporal branch-and-bound: STBB)アルゴリズムを設計した。我々の提案する行動検出法は、ビデオ画像系列からの人間領域の検出、追跡、そして背景削除の精度に依存しない。本手法は速度とスタイルのバリエーションやスケールの変化などの行動のバリエーションを取り扱うことができる。本手法はダイナミックな背景や散乱した背景に対しても頑健であり、更には部分隠蔽に対しても耐性がある。KTHやCMU行動データセットに加え新たなMSR行動データセットを含む行動検出のための交差データセットを用いた実験により、本稿で提案するマルチクラス複数インスタンス行動検出法の効果と効率性を例証する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


個人ごとの重み付けマップに基づく虹彩マッチング
Iris Matching Based on Personalized Weight Map

Wenbo Dong, Institute of Automation, Chinese Academy of Sciences, Beijing Zhenan Sun, Institute of Automation, Chinese Academy of Sciences, Beijing Tieniu Tan, Institute of Automation, Chinese Academy of Sciences, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 9, pp. pp. 1744-1757 , September 2011

Keywords: Iris recognition, Hamming distance, personalized matching strategy, weight map, ordinal features, binominal mixture model.

典型的な虹彩認識は、虹彩画像前処理、特徴抽出、及び特徴マッチングの3つのステップからなる。最初の2つのステップについては良く研究されているが、最後のマッチングに関しては充分な検討が行われていない状況である。人間の虹彩は各々、ユニークな画像パターンを持ち、局所画像特徴は各位置で異なる。このため様々な虹彩領域から抽出された特徴コードの間で、頑健性と弁別性が大きく異なる。しかし殆どの最新の虹彩認識手法は、一人の虹彩画像から抽出された異なる領域の特徴と、複数の人の虹彩画像から抽出された同一領域の特徴を同等の重要性で評価するような、単一のマッチング戦略をもっている。本稿では、同一虹彩クラスに属する訓練画像から学習されたクラス特有の重み付けを利用した個人毎の虹彩マッチング戦略を紹介する。認識が成功した虹彩画像を新たな訓練画像として利用することで、この重み付けマップを虹彩認識中に更新することができる。この重み付けマップは、虹彩マッチングのための各特徴コードに対して適切な重みを与えることで、異なる虹彩領域に対するエンコードアルゴリズムの頑健性を反映するものである。充分な数の虹彩テンプレートにより学習されたこのような重み付けマップには収束性があり、様々な種類のノイズに対して耐性がある。大規模且つ包括的な実験により、提案する個人毎の虹彩マッチング戦略が、特に画像品質が低い場合において、単一戦略よりも遥かに優れた虹彩認識性能を持つことを示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


部分隠蔽されたオブジェクトの追跡のための階層型グラフモデル
Layered Graphical Models for Tracking Partially Occluded Objects

Vitaly Ablavsky, Boston University, Boston Stan Sclaroff, Boston University, Boston

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 9, pp. pp. 1758-1775 , September 2011

Keywords: Computer vision, image representation, tracking, graphical models.

部分隠蔽されたオブジェクトの追跡のための階層型グラフモデル カメラの視野中の人の写った領域を部分的に隠蔽しうるような再配置可能なオブジェクトがあるシーンの表現方法を提案する。多くの実用的なアプリケーションで再配置可能なオブジェクトは良く現れる。そのためこれらのオブジェクトのモデルはオフライン学習可能であり、データベースに蓄積しておくことが可能である。グラフモデルレイヤーと呼ばれる隠蔽オブジェクトを中心とした表現(occluder-centric representation)を定式化する。この表現では基準面(ground plane)における人の動きは、行動ゾーン(activity zones)の1次のマルコフ過程として定義される。奥行き方向の順に並べられた二次元観測領域として画像根拠(image evidence)が得られる。実世界のシーンを奥行き方向に順位付けされたインタラクションを持つグラフモデルレイヤーとして表現する。またこれにより、あるオブジェクトの観測領域と再配置可能なオブジェクトであるオクルーダー(他のオブジェクトを覆い隠すオブジェクト)の相互のオーバーラップを、画像根拠として説明できるようにする。これらのレイヤーの相互作用は以下のようなものである。異なるモデルインスタンスの近似基準面(proximate ground-plane)ゾーンを結び付けることで、人間の写る画像領域のレイヤーを変更できるようにし、これらのモデルの観測領域の間で画像根拠を共有する。停車中の車両の脇にいる歩行者の追跡に関して上記のような我々の定式化を例証する。我々の手法の性能は変形可能な輪郭に基づく歩行者追跡と歩行者検出を組み合わせたスプライト学習アルゴリズム(sprite-learning algorithm)に伍するものである。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


次元削減のための最大線形埋め込み
Maximal Linear Embedding for Dimensionality Reduction

Ruiping Wang, Chinese Academy of Sciences, Beijing Shiguang Shan, Chinese Academy of Sciences, Beijing Xilin Chen, Chinese Academy of Sciences, Beijing Jie Chen, University of Oulu, Oulu Wen Gao, Peking University, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 9, pp. pp. 1776-1792 , September 2011

Keywords: Dimensionality reduction, manifold learning, maximal linear patch, landmarks-based global alignment.

過去数十年にわたり、次元削減はコンピュータビジョン及びパターン解析で開発されてきた。本稿では、単純だが効果的な最大線形埋め込み(Maximal Linear Embedding: MLE)と呼ばれる非線形の次元性削減アルゴリズムを提案する。MLEは単一の大域低次元座標系空間を再現するためにパラメトリックマッピングを学習し、この多様体のための等方性埋め込み(isometric embedding)を与える。幾何的な直感に基づいて、最大線形パッチ(Maximal Linear Patch: MLP)と呼ぶ合理的な局所線形パッチを導入する。MLPは線形成が確保される最大の近傍範囲を求めるためのものである。まず入力データを各々がMLPを表す局所線形モデルの集合に分解する。次にこれらの局所モデルを大域座標系空間で整列する。これはランダムに選択された、いくつかのランドマークに対してMDS(Multi-Dimensional Scaling:多次元尺度構成法)を適用することで得られる。本稿で提案する整列法はランドマークに基づいた大域整列(Landmark-based Global Alignment: LGA)と呼ばれ、局所的最適点(local optima)のリスクを受けずに閉形式の解(closed-form solution)を効率的に算出することができる。本手法には小規模の固有値問題があるが、これまでの手法の多くが時間のかかる反復手法による最適化を利用してきたことに比べると左記の閉形式の解には利点がある。ISOMAPやLLEなどの従来の手法に比べ、我々のMLEは、観測データにある本質的なバリエーションモードを明示的にモデリングする。合成及び実際のデータを利用した大規模な実験により提案アルゴリズムの効果と効率性を示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単眼ビデオからのモデルベースの三次元の手の姿勢推定
Model-Based 3D Hand Pose Estimation from Monocular Video

Martin de La Gorce, Laboratoire MAS, Ecole Centrale de Paris, Chatenay-Malabry David J. Fleet, University of Toronto, Toronto Nikos Paragios, Laboratoire MAS, Ecole Centrale de Paris, Chatenay-Malabry and INRIA Saclay - Ile-de-France, Orsay

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 9, pp. pp. 1793-1805 , September 2011

Keywords: Hand tracking, model based shape from shading, generative modeling, pose estimation, variational formulation, gradient descent.

新しい単眼ビデオからの三次元の手の追跡のためのモデルベースのアプローチを紹介する。目的関数の最小化により、三次元の手の姿勢、手のテクスチャ、及び照明をダイナミックに推定する。逆問題の定式化から導出されるように、この目的関数を利用することで、自己隠蔽と時間変化する照明を取り扱いつつ時間変化するテクスチャの連続性情報及びシェーディング情報を利用することができる。この最小化は疑似ニュートン法(quasi-Newton method)を用いることで効率的行う。このために、目的関数のグラディエントの厳密な導出を算出する。自己隠蔽の境界付近の可視性の変化については特に注意を払った。この目的のため、新たな隠蔽力(occlusion force)を導入し、全てのグラディエント項の利用により本手法の性能が大幅に向上することを示す。定性的及び定量的な実験結果により、本アプローチのポテンシャルを示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


K-最短パス最適化を用いた複数オブジェクトの追跡
Multiple Object Tracking Using K-Shortest Paths Optimization

Jérôme Berclaz, École Polytechnique Fédérale de Lausanne, Lausanne François Fleuret, Idiap Research Institute, Martigny Engin Türetken, École Polytechnique Fédérale de Lausanne, Lausanne Pascal Fua, École Polytechnique Fédérale de Lausanne, Lausanne

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 9, pp. pp. 1806-1819 , September 2011

Keywords: Data association, multiobject tracking, K-shortest paths, linear programming.

複数オブジェクト追跡は各フレームでオブジェクトを検出し、フレーム間で検出結果をリンクすることでなされる。このような手法は偶然の検出誤りに対して高い頑健性を持つ。あるフレームでオブジェクトが検出されなくても、その前後のフレームで検出されていれば、正しい軌跡が算出しうる。逆にあるフレームでオブジェクトがご検出されても、それを無視することで同様に正しい軌跡が得られる。しかし複数のターゲットを扱う場合には、前述のリンク処理が全ての可能性のある軌跡群の空間における困難な最適化問題になってしまう。このような問題は通常サンプリングもしくは動的計画法の派生法に基づく貪欲アルゴリズムよる検索(greedy search)などで取り扱われる。ただしこれらの手法は大域最適解にたどり着けないことが良くある。本稿ではこのリンク処理を拘束条件下におけるフロー最適化として再定式化すると、凸問題となることを示す。本問題の特殊な構造を利用することで、これを高速なk-最短パスアルゴリズムを用いて解く。この新しいアプローチは形式的にもアルゴリズム的にも既存手法よりも遥かにシンプルである。2つのまったく異なるコンテキストにおける実験で非常に高い性能を示している。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単一の非校正カメラを利用した、検出に基づく複数人物のオンライン追跡
Online Multiperson Tracking-by-Detection from a Single, Uncalibrated Camera

Michael D. Breitenstein, ETH Zurich, Zurich Fabian Reichlin, LiberoVision AG, Zurich Bastian Leibe, RWTH Aachen University, Aachen Esther Koller-Meier, ETH Zurich, Zurich Luc Van Gool, ETH Zurich, Zurich and ESAT-PSI/IBBT, KU Leuven

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 9, pp. pp. 1820-1833 , September 2011

Keywords: Multi-object tracking, tracking-by-detection, detector confidence particle filter, pedestrian detection, particle filtering, sequential Monte Carlo estimation, online learning, detector confidence, surveillance, sports analysis, traffic safety.

本稿では、移動型の非校正単眼カメラを用いた、画中の人数が変わる複雑なシーンにおける、人物の自動検出及び追跡の問題を取り扱う。パーティクルフィルタフレームワークを利用した複数人物の検出に基づく追跡(tracking-by-detection)のための新しいアプローチを提案する。最終的に得られる高い確信度の検出に加え、我々のアルゴリズムは歩行者検出器から得られる連続的な確信度及び、重み付き観測モデルとしてのオンライン学習されたインスタンス特有の識別器を利用する。これにより、一般的なオブジェクトカテゴリに関する知識がインスタンスに特有の情報で補完される。本研究の主な成果は、これらの信頼性の低い情報ソースを用いることで、頑健な複数人物追跡が実現できることを示すことである。本アルゴリズムは隠蔽があるような複雑なシーンにおける多数のダイナミックに動く人物を検出し追跡する。また、背景モデリングに依存せず、カメラ及び基準面の校正を必要とせず、過去の情報のみを利用する。これらの特性のために、本アルゴリズムはごく僅かの数の拘束条件を持ち、オンラインアプリケーションに適している。我々が行った実験の結果は、典型的な監視ビデオ、ウェブカメラの記録、そしてスポーツのビデオなどのような、様々な種類のダイナミックなシナリオにおいても、本手法が高い追跡性能を持つことを示している。我々のアルゴリズムが、前述以外の情報も併せて用いるような他の手法を上回る性能を持つこと例証する。更に本アルゴリズムのコンポーネント各々が、手法の頑健性に対して与える影響について解析する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


1次元バーコードを携帯電話での可変テンプレート処理で読み込む
Reading 1D Barcodes with Mobile Phones Using Deformable Templates

Orazio Gallo, University of California, Santa Cruz, Santa Cruz Roberto Manduchi, University of California, Santa Cruz, Santa Cruz

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 9, pp. pp. 1834-1843 , September 2011

Keywords: Barcodes, UPC-A, mobile devices, deformable templates.

カメラ付き携帯電話は広く普及しており、モバイル画像処理アプリケーションに様々な機会を与えるものである。例えばこれらの携帯電話を用いることで、ユーザは商品のバーコードを読み取り、店内に居ながらにしてネットワーク上のレビューを参照したり、価格を比較したりすることができる。バーコードリーダは、画像のボケ、ノイズ、低解像度、低品質のカメラレンズなどの様々な条件に対して頑健でなければならない。これらすべての条件は非常に一般的なものであるが、驚くべきことに最新のバーコードリーダアルゴリズムでさえ、上記の条件のいくつかに対しては充分な性能を持っていない。この原因の一つは、既存のほぼ全てのアルゴリズムが採用している初期コミットメント戦略(early commitment strategy)である。この戦略では入力画像はまず二値化され、この二値データのみが後段の処理で利用される。我々はこの二値化を回避する、バーコードデコーダのための新しいアプローチを提案する。我々のアプローチは、可変テンプレートの利用に基づいており、各画素のグレーレベル情報を全て利用する。我々が行った、これらのテンプレートのパラメタ化により、各数値に対して独立に最尤推定を効率的に行うことができ、後続の処理段で空間的一致性を高く保つことができる。5つの異なるデータベースからなる困難なUPC-Aバーコード画像を用いた実験により、我々のアプローチが競合アルゴリズムを凌ぐ性能を持つことを示す。Nokia N95上に実装された我々のアルゴリズムは、VGA画像(画像サイズ:640x480, Jpeg圧縮)に対してバーコードの位置決め、及びデコードを平均で400乃至500msで行うことができる。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


形状拘束条件付きの複数解像度選択式線形予測器を用いた頑健な顔特徴追跡
Robust Facial Feature Tracking Using Shape-Constrained Multiresolution-Selected Linear Predictors

Eng-Jon Ong, University of Surrey, Guildford Richard Bowden, University of Surrey, Guildford

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 9, pp. pp. 1844-1859 , September 2011

Keywords: Facial feature tracking, learning, linear predictors, multiple resolution, probabilistic selection.

本稿では学習済みのデータ駆動型アプローチによる正確な実時間の顔特徴追跡を提案する。この方法では画像の輝度情報のみを用いる。人の顔は大きく形が変わり、且つテクスチャも変化するものであり、また特定の領域が大きく動くため、自動顔特徴追跡は困難な課題である。既存の手法はこれらの課題に対して、検出しやすく特異な画像キュー(visual cue)を持つ特徴点(例:口や目の端点)のみを追跡するように限定をかけるか、手動で設計する必要がある事前情報(例:形状モデルのための特徴点選択)を取り入れるかして対応してきた。本稿で提案するフレームワークは、単一の顔画像特徴点を追跡するための最適な画像サポート(visual support)を自動的に同定することで、上記の対応の必要性を無くす。提案手法は、追跡に必要な画像コンテキストを自動的に同定することにより、顔の任意の点を追跡する能力を持つ。この追跡は線形予測器により実現される。この予測器は各画素の輝度を追跡される特徴点からのずれ量としてマッピングするための高速で効果的な方法である。線形予測器の単純性と有効性を利用して、更に頑健なバイアス付き線形予測器(biased liner predictor)を開発した。複数の線形予測器をrigid flockにグループ化することで更に頑健性を向上させる。追跡精度を向上させるために、新しい確率論的選択法を用いて、特定の特徴点を追跡するために関連する画像領域を同定する。選択されたflockを組み合わせて階層型の複数解像度線形予測モデルを構成する。最後に、マイナーな特徴点に対してまれに起きる追跡誤りのための単一形状拘束条件も利用するようにした。実験の結果により、本手法がAAMに比べより頑健で正確であることが示された。この実験ではAAMはSD解像度のビデオからYoutubeのビデオまでの、最小の画像シーケンス例を用いて訓練した。更に、追跡対象の人が異なる場合、の画像サポートの整合性の解析についても説明する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


形状モデルの頑健な整列と未知の姿勢の車両の整列への応用
Robustly Aligning a Shape Model and Its Application to Car Alignment of Unknown Pose

Yan Li, Microsoft Corporation, Redmond Leon Gu, WorldQuant LLC, Old Greenwich Takeo Kanade, Carnegie Mellon University, Pittsburgh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 9, pp. pp. 1860-1876 , September 2011

Keywords: Shape alignment, RANSAC, ASM.

例えば車などのオブジェクトの形状に特徴点の組みを画像中に正確に配置することを、整列(alignment:アライメント)と呼ぶ。既存の形状整列(shape alignment)法は、観測データに形状モデル全体をフィットさせるように設計されていた。これはガウシアン観測ノイズの仮定及び関連する正則化過程に基づいている。しかしこのアプローチは特徴検出においてガウシアンノイズを扱うことができるが、頑健でも正確でもないことが判った。なぜならばこのアプローチは、部分隠蔽や背景や隣のオブジェクトから誤って検出された疑似特徴による大規模な特徴検出誤りやはずれ値に影響を受けやすいためである。本稿で我々はこの問題を確率論的仮説検証(randomized hypothesis-and-test)アプローチで取り扱う。まず、部分形状もしくは特徴点の部分集合からオブジェクトの形状と姿勢の仮説を生成する、ベイズ推測アルゴリズムを開発する。整列を行うために、特徴点の確率論的な部分集合サンプリングによって多数の仮説を生成する。次にこれらを評価し、形状予測誤りを最小化する仮説を見つける。この確率論的な部分集合に基づくマッチングは、はずれ値を効果的に取り扱い正しいオブジェクト形状を復元できる。5000を超える様々な姿勢、車種、照明条件、背景シーン、及び部分隠蔽のある車両画像からなる困難なデータセットに対してこのアプローチを適用した。実験結果により、精度と頑健性両面において、提案アプローチが既存手法を上回る性能を持つことを示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率論的投影と疎な表現を利用したセキュアで頑健な虹彩認識
Secure and Robust Iris Recognition Using Random Projections and Sparse Representations

Jaishanker K. Pillai, University of Maryland, College Park Vishal M. Patel, University of Maryland, College Park Rama Chellappa, University of Maryland, College Park Nalini K. Ratha, IBM T.J. Watson Research Center, Hawthorne

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 9, pp. pp. 1877-1893 , September 2011

Keywords: Iris recognition, cancelability, secure biometrics, random projections, sparse representations.

顔や虹彩などの非接触型の生体認証は、指紋や手の幾何情報などの接触型の生体認証情報に比べ、優れた利点がある。しかし非接触型生体認証に基づいた認証システムでは以下の3つの重要な課題を取り扱う必要がある。1.非接触型生体認証情報の非拘束条件下での取得、2.頑健で正確なマッチング、3.セキュリティを犠牲にしないでプライバシーの確保。本稿では、虹彩認証に関する上記の3つの課題を同時に取り扱うような、確率論的投影と疎な表現に基づいた統一フレームワークを提案する。我々が提案する品質尺度は、虹彩画像取得に関わる領域分割の誤りと多くの種類のノイズを取り合う使うことができる。提案アプローチの拡張が容易であり、またこれにより様々な種類の画像位置ずれ補正や、虹彩の画像系列を利用した認識を取り扱うことができ、頑健で正確なシステムを構築することができることを示す。提案アプローチには、棄却可能な虹彩テンプレートの生成方法を与えることによるプライバシーとセキュリティの改善法も含まれる。一般的に入手可能なデータセットを利用した実験の結果により、提案アプローチの顕著な利点が示される。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


プール隣接違反アルゴリズムによる統計的変動検出
Statistical Change Detection by the Pool Adjacent Violators Algorithm

Alessandro Lanza, University of Bologna, Bologna Luigi Di Stefano, University of Bologna, Bologna

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 9, pp. pp. 1894-1910 , September 2011

Keywords: Change detection, motion detection, illumination invariance, isotonic regression, Pool Adjacent Violators Algorithm.

本稿では、照明の変化、カメラのゲインや露出の変化、そしてノイズなどの実世界アプリケーションにおける擾乱の主な要因に関して頑健であることを目的とした、統計的変動検出アプローチ(statistical change detection approach)を紹介する。本稿では、画素値にノイズを加えた値の局所次元保持変換(order-preserving transformation)として、上記の擾乱要因をモデル化する。本モデル化によって、可能な全画像変化パターンにより張られる空間における、各擾乱効果に対応する部分空間を同定することが可能となる。計測されたパターンが擾乱要因によるものであるという仮説をa-contrario検定することによりシーン変化を検出することができる。この検定は前記の部分空間と入力パターンの距離を計算することでなされる。この距離は、付加的なガウシアンノイズを仮定することで、最大尤度ノンパラメトリックisotonic回帰(a maximum likelihood nonparametric isotonic regression)フレームワークで計算することができる。特にこのパターンの部分空間への投影はプール隣接違反アルゴリズム(Pool Adjacent Violators algorithm)として知られるO(N)のオーダーの反復的方法で計算することができる。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


整合的最大被覆を用いた人の姿勢推定
Human Pose Estimation Using Consistent Max Covering

Hao Jiang, Boston College, Chestnut Hill

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 9, pp. pp. 1911-1918 , September 2011

Keywords: Human pose estimation, consistent max covering, linear programming.

人の姿勢推定のための新しい整合的最大被覆法(consistent max-covering method)を提案する。本稿では特に、粗い前景推定情報が利用可能な場合の問題を取り上げる。姿勢推定は、人の体の画像タイルが前景領域を最大限に被覆し、局所画像特徴と適合し、人の体の構造及び色の拘束条件と適合するようなジグソーパズル問題として定式化することができる。本手法は、人の体のパーツ構成に関する大域的な形状拘束条件を明示的に導入する。この条件により複数のパーツを同時に結びつけ、またこれにより、そのパーツに関連するグラフにおけるハイパーエッジを導入する。このような処理は複雑な姿勢を検出するために必要不可欠のものである。姿勢推定処理で複数のキューを利用するため、我々の手法は散乱した前景に対する耐性を持つ。この整合的最大カバー問題を解くための効率的な線形手法を提案する。これは2つの処理段からなる弛緩法であり、解を多項式時間で求めることができる。様々な画像及びビデオを用いた実験により、提案手法が既存の局所拘束法よりも頑健であることを示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.33, No.10


監視リストに登録された顔監視のための顔認識システムの発展
Toward Development of a Face Recognition System for Watchlist Surveillance

Behrooz Kamgar-Parsi, Naval Research Laboratory, Washington DC Wallace Lawson, Naval Research Laboratory, Washington DC Behzad Kamgar-Parsi, Office of Naval Research, Arlington

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 10, pp. pp. 1925-1937 , October 2011

Keywords: Face recognition, automatic surveillance, human-like classification, morphing facial images, biometrics, open world face recognition.

顔認識に対する興味は実世界での応用へ、制御不能な検出環境へと前進している。その中の1つの興味ある用途として、監視リストに登録された人間を認識し、これを追跡すると言う自動的監視用途がある。このような開放世界での用途では、大量のカメラがショッピングモールや、地下鉄や、空港などに設置されつつあり、利用されている。他方、多数の人間がこれら監視カメラに近づき、通り過ぎるが、ほんの少しの個人だけが認識される必要がある。つまり、このようなシステムは、対象者が監視リストに登録されている者以外は全部拒絶する必要がある。人間は以前見たことも無い人間を定常的に無視するように出来ているが、以前見たことも無い人間を無視することはそれほど易しくない。本論文では、以前見たことも無い顔を処理できるような顔を人が認識出来ることに動機づけられる認識方法を提案する。我々の手法は目的とする人達に属する人間を同定することを基本とする。このために、決定境界の外側と内側の大量の画像データを生成投影することで達成される。監視リスト上の各個人に対して、専用の識別器が学習される。徹底的な実験によって本手法の有効性が確認された。本手法を予め用意した画像に対して、十分な実験に加えて、現実的な環境においてかなりの実運用を行った。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


実世界の3D顔認識における姿勢変動を吸収するための顔の対称性利用
Using Facial Symmetry to Handle Pose Variations in Real-World 3D Face Recognition

Georgios Passalis, University of Athens, Athens and University of Houston, Houston Panagiotis Perakis, University of Athens, Athens and University of Houston, Houston Theoharis Theoharis, University of Athens, Athens and University of Houston, Houston Ioannis A. Kakadiaris, University of Houston, Houston

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 10, pp. pp. 1938-1951 , October 2011

Keywords: Biometrics, face and gesture recognition, physically-based modeling.

実世界での顔認識法を生体認証に制約なして応用する場合には多くの困難がある。非協力的な対象から制約なしでデータを得ようとすれば、ヨー軸に沿った大きな姿勢変動を含む顔撮影を覚悟する必要がある。このような姿勢変動は大きな隠蔽を伴い、その結果データの一部が欠損する。本論文では、姿勢の変動を扱うことが可能な顔の対称性を利用した新規な顔認識法を提案する。本法では姿勢を検出し、隠蔽領域を自動推定するための標識を利用する。その結果、自動化された顔モデルが登録でき、撮影に適したものとなる。顔の当てはめ(fitting)の際には、欠損データを埋めるため、顔の対称性が利用される。その結果、姿勢に依存しない幾何学的画像となる。従来の正面からの撮影と異なり、本提案法は、waveletに基づく生体認証を利用して分割撮影間の画像を比較する。本方法は顔の半分がセンサーから見えていればよいので、実世界での応用に適している。本提案手法は、ノートルダムとヒューストン大学のデータベースを利用して評価されたが、この2つの大学のデータは我々の知る限り、公開されたデータの中では、最も難しい姿勢が含まれている。ランク1位の本手法による平均認識率は83.7%であった。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3D汎用の弾性モデルを利用した非拘束で姿勢に非依存の顔認識法
Unconstrained Pose-Invariant Face Recognition Using 3D Generic Elastic Models

Utsav Prabhu, Carnegie Mellon University, Pittsburgh Jingu Heo, Carnegie Mellon University, Pittsburgh Marios Savvides, Carnegie Mellon University, Pittsburgh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 10, pp. pp. 1952-1961 , October 2011

Keywords: Pose-invariant face recognition, generic elastic models, 3D face modeling.

古典的な顔認識手法は、良く整備された環境では成功して来たが、姿勢、照明、表情などが変動する実環境においてロバストに認識するためには困難があった。本論文では、実世界において姿勢の制約の無い顔認識を行う新規な手法を提案する。第1に、たった1枚の2D画像を3D汎用弾性モデルに応用した項目ごとの3Dモデルを構築する。これらの3Dモデルは中間的な多数のデータベースを有し、これを使って、マッチング用の新規な2D姿勢の情景が合成される。マッチングの前には、テスト検索要求として線形回帰法によって自動的な顔特徴の対応関係に基づく初期推定が求まる。各3Dモデルは、推定姿勢として探索空間内の異なる姿勢に対応付けされ、その結果の画像はテスト検索要求の結果となる。最後に合成画像とテスト検索要求のために、単純な正規化相関マッチングを利用して、実世界データと本姿勢合成法との距離を計算する。本手法を難しいデータ集合やビデオ映像に対して適応した、確信できる結果を示すが、これは、制約付きだけでなく見たことも無い非制約付き実世界のシナリオにも高速に実装化できる。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔照合と画像探索のため記述可能な視覚特徴
Describable Visual Attributes for Face Verification and Image Search

Neeraj Kumar, Columbia University, New York Alexander C. Berg, Columbia University SUNY-Stony Brook University of California-Berkeley, Stony Brook Berkeley Peter N. Belhumeur, Department of Computer Science Columbia University , New York Shree K. Nayar, Columbia University, New York

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 10, pp. pp. 1962-1977 , October 2011

Keywords: Face recognition, attribute classification, feature selection, classifier training, content-based image retrieval, image search.

顔照合と顔画像の探索のための、記述可能な視覚特徴を紹介しよう。記述可能な視覚特徴とは、その外見を記述できるラベルである。本論文は顔画像と特徴を記述するための利用に焦点を当てるが、本コンセプトは他の領域にも当てはまる。顔特徴の例は、性や年齢や顎の形や鼻の大きさなどを含む。特徴に基づく表現を画像の課題に用いる優位性は沢山ある:色々なレベルの明確さで記述可能であり、一度学習した後、新規な対象物を認識しようとする際とかトレーニング無しで新しいカテゴリーを認識する際、一般化可能であり;個々のカテゴリーを指定するより指数関数的に少ない特徴量で効率的に学習できる。実世界の大量のデータ集合の識別器を学習するのに、特徴量が画像中で表現されている存在性、不在性、存在の度合いをどのように生成するかを示す。これらの識別器は自動的に新しい画像をラベル化できる。我々は現在のレベルでの効率性だけでなく、将来の潜在能力を、顔照合と、顔による画像探索を、人間と計算機による実験で実演する。最後に、FaceTracer と PubFigという2つの新規な顔データ集合を、ラベル付き特徴とその正体と共に紹介する。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数の記述子の組合せと、学習した背景の統計量から、制約無しで効率的に顔認識する
Effective Unconstrained Face Recognition by Combining Multiple Descriptors and Learned Background Statistics

Lior Wolf, Tel-Aviv University, Tel-Aviv Tal Hassner, The Open University of Israel, Raanana Yaniv Taigman, Tel-Aviv University, Tel-Aviv

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 10, pp. pp. 1978-1990 , October 2011

Keywords: Face and gesture recognition, similarity measures, face recognition, image descriptors.

コンピュータ画像システムは、デジタル画像中の顔を認識・照合することに関して顕著な改良があった事が実証されてきた。しかし、制約の無い、自然の状態で顔を認識することは未だに困難な課題である。本論文では顔を制約無しで認識するという困難な標準的課題を反映しており、もともとペアーマッチング法で「ラベル付き顔を自然状態」(LFW)をテストするために開発された顔画像を紹介する。我々が提案する手法は以下のような特徴を持っている。1) 局所的パッチの統計的類似性を把握するための顔画像記述子のファミリーを紹介する。2) 画像の類似性を、より良く評価するためにラベル無しの背景サンプルが利用できるかを示そう。この目的のために、多数の新規で効果的な類似性尺度を示す。3) もし、ラベル付き背景サンプルが入手可能なら、ユニークなペア・マッチング法パイプラインの採用によって、更に識別性能を向上させることを示す。我々はLFWに対するペア・マッチングの標準課題(ベンチマーク)に対する最新手法による結果を示す。さらに、本システムは、LFW画像と、実験室の制約下での多数PIEデータベースの両方に対する、多数ラベル顔認識識別問題に、上手く適合していることを示す。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


識別に基づく量子化と多重参照再ランク法によるスケーラブルな顔画像の検索法
Scalable Face Image Retrieval with Identity-Based Quantization and Multireference Reranking

Zhong Wu, Tsinghua University, Beijing Qifa Ke, Microsoft Research Silicon Valley, Mountain View Jian Sun, Microsoft Research Asia, Beijing Heung-Yeung Shum, Microsoft Corporation, Redmond

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 10, pp. pp. 1991-2001 , October 2011

Keywords: Face recognition, content-based image retrieval, inverted indexing, image search.

最新の画像検索システムは、詰め合わせの単語の袋を利用して階層性を有しているが、顔画像の領域では効率が急速に悪くなる。その主な理由は、利用される視覚用語の顔画像に対する識別能力が低く、顔特有の特徴が無視されやすいためである。顔認識の有力な特徴量は高い検索効率を達成するが、これらの特徴量は高次元で全般的特徴であるため、計算量からも記憶容量からもスケーラブルでなく、また、逆索引(inverted indexing)にも適さない。本論文では、スケーラブルな顔画像検索システムを構築することを目指す。このため、局所的で、かつ、全体的でもある新規な特徴量を利用したスケーラブルな顔表現を開発する。索引付けの段階では、特殊な顔の性質を利用した新規な成分に基づく局所特徴量を設計するが、この特徴量は結果的に新規な識別量子化法を利用して視覚用語に量子化される。また、各顔の全体的な識別特徴をコード化するため40バイトの小さなHamming署名を利用する。検索段階では視覚単語から作られた逆索引から、候補画像が最初に検索される。次に、候補画像にHamming署名を適用して多重距離を計算し、これを再ランク付けする。100万の顔データベースに対して、局所特徴量と全体的Hamming署名は相補的であることが示される。つまり、局所特徴量に基づく逆索引は、高いリコール率を示し、グローバルなHamming署名による多重参照再ランク付けは、高精度である。結果として、検索品質の面で、本システムはスケーラブルであるだけでなく、最新の顔特徴を利用した線形の走査検索システムを凌駕している。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


中間調マッピングのための視覚的適応とコントラストの知覚に関する解析
An Analysis of Visual Adaptation and Contrast Perception for Tone Mapping

Sira Ferradans, Universitat Pompeu Fabra, Barcelona Marcelo BertalmÍo, Universitat Pompeu Fabra, Barcelona Edoardo Provenzi, Universitat Pompeu Fabra, Barcelona Vicent Caselles, Universitat Pompeu Fabra, Barcelona

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 10, pp. pp. 2002-2012 , October 2011

Keywords: High-dynamic range images, tone mapping, Naka-Rushton equation, Weber-Fechner contrast.

中間調表現は高ダイナミックレンジの画像を、詳細や新規な表現を導入すること無く、低ダイナミックレンジスクリーン上に圧縮表現する問題である。最終画像は、観察者にとって実情景に出来るだけ近い感動を与えるものでなければならない。我々は中間調表現演算を2段階から成る方法で提案する。第1段階は人間の知覚実験に基づく知覚適応したグローバルな方法であり、特に、錐体視細胞の飽和の重要性を指摘する。第2段階は局地的なコントラスト強調で、カラー視覚現象に動機付けされた変分モデルに基づいている。本方法は心理物理的実験の尺度によって評価されており、それ故、本手法は最新の手法に大変うまく合致する。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ラプラシアン正則化を利用した特徴量選択のための変動最小化基準
A Variance Minimization Criterion to Feature Selection Using Laplacian Regularization

Xiaofei He, Zhejiang University, Hangzhou Ming Ji, University of Illinois at Urbana-Champaign, Urbana Chiyuan Zhang, Zhejiang University, Hangzhou Hujun Bao, Zhejiang University, Hangzhou

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 10, pp. pp. 2013-2025 , October 2011

Keywords: Feature selection, dimensionality reduction, manifold, regularization, regression, clustering.

 多くの小胞処理の課題に置いて、大変大きな次元のデータに直面することがある。特徴量選択手法は、元の特徴量の意味のある部分集合を見つけるよう意図されているが、それの助けによって、クラスタリング、識別化、検索を可能にする。本論文では、教師無しで特徴量選択法を考えるが、これは、関連情報へと探索ガイドするクラスラベルが存在しないため、特に困難である。データ多様体上の滑らかな関数を見つけ、実験的損失を最小化させる、ラプラシアン正則化最小2乗法に基づいて、正則化された回帰モデルの予測誤差を最小化させる目的の2つの新規な特徴量アルゴリズムを提案する。特に、正則化された回帰モデルのパラメータの共分散行列のサイズを最小化する特徴量を選ぶ。この実験的設計に基づき、共分散行列のサイズを測るためにトレースや行列式演算子を利用する。実験的設計に基づき、共分散行列のサイズを計測するためにトレースと行列式演算子を利用した。対応する最適化問題を解くため、高膣的な計算手法を導いた。多様な現実生活的問題のデータ集合の対する十分な実験結果は、本提案アルゴリズムの優秀性を示している。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所的に線形再生しながらの動的学習法
Active Learning Based on Locally Linear Reconstruction

Lijun Zhang, Zhejiang University, Hangzhou Chun Chen, Zhejiang University, Hangzhou Jiajun Bu, Zhejiang University, Hangzhou Deng Cai, Zhejiang University, Hangzhou Xiaofei He, Zhejiang University, Hangzhou Thomas S. Huang, University of Illinois at Urbana Champaign, Urbana

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 10, pp. pp. 2026-2038 , October 2011

Keywords: Active learning, experimental design, local structure, reconstruction.

我々は動的学習問題、つまり、最も表現能力のある点列を選択することを目指す。現存の多くの動的学習法の中で最適な実験的設計法(OED)は、最近多くの注目を集めてきた。典型的なOED基準ではパラメータの推定値や予測値の変動を最小化すればよい。しかし、これらの手法はグローバルなユークリッド構造が現れるだけで、局所的な多様体構造は無視されている。例えば、I最適化設計では、他のデータ点列が全ての選択された点列の線形結合によって最適に近似させられるようなデータ点列を選ぶ。本論文では、データ空間の局所的構造を考慮した新規で能動的学習アルゴリズムを提案する。すなわち、各データ点は、その近傍だけの結合で近似できなければならぬ。全てのデータ点の局所再構成係数が与えられ、選択された点列の係数が与えられたとすると、局所的線形再構成(LLR)法と呼ばれるtransductive(帰納的かつ演繹的=inductive and deductive)な学習アルゴリズムが1つおきの点に対して提案される。従って、最も表現力豊かな点列は、その座標が全データ集合を最も良く再現するものと定義される。順次的で、かつ、凸面状の最適化法は、最適化問題を解くために導入される。実験の結果、我々の手法の有効性が示された。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


識別のためのサポートベクトルマシンとして、コンパクトにサポートされる基底関数
Compactly Supported Basis Functions as Support Vector Kernels for Classification

Peter Wittek, National University of Singapore, Singapore Chew Lim Tan, National University of Singapore, Singapore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 10, pp. pp. 2039-2050 , October 2011

Keywords: Wavelet kernels, feature engineering, feature correlation, semantic kernels.

サポートベクトル回帰と識別の両方のために、ウェーブレットカーネルが紹介されて来た。これらウェーブレットカーネルのほとんどは埋め込まれた空間の内積は利用しないで、似たような半径方向の基底関数のカーネルとして利用する。ウェーブレット解析は連続したデータ点列間の時間的か空間的な関係についてなされることが多い。連続する特徴量が互いに統計的に関連しており、その結果、元々連続的な信号と見なすことが可能なオブジェクトのベクトル表現は、等間隔か、ランダム間隔の観察表現と解釈することができる。信号をコンパクトにサポートされた底関数で近似し、内包するL_2空間の内積を利用すると、新規なウェーブレットカーネルの新しいファミリーを得ることができる。実験で、これらのカーネルの優位性が示された。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


HMMモデリングにおける手書きの単語認識のための動的なコンテキスト情報
Dynamic and Contextual Information in HMM Modeling for Handwritten Word Recognition

Anne-Laure Bianne-Bernard, A2iA SA, Artificial Intelligence and Image Analysis and Telecom ParisTech/TSI and CNRS LTCI, Paris Farès Menasri, A2iA SA, Artificial Intelligence and Image Analysis, Paris Rami Al-Hajj Mohamad, University of Balamand, Lebanon Chafic Mokbel, University of Balamand, Lebanon Christopher Kermorvant, A2iA SA, Artificial Intelligence and Image Analysis, Paris Laurence Likforman-Sulem, Telecom ParisTech/TSI and CNRS LTCI, Paris

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 10, pp. pp. 2066-2080 , October 2011

Keywords: Latin and Arabic handwriting recognition, context-dependent HMMs, neural-network combination.

この研究は、3台の手書き文字認識装置の組合せによる効率的な単語認識システムを構築することを目標としている。この結合されたシステムの主な構成要素は、より良い手書き文字の部分モデル化のために、ダイナミックで文脈上の情報を考慮するHMMに基づいた認識器である。部分コンテキストをモデル化するために、決定木クラスタリングに基づく状態結合処理を導入する。決定木は、どのように文字が書かれるかについて一連の専門家に基づく質問に従って組み立てられる。質問はより大きなクラスター(集合)に属するグローバルな問題と、より小さいクラスターに属する明確な質問に分類される。このようなクラスター化により、モデル数とガウス密度の総数を10にまで減らすことが可能となる。我々は、このモデリングを手書き単語の認識に適用する。ラテン文字もしくはアラビア文字の3つの一般的に利用できるデータベース、即ちRimes、IAMとOpenHartで実験を行った。実験結果は、ダイナミックなモデリングにより埋め込まれるコンテキスト情報により、認識精度が改善されることを示している。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ノンパラメトリック局所スムージングによる明度値に基づく画像の整列
Intensity-Based Image Registration by Nonparametric Local Smoothing

Chen Xing, University of Minnesota, Minneapolis Peihua Qiu, University of Minnesota, Minneapolis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 10, pp. pp. 2081-2092 , October 2011

Keywords: Degeneration, discontinuity, edge detection, local smoothing, mapping, nonparametric transformation, weighted least squares estimation.

画像の位置決めは、ある画像を他の画像に対応づけるためのアプリケーションで、広く使われる。既存の画像位置決め方法は、特徴もしくは画素明度に基づく。特徴に基づく方法は、まず関連する画像特徴を抽出し、次に2つの画像から抽出される2つの特徴セット間の関係に最も良くマッチする幾何学的な変換を見つける。画像特徴の識別と抽出は、困難で時間のかかるプロセスであることが多く、そのため、マッピング変換が2つの画像の観察明度から、直接推測されるような、明度に基づく画像位置決め方式が最近注目されている。これまでの研究では、殆どの既存の明度に基づく画像位置決め方法は、2つの画像全体を対応付けることによる最小化/最大化問題を解くことで、マッピング変換を大域的に推測する。このためには、マップ変換がある種類のパラメタ形式を持つか、あるいは、それがある規則性条件を満たしている連続の二変数関数であることを仮定する必要がある。本論文において、我々はパラメタに依存しない局所的平滑化を使う新しい明度に基づく画像位置決め方法を提案する。ある画像特徴を推測中に適応させたあと、この方法によって与えられた画素でのマッピング変換は近傍領域で局所的に推測される。局所的平滑化の持つ柔軟性のために、この方法はパラメタ形式のマッピング変換を必要とせず、マッピング変換が不連続関数であってもよい。数値実験の結果によりは、本手法が多数のアプリケーションに効果的であることを示す。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


半教師付き識別におけるモデルの仕様誤りの影響
The Effect of Model Misspecification on Semi-Supervised Classification

Ting Yang, Johns Hopkins University, Baltimore Carey E. Priebe, Johns Hopkins University, Baltimore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 10, pp. pp. 2093-2103 , October 2011

Keywords: Semi-supervised classification, finite mixture model, Bayes plug-in classifier.

ラベル付き、またラベルなし観察の両方による、半教師付き識別訓練は、ラベル付き観測だけに基づく識別と比較して、より高い性能を示す。我々が仮定するモデルが正しいならば、ラベルなし観測は常に識別に有益である。しかし、モデル仕様が誤っているとき、ラベルなし観測は識別性能の性能を下げるかもしれない。古典的な識別問題設定において、多くの要因は、訓練データ、モデル仕様、推定方法と識別器を含む半教師付き学習法の性能に影響を及ぼす。具体的には、ラベルなし観測の遍在と扱いやすさのために、我々は有限の混合モデルとベイズ・プラグイン分類器において最尤推定法を考慮する。この特定の設定において、我々は半教師付き学習法の仕様誤りモデルの効果を調べて、性能低下がいつ、なぜ起こるかの解明を進める。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


有色光からのビデオ正規性
Video Normals from Colored Lights

Gabriel J. Brostow, University College London, London Carlos Hernández, Google Inc. George Vogiatzis, Aston University, Birmingham Björn Stenger, Toshiba Research Europe Ltd., Cambridge Roberto Cipolla, University of Cambridge, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 10, pp. pp. 2104-2114 , October 2011

Keywords: Photometric stereo, multispectral, single view, video normals.

我々は、変形した表面の詳細な3D形状、曲がり、しわを得るために、アルゴリズムと付随する単一ビューのキャプチャ方法論を提示する。既知の表面特徴、構造的な光線、またはシルエットに頼る方法では、動く3Dデータを得るのが難しかった。それが密な法線場をテクスチャのない表面から復元することができるので、多スペクトル照度差ステレオ法は魅惑的な選択肢である。我々はそのようなデータを取得方法を示し、これにより我々のフレームごとの簡明な位置決め方法の強さと限界を示す。テクスチャの無い布と白のメイキャップ(化粧)の有無をパラメタとし、顔の単眼のビデオ画像系列で実験を行った。被写体は、空間的に切り離された赤・緑・青光の下で撮影された。我々の最初の発見は、カラー照度差ステレオ法により、滑らかに変化するフレームごとの再構築を、詳細に生成できるということである。第二に、これらの3D再構築法が2D追跡法で補強されるとき、表面の位置合わせをすることができ、且つ単一色相の被写体に適用される同種の色の制限を緩和することができる。定量的及び定性的な実験により、この単純な多スペクトルのデータ取得システムの実用性と限界を調査する。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


低次元の表情の変形の多様性の構築を介した、関係づけられた表情の変形による単一の顔画像からの三次元顔モデルの再構築
Reconstructing 3D Face Model with Associated Expression Deformation from a Single Face Image via Constructing a Low-Dimensional Expression Deformation Manifold

Shu-Fan Wang, National Tsing Hua University, Hsinchu Shang-Hong Lai, National Tsing-Hua University, Hsinchu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 10, pp. pp. 2115-2121 , October 2011

Keywords: 3D face reconstruction, expression modeling, manifold analysis, surface registration.

表情モデリングは、顔のアニメーションのために表情認識と表現統合にとって重要である。本研究において、我々は一つの顔画像から3D顔モデルと付随する表現変形を推定することに多様体に基づいた3D顔再構築アプローチを提案する。本稿で提案する、頑健な重み付き特徴地図(Robust Weighted Feature:RWF)で、我々は3D顔モデルの密な一致を得ることができて、非線形の3D表現多様体を、大規模な3D表情モデルの組から作り上げることができる。そして、この多様体におけるガウシアン混合モデルは、変形表現の分布を表現するために学習される。変形可能な(morphable)なニュートラル顔モデルと低次元の表現多様体の長所を結合することによって、エネルギー最小化フレームワークの中で一つの顔画像から顔の変形と同様に3D顔幾何情報を再構築するための新しいアルゴリズムを開発する。合成画像及び実画像両方を用いた実験の結果により、提案アルゴリズムの効果と正確さが確認できる。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


光の前方と逆方転送の双対性について
On the Duality of Forward and Inverse Light Transport

Manmohan Chandraker, University of California, Berkeley, Berkeley Jiamin Bai, University of California, Berkeley, Berkeley Tian-Tsong Ng, Institute for Infocomm Research, Singapore Ravi Ramamoorthi, University of California, Berkeley, Berkeley

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 10, pp. pp. 2122-2128 , October 2011

Keywords: Light transport, rendering equation, inverse light transport, duality theory, interreflections, radiometric compensation.

光の逆変換は、大部分の場面の画像に普及する大域的な照明効果(例えば内部反射のような)を元に戻すためのものである。この論文は、フォワードレンダリングの双対としての逆の光輸送に対する理論的で計算の根拠を提示する。数学上、この双対性は、基礎となるノイマン級数展開を通して確立される。物理的に、あたかも前進級数(forward series)に反射項が足しあわされるように、我々の提案する逆級数の各項が、反射間の相互の影響をキャンセルすることが示される。 前進級数の収束特性は良く知られるため、我々は逆級数の変動収束が材料反射率の興味深い条件を与えることを示す。概念的にいえば、逆問題は大規模な光輸送行列の倒置を必要とする。そして、それは標準的な手法を使う現実的な解法のためには非実用的である。我々の理論的なフレームワークのごく自然な成果として、高速な光輸送逆行列計算のための一連の計算アルゴリズムが得られる。これはフォワードレンダリングにおける、有限要素法によるラジオシティ(訳注:照明光、反射光を含め全ての光源からの光を計算する方式)、モンテカルロとウェーブレットに基づく方法に類似している。またこれらの手法は、せいぜい行列?ベクトルの積演算しか用いていない。2つの実際的なアプリケーションを示す。即ち光輸送における個々の反射の分離と、現実の環境において大域的な照明なしの物体の画像を表示するための高速なプロジェクタ放射分析の補償である。

MN

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.33, No.11


計算論的v.s.物理的ボトムアップ画像顕在特徴:比較評価研究
Computational versus Psychophysical Bottom-Up Image Saliency: A Comparative Evaluation Study

Alexander Toet, TNO Human Factors, Soesterberg

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 11, pp. pp. 2131-2146 , November 2011

Keywords: Saliency, image analysis, visual search.

13種類の計算論的ボトムアップ顕在特徴モデルの予測と新たに導入した多重スケールコントラスト顕在性(Multiscale Contrast Conspicuity: MCC)尺度を、人間の視覚顕在性尺度と比較する。人間の視覚顕在性推定(human visual conspicuity estimates)とモデルの顕在性予測との合致性をランク次数相関(rank order correlation)により定量化する。ターゲットとなる対象領域にかかる計算論的な顕在性の最大値は、前記の13種のモデルのうち12種類と最も強い相関を持つ。簡明な多重スケールコントラストモデルとMCC尺度は共に、人間のターゲット顕在性と最も高い相関(>0.84)を示す。局所画像顕在性は、静的及び動的なシーンから人間が受ける印象や解釈を決める大きな要因である。それゆえ計算論的顕在性モデルには様々な重要な応用分野がある。これは例えば適応的コンテンツ配信、ROIに基づいた画像圧縮、ビデオ要約、プログレッシブ画像転送、画像分割、画像品質評価、オブジェクト認識、コンテンツ適応的画像スケーリングなどである。しかし現在のボトムアップの顕在性モデルは、押しのけ効果(crowding)や側面相互作用(lateral interaction)などの重要な視覚効果を考慮に入れていない。このモデルを更に発展させるためには、人間の視覚顕在性の元になっている機構の間の相互作用についての正確な知識が必要である。MCC尺度とそれに関連する物理的顕在性尺度は、利用価値の高いツールであり、これにより様々な特徴次元が持つ、視覚ターゲットの顕在性全体に対する相対的な貢献具合を体系的に検討することができる。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大域立体視のための構成可能なマッチングコスト関数のコンポーネント毎の解析
A Component-Wise Analysis of Constructible Match Cost Functions for Global Stereopsis

Daniel Neilson, University of Saskatchewan, Saskatoon and University of Alberta, Edmonton Yee-Hong Yang, University of Alberta, Edmonton

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 11, pp. pp. 2147-2159 , November 2011

Keywords: Stereopsis, stereo matching, stereo correspondence, global algorithms, match cost functions.

マッチングコスト関数は、全ての立体視アルゴリズムに共通する要素であり、異なる画像の間の非類似性尺度を与えるために用いられる。大域立体視アルゴリズム(global streopsis algorithm)は、結果として得られる距離マップにおける平滑性を仮定するが、これはマッチングコスト関数と予期せぬ相互作用を生じることがある。本稿では、構造化された一群のマッチングコスト関数を用いて、いくつかの大域立体視フレームワークにおいてそれぞれの関数の相対的な性能を調査するための大規模な検証を行う。272種類のマッチングコスト関数を比較する。これらは4つの大域立体視フレームワークにおけるコンポーネントを利用して構築されたものである。データセットとしては、3つの異なる分散を持つセンサーノイズを合成した57の画像対を用いる。解析の結果、大域立体視アルゴリズムで利用されるマッチングコスト関数の導出を助ける、一群の一般的規則が推測された。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


変分推測によるβ混合モデルのベイズ推定
Bayesian Estimation of Beta Mixture Models with Variational Inference

Zhanyu Ma, KTH -- Royal Institute of Technology, Stockholm Arne Leijon, KTH -- Royal Institute of Technology, Stockholm

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 11, pp. pp. 2160-2173 , November 2011

Keywords: Bayesian estimation, maximum likelihood estimation, beta distribution, mixture modeling, variational inference, factorized approximation.

β混合モデル(beta mixture models: BMM)におけるパラメタのベイズ推定は解析的に扱いづらいものである。事後確率分布シミュレーションのための数値的解法は可能ではあるが、計算コストが非常に高い。本稿ではβ分布のパラメタの事前/事後確率分布の近似を導入し、パラメタ推定のための解析的に扱いやすい(閉形式の)ベイズアプローチを提案する。このアプローチは変分推測(variational inference: VI)フレームワークに基づくものである。VIフレームワークの原理と相対凸性結合(relative convexity bound)を利用することで、拡張型の因子分解近似法(extended factorized approximation method)を適用し、BMMにおけるパラメタの分布の近似を行う。BMMの全てのパラメタが変数として扱われ、適切な分布が割り当てられるような完全ベイズモデル(full Bayesian model)では、我々のアプローチによりパラメタの事後確率分布の最適な推定を漸近的に見つけることができる。更にこのモデルの複雑性はデータ依存で決まる。反復的な数値解法を用いなくても済むように前記の閉形式の解法を導入する。我々のアプローチでは、従来の期待値最大化アルゴリズムにある過剰適合の弊害を避けることができる。合成及び実データを用いた実験により、本アプローチの高い性能を検証する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオにおける動的な処理の割り当て
Dynamic Processing Allocation in Video

Daozheng Chen, University of Maryland, College Park Mustafa Bilgic, Illinois Institute of Technology, Chicago Lise Getoor, University of Maryland, College Park David Jacobs, University of Maryland, College Park

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 11, pp. pp. 2174-2187 , November 2011

Keywords: Video processing, resource allocation, graphical models, optimization, background subtraction, face detection, dynamic programming.

デジタルビデオの大規模なオンライン販売は、既存のビデオ解析アルゴリズムに計算的な課題を投げかけている。既存アルゴリズムの適用のためには、処理速度と精度とのトレードオフしが必要である。多くの洗練された効果的なアルゴリズムでも大規模な計算リソースを必要とすることは、長大なビデオ全体にこれらのアルゴリズムを適用することを現実的でなくしている。これらの計算量の多いアルゴリズムの適用を押さえることで、全体の計算量を顕著に低減することが可能であり、これにより、より制約の強い処理の結果を用いるようなアプリケーションの可能性を高めることができる。グラフ連鎖モデル(chain graphical model)とビデオ解析及び処理割り当てのための推測を用いたビデオモデリングによる、ビデオ解析の方法を紹介する。我々の方法を背景除去と顔検出に適用することで、我々のアルゴリズムが既存のものに比べ顕著に性能が向上していることを示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オブジェクト検出と追跡及び行動認識のためのハフフォレスト
Hough Forests for Object Detection, Tracking, and Action Recognition

Juergen Gall, ETH Zurich, Zurich Angela Yao, ETH Zurich, Zurich Nima Razavi, ETH Zurich, Zurich Luc Van Gool, ETH Zurich, Zurich and IBBT, K.U., Leuven Victor Lempitsky, University of Oxford, Oxford

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 11, pp. pp. 2188-2202 , November 2011

Keywords: Hough transform, object detection, tracking, action recognition.

オブジェクト検出と追跡及び行動認識のためのハフフォレスト 本稿では、ランダムフォレスト法を一般化ハフ変換に効率的に適用したハフフォレスト法を紹介する。非明示的形状モデル(implicit shape models)のような既存のハフ変換に基づくシステムに対して、ハフフォレスト法は、一般化ハフ変換のカテゴリレベルでのオブジェクト検出性能を向上させている。同時に、この方法が持つ柔軟性により、オブジェクト追跡や行動認識などの新たな技術領域にハフ変換を拡張することができる。ハフフォレスト法は、局所外観のタスク適応的コードブック法とみなすことができる。これにより教師付き訓練を高速に行うことができ、結果として得られるシステムのマッチングも高速である。分散値が小さくなるようにハフ投票処理を変換し、これにより前記のコードブックのエントリが最適化されるため、そして本手法の計算効率が高く、検出処理において、局所画像パッチやビデオ立方体(video cuboids)を密にサンプリングすることができるため、高い検出精度を達成できる。コンピュータビジョンにおけるいくつかの課題について、一般的に利用できる大規模なベンチマークデータセット利用した実験により、ハフフォレストの効果を検証し、他の最新の手法との比較を行った。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


光を効率的に利用する撮像法
Light-Efficient Photography

Samuel W. Hasinoff, Toyota Technological Institute at Chicago, Chicago Kiriakos N. Kutulakos, University of Toronto, Toronto

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 11, pp. pp. 2203-2214 , November 2011

Keywords: Computational photography, computer vision, computer graphics, shape-from-focus.

本稿では、被写界深度及び露出が既定のときに最短時間での撮像方法を検討する。1)画像系列を取得する、2)各画像について、それぞれのレンズ絞り、フォーカス、及び露出時間を制御することで、上記の既定の被写界深度全体をカバーする画像系列を、各被写界深度の画像を別々に撮像するよりも短い時間で生成することができることを示す。これを起点として、2つの重要な成果を得た。まず連続変化可能な絞りを持つレンズの場合には、大域最適な撮像手法のための閉形式の解を導出する。これにより特定の被写界深度からの光を最も効率的に収集できる。次に、離散的な絞り値を持つレンズの場合には、整数計画法問題の解として最適解が与えられる。我々の結果は既存の市販カメラ及び典型的な撮影条件に対して適用可能であり、ワンショットの狭い絞りによる撮像の代わりとして、密な、広い絞りの画像系列を、より光を有効利用する撮像方法として提案する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テンソル投票の効率向上について
On Improving the Efficiency of Tensor Voting

Rodrigo Moreno, Linköping University, Linköping and Rovira i Virgili University, Tarragona Miguel Angel Garcia, Autonomous University of Madrid, Madrid Domenec Puig, Rovira i Virgili University, Tarragona Luis Pizarro, Imperial College London, London Bernhard Burgeth, Saarland Univesity, Saarbrücken Joachim Weickert, Saarland Univesity, Saarbrücken

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 11, pp. pp. 2215-2228 , November 2011

Keywords: Perceptual methods, tensor voting, perceptual grouping, nonlinear approximation, curveness and junctionness propagation.

本稿では、計算複雑性の高いテンソル投票の計算を効率化するための、2つの代替定式化案を提案する。テンソル投票は頑健な知覚的グルーピング手法であり、ノイズを含むデータから顕在特徴を抽出するために用いられる。最初の手法は、テンソル投票の数値近似手法からなる。これはplate and ball投票プロセス(plate and ball voting process)の詳細な解析により導き出されたものである。第二の手法は第一の手法の定式化を、テンソル投票の知覚的な意味を保ちつつ簡単化したものである。stickテンソル投票と、プレートテンソル投票のstickコンポーネントにより、平面性が強化され、プレート及びボール投票のプレートコンポーネントにより曲率が増進される。また、ボールテンソル投票のボールコンポーネントにより接続性が強化される。第二の定式化に対して2つの新しいパラメタを提案し、潜在的に対立関係にあるプレート投票のstickコンポーネントとボール投票のボールコンポーネントの影響を制御する。実験結果は、本稿で提案した定式化が、計算効率が重要なアプリケーションに対して適用可能であることを示している。なぜならばこの定式化はO(1)という低い計算複雑性を持つものであるからである。更に第二の定式化は、前記の新しい2つのパラメタの適切な設定により、元々のテンソル投票よりも、顕在特徴の推定に適していることが示される。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


前史壁画の構成方法を決定するための微分可能な多様体における最適化
Optimization in Differentiable Manifolds in Order to Determine the Method of Construction of Prehistoric Wall Paintings

Dimitris Arabadjis, National Techncal University of Athens, Athens Panayiotis Rousopoulos, National Techncal University of Athens, Athens Constantin Papaodysseus, National Techncal University of Athens, Athens Michalis Exarhos, National Techncal University of Athens, Athens Michail Panagopoulos, Ionian University, Corfu Lena Papazoglou-Manioudaki, National Archaeological Museum of Greece, Athens

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 11, pp. pp. 2229-2244 , November 2011

Keywords: Rotation and translation invariant curve fitting, pattern recognition in paintings, optimization in differentiable manifolds, geometric guides in prehistoric wall paintings, minimal parameters set for curve description, fitting prototype curves to drawn borders.

本稿では、前史壁画の描画で利用された、潜在的な原型曲線(prototype curve)の決定のための一般的方法論を紹介する。本アプローチには1) 曲率を利用して壁画の輪郭を適切に分割するための前処理、2)原型曲線類の選択、3)原型曲線の最初の推定のための4次元多様体における解析と最適化、4)輪郭部分と原型曲線のクラスタリングにより潜在的ガイドの数を推定、5) 潜在的ガイドの関数形を厳密に決定するための、各クラスタに別々に適用される4次元多様体と、対応する壁画描画の輪郭部分の更なる最適化。この方法論では以下の2つの問題を同時に取り扱う。1)データ点の方位の任意性、及び2)各原型曲線に対して、対応する壁画描画の輪郭に最も良く適合する関数形式を一つ決定する。この方位の任意性は、新たに導入した曲率に基づく誤差により取り扱われる。4次元多様体に対して原型曲線の曲率変形埋め込みにより、全ての原型曲線の適切な形式を決める。この方法論の応用として、ギリシャのTyrinsの洞窟とThera島にある有名な壁画に適用した。これによりこれらの壁画が線形スプライン及び双曲線に対応する幾何的なガイドを利用して書かれた可能性が高いことが示された。これらの幾何形式の式は、0.39mmという非常に小さい平均誤差で壁画の線に適合する。それゆえ本アプローチの結果は、ギリシャの古代におけるスプラインの定式化の1000年以上前に複雑な幾何的構造物の正確な実現方法があったことを示している。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


放射状の差異を利用した眼底画像からの頑健な多重スケール立体視マッチング
Robust Multiscale Stereo Matching from Fundus Images with Radiometric Differences

Li Tang, University of Iowa, Iowa City Mona K. Garvin, University of Iowa, Iowa City Kyungmoo Lee, University of Iowa, Iowa City Wallace L.M. Alward, University of Iowa, Iowa City Young H. Kwon, University of Iowa, Iowa City Michael D. Abràmoff, University of Iowa, Iowa City

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 11, pp. pp. 2245-2258 , November 2011

Keywords: Index Terms: Depth from stereo, radiometric differences, pixel feature vector, fundus image, scale space.

放射状の差異を利用した眼底画像からの頑健な多重スケール立体視マッチング 低コントラスト、弱テクスチャ、且つ放射状の差異がある網膜画像対の間の信頼性の高い対応を見つけるための、多重スケール立体視アルゴリズムを提案する。既存アルゴリズムは、明瞭な特徴とランバート反射を持つような平面表面対を対象とするように設計されている。それゆえこれらの手法は立体網膜画像などの医療画像の三次元再構成などには適用することができない。本研究では頑健な画素特徴ベクトルの定式化を行い、これによりスケール空間でノイズがあるような場合でも識別特徴の抽出ができる。このシステムでは、低周波機構(low-frequency mechanisms)の反応は高周波機構の反応に従って変化し相互作用する。シーンの奥行き構造をスケール空間における視差推定の発展により表現する。これはスケール次元に沿ったマッチングの不明瞭さを分散させることで、大域整合的な再構成を行うものである。顔認証による定性的評価と、我々が持っている正解情報付き眼底ステレオ画像のコレクションを利用した定量的評価を基に性能を評価した。このコレクションは性能評価のために標準的なテスト画像の拡張として一般公開している。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


疎な表現を利用した頑健な画像追跡及び車両識別
Robust Visual Tracking and Vehicle Classification via Sparse Representation

Xue Mei, University of Maryland, Folsom Haibin Ling, Temple University, Philadelphia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 11, pp. pp. 2259-2272 , November 2011

Keywords: Visual tracking, sparse representation, compressive sensing, simultaneous tracking and recognition, particle filter, ¥ell_1 minimization.

本稿では、追跡問題をパーティクルフィルタフレームワークにおける疎な近似問題として再定義することで、頑健な画像追跡法を提案する。このフレームワークでは、隠蔽、ノイズ、及びその他の困難な課題を、一群の種テンプレート(trivial template)を利用することでシームレスに取り扱うことができる。具体的には、新しいフレーム中にターゲットを見つけるために、ターゲットテンプレートと種テンプレートにより張られる空間において、各ターゲット候補を疎な表現で表す。この疎性は¥ell_1-正則化最少二乗問題を解くことにより得られる。最小の投影誤差を持つ候補を追跡ターゲットとする。ベイズ状態推測フレームワークを利用して追跡を継続する。追跡性能を向上させるために、2つの戦略を用いる。第一の戦略はターゲットテンプレートを動的に更新することで、ターゲット外観の変化を考慮に入れる。第二の戦略は非負性拘束条件を導入し、ターゲットに対して負の類似性を持つ散乱を除去する。隠蔽、照明変化、スケール及び姿勢の変化などの様々な種類の課題を含む多数の画像系列を利用して、提案手法を試験した。提案手法は以前に提案された追跡器に比べ、卓越した性能を示している。この手法を拡張し、静的テンプレートセットを導入することで、ターゲットの追跡と認識を同時に行う手法を実現した。この静的テンプレートは、異なるクラスからのターゲット画像を保持するためのものである。最終結果は、各フレームにおける認識結果を画像系列全体に伝播させて生成する。本手法を屋外赤外線画像系列からの車両追跡及び識別において検証した。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像及びビデオに基づく認識のためのGrassmann及びStiefel多様体における統計的計算
Statistical Computations on Grassmann and Stiefel Manifolds for Image and Video-Based Recognition

Pavan Turaga, University of Maryland, College Park Ashok Veeraraghavan, Mitsubishi Electrical Research Labs, Cambridge Anuj Srivastava, Florida State University, Tallahassee Rama Chellappa, University of Maryland, College Park

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 11, pp. pp. 2273-2286 , November 2011

Keywords: Image and video models, feature representation, statistical models, manifolds, Stiefel, Grassmann.

本稿では、画像及びビデオに基づく認識アプリケーションを検討する。アプリケーションとしては、その背景にあるモデルが線形部分空間という特殊な構造を持っているものを対象とする。ビデオ及び画像セットに対して一般的に用いられるパラメトリックモデルが、Grassmann及びStiefel多様体の統一されたフレームワークを用いてどのように記述されるかを議論する。まず、線形動的モデルのパラメタが、適当な次元における有限次元線形部分空間であることを示す。順位付けされていない画像セットを有限次元線形部分空間からのサンプルとして用いることで、自然にこのフレームワークに問題を落とし込むことができる。この部分空間における推測問題を、Grassmann多様体における推測問題に無理なく再定義できることを示す。部分空間に基づくモデルを利用して認識を行う場合、Grassmann多様体のリーマン幾何で導出されたツールを利用する必要がある。この部分空間の幾何特性、リーマン計量(Riemannian metrics)の適切な定義、及び測地線の定義の検討も行う必要がある。更にこの部分空間の幾何を反映した、クラス内及びクラス間の変動の統計的モデル化も行う。内在及び外在統計量(intrinsic and extrinsic statistics)の利用により最大尤度識別が可能となる。この多様体の幾何特性から導出された教師なしクラスタリングのためのアルゴリズムも紹介する。最後にこれらの手法の性能向上を、行動認識、ビデオに基づく顔認識、画像セットからのオブジェクト認識、行動に基づくビデオクラスタリングなどの、様々な画像処理アプリケーションにおいて例証する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


行動理解のための軌道学習:教師なし、マルチレベル、且つ長期の適応的アプローチ
Trajectory Learning for Activity Understanding: Unsupervised, Multilevel, and Long-Term Adaptive Approach

Brendan Tran Morris, University of California, San Diego, La Jolla Mohan Manubhai Trivedi, University of California, San Diego, La Jolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 11, pp. pp. 2287-2301 , November 2011

Keywords: Trajectory clustering, real-time activity analysis, abnormality detection, trajectory learning, activity prediction.

今日、社会は様々な場所でのビデオカメラの利用を受け入れている。しかしこれらのカメラで撮影された大量のビデオ・画像情報を利用する手段は、まだ発展途上である。本稿ではライブビデオ解析のためのフレームワークを提案する。ここで監視対象の活動は反復動きパターンから学習された活動語彙を用いて記述される。同時にこのフレームワークは、リアルタイムの監視対象の特徴付け及び未来の活動の予測、異常行動の検出に用いられる。オブジェクトの軌跡の反復性を用いて動きモデルを3段階の階層的学習プロセスにより自動的に構築する。注目ノードの学習は、ガウシアンミクスチャモデリング、軌跡クラスタリングにより形成されたルート(routes)の接続、及び活動の時空間ダイナミクスの隠れマルコフモデルを用いた確率論的符号化によりなされる。小規模の時間変動に対して、最尤回帰(maximum likelihood regression)を用いて活動モデルをオンライン形式で適応させる。長期のモニタリングのための周期的再訓練により新たな行動を発見する。一般的な研究では実施されることが少ない様々なデータセットを利用した大規模な評価により、監視カメラに基づく活動解析のための提案フレームワークの効果と一般性を例証する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像コレクションの教師なし組織化:分類学及びその次に来るもの
Unsupervised Organization of Image Collections: Taxonomies and Beyond

Evgeniy Bart, Palo Alto Research Center, Palo Alto Max Welling, University of California Irvine, Irvine Pietro Perona, California Institute of Technology, Pasadena

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 11, pp. pp. 2302-2315 , November 2011

Keywords: Taxonomy, hierarchy, clustering.

画像コレクションを教師なしで木構造の分類に組織化するTAXと名付けたノンパラメトリックベイズモデルを紹介する。このモデルはNested Chinese Restaurant Process (NCRP)からアイディアを得たものであり、各画像を前記の木構造を利用して関連付ける。類似画像はこの木構造上のパスの最初の部分を共有しており、それゆえ画像間に共通する表現を持つことがわかる。この木構造の各内部ノードは、複数画像に共通する情報を表現するものである。この木構造の特性を約1万画像の大規模な画像コレクションを利用した実験により確認した。この実験では、多数のユーザが与えられた画像を素早く位置決めするタスクを行った。これにより提案システムの主な利点が、画像コレクションでのより簡単なナビゲーションと、短い記述長であることが判った。ここで起きる自然な疑問は、この分類が、自然画像に対して最適な形式の組織化が行われた結果なのかということである。我々の実験から推測されるのは、本実験の結果の画像コレクションの組織化は有用なものであったが、更に洗練された構造が存在する可能性もある、ということである。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


MSER特徴は本当に興味深いものか?
Are MSER Features Really Interesting?

Ron Kimmel, Technion, Haifa Cuiping Zhang, CMART Systems, Inc., Santa Clara Alexander M. Bronstein, Tel Aviv University, Tel Aviv Michael M. Bronstein, Universita' della Svizzera Italiana, Lugano

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 11, pp. pp. 2316-2320 , November 2011

Keywords: MSER, feature detector, affine invariance, stable region, correspondence.

アフィン変換に不変な特徴の検出と記述は、多数のコンピュータビジョンアプリケーションにおける重要な要素である。本稿では、曲率スケール空間のプリズムを通した最大安定極値領域(maximally stable extremal regions: MSERs)の意味について解析し、その本来の定義に則り、MSERは正則な(円形)領域を良く抽出すると結論付けた。自然画像における興味対象の物体は多くの場合変則的な形状をしていることから、この制約を受けない新たなMSERの代用的定義を提案する。この定義では、MSERの不変性に関する特性は引き継いでいる。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Hermann Weylの不一致性に基づく画像及び体積データのための類似性尺度
A Similarity Measure for Image and Volumetric Data Based on Hermann Weyl's Discrepancy

Bernhard A. Moser, Software Competence Center Hagenberg, Hagenberg

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 11, pp. pp. 2321-2329 , November 2011

Keywords: Similarity of images, normalized cross correlation, autocorrelation, mutual information, discrepancy norm, registration, tracking, image processing, similarity measure.

本稿では、変換により整列の低下した画像及び体積パターンのための類似性尺度について検討する。相互相関やL_pノルム、及び相互情報量などの標準的なコンセプトに基づく尺度は、不整合についての単調性を保証することができない。本稿では、部分和の評価を利用するHermann Weylの不一致性コンセプトに基づく新たな距離尺度を導入する。前記の標準的なコンセプトと対照的に、本稿で提案する尺度では、単調性(monotonicity)、正定値性(positive definiteness)、及び不整合に対する同質の線形上界(homogenously linear upper bound)を証明することができる。この単調性が画像の周波数やその他の性質に影響を受けるものではなく、そのためこの新しい類似性尺度が、類似性に基づく画像位置決め、追跡及び分割に対して有用であることを示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動きがぼけて見えるオブジェクトのマッティング(Matting)ための動きの正則化
Motion Regularization for Matting Motion Blurred Objects

Hai Ting Lin, National University of Singapore, Singapore Yu-Wing Tai, Korean Advanced Institute of Science and Technology, Daejeon Michael S. Brown, National University of Singapore, Singapore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 11, pp. pp. 2329-2336 , November 2011

Keywords: Matting, regularization, motion direction estimation, motion blur.

本稿では単一画像からの動きがぼけて見えるオブジェクトのマッティング(matting)問題を取り扱う。既存の単一画像マッティング法は、一画素よりも小さい変化量を持つ(サブピクセルレベルの)静的なオブジェクトを抽出するように設計されている。これは、自然界のオブジェクトは画像処理システムの一画素よりも詳細な構造を持つためであり、それゆえこのようなシステムでは、一画素が複数のオブジェクトにより分割的に占められることがありうる。動きがぼけて見えるオブジェクトでは、この分割的な画素占有は、露出時間内のオブジェクトの動きが原因となっている。従来のマッティング法を動きがぼけているオブジェクトに対して利用することもできるが、それらの手法はオブジェクトの動きを考慮したものではなく、また、均一背景にあるオブジェクトの抽出を前提としたものである。マッティングの定式化においてオブジェクトの動きを考慮に入れるための正則化項を導入することで、より良いアルファマッティングを得る方法を紹介する。更にオブジェクトの局所的な動きの推定のための方法についても概要を説明する。これは原画像の局所グラディエント統計量に基づくものである。研究としての完成度を高めるために、動き推定の代わりにユーザがマークアップする情報で局所方向を表示することができることについても議論する。我々の正則化を付与したアルファマットによる性能向上を様々な例により紹介する。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.33, No.12


ダークチャンネル事前確率を利用した単一画像からの霞の除去
Single Image Haze Removal Using Dark Channel Prior

Kaiming He, The Chinese University of Hong Kong, Hong Kong Jian Sun, Microsoft Research Asia, Beijing Xiaoou Tang, The Chinese University of Hong Kong , Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. pp. 2341-2353 , December 2011

Keywords: Dehaze, defog, image restoration, depth estimation.

本論文では、ダークチャンネル事前確率を利用した単一画像からの単純で効果的な霞(靄=モヤ)の除去法を提案する。ダークチャンネル事前確率法は霞のかかってない屋外画像の統計手法の1つである。これは次のような重要な観察に基づいているー霞の無いほとんどの屋外画像の局所的パッチは少なくとも1つの色チャンネルにおいて画素の強度が極めて小さい。この事前確率を霞のある画像モデルに適用して、我々は直接霞の強さを推測し、高品質の霞の無い画像を復元することができる。色々な霞のかかった画像に適用した結果、本提案手法の有効性が実証できた。さらに、霞除去の副産物として高品質の深さ(距離)マップが得られた。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ブラインド・デコンボリューションアルゴリズムを理解する
Understanding Blind Deconvolution Algorithms

Anat Levin, Weizmann Institute of Science, Rehovot Yair Weiss, The Hebrew University of Jerusalem, Jerusalem Fredo Durand, Massachusetts Institute of Technology, Cambridge William T. Freeman, Massachusetts Institute of Technology, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. pp. 2354-2367 , December 2011

Keywords: Blind deconvolution, motion deblurring, natrual image statistics, statistical estimation.

ブラインド・デコンボリューションとはボケカーネルが未知であるとき鮮鋭な画像を復元することである。最近のアルゴリズムは劇的な進歩を遂げたが、多くの局面の問題点が残され、理解が困難である。本論文の目的は最近のブラインド・デコンボリューションアルゴリズムを理論的かつ実験的に、解析・評価することである。我々は、先ず以前の論文で報告されたナイーブMAP法の失敗例について、この方法がボケの無い場合にのみ有効に働くことを説明する。妥当な事前確率を利用して、潜在的画像やボケ画像の両者に対して事前確率によって無限大サイズの画像からサンプルされたとしても、失敗が避けられないことを示す。他方、カーネルのサイズは通常画像サイズよりも小さいから、カーネルのみのMAP推定は十分な制約条件が存在し、真のボケを復元することが保証されていることを示す。最新の多数のデコンボリューション法において、実画像との実験的評価は重要である。この実験的評価の最初のステップとして、同一環境でのボケの有無の実画像を収集し、評価した。さらに、シフト不変なボケという仮定はしばしばほとんどの画像で成り立たないことが示された。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ラベル転移法による非パラメトリックな情景解釈
Nonparametric Scene Parsing via Label Transfer

Ce Liu, Microsoft, Cambridge Jenny Yuen, MIT, Cambridge Antonio Torralba, MIT, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. pp. 2368-2382 , December 2011

Keywords: Object recognition, scene parsing, label transfer, SIFT flow, Markov random fields.

対象物の認識や画像理解については多くの研究があるが、画像や情景や対象物に対する注意深い数学的モデルの確立が注視されてきた。本論文では、対象物の認識や情景理解に対する非パラメトリックで新規な手法による解析法を提案し、これをラベル転移法と呼ぶ。入力画像に対して、本システムは、先ず、全て意味づけられた大規模な画像から最近傍を検索する。次に、入力画像と最近傍画像の各々と稠密なSIFTフローアルゴリズムを利用して稠密な関連性を持たせ、局所的な関連構造に基づく2つの画像を並べる。最後に、SIFTフローから得られる稠密対比画像に基づき、既存の意味づけをまとめて、未知画像の領域分けと認識のためのマルコフ確率場の多数の手掛かりを統合する。この非パラメトリックな情景判断手法を用いて、困難なデータベースに対して有望な実験結果が達成された。各オブジェクトカテゴリーに対する学習識別器とか、見掛け上のモデルが必要な既存の認識システムと比較して、本システムは実装が容易で、必要なパラメータが少なく、検索配列手続き中に、自然に文脈情報が内包されている。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高次のグラフマッチングのためのテンソルに基づくアルゴリズム
A Tensor-Based Algorithm for High-Order Graph Matching

Olivier Duchenne, École Normale Supérieure de Paris and the Willow project team (CNRS/ENS/INRIA UMR 8548) Francis Bach, INRIA and the Sierra team, Laboratoire d'Informatique de École Normale Supe´rieure de Paris (CNRS/ENS/INRIA UMR 8548) In-So Kweon, KAIST, Daejeon Jean Ponce, École Normale Supérieure de Paris and the Willow project team (CNRS/ENS/INRIA UMR 8548)

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. pp. 2383-2395 , December 2011

Keywords: Hypergraphs, graph matching, image feature matching

本論文は2つの画像特徴の対応付け問題のために、古典的に利用されていた単一もしくは一対データではなく、高次の制約条件を付加することを目的とする。具体的には、対応付けハイパーグラフマッチング問題がすべての特徴量の組合せについて多重線形目的関数の最大化という形式で定式化される。この関数は特徴量の組の間の類似度として定義される。これはスペクトル法の一般化を使って最大化されるが、そこでの弛緩問題は第1に多次元べき乗法によって解かれ、次に最近傍の割り当て行列に投影される。本提案手法は実装化され、人工的データと実データの両方に関して、最新のアルゴリズムと比較された。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


関連性に基づくクラスター集団問題
A Link-Based Approach to the Cluster Ensemble Problem

Natthakan Iam-On, Aberystwyth University, Aberystwyth Tossapon Boongoen, Royal Thai Air Force Academy, Thailand Simon Garrett, Aberystwyth University, Aberystwyth Chris Price, Aberystwyth University, Aberystwyth

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. pp. 2396-2409 , December 2011

Keywords: Clustering, cluster ensembles, cluster relations, link-based similarity, data mining.

従来の標準的なクラスター分析のように、入力データをいくつかのクラスターに集積し、ロバスト性と安定性を改善して単一の出力を得る手法に代わって、クラスター集団(アンサンブル)法が強力な代替案として登場して来た。従来の研究から、これらの手法は大きな可能性があることは分かっていたが、そのほとんどの最終解はクラスター集団の不完全な情報に基づいている。内在するアンサンブル情報行列はクラスターデータ点の関係のみを反映しているが、クラスター間のそれについては一般的に看過されている。本論文は従来のマトリックスを改良するために、新規な「リンクに基づく」手法を紹介している。これはアンサンブルの関連付けネットワークモデルから推測されたクラスター間の類似度を利用して達成された。特に、内在する類似度の評価について、3つの新規なリンクに基づくアルゴリズムが提案された。最終的クラスタリング結果は、特徴量に基づく分割と、グラフに基づく分割を利用した2つの異なる合意関数(consensus function)を利用した精密化マトリックスから生成された。本手法は、従来マトリックスの精密化については強調されてなかった入力の分割関係を、明確に述べて採用した最初のものである。リンクに基づく手法の有効性は、人工的なデータだけでなく実データを含む10データ以上と3つのベンチマーク評価尺度に対して実験的有効性が実証された。この結果から、今回の新手法は、入力クラスタリング中に内包されている情報を効率的に抽出することができることを示唆し、現在の最新手法と比較して定常的により高品質のクラスタリング結果をもたらすことを示している。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


放射状歪みの自動校正に必要な最小解
A Minimal Solution to Radial Distortion Autocalibration

Zuzana Kukelova, Czech Technical University in Prague, Prague Tomas Pajdla, Czech Technical University in Prague, Prague

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. pp. 2410-2422 , December 2011

Keywords: Minimal problems, radial distortion, Gr?bner bases, polynomial eigenvalue problems.

エピポーラ幾何と相対的カメラ姿勢による放射状歪みの同時推定問題は最小値問題として定式化でき、これを解くための画像中の対応点数は最小で良い。本問題に対する解を見つけることは代数方程式の系を解くことに帰する。本論文では、放射方向の歪みを推測する問題と、2画像中の8つの対応点からエピポーラ幾何の2つの解を紹介しよう。従来のたった9対応点より解くアルゴリズムと異なり、基礎方程式の行列式をゼロに置く。これによって9変数を持つ、8つの2次方程式と1つの3次方程式の系が得られる。まずこの系の6つの変数を消去し、次に、2つの代替手法によって単純化して解く。第1の手法はGröbnerに基づく方法で、第2の手法は多項式固有値を求める方法である。我々の手法は、人工的なデータだけでなく実データに対しても、効率的で、ロバストで、実験によって実用的である。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチスペクトルビデオ画像のためのプリズムマスクシステム
A Prism-Mask System for Multispectral Video Acquisition

Xun Cao, Tsinghua Unviersity, Beijing Hao Du, University of Washington, Seattle Xin Tong, Microsoft Research Asia, Beijing Qionghai Dai, Tsinghua Unviersity, Beijing Stephen Lin, Microsoft Research Asia, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. pp. 2423-2435 , December 2011

Keywords: Multispectral imaging, multispectral video, prism, occlusion mask.

本論文はマルチスペクトルのビデオ画像を撮影するためのプリズムマスキングシステムを紹介する。このシステムは3角形プリズム、モノクロムカメラ、それに、隠蔽マスクから成る。外界の風景から来る入射光線は隠蔽マスクで遮蔽され、プリズムによって成分毎のスペクトルに分散され、モノクロムカメラで撮影される。このシステムは高スペクトル分解能で、且つビデオ速度で撮影可能である。また、カメラの焦点距離を変化させることでスペクトルと空間解像度のトレードオフが可能である。色々なスペクトル分解能と空間分解能によって多スペクトルのビデオ撮影を実演することが出来るが、もちろん、撮影フレーム速度も変えられる。このシステムの効果は更に、人の肌の検出、物理的物体の認識、ビデオセグメンテーション、RGBビデオ生成、照度の同定など、いくつかの用途において評価された。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


離散データ上の付加ノイズモデルを利用した因果律の推定
Causal Inference on Discrete Data Using Additive Noise Models

Jonas Peters, Max Planck Institute for Biological Cybernetics, Tübingen Dominik Janzing, Max Planck Institute for Biological Cybernetics, Tübingen Bernhard SchÖlkopf, Max Planck Institute for Biological Cybernetics, Tübingen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. pp. 2436-2450 , December 2011

Keywords: Causal inference, regression, graphical models.

結合分布した有限サンプルから得られた確率変数集合の因果構造を推測することは、科学における重要問題の一つである。2つの確率変数の場合は、(条件付き)独立性が利用できないので特別困難となる。最近の付加ノイズモデルに基づく手法の示すところによれば、以下の原理が成り立つ:一方向に対して結合分布{¥bf P}^{(X,Y)}が成り立つとき、すなわち、Y=f(X)+N, N ¥perp¥kern-6pt ¥perp X,が成り立つが、逆モデルX=g(Y)+¥tilde{N}, ¥tilde{N} ¥perp¥kern-6pt ¥perp Y,が成り立たないとき、前者の方向は因果律が成立すると推定できる(i.e., X¥rightarrow Y)。現在まで、これらの手法は連続変数のみを扱ってきた。多くの場合、課題の変数は離散的であったり、多くの有限状態から成っている。本論文では、我々の付加ノイズモデルをこれらに拡張する。この付加ノイズモデルが両方向に成り立つことは決してないことを証明する。さらに、有限サンプルに対する離散変数の因果推論が成り立つとき、効率的アルゴリズムを提案する。このアルゴリズムは人工的データだけでなく実データでも有効であることを示す。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


稀で微かな行動の同定:弱く指導した教師付き結合トピックモデル
Identifying Rare and Subtle Behaviors: A Weakly Supervised Joint Topic Model

Timothy M. Hospedales, Queen Mary University of London, London Jian Li, Queen Mary, University of London, London Shaogang Gong, Queen Mary, University of London, London Tao Xiang, Queen Mary, University of London, London

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. pp. 2451-2464 , December 2011

Keywords: Probabilistic model, behavior analysis, imbalanced learning, weakly supervised learning, classification, visual surveillance, topic model, Gibbs sampling.

自動的な行動解析の最大の興味ある問題の一つは稀で微妙な動きの同定である。これは実用的な価値がある、というのは、危険な動作や不法な行動は先行例がほとんど無いか、有っても1回きりのことが多く、学習が困難で、動きは微妙であるからである。稀で微妙な動きの学習は2つの理由で困難である:(1)現在進行形のモデル化は、入手可能なデータに比べ、より多くのデータ必要である、(2)最も興味あり、潜在的に重要で稀な行動は見掛け上微妙である??明瞭で典型的な動きや、典型的な動きから派生する小さな空間的・時間的行動で定義される。本論文ではこれらの問題を取り組む新規で、教師付きで弱い学習結合モデルを紹介する。特に、部分的に共有した潜在構造を有し、関連した学習と推論アルゴリズムを有する多数クラスのトピックモデルを紹介する。これらの寄与によって、ユーザーによる局所化や、ごちゃごちゃした対象であったり、前述した行動のオンラインや実時間での分類や局所化が無くても、たった一つの事例からモデル化することが可能となる。我々は本手法を2つの標準的な公共スペースのデータ集合について十分妥当性を得、この実験で本手法は明確に従来法を凌駕した。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ハミング距離と壊れやすいビット距離の融合により改善された虹彩の認識
Improved Iris Recognition through Fusion of Hamming Distance and Fragile Bit Distance

Karen P. Hollingsworth, University of Notre Dame, Notre Dame Kevin W. Bowyer, University of Notre Dame, Notre Dame Patrick J. Flynn, University of Notre Dame, Notre Dame

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. pp. 2465-2476 , December 2011

Keywords: Iris biometrics, fragile bits, score fusion.

最も一般的な虹彩を利用した生体認識アルゴリズムは虹彩の2値コードを利用した虹彩のテクスチャーを利用している。虹彩のコードの全てのビットが同等に整合性がある訳ではない。もし同一の虹彩の異なる画像から形成された虹彩コードの値が変化するならば、ビットは脆弱であると見なされる。以前の研究では、これらの脆弱なビットを隠蔽すれば、この認識性能は向上することが知られている。この脆弱なビットを完全に無視するのではなく、これらの脆弱なビットからどんな有益な情報が得られるかを考える。我々は脆弱なビットの位置は、同一の目からの異なる虹彩コードは整合性があることを見出した。ここで、2つの虹彩コード間の脆弱なビットパターンの定量的な同一性尺度となる、脆弱ビット距離と呼ばれる尺度を導入する。これによって、ハミング距離のみでの認識よりは、脆弱ビットとハミング距離の融合によって認識が向上することを見出した。我々の知る限り、脆弱ビットの一致を利用した虹彩のマッチング精度向上に関する最初の研究である。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数回の計測を通して複数の標的を検出する形状に基づく複数標的追跡オンラインシステム:変動ベイズクラスタリングとロスレスデータ関連性
Shape-Based Online Multitarget Tracking and Detection for Targets Causing Multiple Measurements: Variational Bayesian Clustering and Lossless Data Association

Tinne De Laet, Katholieke Universiteit Leuven, Leuven Herman Bruyninckx, Katholieke Universiteit Leuven, Leuven Joris De Schutter, Katholieke Universiteit Leuven, Leuven

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. pp. 2477-2491 , December 2011

Keywords: Multitarget tracking, data association, detection, laser range scanner, video, Bayesian networks, Kalman filter, particle filter.

本論文では2値の複数標的の追跡と認識の新規なオンラインアルゴリズムを提案する。本アルゴリズムは複数標的の検出と追跡に注目するが、総数が未知で変動する標的に対して、各標的ごとに複数回の検出を行う。2つのレベル間の2つの方向に対して、情報は絶えず交換される。高レベルの標的の位置や形状情報を利用して、低レベルは測定値をまとめる。さらに、低レベルの特徴量の自動的妥当性検出は、標的の期待される形状を考慮して、測定値から自動的に最適なクラスター数を決める。高レベルのデータの関連性から、標的の数が変化することを許す。関連のある確率的データ相関アルゴリズムによって、クラスターの測定値のクラスターと標的の関連性を探している。この関連性を利用して、個々の測定と合わせて標的の追跡器と形状の更新を行っている。測定情報は特徴量としてまとめられることが無いので、2値手法によって情報は失われることはない。標的追跡器は動きモデルを利用しているが、高レベルは標的数を推測して補完されている。本アルゴリズムは、人工データと実データの両方を、動画とレーザースキャナーの2センサー様式による人間とアリの検出と追跡とで妥当性が実証された。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


特異性:グラフに基づく変動の推測
Specificity: A Graph-Based Estimator of Divergence

Carole J. Twining, University of Manchester, Manchester Christopher J. Taylor, The University of Manchester, Manchester

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. pp. 2492-2505 , December 2011

Keywords: Specificity, generalization, assessment of modeling, graph-based estimators, entropy estimation, estimation of statistical distance, estimation of divergence, nearest-neighbor estimators, cross entropy, Kullback-Leibler divergence.

統計的モデル化において、学習データを利用したモデル構築法は多種知られている。モデル化法の定量的比較には、モデル確率密度関数と学習データ間の合致度合いを評価することが必要である。本目的のために利用されていたグラフに基づく1方法は、特異性である。我々は多様な特異性の限界について考察し、学習データが導かれる未知の確率密度関数と、学習データから得られるモデル確率密度関数の変動の推定が可能な表現を導く。人工的なデータを利用した実験で、これら有限個の多数の関係は、測定された特異性の振る舞いについて、たとえ学習データが少なくても、あるいは極端な場合でも、良好な定量的・訂正的関係を与える。我々は、本特異性は従来のグラフに基づく方法よりも、多様なモデル化法の差異について、もっと敏感な尺度を与えることを示そう。この重要点は実データ集合で図示してある。我々は従来その場しのぎであった特異性と言うコンセプトにたいして適当な理論的基礎を確立し、実データの解析に応用する特異性の有用な見識を得られた。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


反射率対称性の幾何学
The Geometry of Reflectance Symmetries

Ping Tan, National University of Singapore, Singapore Long Quan, Hong Kong University of Science and Technology, Hong Kong Todd Zickler, Harvard University, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. pp. 2506-2520 , December 2011

Keywords: Reflectance symmetry, projective geometry, autocalibration, photometric stereo.

異なる物質は異なる様子で反射され、これが形状や照明、そして、視点と関わって対象物の像を決定する。一般的な物質は様々な反射特性を示すため、画像解析における困難さの主要な原因である。この多様性を扱う上での我々の戦略は、相反性とか等方性とか幅広い物質に見られる反射対称性を利用した計算上の道具を構築することである。これらの反射特性を利用した道具を構築することで、非ランベルト環境での実世界で成功をおさめる可能性の高い視覚系を作ることができる。本論文では反射対称性を利用した表現形式の枠組みを開発する。これら対称性の下でこれと同等な照明条件を有する局所画像を得ることができる特異的な表面上の点の条件を解析し、これらの条件をガウス表面上に誘導する幾何学的条件とその抽象表現と投影面を表現する。我々は更に、表面形状の摂動の下に、構造の挙動を研究し、更正されたステレオ画像と非校正のステレオ画像に適応する。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ウェアラブルセンサーを利用した、教師付き学習による日常活動の認識
Weakly Supervised Recognition of Daily Life Activities with Wearable Sensors

Maja Stikic, Advanced Brain Monitoring, Inc., Carlsbad Diane Larlus, Xerox Research Centre Europe, Grenoble Sandra Ebert, Max-Planck-Institut for Computer Science, Saarbrücken Bernt Schiele, Max-Planck-Institut for Computer Science, Saarbrücken

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. pp. 2521-2537 , December 2011

Keywords: Wearable computing, activity recognition, wearable sensing, semi-supervised learning.

本論文はウェアラブルコンピュータによるウェアラブルセンサーの、スケーラブルで障害物の無い状態での検出内容把握について考察する。行動認識の一般的な方法は大量のラベル付きデータによる教師付き学習を利用することである。これによって正確で詳細な注釈付きのデータを得ることは困難であるため、この手法を実世界に応用することが出来なかった。本論文は注釈の付け方に必要なデータを大幅に縮小する新戦略を提案する。我々は行動認識に2つの学習法を探索するが、より容易に入手できるラベルの無いデータと一緒に、少数のラベル付けされたデータを効果的に利用する。2つの公開データベースに対する実験的結果の示すところでは、2つの手法とも完全ラベル付けデータによる教師付き学習と近接していた。本提案手法は実世界の注釈では生じやすい誤注釈に対しても頑健であった。

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


関節形状を視覚的グラフで記述した3Dモデルの内部距離の算出法
Computing the Inner Distances of Volumetric Models for Articulated Shape Description with a Visibility Graph

Yu-Shen Liu, Tsinghua University, Beijing Karthik Ramani, Purdue University, West Lafayette Min Liu, Tsinghua University, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. pp. 2538-2544 , December 2011

Keywords: Inner distance, visibility graph, articulated shape descriptor, volumetric models.

3D形状を立体モデルで表現した形状の内部距離を計算するための視覚グラフ距離に基づく新たな方法紹介する。内部距離とは特徴点間の最短距離として定義される。内部距離は関節分解に対して頑健で、更なる分解することなく、形状の変形を反映することができる。この方法は視覚的グラフ法に基づいている。この視覚性を2対間でチェックするために、新規で高速で頑健なクラスタリングに基づく手法を提案する。これは立体的モデルに対して、計算速度向上のための8本木(octree)による表面の再構築をすることなく、直接演算する。内部距離は、もっと複雑な形状に対して、より正確な記述と距離尺度の代わりに利用できるが、特に関節分解した部品に有効である。バイナリーの実行プログラムは下記のURLから得られる。https://engineering.purdue.edu/PRECISE/VMID

Ej

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


サンプルあたり1+O(1)回の比較で可能な最大値/最小値フィルタの計算
Running Max/Min Filters Using 1+o(1) Comparisons per Sample

Hao Yuan, City University of Hong Kong, Hong Kong Mikhail J. Atallah, Purdue University, West Lafayette

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. pp. 2544-2548 , December 2011

Keywords: Mathematical morphology, erosion, dilation, opening, closing.

移動窓最大値(もしくは最小値)フィルタでは、固定長の移動窓内の要素の最大値(もしくは最小値)を求めることになる。既存の最善の決定論的アルゴリズム(Gil and Kimmelにより開発されColtucにより洗練されたもの)一次元最大値フィルタでは、最悪値としてサンプルあたり1.5+o(1)回の比較計算を行う。独立且つ理想的に分布した入力を対象とした既知の最善の方法では、サンプル当たりの計算回数の期待値は1.25+o(1)である。本研究では、最悪値においても計算回数が1+o(1)にまで減らすことができることを示す。この新型の最大値・最小値フィルタにより、openingフィルタ(もしくはclosingフィルタ)は最悪値でもサンプル当たり1+o(1)回の比較で計算することができる。同じ条件の場合既存の最良の方法(Gil and Kimmelの方法)ではサンプル当たり1.5+o(1)回の計算が必要である。   また最大値と最小値を同時に求めるフィルタは最悪値でもサンプル当たり2+o(1)回の比較で計算できる。同じ条件では既存の最良の方法(Lemireの方法)は3回の比較が必要である。このような改良は漸近的なものであり、移動窓のサイズが充分大きい場合にのみ得られるものである。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最小和行列積(Min-Sum Matrix Product)による高速な推論
Fast Inference with Min-Sum Matrix Product

Pedro F. Felzenszwalb, University of Chicago, Chicago Julian J. McAuley, Australian National University/NICTA, Canberra

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. pp. 2549-2554 , December 2011

Keywords: Graphical models, MAP inference, min-sum matrix product.

多くのグラフモデルにおける最大事後確率MAP(Max a Posteriori)推論問題は、n行n列の行列同士の最小和の積(min-sum products of nxn matrices)を計算するための高速アルゴリズムを用いることで効率的に解くことができる。ここで問題となる類のモデルには、多くのアプリケーションで見られる、周期的な物(cyclic model)や、スキップ連鎖モデル(skip-chain model)が含まれる。最小和積演算の計算複雑度の最悪値がO(n^3)よりもはるかに良いかどうかは不明であるが、推定時間O(n^{2.5})で済むアルゴリズムは近年提案されている。このアルゴリズムには、入力行列に対するいくつかの拘束条件がある。本稿では、推定時間O(n^2 ¥log n)で解を導出する新しいアルゴリズムを紹介する。このアルゴリズムは、入力行列の各要素が一様分布からの独立試行により得られたサンプルであることを仮定している。このアルゴリズムに基づく2つの派生型アルゴリズムは、いくつかのアプリケーションでは極めて高速であることも紹介する。この特性により提案アルゴリズムは、コンピュータビジョン及び自然言語処理の従来手法に比べた場合に、顕著な性能向上を示す。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所生成的記述子(local generative descriptors)による統計的三次元形状解析
Statistical 3D Shape Analysis by Local Generative Descriptors

Umberto Castellani, University of Verona, Verona Marco Cristani, University of Verona, Verona and Istituto Italiano di Tecnologia, Genova Vittorio Murino, University of Verona, Verona and Istituto Italiano di Tecnologia, Genova

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. pp. 2555-2560 , December 2011

Keywords: 3D shape analysis, shape representation, Hidden Markov Models, generative modeling.

本稿では、表面表現のための新しいアプローチを提案する。三次元物体表面の様々な局所幾何的な性質をエンコードするために、生成的モデルを利用する。同表面は、確率論的な処理により局所的にモデル化される。この局所性は、いくつかの円状の測地線に沿った近接領域をカバーするように定義され、隠れマルコフモデルの変形版を用いて解析される。これを複数円状隠れマルコフモデル(multicircular Hidden Markov Model: MC-HMM)と呼ぶ。提案アプローチは以下の2つの主なステップからなる。1)局所幾何特徴集合、2)MC-HMMパラメタ推定。提案手法の効果をいくつかのアプリケーションシナリオで例証する。全てのシナリオでよく知られたベンチマークデータセットを用いている。このシナリオには、例えば複数視点での画像位置合わせ、可変形状マッチング、及び散乱背景におけるオブジェクト認識などがある。実験の結果は、本アプローチが非常に有望であり、広範な種類のアプリケーションにおいて生成的モデルを幾何記述子として用いる可能性を切り開くものであることを示している。

TS

Copyright (c) 2011 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


[インデックス] [前の年] [次の年]