AbstractClub - 英文技術専門誌の論文・記事の和文要約 |
![]() |
![]() |
![]() |
Hua Li, IEEE, Anthony Yezzi, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 1-14 , January 2007
殆どの変分法的動的輪郭(アクティブコンター)モデルは、データ依存エネルギー汎関数の局所最小値を見つけるように設計されている。またこれらの方法は、ノイズや複雑な画像構造による望ましくない構成を避けるための“好ましい”局所最小値に向かって、動的輪郭が推移するように、動的輪郭の初期位置が決められるという希望(前提)に基づいている。ノイズやテクスチャに関する感度が極端に悪いエッジに基づいたエネルギー汎関数にくらべて、好ましくない局所最小値をもたらすことが少ないと思われる複雑な領域に基づいたエネルギー汎関数の設計に関する多くの研究が行なわれてきた。残念ながら、これらの“より頑健な”領域に基づいたエネルギー汎関数の適用可能画像種類は、典型的なエッジに基づいたエネルギー汎関数のそれに比べてかなり限定されている。これは後者が適用可能画像データに関してより強力な大域的前提を持つためである。既に提案されている画像に基づいたエネルギーに関して、より大域的な最小値を検出するための動的輪郭のための新しい実装法を工夫することで、局所最小値への感度を考慮することなく特定のエネルギーのクラスが合理的になりうるエネルギーを選択することができる。このような実装方法が大域最小値を見つけるために既に提案されている。しかし局所的過ぎる最小値と同じように、完全に大域的な最小値もやはり望ましいものではない。本稿では、新しい高速且つ柔軟な動的輪郭法の双対フロント的実装を提案する。これは最短パス技術と高速走査アルゴリズムを利用することに動機付けされている。このアルゴリズムを用いることで簡単に様々な局所性及び大域性の“度合い”を持つ最小値を算出することができる。単純にアクティブな領域のサイズを調整することで、(動的輪郭/表面の初期位置に従い)より局所性の高い最小値から、より大域性の高い最小値にスムーズに移行する能力により、このモデルはより簡単に“好ましい”最小化器(往々にしてこれは最大の局所性も最大の大域性も持たない)を得る。様々な二次元及び三次元画像における実験と、幾つかの動的輪郭モデル、及び領域成長法との比較により、様々な分割アプリケーションにおける本モデルの特性と性能を例証する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Anil K. Jain, IEEE, Yi Chen, IEEE, Meltem Demirkus, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 15-27 , January 2007
詳細な指紋摩擦隆線(fingerprint friction ridge)は一般的に3つの異なるレベルの階層的順序で記述される。このレベルとは即ちレベル1(パターン)、レベル2(マイニューシャ点(指紋隆線の端点:訳者注))、そしてレベル3(孔と稜線)である。実際の指紋検査官は、レベル3の特徴を個人同定の助けとして利用することが多いが、自動指紋認証システム(Automated Fingerprint Identification Systems:AFIS)は現時点ではレベル1及びレベル2の特徴のみに基づいている。実際にはFBI (Federal Bureau of Investigation:アメリカ連邦捜査局)のAFISのための指紋画像解像度の標準は500ppi(pixels per inch)であり、これは孔などのレベル3の特徴を得るのに充分ではない。指紋センサー技術の発達により多くのセンサーが二つの解像度(500ppi及び1000ppi)のスキャン能力を持っている。しかしスキャン解像度の向上のみでは、必ずしも指紋照合性能の向上は見込めない。実際には照合に使用する特徴セットの拡張が必要である。このため、レベル3特徴をAFISに導入することにより、どれだけの性能向上が見込めるかについての系統だった調査が必要とされている。1000ppiの指紋画像から抽出された、3つのレベル全ての特徴を利用した階層的照合システムを提案する。ガボールフィルターとウェーブレット変換を用いて孔と稜線を含むレベル3特徴を自動的に抽出し、反復的最近点(Iterative Closest Point :ICP)アルゴリズムを用いてこれらを局所的に照合する。我々の実験によりレベル3の特徴が、顕著に識別性の高い情報を持つことが示される。レベル1及び2の特徴に加え、レベル3特徴を利用した場合、レベル1及び2のみを用いた場合に比べ相対的に20%の等価エラー率(equal error rate:EER)の減少が見られる。様々な品質の指紋画像において、この顕著な性能向上が見られる。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Yu-Hsien Chiu, Chung-Hsien Wu, IEEE, Hung-Yu Su, Chih-Jen Cheng
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 28-39 , January 2007
本研究では中国語手話から台湾語手話への翻訳と、手話ビデオの合成のための新しいアプローチを提案する。手話翻訳のために、整列された中国語手話と台湾語手話(Taiwanese Sign Language:TSL)の二ヶ国語コーパスも提示する。これには言語及び手話に関する情報も付与されている。シンタックスレベルとフレーズレベルの2経路の整列を開発し、これにより中国語センテンスと台湾語手話シーケンス間の最適な整列を行う。手話ビデオの生成に関しては、動きの遷移のバランスがとれた手話ビデオを開発するためにスコア関数を導入する。これにより生成された手話ビデオは、手話で意味を成す手のポーズ(手話サイン)間の遷移に豊富なバリエーションを持つ。最後に、2経路単語整列の結合最適化に基づいて、事後確率最大化法(maximum a posteriori:MAP)アルゴリズムを用いて手話ビデオと手話サイン間補間画像の生成を行う。教育分野における幾つかの実験により、手話表現の理解力に関する評価を行った。提案アプローチは手話翻訳におけるIBM Model 2を凌駕する性能を発揮した。更に、聴力障害のある複数の生徒が、提案手法により生成された手話ビデオの品質について満足のいくものであったと述べている。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Shuicheng Yan, IEEE, Dong Xu, Benyu Zhang, Hong-Jiang Zhang, IEEE, Qiang Yang, IEEE, Stephen Lin
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 40-51 , January 2007
次元性削減問題の様々な解法を開発するために、過去数十年以上にわたり、教師あり、教師なし、統計や幾何学からの派生、を含む多くのアルゴリズム体系が設計されてきた。これらのアルゴリズムは異なった動機により開発されたものであるが、本稿では、これらを共通の定式化で統合するための一般的フレームワークを示す。これはグラフ埋め込みとして知られている。このグラフ埋め込みでは、それぞれのアルゴリズムを、直接グラフ埋め込み若しくは特定の内部グラフの線形/カーネル/テンソル拡張としてみなすことが出来る。この内部グラフは、あるデータセットの、特定の、所期の統計的特徴若しくは幾何的特徴を記述する。この特徴は、同時にスケール正規化からの拘束条件、若しくは回避するべき統計的若しくは幾何的特徴を特徴付けるペナルティグラフを持つ。更に、このグラフ埋め込みフレームワークは、新たな次元性削減アルゴリズムを開発するための一般的なプラットフォームとして利用可能である。このフレームワークをツールとして利用することで、我々は周辺フィッシャー解析(Marginal Fisher Analysis:MFA)と呼ばれる新たな教師付き次元性削減アルゴリズムを提案する。この方法では、内部グラフにより、クラス内のコンパクトさを実現し、データ点と同じクラスに属する近傍のデータ点をつなぐ。ペナルティグラフは周辺のデータ点をつなぎ、クラス間の分離性を実現する。MFAが実際に線形判別分析(Linear Discriminant Analysis: LDA)アルゴリズムの典型的な限界を克服できることを示す。これはデータ分散に関する仮定と利用可能な投影方向に起因するものである。実際の顔認識実験により、本稿で提案するMFAの、LDAに対する優位性、及び対応するカーネル手法及びテンソル拡張に対する優位性を示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Hieu T. Nguyen, IEEE, Qiang Ji, IEEE, Arnold W.M. Smeulders, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 52-64 , January 2007
マルチターゲット追跡問題では、主な課題は、隠蔽がある場合や、ターゲット間の差異が乏しい場合にもターゲットを正しく同定することである。本稿ではコンテキスト情報を利用することによる、この問題に対する新しいアプローチを提案する。画像系列におけるターゲットのコンテキストは2つのコンポーネントを持つ。即ち局所背景と近傍の他のターゲットを含む空間コンテキストと、これまでに示された全てのターゲットの外観を含む、時間コンテキストである。本稿ではこれら両方のコンテキストを考慮に入れる。我々は空間コンテキストを利用したターゲットの識別に基づいたマルチターゲットの追跡のためのモデルを提案する。この追跡器は、近傍の他のターゲットを避けつつ、ターゲットに類似する領域を検索する。時間コンテキストは、確率論的主成分解析(probabilistic principal component analysis:PPCA)に基づいたターゲットの外観の全履歴の統合に含まれる。全てのPPCAパラメタのセットを正確にオンラインで学習することが出来る新しい漸増スキームを開発した。実験により、強度の散乱や隠蔽、そして姿勢の変化などの条件下でも、提案手法が頑健な追跡性能を持つことを示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Deva Ramanan, IEEE, David A. Forsyth, IEEE, Andrew Zisserman, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 65-81 , January 2007
非限定環境下における視覚問題とは即ち、ビデオ系列を入力として、複数の人間の相関関係を自動的に追跡することである。この問題は、フレーム内の人間の数と、それらの構成の推定の両方を決定する必要があるため困難である。人間が素早く且つ予測不可能に動くものであり、また様々な姿勢、服装で現れること、また更に往々にして四肢の形状に類似した散乱を持つ背景に囲まれていることから、人間の位置とその四肢の位置決めは困難である。2段階で働く完全自動システムを開発した。このシステムはまずビデオ中の各人間の外見モデルを作成し、次に各フレームでのこれらのモデルの検出により、追跡を行なう(“モデル作成と検出による追跡”)。モデルを作成する2つのアルゴリズムを開発した。ひとつはボトムアップアプローチで、ビデオ系列で検出された候補体節をまとめる方式である。また、キーとなる姿勢をビデオ系列から見つけることによる、人間モデルの自動形成を行なうトップダウンアプローチについても説明する。最後に背景の構造を活用するがゆえに(背景削除をしなくても)、外見の判別モデルが非常に効果的であることを示す。これらの結果として得られる追跡器を、数十万フレームに及ぶノーテーション無しの室内及び室外の活動、feature-lengthフィルム(”Run Lola Run”)、そして古典的なスポーツフィルム(“2002ワールドシリーズと1998冬季オリンピック”)に適用し例証する。実験により我々のシステムが1)明確な人間の数をカウントできること、2)それらを同定し追跡できること、3)例えばある人間が隠蔽されたり、僅かの間画像の外に出ているなどの場合などから追跡を回復できること、4)体の構成を正確に同定できること、5)人間の動きの特定のモデルに依存していないことを示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Stefan Lehmann, IEEE, Andrew P. Bradley, IEEE, I. Vaughan L. Clarkson, IEEE, John Williams, IEEE, Peter J. Kootsookos, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 82-97 , January 2007
基礎行列推定は、コンピュータビジョンにおける中心的な課題であり、両眼立体視や動きからの構造復元などのタスクの基礎をなすものである。既存のアルゴリズムは、両方の投影で同定された対応付特徴点の相対的幾何を解析するのが一般的である。自動化された特徴マッチングはそれ自体が非常にチャレンジングな課題である。通常これらのアルゴリズムの出力は多くの偽対応を含む。従来の基礎行列推定法は、この偽対応に大きく影響される。そのため頑健な統計推定方法をこの問題に適用することになった。本研究では、この基礎行列推定問題に対する、全く新しいアプローチを提案する。対応特徴点の幾何を解析する代わりに、統合投影(Integral Projection)の利用により、周波数領域においてこの問題を再定義する。これは本研究で採ったモデルが如何に合理的なものであるかを示している。これにより本稿で扱う問題が、周波数領域において対応するラインを見つける問題に簡単化される。重要なのは、この簡単化により、特徴マッチングや情報対応が必要なくなることである。実データおよび合成データ両方における実験結果により、提案アルゴリズムが基礎行列推定のための実用的な手法であることを示す。提案アルゴリズムの動作は入力情報に含まれるノイズ、特徴数、および他の注目するパラメタにより変化する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Margarita Osadchy, IEEE, David W. Jacobs, IEEE, Michael Lindenbaum, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 98-111 , January 2007
本稿では、同一のシーンを異なる照明条件撮影したかどうかを見極める画像マッチングの問題を取り扱う。表面特性が、用いられるべき画像比較方法の種類を決定することを示す。以前の研究では、一方向に急激に変化する金属特性の表面のために、画像輝度勾配方向を比較する方法の有効性が示されている。2つのよく用いられている技法を解析的に紹介する。ひとつは小さい窓関数の正規化相関であり、他方はマルチスケール方位性フィルタの比較である。これらは本質的には同一の特徴を計算している。これにより特性がゆっくり変化する表面のためには、白色化フィルタの出力の比較がもっとも効果的であることを示す。これは、一般的なオブジェクトの比較のためには、これらの戦略の組み合わせを用いるべきであることを示している。ガボールジェット(Gabor jets)は、このような混合戦略を効果的に採るが、われわれはさらに新しい混合戦略を提案する。合成画像と実画像において我々の研究結果を検証する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Katherine M. Simonson, Steven M. Drescher, Franklin R. Tanner
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 112-125 , January 2007
エッジ抽出された画像の登録のための新しい手法について述べる。画像登録に関しては非常に多くの研究がすでに行われてきたが、その解と解の統計的確信度によって明確に定義された尺度を含むアプローチは稀である。このような尺度は自動化アプリケーションにおいて必要不可欠である。(ボケた画像や、雲により不明瞭になった地形などを含む)疑わしい画像登録に基づいた手法と、(高度に構造化されたシーンの明瞭な画像に基づいた)信頼できる手法とを区別しなければならない。本研究で開発した手法は直線エッジ画素マッチングを利用し、変換候補のクラスの中から“最良のもの”を見つける。McNemarテストと呼ばれる既に確立された統計手順を適用し、他の解の候補が、この最良のものに比べても顕著に悪いわけではないことを示す。これにより登録パラメタの空間において確信度領域の構築を行う。このアプローチをシミュレーション実験により検証し、多数の困難なシナリオでの応用における例を示す。このアルゴリズムの適用範囲は二次元変換問題を解くことに限定されているが、より高次の(剛体、アフィン)変換問題の解法の検証における本アルゴリズムの利用を例証する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Peer Stelldinger, Longin Jan Latecki, Marcelo Siqueira
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 126-140 , January 2007
デジタル化とはその見かけほど容易なわけではない。サンプリング頻度が高いグリッドにより三次元オブジェクトをデジタル化したとしても、再構成されたデジタルオブジェクトは位相幾何的なゆがみを持っている。一般的にハウスドルフ距離(Hausdorff distance)に対する上界は存在しない。このことが位相幾何的性質の維持を保証するアルゴリズムが見つかっていない理由を示している。しかし本稿で示すように、デジタル化された画像を局所有界な方法で修復することは可能である。これによりデジタルオブジェクトはその元になった三次元オブジェクトに対して位相同形かつ近い形状を持つようにする。結果として得られるデジタルオブジェクトは常に良好に構成される。これは多くの画像解析で頻繁に生じる問題を解消するのに都合がよい。さらにオリジナルの三次元オブジェクトの表面が、マーチングキューブアルゴリズムの結果と位相同形になっていることを示す。これは、単純なr-レギュラーオブジェクトのデジタル画像に対しては、よく知られたマーチングキューブアルゴリズムによる再構成の位相幾何問題が起きないことを示しているため、実に驚くべきことである。三線補間(trilinear interpolation)に基づいて、デジタル画像からオリジナルの表面と同じ幾何特徴を持つ滑らかな等価面(isosurface)を構成する。最後に、驚くほど単純な位相幾何特徴を保持する再構成法を示す。この方法では立方体ボクセル(voxel:オブジェクト構成要素:訳者注)の代わりに重複部分を持つ球を用いる。これは位相幾何特徴の保持を保証し、かつ幾何的歪みの上界を与えることのできる、最初の三次元オブジェクトデジタル化アプローチである。本アプローチの出力を、純粋なボクセル表現、球体の結合、三線補間による再構成、滑らかな等価面、もしくは対毎の線形マーチングキューブ表面のいずれかとして選ぶことができるため、結果を多くの画像解析アルゴリズムに直接適用することができる。さらに、デジタル化された情報を見ることで、如何に効率的に三次元オブジェクトの体積と表面領域を推定できるかを示す。デジタル化されたオブジェクトの体積と表面領域の測量は、三次元画像解析において重要な問題である。高性能な推定器はマルチグリッド収束性を持っているべきであり、これはつまりサンプリング密度を上げていけば誤差がゼロになるということである。本稿で示したすべての再構成法が体積推定に使用できることを示し、マルチグリッド収束性表面領域推定の、さらに難しい問題に対する解法を与える。我々の解法は単純なボクセルカウントに基づいており、表面領域の絶対的有界性を与えることができる最初の方法である。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Gang Zeng, IEEE, Sylvain Paris, Long Quan, IEEE, Francois Sillion, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 141-158 , January 2007
パッチワークと呼ばれる新しい表面表現方法を導入する。これにより複数の画像からの三次元表面の再構成能力を拡張する。パッチワークは、各個に組み上げられるいくつかのパッチの組み合わせである。この設計により、細部の詳細さを保ったまま任意の大きさの次元を持ったオブジェクトの再構成を可能とする。この戦略により、再構成されるオブジェクトの次元と独立した空間複雑性、およびオブジェクト領域のサイズに線形な時間複雑性を達成できることを形式的に示す。前者の特性により、ストレージを使い尽くすことがないことが保証され、後者はオブジェクトの再構成が適当な時間内で可能であることを意味する。更にパッチワーク表現は、閉じた表面(closed surface)と開いた表面(open surface)の両者を等しく扱うことを示す。多くの既存の手法は、特定のシナリオに限定される。つまり閉じた表面もしくは開いた表面のいずれかに対する解法となっており、両者に対するものではない。パッチワークコンセプトと、表面再構成のために選んだ手法とは相異なるが、これら二つからなるフレームワークで既存のほとんどの最適化技術をカバーすることができる。このアプローチの可能性を示すために、2つのアプリケーションを提案し、これにより我々の方法が、最小カットに基づいた最近の正確なグラフ手法を如何に劇的に拡張するかを示す。最初に一般的なカービング法(carving technique)を調べる。これにより、与えられた問題を、ボクセル空間のトレーサビリティが実現できる良好に定義された再構成問題に落とし込むことができる。表面伝播(surface propagation)による詳細な幾何情報を達成するために、如何に高度に複数の画像ベースの基準を組み合わせられるかについても示す。これらの二つの例はパッチワーク表現の多機能性と柔軟性を示している。これらはパッチワーク表現から引き継いだ他の性質も強調している。それは即ち、いくつかの最小カット法は複雑な形状を取り扱うのが難しい(例えば複雑なトポロジーの形状など)が、これら二つの例では、パッチワーク表現により本質的な性質を保持するために、いかなる幾何情報も自然に扱うことができる。ここで示したパッチワーク表現の特性と再構成を、実画像系列により証明する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Martin N. Huxley, Jovisa Zunic
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 159-161 , January 2007
デジタルディスクとは、与えられたディスク内にある全ての整数点の集合である。{¥cal D}_{N}が、N点(変換により異なる)よりなる様々なデジタルディスクの数であるとする。最近になってこの数に対する上界{¥cal D}_{N} = {¥cal O}(N^{2})が判ったが、対応する下界はまだ判っていない。本稿ではこの上界を正しい桁を持つと見られる{¥cal D}_{N} = {¥cal O}(N)に洗練させる。更に¥overline{¥cal D}_{N} = ¥left({¥cal D}_{1} + {¥cal D}_{2} + ¥ldots + {¥cal D}_{N}¥right)/Nの平均が上界と下界を持つこと、これらがNの多項式的成長となることを示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Hua-Liang Wei, Stephen A. Billings
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 162-166 , January 2007
特徴選択とランキングための新たな教師なしforward orthogonal search(FOS)アルゴリズムを紹介する。この新しいアルゴリズムでは、特徴が一つ一つ段階的に選ばれる。測量空間における特徴全体を現すための特徴サブセットから特定の候補を選び、その能力を推定することで、特徴の選択が行われる。特徴間の依存性を測量するための基準として二乗相関関数を利用し、これにより本アルゴリズムの実装を容易にしている。効果と効率性をうまく両立したフォワード直交化(forward orthogonalization)戦略により、本アルゴリズムは明確に物理的解釈可能な効率的な特徴サブセットを算出することができる。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Massimiliano Pavan, Marcello Pelillo, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 167-172 , January 2007
クラスタの直感的コンセプトと頂点の主要な集合のコンセプトの間の類似性に動機付けされた、ペアデータクラスタリングのための新しいグラフ理論的なアプローチを開発する。ここで主要セットとはエッジ重み付けグラフの最大完全サブグラフの概念を一般化したものである。主要セットと、標準的なシンプレックスをカバーする二次形式の極大値とを対応付ける。これにより、進化論的ゲーム理論から得られる、順当かつ簡単に実装可能な連続最適化手法を利用することが可能となる。様々な点の集合と画像分割問題における計算的実例により提案アプローチの潜在的能力を確認する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Robert E. Banfield, IEEE, Lawrence O. Hall, IEEE, Kevin W. Bowyer, IEEE, W.P. Kegelmeyer, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 173-180 , January 2007
我々は実験的に、決定木識別器の集合を生成するためのバギング(bagging)法とその他の7つのランダム化に基づいたアプローチを評価する。57の一般的に入手可能なデータ集合からの実験結果に対して統計テストを実施した。統計的有意性のテストのために交差検定(cross-validation)の比較を行ったところ、最良の方法がバギングよりも統計的有意に正確であるのは、57のデータセットの内、わずか8つに過ぎなかった。もうひとつの選択肢として、アルゴリズムの平均ランクをこのデータセットの組で試験し、ブースティング法、ランダムフォレスト法、確率木法は統計有意にバギング法よりも良い結果を示した。適当なサイズの集合を用いることが重要であると我々の実験結果は示している。そのため、ある集合に対して充分な数の識別器が生成されたことを検出するアルゴリズムを導入する。我々のアルゴリズムは、バッグの外にデータ点が落ちる誤りを推定し、バギングを集合の構成に組み込む、これらの方法のための精度の高い集合をもたらすことが示される。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Jan Erik Solem, IEEE, Henrik Aanas, IEEE, Anders Heyden, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 181-184 , January 2007
既知のビューからの表面再構成のための多くの視覚手がかり(visual cue:視覚キュー)は自然界に散在している。テクスチャのない領域を除いて、例えば鏡面性、表面シルエット、そして顕在特徴などがこの例に当てはまる。しばしばこれらの手がかりは観察者にとって唯一の情報である。これらの拘束条件を、ピクセル毎の類似性などの強度の拘束条件と結合して用いるか、単独で用いるか、いずれかの方法で利用するために、これらの拘束条件を変分法的フレームワークにおいて定式化する。表面が特定の点を通過することを強制するレベルセットフレームワークにおける疎な変分法的拘束条件および、観測されたビューの方向に沿った表面の法線に対する疎な変分法的拘束条件を提案する。これは鏡面性などの性質に沿うものである。これらの拘束条件により、極度に疎なデータから表面を再構成することができる。鏡面性からの形状復元問題において本アプローチを適用・検証してきた。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Xiaoqing Ding, Li Chen, Tao Wu
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 195-204 , 2 2007
本論文では、未知の漢字一文字だけを使った、文字に依存しないフォント認識の新規なアルゴリズムを提案する。文字画像のウェー ブレット変換を施し、変換した画像からウェーブレット特徴を抽出する。Box-Cox変換と線形判別分析の後、フォント特徴量を抽出し、 各クラス1つだけのプロトタイプを使って変形2次距離関数(MQDF; Modified Quadric Distance Function)によって識別する。実験に よれば、我々のアルゴリズムで1文字を対象として90.28%の認識率を、5文字を対称とする場合は99.01%を達成できた。従来法に比 べ、我々は未知の1文字だけを使っているので、認識率が高いだけでなく、柔軟性も高くロバストでもある。更に言えば、本アルゴリズム では僅かなレベルではあるが、大きな背景ノイズに埋もれた判別可能な信号を抽出可能である。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Thierry Artieres Sanparith Marukatat Patrick Gallinari
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 205-217 , 2 2007
我々はオンライン手書き形状認識に対する新規な方法を研究した。この手法による興味ある学習対象特徴量としては、マニュアルに よる調整をしないで、非常に少ないサンプルから学習するとともに、文字の漸進的な学習、ユーザーの特殊ニーズに適合させることも 含まれる。ここに提案するシステムとしては、ラテン文字、アジアの文字、ジェスチャーによる指令、記号、小さな図形、幾何学的形状 を対象とする。これは多くの用途向けの認識業務のための構成要素としても使える。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Georgios Passalis Ioannis A. Kakadiaris, Theoharis Theoharis
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 218-229 , 2 2007
3Dオブジェクトの収集データが増えるに従い、鍵となる操作はデータベース処理となってきた。大量のデータは予めタイプごとに(例 えば、人の顔、車、4つ足動物)分類されている。ここで一般的なオブジェクト検索法はクラス内での検索課題には適してない。このよう なクラス内検索には高精度を達成するために基本的なクラス特徴量を活用した特殊化した方法が必要であることを主張する。オブジ ェクトの形状モデルをパラメータ化しこれを注釈として付けた新規な3Dオブジェクト検索法を紹介する。これには主要な特徴量も取り 込む。注釈付き部分分割法モデルは、変形可能なモデルの枠組みを利用したクラスのオブジェクトに適しており、幾何学的画像に変 換されたり、ウェーブレットドメインに変換される。オブジェクトの検索はウェーブレットドメインで行われる。この手法ではユーザーの関 わりは不要であり、高精度が達成でき、そのため大規模なデータベースの利用が可能で、非剛体オブジェクトに適している。この手法 を顔認識のコンテスト、Face Recognition Grand Challenge v2のデータベースとして利用し、誤認識0.001で平均正解率95.2%を達 成した。この最新結果は以下を参照:(http://www.cbl.uh.edu/UR8D/)
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Shaohua Kevin Zhou, Gaurav Aggarwal, Rama Chellappa, David W. Jacobs
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 230-245 , 2 2007
従来の測光学的ステレオアルゴリズムでは変化するアルベド(反射係数;albedo)場とともに、Lambert反射モデルを利用するが、この モデルではオブジェクトは1つだけ存在する。本論文では、測光学的ステレオアルゴリズムを一般化し、1つのクラスのすべてのオブジ ェクトを扱う。特に、線形Lambert特性を利用した人の顔のクラスを対象とする。線形Lambertオブジェクトは、基底オブジェクトの組によ って張られた線形空間内でLambert表面を有するオブジェクトである。この線形特徴によってランクが決まり、その結果、異なる、あるい は、未知の照明下での、異なるオブジェクト(異なる対象物の顔など)の見本画像からなる観察行列の因子分解が得られる。積分可能 性や対称条件から、部分空間基底を完全に復元することができたが、これには変化するアルベド場を考慮した新規な線形アルゴリズ ムが利用された。線形Lambert性の性質の有効性は照明不変の顔認識問題(画像は1枚のみ)に利用し、更に調べられた。陰影があ る場合は、モデルを利用し、Lambert法則による固有の非線形性を慎重に処理した。これによって我々のアルゴリズムを多数の照明条 件下での顔認識に拡張することが可能となった。標準データに対する実験の結果も示す。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Pierre Bayerl Heiko Neumann
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 246-260 , 2 2007
動き画像の分離のために、表層画像領域モデルV1と、背面の流れのより細かい神経動力学的モデルMTに分離するシステムを以前 開発した。このモデルでは動きによる開口の問題が、表層的メカニズムによって導入された動きの曖昧さによって解決できる様子を説 明している。整合的に運動する任意サイズのオブジェクトが皮質メカニズムによって解けることを示す。高い信頼性を有する生物学的 手法の実時間実装に伴う困難さは、ここでの、速度空間においてニューラル活性化を表現するメモリーが十分利用できるかどうかに架 かっている。我々は神経網の動き活性の検出に効果的な、疎に分布した符号化法を提案する。疎なネットワーク中で、我々のニュー ラルモデルの効率的な表層動き分離アルゴリズムの実装の枠組みにおける分離禁止やフィードバック変調をニューラルネット形式とし て実現した。このアルゴリズムはもともとのニューラルモデルと類似の動きを見せ実世界の映像系列から画像の動きを抽出できることを 示す。我々の研究によってニューラルネットワークで考えられていた皮質での動き計算の成果を、実時間性やハードウエア実装のよう な工学的に要求の高い形式に変換することに成功した。更に、提案された生物学的に着想したアルゴリズムが実現可能な時間内に 計算処理できるモデル化のツールを提供可能となった。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Shai Avidan
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 261-271 , 2 2007
追跡問題をオブジェクトと背景の2つに分別し、オンラインで弱識別器の集合を訓練する2値識別問題を考える。この弱識別器集合は 、AdaBoost法を使って一つの強識別器と組み合わされている。この強識別器は次のフレームの画素がオブジェクトに属するか、背景 に属するかを識別するために利用され確信度マップを与える。このマップのピーク値はオブジェクトの新しい場所を示すが、平均シフト 法で見つける。追跡期間中に訓練された弱識別器によって集合を更新することで時間的な一貫性は保持される。この方法を実現し、 いくつかのビデオ画像で実演する。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Erik R. Urbach, Jos B.T.M. Roerdink, Michael H.F. Wilkinson
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 272-285 , 2 2007
本論文では、連結演算子を利用した中間調画像の、パターンに基づく解析と識別のための多段スケールで多段形状の形態論的(モ ルフォロジー)手法を紹介する。構造の構成要素を利用する従来法と異なり、本方法は3つの利点がある。第1にパターンスペクトルを 計算する時間はスケールの種類や利用している形状の数には依存しない。つまり、計算時間はパターンスペクトルの次元には依存し ない。第2に、サイズと厳密な形状の属性は、2D形状とサイズの両方が結合したパターンスペクトルによって計算され利用される。第3 に、我々の手法はノイズに頑健であり、かつ、回転不変である。この回転不変性の近似は構造要素を異なる角度で利用することで達 成できるが、ただ計算時間はかかる。これら手法の識別能力は、4つの画像集合、Brodatz, COIL-20, COIL-100, および、珪藻( diatoms)を利用して考察した。この新規な方法は、従来の最高性能の方法に比べ5〜9倍の識別速度が得られる。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Haibin Ling, David W. Jacobs
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 286-299 , 2 2007
部分構造や関節はコンピュータビジョンや人による画像認識にきわめて重要である。我々は内部距離を、オブジェクトのシルエット内 部を経由する特徴点間の最小距離と定義するが、この内部距離は関節の動きにも敏感過ぎることはなく、部分構造の把握にもユーク リッド距離よりは効果的である。このことから、内部距離はユークリッド距離に代わってもっと複雑な形状の高精度の記述法として、特に 関節構造をもつ箇所の記述法として利用できる。更に、最短経路に沿ったテクスチャー情報は、形状の詳細分類に役立つ。このアイ デアを利用して、内部距離を利用した3つの方法を提案する。第1の方法は内部距離と多次元スケール(MDS)を一緒にして、関節形 状のための関節に依存しない特徴量を構成する。第2の方法は形状コンテクストに基づく新たな形状記述子を内部距離で表す方法 である。第3の方法は最短経路に沿って第2の方法を拡張する方法である。この提案手法は、関節形状を含むデータ集合のMPEG7, CE-Shape-1, Kimia Silhouettes, ETH-80のデータ集合, 2枚の葉データ集合、人の動きのシルエットデータ集合に対して、テストさ れた。すべての実験で、我々の手法の効率が他の手法に比べて有効であることが実証された。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Christian Siagian, Laurent Itti
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 300-312 , 2 2007
コンテキストに基づく動き回るロボットのための単純な情景認識法について述べ、検証する。このシステムは大学キャンパス内の色々 な場所の屋外情景について、初期視覚特徴を低次の特徴量ベクトルとして代表させ、多重スケール化したものを利用して識別した。 以前のアプローチとは異なり、このアルゴリズムは生物学的に尤もらしく、計算負荷も少なく、モデルとロボットが同一の演算していると 思われる低レベルの特徴量を採用した。我々はキャンパスの3地点において撮影した屋外風景、分類の精度を比較した。なお、各地 点のフレーム数は、13965フレームから34711フレームである。各地を9つのセグメントに分割し、各セグメント毎の識別率を実験したとこ ろ、84.21%から88.62%が得られた。すべての場所の情景画像をまとめ(全部で75073画像)、86.45%の精度で識別できたことから、 この手法の一般化とスケーラビリティの可能性を実証している。
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Frederic F. Leymarie Benjamin B. Kimia
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 313-330 , 2 2007
メディアンスカフォールド(足場 = scaffold)と呼ばれる、メディアンの点列を結んだ曲面によって構成されたグラフ形式の3D形状のメデ ィアン軸の階層的な構成について紹介する。このスカフォールドの主要な利点は、階層的で、かつ、密に凝集された表現で形状を定 量的に把握できることにある。我々は効率的で正確に、スカフォールド自身に沿って、フローの始点から伝播の間にスカフォールドを 構成していく方法を示そう。この手法を検討しながら、特に点列が整列してないレーザーによる距離画像の数百数千の3Dの点につい て考察するが、幾何学的に記述される表面パッチのデータに適するように一般化する。伝播に基づく手法における計算上のボトルネ ックは初期のフロー点を見つけることである。そのために不要なメディアンの点対を考える必要のないいくつかのアイデアを紹介する。 その中には、ある第3つの点から見ての「見かけ上」の点とか、点のクラスターの相互作用とかが含まれる。このようなメディアンスカフォ ールドによって現実の点のサンプリングへの応用例が図示されている。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Li Zhang, Steven M. Seitz
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 331-342 , 2 2007
MRF(マルコフ確率場)法によるステレオアルゴリズムのためのパラメータ推定の新規な方法を紹介する。この手法の原理は、ステレオ を最大事後確率(MAP)問題として捉えたことに特徴があり、差異マトリックスとMRFパラメータの両方をステレオ画像対から推定する。こ こに示すMAP推定のための逐次アルゴリズムは差異マップを合わせながらパラメータを推定し、また、パラメータを決めながら差異マ ップを推定するという繰返し法である。また、パラメータの推定には、データや隣接項だけでなく、正則化のための重みの切捨て操作 も含むものとする。この正則化の重みは全画像について一定か、あるいは、強度勾配に依存して空間的に変化するかのどちらかであ る。後者の場合、強度勾配のための重みの推定値も得られる。我々の手法は既存のステレオアルゴリズムの梱包器のような働きをし、 それは、グラフカットやビリーフカットや信頼度伝達法を使って、自動的にパラメータを調整し、パーフォーマンスを改善し、ステレオ符 号の変更は必要ない。実験からこの手法はMiddleburyランキングで6位の成績が納められた。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Carlos Hernandez, Francis Schmitt Roberto Cipolla
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 343-349 , 2 2007
カメラの較正のための完全で実用的な系を示し、回転テーブル上に置かれた彫塑品を未較正カメラで撮影したものから、デジタルコピ ーを復元する手法について紹介する。本論文では、3Dオブジェクトから作られたシルエット画像集合のシルエットのコヒーレンス性の コンセプトを紹介する。カメラの姿勢と焦点距離を復元するためにはシルエットのコヒーレンス性の最大化がどのように利用されたかを 示す。シルエットのコヒーレンス性は、よく知られた、シルエットから動きの再現や輪郭だけの再現のためのエピポーラ正接条件の一般 化と見なすことができる。さらに、シルエットのコヒーレンス性にはシルエットにコードされているすべての幾何学的情報を利用し、エピ ポーラ正接点だけでなく、点対応性や外接エピポーラが得られない場所での実用的な対応関係を利用する。シルエットのコヒーレンス 性を利用した効果的で信頼度のあるカメラの動き推定法を紹介する。このアルゴリズムを使って、非常に高精度の3Dモデルを、未較正 カメラによる円形運動の撮影画像列から再構成するが、このときエピポーラ正接点が得られないとかシルエットが途切れている場合で も許容する。このアルゴリズムは実用的システムに実装化され50個以上の未較正画像列を使って高精度の写実的なモデルを再生し た。本論文中には3つの例が示されている。このアルゴリズムは最新のエピポーラ正接性だけを利用したシステムと定量的に比較され ている。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Arijit Bishnu Bhargab B. Bhattacharya,
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 350-355 , 2 2007
スタックトオイラーベクトル(Stacked Euler Vector =SERVE)と称する中間調画像の特徴づけのための組合せ特徴量を紹介する。この SERVEは4個組み(4-tuple)の要素から出来ている。この要素は整数で、中間調画像の最も重要な4つのビットプレーンのある種の画 素の重なり関係で形成される「部分2値画像のオイラー数」を示している。SERVEの計算は単純・高速で浮動小数点演算は不要であ る。SERVEによって画像検索の効率を著しく改善するために他の特徴量を強化するために使うこともできる。COILデータベースを対象 にした実験結果は検索効率の改善を示している。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Hong Hua, Narendra Ahuja, Chunyu Gao
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 356-361 , 2 2007
広視野画像(FOV)で高解像度画像は多くの画像応用において求められている。ピラミッド状ミラーによる高解像度、単一視点、広角 画像取得システムについてはいくつかの報告がすでにある。2つのピラミッド状ミラーによるパノラマカメラのようなシステムにおいて、セ ンサーの利用効率や画像の均一性などのパノラマ広角画像系全般のピラミッド状幾何学的配置、撮像素子群の配置をどのように最 適化するかを調べた。解析は一般化可能で他のピラミッドミラー系の設計にも応用可能である。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Oana G. Cula, Kristin J. Dana, Dinesh K. Pai, Dongsheng Wang
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 362-367 , 2 2007
偏光は従来から、表面から反射した光の成分の内、散乱光成分と鏡面反射光成分に分離するなどの色々な研究に利用されてきたが 、本研究においては、個々の光源から表面反射成分を分離するために利用できることを示そう。我々の手法は偏光マルチプレクシン グと呼ばれるが、これは照明光の方向が必要で、これによって画像の見かけは随分と異なって見える。多数の未知の方向の光源によ って情景が照明されているとき、全体に対する個々の寄与の割合を推測する。偏光マルチプレククスは光源の方向と強度変調に依存 する。この変換を逆変換することは個々の強度の割合が推測される必要がある。さらに偏光のマルチプレクシングをするためには、光 源の数と共に、強度変調からの位相ヒストグラムを利用して光源の数も推測が可能となることを示そう。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Lu Yu Lenan Wu
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 368 , 2 2007
以前提案された、「分離可能な複雑度の低い2D HMMの顔認識への応用」は、隣接ブロックの関係として、条件付独立性が仮定され ている。著者の見るところ、この仮定は複雑度を落とすための鍵となる仮定となっている。この稿では、この仮定は全く不要であることを 示そう
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Harro Stokman Theo Gevers
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 371-381 , 3 2007
多くのコンピュータビジョンアルゴリズムにとってカラーモデルの選択は極めて重要であり(例えば、特徴検出、オブジェクト認識、追跡 )、選択されたカラーモデルは実際のアルゴリズムに同様のモデルを誘発する。実際可能なカラーモデルは多いが、特有な困難さは、 どうやって一つのカラーモデルを自動的に選択するのか、あるいは、特定の課題に対して最適な結果を引き出す部分カラーモデルの 重み付き部分集合をどのように作るかということになる。そして次のハードルとしては最適な設定の組合せにどのような融合概念を作り 上げることが出来るかと言うことだ。この適切なカラーモデルの選択と、特徴量検出アルゴリズムを達成するためには、本論文では、多 様化の原理から導かれたカラーモデルまたは特徴量検出アルゴリズム間の完全ではない相関を利用した手法を提案する。その結果 として、再現性と識別能力の適度なバランスが得られる。その結果は、最大の特徴量識別能力を示す重み付けが得られる。この方法 は3つの異なる画像特徴検出器によって実験的に実証された。実験結果から、融合法を使った特徴量検出結果は標準的な重み付け 法よりは高い識別能力を示した。さらに、実験的には、このカラーモデル選択法は、カラーの再現性と識別能力の適当なバランスも得 ることができる。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Gil Ben-Artzi Hagit Hel-Or, Yacov Hel-Or
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 382-393 , 3 2007
本論文では、グレイコードカーネル(GCK)と呼ばれるカーネルファミリーを紹介し、これを画像解析でどのように利用できるかを示す。グ レーコードカーネルによる画像のフィルタリングは非常に効率的で、画素当たり、カーネルのサイズや次元の大きさと無関係に、各フィ ルターカーネルについてたった2回の演算しか必要ない。我々はカーネルのファミリーは大きく、その中には特にウォルシュ・アダマー ルカーネルが含まれていること示す。GCKはどんな望みのカーネルも近似することが可能で、完全な表現を形成する。GCKフィルター 系列を使った計算効率は、パターン検出、特徴抽出、テクスチャー解析、テクスチャー生成、その他多くの実時間処理に応用が可能 である。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Gustavo Carneiro Antoni B. Chan Pedro J. Moreno Nuno Vasconcelos
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 394-410 , 3 2007
画像の意味の注釈付けと検索のための確率論的定式化を提案する。注釈付けと検索は識別問題と見なされ、各クラスは、共通の意 味ラベルを持った画像データベースと定義できる。意味ラベルと意味クラスの間の1対1の対応を確立することによって、アルゴリズムと して1)理解が容易で、2)計算が効率的で、3)訓練画像の意味による分割の作業が不要な注釈付け間違いを最小化することが可能と なる。特に、画像が局所化された特徴ベクトルのクラスで表現でき、画像毎に混合密度推定や、対応する共通意味ラベルを有するクラ スの密度推定値としてプールされる。このプール化は複数インスタンス学習の論拠として正当化され、期待値最大化法を階層的拡張 版として効率的に実行される。もっと困難で、より人気の高い、意味ラベルと視覚的特徴分布の結合モデルに比べて、この教師付き学 習の定式化の利点が、理論的考察と、徹底的な実験によって図示されている。教師付きによる定式化は以前の既知の手法に比べ、 僅かの計算時間を犠牲にして高い精度が得られることが示される。最後に提案手法はパラメータの調整に対してロバストである。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Thomas Serre Lior Wolf Stanley Bileschi Maximilian Riesenhuber Tomaso Poggio
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 411-426 , 3 2007
生物学に刺激され、複雑な情景を認識する新規で一般的な枠組みを紹介する。大脳皮質の視覚領域を詳細にたどる階層的機構に ついて述べ、テンプレートマッチングと最大プール化演算を交互に利用する徐々に複雑化した不変特徴量表現を構築する。この方法 の長所を認識問題で実証する:多数のオブジェクト中から、不変的単一オブジェクトを認識する課題から、多クラスの識別課題や複雑 な情景の理解のような形状だけでなくテクスチャーにも基づく認識課題も対象にしている。システムが満たすべき生物学的条件が与え られたとき、本手法は驚くほどうまく行く。このシステムはたった数個の例を示すだけで学習することが可能であり、最新技術に対抗す ることができる。またほとんどのオブジェクトカテゴリーを扱える特徴量辞書を普遍的に、冗長に持つことについても考察する。本技術 はコンピュータビジョンに適合するだけでなく、この手法が成功したという事実から、大脳皮質でのオブジェクト認識はフィードフォワー ドモデルが使われている可能性がある。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
David Williams, Xuejun Liao, Ya Xue Lawrence Carin, Balaji Krishnapuram
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 427-436 , 3 2007
特徴ベクトルのデータの一部が欠落したような不完全なデータの問題について述べる。不完全なデータの識別の(教師付き)ロジス ティック回帰アルゴリズムを開発した。単一のあるいは複数の欠落データは、条件付推定密度関数による解析的積分によって補完で きる(観察データに基づく条件)。条件付密度関数はガウス混合モデルで推測可能であり、そのパラメータ推定は期待値最大法( Expectation-Maximization (EM))、および、変動ベイズEM法(Variational Bayesian EM (VB-EM))の両方が使える可能性がある。ここ に提案する教師付きアルゴリズムは、グラフに基づく規則化によって準教師付きアルゴリズムに拡張できる。この準教師付きアルゴリズ ムは入手可能な、完全であっても不完全であっても、ラベル付きであろうとそうでなかろうと、すべてのデータを利用する。提案する識 別アルゴリズムの実験結果を示す。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
David Coeurjolly Annick Montanvert
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 437-448 , 3 2007
2値画像の距離変換(DT)と幾何学的スケルトンの抽出は形状認識の古典的道具である。本論文では、d-次元画像中で逆ユークリッド 変換と逆中心軸抽出の問題を解くための最適アルゴリズムを紹介する。ここで中心軸とは、対象とする形状中の最大球中心の集合で ある。さらに、再構築した品質を制御するためのd次元中心軸フィルタリング処理も紹介する。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Xiang Bai Longin Jan Latecki, Wen-Yu Liu
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 449-462 , 3 2007
本論文では、輪郭の分割を利用した新規なスケルトンの刈込み法を紹介する。これにはどんな輪郭分割法でも利用できるが、離散的 曲線発展法(Discrete Curve Evolution)がすばらしい結果を示す。この理論的性質と得られたスケルトンの実験的結果は、人間の視 覚的にとっても、ノイズの多い環境や形状の変動が大きい場合でも安定しており、位相学的にも原画と同じである。特に、この提案手 法は、一般的な枝刈り法では生じ易い偽枝を生じない。更に、提案手法はスケルトンの点の移動を生じない。その結果、すべてのスケ ルトン点は最大円板(多次元では最大球)の中心となる。しつこいが、多くの既存の刈込み法ではスケルトン点を変位させてしまうこと を強調しておく。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Yonatan Wexler, Eli Shechtman, Michal Irani
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 463-476 , 3 2007
本論文は、局所的構造の影響によって情報の欠落が生じ、この部分を完結させる新規な枠組みを提供する。この完結性は、厳密に 定義された目的関数によるグローバルな最適化問題と見なし、最適化のために新規なアルゴリズムを導く。欠損値は、参照例と整合 した構造を有すると見なされる。この手法を使って、複雑で動きのある時空中の大きな穴のあるビデオ画像を完結化させる。欠落部分 はビデオ中の時空の適当なパッチで埋められる一方、その穴の周辺においてグローバルな視点から整合性を取る。静的情景の部分 画像を整合性を持たせて補完すると同時に動的な動きにも対応させることで、ビデオや画像の本物らしい復元が得られる。この時空 補完法は以下のような用途に限らないが、有用と思われる例を挙げると、1)適当な静的・動的な背景による巧妙なビデオの部分カット (望ましくないオブジェクトのカット)、2)昔の映画の欠落・破損不糞の修復。3)望ましくない要素を除去して視的ストーリーを変更する 。4)小さなテクスチャーを拡大し新たなビデオテクスチャーを生成する。5)安定な視野の生成と完成。6)各画像は1フレーム別のビデ オなので、このような特殊な(1フレームの)場合にも応用できる。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Fred Rothganger, Svetlana Lazebnik, Cordelia Schmid, Jean Ponce,
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 477-491 , 3 2007
多数の剛体オブジェクトを含む動的情景を対象に、これらオブジェクトがそれぞれ異なる動きをしたり、カメラの移動する条件下での新 規な表現法を与えるものである。多数のビューの条件として、アフィン変換がパッチ単位で共変であること、これらの正規表現を利用し た剛体の切り出しを行い、これら部品の3次元モデルを生成し、異なる画像系列中のモデルのマッチングを行う。この手法はビデオ映 像中の動く剛体の検出とマッチングに応用され、ビデオクリップ中の同一画像の同定に利用される。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Norman Poh, Alvin Martin Samy Bengio
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 492-498 , 3 2007
バイオメトリックスの認証性能はしばしば検出とエラーとのトレードオフ(DET)曲線によって表される。この曲線は入手可能なサンプル データベースや統計上の成分、人口的構成の選択に依存していることを示す。変動要因が3つあるので、2段階のブートストラップ手 続きを採用する。この手続きは、Belle たちのブートストラップの拡張に当たる。NIST2005 と XM2VTSに対するベンチマークデータベ ースに関する初歩的実験によれば、つまり、24個のシステム平均効率でみれば予想は有望であった。75個以上のDETの平均では NIST2005によってなされた平均効率は予想された通りであり、未知のDET曲線を有する8倍のユーザー数のデータに対して75%以 上のDETカバレッジを有する。さらに、我々の発見から、もしデータ数がもっと増えれば確信範囲はずっと狭くなることが予想され、より 使い易くなるだろう。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Hui Zhang, IEEE Kwan-Yee K. Wong, IEEE Guoqiang Zhang
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 499-502 , 3 2007
本論文では球画像を利用したカメラの較正問題を解くための新規な方法を紹介する。球の双対画像と、絶対円錐の双対画像の関係 を利用して、2つの球の円錐画像に関する共通の極と極超平面はまた、IACに関する極と極超平面となっていることを示すことができ る。従ってIACを予測するために2つの制約条件を与えることが出来、少なくとも3つの球の画像があればカメラの較正式を解くことが出 来る。実験結果から、この提案手法の妥当性が示された。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Michael K. Ng Mark Junjie Li Joshua Zhexue Huang Zengyou He
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 503-507 , 3 2007
本論文はkモードアルゴリズムによるカテゴリー化できるデータのクラスタリング法の拡張について述べている。単純な相違度を変形し てカテゴリーデータに対応させることで、ヒューリスティックな手法が開発され、その結果kモード法が可能となり、カテゴリー内類似度 が高く、大きなカテゴリー集合の効率的なクラスタリング法が得られた。本論文の主要目的は、新規の相違度を利用した最新のkモー ドクラスタリング法を厳密に導き、最適化の枠組みの中で収束性を導くことである。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Baojiang Zhong Wenhe Liao
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 508-512 , 3 2007
曲率尺度空間(CSS)法は、画像処理やコンピュータビジョンにおける最新の道具と見なされている。直接曲率尺度空間(DCSS)法は、 平面曲線の曲率にガウスカーネルを直接、畳み込み演算した結果として定義される。本論文では平面曲線のコーナー検出のために 、DCSSの理論的解析を示す。単一のコーナーや2つのコーナーのスケール空間での振る舞いを調べた結果、多くのモデルごとの特 性が特定され、DCSS画像を木構造に変換することが可能であり、コーナーは多段スケール処理で検出可能となる。また、DCSSのノイ ズ耐性を持たせるために、CSSとDCSSのハイブリッド戦略が良いかもしれない。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Salil Prabhakar, Josef Kittler, Davide Maltoni, Lawrence O'Gorman, Tieniu Tan
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 513-516 , 4 2007
バイオメトリックス(生体計測)による本人確認システムの評価はますます重要性が増しつつある。本論文はこれらシステムの性能評価をするための新規で統計的な手法を紹介する。既存のシステムと、その確認結果のデータベースが与えられたとき、階層的確率的効果モデルとベイズ推測手法を利用し、事後予測分布を求め、色々な説明変数を利用した誤り率による効率を予測する。説明変数と確率的効果の両方を利用して、本人確認システムがもともとテストされたデータベースとは異なる多人数で多様なグループに用いられたときの潜在的な誤り率を推測することが出来る。また、このモデルを拡張し、警戒状態にあるリスト上の誤報を、リストサイズに対する予想確率として出すこともできる。このシステムの応用として3つの顔確認システムを用意する:フィルターによるシステム、ガウス混合モデル(GMM)、顔非対称の周波数領域表現に基づくシステム。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Sinjini Mitra, Marios Savvides, Anthony Brockwell
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 517-530 , 4 2007
バイオメトリック本人確認システムはますます普及しているがその性能を評価することも、より重要になりつつある。本論文はこれらシステムの性能評価のための新規な統計的評価法をここで紹介する。既存のシステムから本人確認結果のデータベースが与えられた場合、階層的確率効果モデルをベイズ推定法と共に用いて、事後推定分布が導け、いろいろな説明変数を用いて、誤り率による性能推定が可能となる。説明変数と確率効果の両方を取り入れて、この手法は、本人確認システムが最初に記録されていた以上の大きな事項に応用された場合とか、異なるグループに適用された場合の誤り率の予測が可能である。また、このシステムを警戒事項一覧表の偽の警報確率を、この表のサイズの関数として予測するよう拡張が可能である。我々は本システムを以下の3つのシステムに応用することを考える:フィルターを利用する方法、ガウス混合モデルに基づくシステム、顔対称の周波数空間に基づく方法である。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Patrick Grother, Elham Tabassi
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 531-543 , 4 2007
バイオメトリックサンプルの品質をスカラーとして計算する定量的評価のための手法を報告する。システムのマッチング性能の定量的尺度が推定可能であるという必要性に基づいてこの研究は開始した。品質評価アルゴリズムは入力サンプルをスカラーとして出力するブラックボックスと見なした。これらの値と観察されたマッチング結果との関連性を定量化し評価した。我々は検出誤りのトレードオフと言う考えを更に前進させ、誤りと拒絶特徴をサンプルの定量化尺度として定義する。実験的に認識させて得られたスコアから得られた品質値を有する文章サンプル(コープス)に対して注釈付け処理を考慮することで、性能目標を強調する。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Arun Ross, Jidnya Shah, Anil K. Jain
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 544-560 , 4 2007
ほとんどの指紋に基づくバイオメトリックシステムではデータベース中にユーザーのマニューシャのテンプレートを保存している。また、伝統的に想定されていたように、ユーザーの詳細特徴テンプレートには原指紋画像データの情報は決して含まれていない。本論文ではこのようなコンセプトに挑戦し、元の指紋画像に関する以下の3段階の情報が、マニューシャのみから導出できることを示そう;1) 方位場情報、2) クラスまたはタイプ情報、3) 指紋の峰(リッジ)構造、である。方位推定アルゴリズムは局所的リッジの方向を、3組の特徴点から導出する。推定方位場は、与えられた特徴点分布とともに、指紋のクラスの予測に利用される。最後に原指紋画像のリッジ構造は、推定方位場に基づく流線を利用して生成される。線積分コンボリューションを使って、これらリッジにテクスチャーを与え、その結果、原画像に類似したリッジマップが得られる。リッジを生成するための、この繰返しの不要な手法の特徴は、そのマニューシャを、再構成されたリッジマップ中の特定場所に保存することが出来ることである。市場にある指紋マッチングシステムを利用した結果、再構成されたリッジ構造は原指紋画像に非常によく似ていた。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Nalini K. Ratha, Sharat Chikkerur, Jonathan H. Connell, Ruud M. Bolle
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 561-572 , 4 2007
バイオメトリックに基づく本人確認システムは、従来のパスワードを利用した方法や、トークンを利用した本人確認システムに比べて種々の利点を持つ。しかし、バイオメトリックにはいくつかのプライバシー上の問題点がある。バイオメトリックにはユーザーに永久に付属しており、変更は不可能だ。従って、バイオメトリックによる確認法が危うくなったときは、この手法は永遠に使えず、しかも、すべての用途に使えなくなる。更に、同じバイオメトリックを使う用途同士で、追跡される危険性がある。本論文では、これらの問題に対処するため、指紋から多数の取消し可能な識別子を生成する方法を紹介する。本質的には、利用者は必要な数だけ変換「鍵」として識別子を与えられる。危うくなればこの識別子は捨てて更新すればよい。マニューシャを生成するいくつかのアルゴリズムの性能を実験的に比較した;直交座標畳み込み変換、極座標畳み込み変換、表面畳み込み変換、など。多くの実験によってバイメトリックスの取替え可能性が可能であること、バイオメトリックスデータベースのクロスマッチングの防止できることが示された。また、あてずっぽうな推定法による識別子の逆変換では、この逆変換が困難であることが、実験的に示された。このような実験結果と理論的解析から特徴レベルの取消し可能なバイオメトリックの構成は大規模な展開にも可能であると結論付けた。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Yi Wang, Jiankun Hu, Damien Phillips
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 573-585 , 4 2007
本論文では2Dフーリエ展開(FOMFE)に基づく指紋方向のモデルを提案する。FOMFEには特異点の予備知識は不要である。これによってノイズの多い画像であっても特異点を含むリッジの位相を継ぎ目なく表現することが出来る。市場で入手可能なデータベースに対する統計的実験によれば、このFOMFE法は、指紋の画像特徴の抽出精度が著しく向上し、その結果、指紋のマッチング精度も大きく向上する。更に、FOMFEは計算量が少なくて済むため、大きなデータベースに対しては効率的となる。FOMFEは方向性特徴量に対する広範な表現能力があり、従って指紋のような特徴量に基づく応用には利点が多い。原画の方向方位データを利用するほとんどのインデックス法を使ってFOMFEモデル係数による特徴量ベクトルを生成した。我々のインデックス化実験によると、異なる指紋データベースで、顕著な結果が見られた。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Donald M. Monro, Soumyadip Rakshit, Dexin Zhang
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 586-595 , 4 2007
本論文は、正規化された虹彩画像から作られた、円周角方向にオーバーラップしたパッチ画像の離散的コサイン変換(DCT)係数に基づく新規な虹彩(アイリス)コード法について述べる。DCT画像の特徴抽出能力は、市場で得られる最大規模の2つのデータベースに最適化されており、その1つはCASIAと呼ばれる目、308個分の2156画像であり、他方はBathデータベースの150個の目の2955画像である。本データについて、100%の正解率を得、間違って認可や、拒絶はなかった。個々の特徴量のビットやパッチの位置パラメータはマッチングのために最適化され、和積標準形(product-of-sum)によってハミング距離を計算する。確認のために距離尺度とに可変閾値が導入され、誤許容率、誤拒否率が記録される。新たに最悪尺度が提案されるが、これはマッチングの失敗が存在しない場合の実用的なシステム効率を予測するとともに、最悪の理論的な等誤り率(Equal Error Rate (EER))が入手可能なデータ集合において2.59×10^{-4}と低く予測された。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Jason Thornton, Marios Savvides, B.V.K. Vijaya Kumar
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 596-606 , 4 2007
虹彩パターンのように平面内の非線形な変形を受けたマッチングパターンのための一般的で確率的な枠組みについて述べる。一対の画像が与えられたとき、2つの相対的変形度合いを表すパラメータの最大事後確率(MAP)の推定値を求める。我々の推定プロセスはでは2つのことを同時に完了させる:パターン変形を正規化し、2つの非線形変形画像パターンの類似度を測るための変形耐性のある類似度尺度を返す。変形パラメータの事前確率はパターン形式に特異的であり、そのため、一般的な任意の確率分布に比べてより高精度のマッチング結果が得られるはずだ。我々はこの提案手法は、変形したパターンの実画像の虹彩データベースを有するシステムによる本人同定にうまく適していることを示す。この変形ベイズマッチング法を利用することで、マッチング精度が大きく向上することを示す。さらに、変形の大きさを推定するための余計な計算量は比較的少なく、実時間システムに向いていることを示す。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Hugo Proenca Luis A. Alexandre
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 607-612 , 4 2007
本論文は非協力的な虹彩認識に焦点を当てている。つまり、画像はやや遠くから撮影され、照明条件も協力的ではなく、ユーザーの積極的な寄与もない。これによって、画像取得が非常に不均一になり(焦点、コントラスト、照明など)、虹彩の障害物とか反射とかのいくつかのノイズ要因が加算される。現在の虹彩認識システムはノイズの多いデータには適応できなく、誤り率が顕著に増加する。特に、この環境での誤りによる拒絶が増加する。セグメント化されたり正規化虹彩画像を6つの領域に分割し、各領域から独立な特徴量の抽出が可能で、各領域の比較が可能であり、虹彩の識別ルールからこれらの相違度の尺度を結合することができる。実験によると、ノイズの多い虹彩画像において40%以上の誤拒否率の低下が見られた。
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Pradeep Buddharaju, Ioannis T. Pavlidis, Panagiotis Tsiamyrtzis, Mike Bazakos
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 613-626 , 4 2007
現在の顔認識方法は、皮膚の上に現れている顔特徴量に依存している。これらの特徴量のうちのいくつかは永続性が低く、時間と共に変化する可能性があるし、照明などの環境によって著しく変化する。多くの手法はこれら問題点を色々な程度で指摘してきた。しかし、現在の顔認識研究の枠組には、その性質上潜在的弱点がある。我々は生理学情報に基づく新規な枠組みを紹介する。この研究の動機は皮膚の下にある生来の特徴量の永続性を利用することである。この可能性を確立するために生体熱画像から得られる生体熱情報を得る方法を提案する。まず第1に、このアルゴリズムはベイズ法によって背景から人の顔を描写する。次に、画像の形態情報から表面の血管の位置を決定する。正確な血管ネットワークは各個人毎に固有である。抽出された、各個人に特有な特徴的輪郭形状を持っている。表面血管の枝別れする点は、熱特徴点と呼ばれ、特徴量データベースを構成する。骨格表現した血管ネットワークの分岐点は熱指紋特徴点(Thermal Minutia Points (TMPs))と呼ばれ、これが特徴量データベースを構成する。これを顔のポーズ変化にロバストにするために各課題ごとにデータベース中に5つの異なるポーズの画像を蓄えた(中央、中央左、左、中央右、右)。この識別ステージにおいて、アルゴリズムはこの最初にテスト画像のポーズを推測する。識別の段階では、本アルゴリズムは最初にテスト画像のポーズを推定する。次に、テスト画像から抽出された構造と、データベース中のポーズ画像とをマッチングさせ、局所的、全体的なTMPの構造にマッチさせる。わが研究所で収集した生体熱顔画像の多目的データベースだけでなく、ノートルダム大学のタイムギャップデータベースに対してもマッチング実験を行った。その結果が良いことから、我々の提案する方法は、特に時間的に永続性が低い対象に対して利点があることが分かった。更に大切なことは、実験からは顔認識において生理学的枠組みでの認識が可能であること、本分野での更なる手法や実験研究の道を開拓した。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Stan Z. Li, RuFeng Chu, ShengCai Liao, Lun Zhang
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 627-639 , 4 2007
現在のほとんどの顔認識システムは室内用に設計されており、協力的ユーザーに向いている。しかし、このような制限付き利用でもほとんどの既存システムは、研究用や商業ベースを含め、環境による照明条件によって妥協が必要である。本論文では、室内での協力的ユーザーに対する、照明条件によらない新規な解決法を紹介する。第1に、環境における可視光に依存せず、好条件で顔画像が得られる能動的近赤外画像形成手段を示す。第2に、このようにして得られた顔画像には、顔本来の情報がコードされており、単色の中間調変換だけの影響を受ける。そのため、単色変換を補うために局所2値パターン特徴量を利用する。その結果照明に依存しない顔の表現が得られた。そして、近赤外を利用した顔認識法を紹介するが、これは、多くの不変特徴量候補の中で最も効果的な特徴を抽出するための統計的学習アルゴリズムについて紹介する。最後に、我々が達成することができた高精度で高速の実用的顔認識システムについて述べる。この中で、能動的近赤外光による眼鏡上の鏡面反射光は重大な問題点であるが、これを処理できるようにするため、徹底的で、かつ、比較実験によって撮像ハードウエアを評価し、顔と目の検出アルゴリズムを評価し、顔認識アルゴリズムとシステムを評価するが、その評価項目としては、照明、眼鏡の有無、経過時間、人種などがある。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Ioannis A. Kakadiaris, Georgios Passalis, George Toderici, Mohammed N. Murtuza, Yunliang Lu, Nikos Karampatziakis, Theoharis Theoharis
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 640-649 , 4 2007
本論文では、3次元顔認識のための計算用ツールとハードウエアプロトタイプを紹介する。進歩した多段の整列アルゴリズムと適当な前処理ステップによる3D情報入力装置による顔情報の不変性、変形可能なモデルの枠組みの採用による顔の表情の弾力性を利用することで、全自動化が可能となった。さらに、3Dの顔走査をコンパクトなメタデータに変換することで、時間と空間の両面での拡張性が得られた。我々の結果を紹介するが、これは一般に得られる今までで最大の数千の走査画像からなる顔認識挑戦用3D顔データベースである。我々の知る限り、3Dのためのこのデータベースは最高の性能を示す報告である。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Jian Yang, David Zhang, Jing-yu Yang, Ben Niu
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 650-664 , 4 2007
本論文は教師無しの判別投影(UDP)法の開発に関するもので、その目的はサンプル数が小さいとき、高次元のデータを低次元に投影することにある。UDPは局所的だけでなく非局所的な量の両方を考慮する枠組みである多数の多様体に基づく線形近似と見なすことができる。UDPは局所的分散と非局所分散の両方を特徴づけ、非局在分散を最大化すると同時に局所分散を最小化するような投影を見つける。この特長によって、クラスタリングや類別のために局所保存投影法のような局所的散乱のみを考慮する多くの最新手法に比べ、UDPはより一層直感的で強力な手法となった。本提案手法は顔や掌によるバイオメトリックスへの応用であり、Yale, FERET, AR顔画像、および、PolyU 掌紋データベースを利用して試験した。実験の結果UDPは一貫してLPPやPCAを凌駕し、クラス当たりのサンプル数が少ないときはLDAをも凌駕した。このことから、本手法は、実際のバイオメトリック用途には向いていることが示された。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Peng Wang, Qiang Ji, James L. Wayman
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 665-670 , 4 2007
本論文は類似度の解析から、顔認識(FR)システムの性能をモデル化し予想する方法を提案する。ここではFRシステムの性能として認識精度と定義し、この性能に影響する因子として固有因子と外部因子の2つを考える。FRシステムの固有因子としては画像データ、FRアルゴリズム、および、チューニングパラメータなどが考えられる。外部因子としては、主として、提示する画像の状態がある。性能もデルとしては、「完全認識」という概念を提案し、これから性能尺度を抽出する。これは、完全認識尺度(PRSS)、および、固有因子に対するFRシステムの性能と関連させて抽出する。PRSSの性能尺度を導入することで、FRアルゴリズムパラメータをオフラインで最適条件近くまでチューニングすることができる。提示(query)画像から抽出される性能尺度は、顔の位置合せパラメータをオンラインで調整し、性能を更に向上させることに利用できる。提示画像に対するFRシステムのオンライン性能予測のために、実際の認識類似度スコアから特徴量と対応PRSSが抽出できる。このような特徴量の利用によって、個々の提示画像が正しくFRシステムにマッチングされれるかどうかがオンラインで予想でき、これによって正しくないマッチングの割合を減少させることができる。実験からFRシステムの性能は、上記手法によって著しく改善した。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Chang Huang, Haizhou Ai, Yuan Li, Shihong Lao
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 671-686 , 4 2007
多数画像中の回転不変顔検出(MVFD)は、平面内任意回転や平面から外れた回転された静止画像やビデオ画像中の顔を検出するのが目的である。MVFDは一般的な顔画像の応用のための自動的顔処理をするときの最初のステップとして極めて重要であるが、協力的なユーザーでない限り、正面でまっすぐな顔画像は滅多に得られないからである。本論文では、色々な革新的手法を用い、高性能な回転不変の多数画像中の顔検出器を提案するが、それらの中には、幅優先探索(Width-First-Search (WFS))木構造検出器や、ベクトル出力の強識別器を学習するためのベクトルブースティングアルゴリズム、ドメイン分割による弱学習器、粒状空間における疎な特徴量、特徴量が疎らなため、これを選択するためのヒューリスティック探索法などがある。その結果、我々の多数画像中の顔検出器は、標準的テストデータに対しても、実生活の画像に対しても、少ない計算量で、検出範囲は広く、高精度なものが得られた。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Terence Sim, Sheng Zhang, Rajkumar Janakiraman, Sandeep Kumar
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 687-700 , 4 2007
機密室へのアクセスを制御するような従来の認証システムでは、保護された資源に連続してアクセスしているような場合に、何度も認証を要求されることはなかった。保護された資源が、認められてない使い方をされるために権限の無い人に連続的にモニターされるような場合で、しかも高度なセキュリティを要求される場合には十分ではないであろう。このような場合、連続的な認証が必要である。本論文では、絶えずログインするユーザの存在を認証することができる、マルチモードの生体認証システムとそのための理論、アーキテクチャー、実装、性能を紹介する。ここでは顔と指紋の2つのモードを持っているが、この理論は、もっと多くのモードを持ったシステムに拡張することは容易である。我々は、連続的認証のためには、従来の認証システムに比べて、マルチモードの融合に対する余分な制約条件が加わることを示す。さらに、通常の性能尺度である誤認識率や間違った拒絶率は、連続認証には基準として不十分であることを議論し、新しい尺度を提案し、これを我々のシステムでベンチマークした。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Marius Bulacu, Lambert Schomaker
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 701-717 , 4 2007
手書き文字の走査画像から個人を識別できることは、法廷や歴史的な書類解析などの用途にも利用可能な生体認証技術であるが、動作に基づく生体認証における典型的研究分野を成している。我々は手書き文字画像から抽出した特徴量の確率分布関数を利用した、新規で極めて有用な自動的著者同定手法を開発した。我々の手法の特徴は手書き文字サンプルのテキスト内容とは独立であると言うことだ。我々の手法は2段階の解析から成っている:テクスチャーレベルと文字形状(書体)の2つである。テクスチャーレベルでは、個々の手書き文字スタイルの個性である輪郭線の方向と曲率を符号化した結合方向確率分布を利用する。我々の解析では異字体解析著者はインクと筆跡の断片である記号列によって著者が特徴付けられているとの認識に立っている。これらの手書きサンプルの形状は著者の特徴を持っており、これは共通の形状コードブックによって計算される。方向、形状、ランレングス確率分布などの多数の特徴量を併せることで、著者の同定性能が向上する。高い信頼性の推定に必要な手書き文字サンプルは多くは得られないと言う仮定の元に、この手法は自由な手書き(草書体でも孤立体でも)に応用可能で、実用性がある。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Terence Sim, Sheng Zhang, Rajkumar Janakiraman, Sandeep Kumar
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 718-737 , 4 2007
最近研究者の注目を集めている生体認識特徴として人間の耳がある。本論文では3D耳特徴を使った完全な人間の耳の認識システムを提案する。認識のためには、1つの耳の形状モデルを使い、登録された2Dと3Dの距離画像中の耳のhelix(耳廓外縁から前に向かって巻いて曲がっている部分、耳たぶの外周形状)、antihelix(対耳輪上・下脚以下の主体部分、耳孔を取り囲む凸部の形状)を使った新規な手法を利用する。これには耳のhelix/antihelixの表現法である特徴点を表現するための局所表面パッチ法も含まれる。局所表面記述にはセントロイド、局所表面型、2Dヒストグラムで特徴づけされる。2Dヒストグラムには形状インデックスの出現頻度と参照特徴点の法線と隣接法線の間の角度がある。両方の形状表現には当初の展示サンプル(gallery sample)と精査モデル(probe)対の厳密な変換推定に利用される。この変換は、展示サンプルの耳の位置のどれに相当するかを選択し、変形逐次最近接点を利用して順次変換式の精度を上げ、平均2乗誤差のルートによる最小値評価による最良の位置合せをもたらす。これを使った155項目、902画像を有するUCRデータに対する姿勢を変化させた実験結果と、302項目、経時展示(time-lapse gallery-probe)対のノートルダム大学のデータに対する実験結果を示し、本アルゴリズムとシステムが効率的であることを示す。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Ramaswamy Palaniappan, Danilo P. Mandic
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 738-742 , 4 2007
視覚的刺激に対する応答として生成された脳の電気活性の潜在力は、個人同定に利用可能かどうか調べた。特に、視覚で想起された電位(VEP)に基づくバイオメトリックスが確立し、このなかで、VEP信号中でガンマバンドのエネルギー特徴量が特に興味深い。以前の実験結果と統一し、あるいは、拡張した詳細な解析の結果、1)バンド幅の増加、2)空間平均、3)よりロバストなパワースペクトル特徴量、4)識別精度の向上が見られた。大規模なグループに対するシミュレーションの結果もこの解析を支持するものであった。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Sebastien Marcel Jose del R. Millan
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 743-752 , 4 2007
本論文では、脳の活性を利用して個人認証の可否を調べる。以前の研究から各個人の脳波パターンはユニークであり、脳波図(EEG)はバイオメトリックによる個人認証に利用可能であることが示されていた。EEGによるバイオメトリーは現在研究テーマの一つであるが、将来、新しい応用分野を開くであろう。しかし、この分野の研究は少なく、主として個人同定が目的になっており、個人認証ではない。個人認証は、その人が同一人物であると言えるか言えないかを判定することであり、一つのバイオメトリックデータをサンプルデータに対して比較することである。他方、個人同定はバイオメトリックデータを、データベース内のすべてのデータに対してマッチング比較することである。ガウス混合モデルと事後最大確率モデルに基づく統計的枠組みを提案し、これに音声と顔による個人認証を応用した結果、1回しか訓練しなかったにもかかわらずうまく行った。また、個人認証にもっと適した精神的課題が存在することを示そう
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Marios S. Pattichis, IEEE, Alan C. Bovik, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 753-766 , May 2007
デジタル画像の多次元周波数変調の定量化と理解のための数学的フレームワークを開発する。広く受け入れられている瞬間周波数ベクトル(instantaneous frequency:IF)を位相勾配とする定義からはじめ、IFベクトルの成分導関数のテンソルとして瞬間周波数勾配テンソル(instantaneous frequency gradient tensor:IFGT)を定義する。周波数変調の上界および下界を導出し、IFGTの固有分解として解釈する。IFGTを用いることで画像の流線を記述する常微分方程式(ordinary differential equations:ODEs)を導出する。IFGT固有ベクトル座標系における、これらの多次元周波数変調常微分方程式の対角化について研究する。そして、これらの座標軸に沿って分離可能な変換が計算できることを示す。テクスチャおよび指紋画像解析のための、画像パターン解析の新手法を例証する。我々はこの研究により、局所規則性が定常的に示されない画像パターンの解析を含むアプリケーションの価値を見出すことを期待している。このようなテクスチャの例は自然界に多い。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Miguel A. Carreira-Perpinan, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 767-776 , May 2007
FukunagaおよびHostetlerにより提案されたアイディアに基づく平均値シフトアルゴリズムは、有限混合もしくはカーネル密度推定による密度山登りアルゴリズムである。ノンパラメトリッククラスタリング法として平均値シフトを用いることができる。これは画像分割や追跡などの最近のコンピュータビジョンアプリケーションで注目を集めている。カーネルがガウシアンである場合、平均値シフトは期待値最大化(expectation-maximization:EM)アルゴリズムであり、且つ、カーネルがガウシアンでない場合には、平均値シフトは一般化EMアルゴリズムとなることを示す。これは平均値シフトがほとんどいかなる初期値から出発しても収束すること、そして一般的にはその収束は線形オーダーであることを示唆する。ガウシアン平均値シフトに関して以下を示す。1)きわめて狭小なカーネルもしくはきわめて広範なカーネルに対しては線形収束の比率が0に近づくこと(超線形収束)、そしてその中間のカーネルに対しては、多くの場合この比率が1に近いこと(それゆえ収束が極めて低速)、更にモードが併合する幅のカーネルに対しては、この比率がちょうど1になる(ほぼ線形の収束)こと。2)この反復が、データ点の凸面集合の内部から、データ点の局所主成分に沿ったモードに近づくこと、そして3)収束領域が非凸面であり、非接続になりうること、フラクタルな振る舞いを見せること。EMアルゴリズム的解釈に基づいた平均値シフトを加速するいくつかの方法を示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Wen-Chieh Lin, IEEE, Yanxi Liu, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 777-792 , May 2007
ほぼ規則的なテクスチャ(near-regular texture:NRT)は、元になるテクスチャからの幾何的且つ測光的な変形をさす。ここで元になるテクスチャとは、単一のタイルの二次元変換により得られる合同な壁紙パターンのことである。動的なNRTとは時系列で変化するNRTのことである。NRTが人造物や自然環境において広く見られるにもかかわらず、NRTのための効果的計算アルゴリズムは少ない。本稿では動的NRTのモデル化と追跡における計算論的課題について論じる。これには不明瞭な対応、隠蔽、そして劇的な照明および外見の変化を含む。我々は、三次元時空間—空間における動的NRFのための、格子に基づいたマルコフ確率場(Markov-Random-Field:MRF)モデルを提案する。我々のモデルは大域的格子構造と画像観察モデルからなる。前者は複数のテキストン(texton:テクスチャ構成要素:訳者注)間の位相幾何的拘束条件を特徴づけ、後者は局所的な幾何情報と外見の変動を取り扱うためのものである。提案したMRFモデルに基づいて、信頼度伝播を利用する追跡アルゴリズムと、動きタイプと照明条件に対するいかなる前提条件も必要としない動的NRT追跡の特殊な課題を効率的に取り扱うパーティクルフィルタを開発する。提案方法と既存の追跡アルゴリズムを比較する定量的評価とビデオ編集における提案方法の応用を示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Yilei Xu, IEEE, Amit K. Roy-Chowdhury, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 793-806 , May 2007
本稿では動き、遠近法カメラにより撮影された画像系列において、照明、三次元構造、アルベド、そしてカメラのパラメタの効果を統合する理論を示す。任意の位置において、任意の距離の光源に照らされた、動体の全てのランベール反射関数の集合が、9の照明変数と6つの動き変からなる双一次部分空間に“近い”ことを示す。この結果は 任意のビデオ画像系列が与えられた場合に、双一次部分空間公式化を用いることで、三次元構造、動き、そして照明条件を同時に復元することが可能であることを暗に示している。反射の線形部分空間表現に関する既存の研究に基づいて、それを動体のケースに一般化することで、導関数を得る。照明はゆっくり、もしくは急峻、そして局所的もしくは大域的に変化しうる。また光源は、複数の点光源や広がりのある光源などの組み合わせとなりうる。我々は実験的に我々の理論を正答データと比較し、また様々な動きおよび照明方向の組み合わせ条件下で撮影された、三次元の顔および全身像を撮影したビデオ画像系列を利用した実データにおける実験結果も示す。ビデオ画像系列からの、三次元の動きおよび照明モデルパラメタの推定において、我々の理論の結果を示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Goksel Dedeoglu, Takeo Kanade, Simon Baker
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 807-823 , May 2007
ほとんどの画像登録問題は非対称の形式で定式化されている。一組の画像が与えられたとき、そのひとつは明示的にしろ暗示的にしろテンプレートとして認識され、他方になるべく沿うように変更を受ける。本稿では、この任意選択に見える役割選択に注目し、相対スケールがある状態で、この役割選択が変形推定に如何にバイアスを与えてしまうかを明らかにする。原理に裏付けられたテンプレート選択方法を示し、なぜ、ぼかし段を潜在的に含む正しい非対称形式のみが、バイアスのない推定器を作り出せるのかについて説明する。モデルベースの顔追跡分野における我々の解析を検証する。通常の動的外見モデル(Active Appearance Model:AAM)定式化がいかにこの非対称性を見逃してきたかを示す。これは観測されるオブジェクトがモデルよりも小さい場合に、フィッティングの精度を急激に劣化させる。我々は新しい“解像度を考慮したフィッティング”(resolution-aware fitting:RAF)アルゴリズムを定式化する。これは上記非対称性を考慮し、カメラのセンサーに起因する明示的な画像ぼけモデルをフィッティング公式に取り入れる。このRAFアルゴリズムと最新の追跡器を、様々な解像度と様々なAAM複雑度レベルにおいて比較する。実験結果は、低解像度データへのフィッティングの場合、RAFが、形状と外見の両方のパラメタの推定精度を有意に向上させることを示す。画像登録の非対称性を認識し、考慮に入れることは、低解像度画像の解析における明確な精度向上をもたらす。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Yanlin Guo, IEEE, Steve Hsu, IEEE, Harpreet S. Sawhney, IEEE, Rakesh Kumar, IEEE, Ying Shan, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 824-839 , May 2007
本稿では、様々な照明条件および様々なカメラ位置条件下で撮影された、複数の観測による車両マッチング問題を取り扱う。時間的および空間的なギャップの大きい複数の観測を利用するがゆえに、フレーム毎のデータ関連付けを利用することを禁止し、“車両の指紋”としてひとつの時間系列から抽出された特徴を利用する。この“車両の指紋”を利用することで、2つ以上の観測系列が、同一もしくは異なる車両からのものである尤度を計算する。更に、我々の課題は空中撮影のビデオ追跡であるから、低品質の画像と、解像度と品質に関する大きなばらつきを取り扱うために、我々のアプローチは、車両マッチングの様々な処理段のために頑健な整列とマッチング尺度を利用する。最も特筆に価するのは、我々の手法は、線、点、領域などの異種特徴組を、統合されたマッチングフレームワークにおいて利用していることである。異種特徴の重要性が示される。線と点の特徴は高精度の位置同定を可能にし、異なるビューの間の頑健な整列のために利用される。2つ以上の系列の柔軟なマッチングを利用した、新しい特徴に基づいた擬似的に厳密な整列により、2つの別の観測の間の、カメラ位置、アスペクト比、そして外見の変化に関する課題を取り扱う。しかし、線と点は比較的疎に分布しているため、オブジェクトの輪郭を描くのと、オブジェクト全体をカバーする納得のいくマッチングセットを与えるのには充分ではない。領域特徴は高いカバレッジを与える。また領域特徴を利用することで、マッチング尺度のサブ系列(ひとつの系列から生成されるサブセット系列:訳者注)生成のための車両領域の輪郭が得られる。我々のアプローチは、領域を頑健な塊の特徴として表現すること、そしてEarth Mover's Distance(EMD)を用いた複数領域と複数領域とのマッチングにより、オブジェクトの輪郭を高い信頼性で描く。様々な実世界シナリオにおける大規模実験と、10万以上の確認認証(Confirmatory Identification:CID)トレイルにより、通常カメラおよび赤外線カメラの両方において車両再獲得で約95パーセントの精度が得られることが示されている。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Haibin Ling, IEEE, Kazunori Okada, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 840-853 , May 2007
我々はEMD-L_{1}と呼ばれる、ヒストグラム間のEarth Mover's距離(EMD)計算のための高速且つ正確なアルゴリズムを提案する。この新しいアルゴリズムの効率性は、以前はその高い時間複雑性ゆえに適用不可能だった問題に対する応用を可能としている。提案するEMD-L_{1}アルゴリズムは、その原型である線形計画法によるEMDの定式化を顕著に簡単化する。L_{1}距離構造を利用することで、EMD-L_{1}における未知の変数の数は、N個の階級箱を持つヒストグラムのためのオリジナルEMDのO(N^{2})からO(N)に削減される。更に拘束条件の数は半分までに減らされ、線形計画法の目的関数が単純化される。形式的に、あらゆる近似なしに、EMD-L_{1}公式化が、L_{1}距離に基づくオリジナルのEMDと等価であることを証明する。EMD-L_{1}の計算を行うために、効率的なツリーに基づいたアルゴリズムであるTree-EMDを提案する。EMD-L_{1}をネットワークフロー最適化問題として解釈する場合、Tree-EMDは、単純アルゴリズムに基づいた解決システムの基本的な実現可能な解が、スパニングツリー(spanning tree:ネットワーク制御において無限ループを防止するために、通常使う経路を定めておくこと:訳者注)を形成することを利用する。我々は実証的にこの新しいアルゴリズムがO(N^{2})の平均時間複雑度を持つことを示す。これはこれまでに報告されている、オリジナルEMDの三次以上の時間複雑性のうちの最良のものをはるかに凌駕するものである。提案方法の精度を、計算量の多い2つの問題における実験によって評価する。この問題とはすなわち形状認識と多次元ヒストグラムに基づいた局所特徴を用いた注目点マッチングである。形状認識問題では、連結形状データセットおよび、広く試験されたMPEG7形状データセットに対してEMD-L_{1}を形状コンテキストの比較のために用いる。注目点マッチング問題では、合成画像および実画像対に対してSIFT、つまり形状コンテキストとスピン画像を試験する。これらの画像は大きな幾何的変形、照明の変化、および強度のノイズが付与されている。実験結果は、これら2つの問題に対して、我々のEMD-L_{1}に基づいた解法が以前に報告されている最新の特徴と距離尺度を凌駕することを示している。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Antonio Torralba, Kevin P. Murphy, William T. Freeman, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 854-869 , May 2007
本稿では、散乱したシーンにおけるオブジェクトの多数のクラスの検出問題を取り扱う。伝統的なアプローチでは、複数の位置およびスケールにおいて、画像に対して異種識別器の組を適用する必要があった。それぞれの識別器が、様々な画像特徴の計算を必要とするため、この方法は低速であることが多く、多量の訓練データを必要とすることもある。特に独立に訓練された検出器に対しては、(検出実行時の)計算複雑性と(訓練時)のサンプル複雑性は、検出対象のクラスの数に線形となる。ブーストされた決定スタンプ(boosted decision stump)に基づいたマルチタスクの学習手順を示す。このブーストされた決定スタンプはクラス(および、もしくはビュー)間で共有できる共通特徴を見つけることで計算複雑性およびサンプル複雑性を減らす。各クラスに対する検出器は、独立というよりはむしろ共同で訓練される。与えられた性能レベルでは、必要とされる合計特徴数、そしてこれから導出される、これら識別器の検出実行時のコストが、近似的にクラス数の対数スケールとなることが観測される。共同訓練により選ばれた特徴は一般的なエッジに類する特徴であり、各クラス別個に選ばれた特徴は、オブジェクトに特化した物となる傾向がある。この一般的な特徴は、より良い一般化能力を持ち、複数クラスのオブジェクト検出のコストをかなり削減する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Samuel W. Hasinoff, IEEE, Kiriakos N. Kutulakos, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 870-885 , May 2007
本稿では視覚的に現実的な動的半透明シーンの三次元モデルの再構成問題を取り扱う。これには例えば非常に少数(2つでさえありうる)の同時ビューからの火の画像などが含まれる。この問題が、かなり拘束条件が足りない計算論的X線撮影法問題に等価であることを示す。この問題に対しては伝統的な方法は破綻する。我々のアプローチは半透明シーン写真の全ての対が、固有の密度場を持つという観測結果に基づいている。この密度場は密度シート(Density Sheet)と呼ばれ、1)単一の結合された半透明表面に全ての密度情報を集約し、2)2つの写真を厳密に再生する。更に3)これらを実現する空間占有量が最も少ない場である。この観測結果から、この再構成問題をシート様密度場の凸組み合わせに単純化する。各シート様密度場は、2つの入力ビューの密度シートから導出される。この方法を特に火の三次元モデルの再構成問題に適用した。実験結果はこの方法が、過剰適合問題なしに、高品質なビュー合成を可能とすることを示している。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Xin Wang, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 886-890 , May 2007
ラプラス演算子はエッジ検出に良く用いられる二次導関数演算子である。ソーベル演算子などの一次導関数に基づいたエッジ検出器に比べ、ラプラス演算子はエッジの位置決めにおいて、より良い結果をもたらすことが期待される。残念ながら、ラプラス演算子はノイズに対する感度が高い。本稿ではラプラス演算子に基づいて、いくつかのエッジ検出器を作るためのモデルを導入する。更にエッジの最大事後確率(Maximum a Posteriori:MAP)推定のための最適閾値を導入する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Yanling Chi, Maylor K.H. Leung, IEEE Computer Society
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 890-895 , May 2007
本稿では、我々の以前の研究の後継となる新しい局所構造アプローチを提案する。このアプローチは散乱および隠蔽環境下で、且つオブジェクトの外形を同定することなく、オブジェクトの検索を行うためのものである。この方法は、まず整合の取れた、且つ構造的に一意な局所近傍情報を入力もしくはモデルから抽出する。次に動的計画法と新しい超立体に基づいたインデクス構造を利用して最適な照合を選ぶための投票処理を行う。提案するコンセプトは数千の画像を含むデータベースにおいて試験され、6つの最近傍法による形状記述との比較において優れた結果を示している。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
M. Asuncion Vicente, Patrik O. Hoyer, Aapo Hyvarinen
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 896-900 , May 2007
最近多数の実証的研究により、PCA(主成分分析)とICA(独立成分分析)の性能が、外見に基づいたオブジェクト認識システムにおける特徴抽出法として比較されてきた。その結果はまちまちであり、矛盾しているようにも見える。本稿ではこれら二つの方法の結合を簡単に述べ、フラットな特性を持つようにチューニングされたPCAが、いくつかのケースにおいてICAと同じ結果をもたらすことを示す。更にICAが顕著にPCAを改善できる可能性のある特定の状況について述べる。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Torbjorn Vik, IEEE, Fabrice Heitz, Pierre Charbonnier
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 901-905 , May 2007
我々は、通常のガウシアン視覚部分空間モデルを、非ガウシアンおよびノンパラメトリック分布に一般化する独自の外見モデルを示す。これは強度の隠蔽や散乱背景などの困難な条件下でのモデル化や認識に有用でありうる。平均値シフトアルゴリズムを用いることで、このモデルによる推測を効率的に解く。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Jayadeva, IEEE, R. Khemchandani, IEEE, Suresh Chandra
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 905-910 , May 2007
我々は二連SVM(サポートベクトルマシン)と呼ばれる、二値SVM識別器を提案する。これは2つの関連SVMタイプ問題を解くことで、2つの非並行平面を決定する。この2つの問題は通常のSVMにおけるそれよりも小さい。この二連SVM定式化は、一般化固有値を経た近似SVMの精神に則ったものである。いくつものベンチマーク用のデータセットにおいて、この二連SVMは高速であるだけでなく、良い一般化能力を示している。二連SVMはこれらのデータの二次元投影を自動的に見つけるためにも有用である。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Guoying Zhao Matti Pietikainen
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 915-928 , 6 2007
教師なし画像セグメンテーションは多くの画像理解アルゴリズムや実用的なビジョンシステムの重要部品である。しかし、セグメンテー ションアルゴリズムの評価は、従来主観的であったため、いくつかのテスト画像のセグメンテーション結果を対象にしたシステム設計者 の主観に任せていた。これは画像セグメンテーション問題の曖昧性に依存する——つまり、対象画像の解として、比較すべき唯一の 正解を与えることが出来ない。本論文では、最近提案した類似度によって、確率的正規化Rand指標を利用する方法を実演し、これに よってマニュアルでラベル付けされた正解のセグメンテーションを利用した定量的な比較が行えることを示そう。この尺度は異なるアル ゴリズムでセグメンテーション結果の定量的比較が行えるだけでなく、原理的に異なる画像の比較も可能である。ここに馴染み深いア ルゴリズムであるミーンシフト法、効率的なグラフに基づくセグメンテーション法、両者の特長を組み合わせたハイブリッド法、期待値最 大法を例としてアルゴリズム評価の概要の手続きを示す。この結果は、Berkeley Segmentation Data Setに含まれる300画像について 公開されている。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Hossam E. Abd El Munim, Aly A. Farag
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 945-958 , 6 2007
本論文では、ベクトルレベル集合関数(vector level set function=VLSF)を利用した,フロントの陰表現と発展について再考する。こ れは従来のスカラー形式のレベル集合ではなく、ベクトル形式を持っている。任意の点から前面の最近傍点までの距離はベクトル関 数に含まれるベクトル成分を持っている。このような表現は閉じた平面曲線や3D曲面を発展させるのに適している。進化による距離投 影としてVLSFの特徴を保持しながら、詳細なベクトル偏微分方程式(PDE)の導出と一緒に発展の様子を考察することができる。与えら れた陰表現(implicit representation)の応用として、形状に基づくセグメンテーションの枠組みで実証してみよう。この提案したレベル 集合関数の系は、変化するオブジェクトの位置合せ問題の不一致度の尺度を表すのに利用できる。このような定式化によって、位置 合せプロセスをより良く制御できるが、これが形状に基づくセグメンテーション法の重要な部分である。この手法によるパラメトリックな形 状モデルの構築には学習用の形状サンプルに依存する。形状の事前情報とは別に色も考慮する。この形状モデルは、エネルギー最 小化法による画像容積の考えにうまく合致する。この手法は計算量の大きな点対応手法と、重み係数を調整しながら進化する問題点 を回避できる。これは多次元データに対しても計算効率が良い。この枠組みの有効性は2D,3Dの実データと合成データによって確認 された。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Hao Jiang, Mark S. Drew, Ze-Nian Li
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 959-975 , 6 2007
ごちゃごちゃした複雑な背景から広い探索範囲を有する対象物のマッチング問題に焦点を当て、新規な凸計画法による解法を示す。 マッチングは、"L_{1}"正則化項で表記される尺度で定式化されるが、ここで新規な線形計画弛緩法と効率的な連続凸化( convexification)処理の実装を提案する。ここに提案する弛緩法のユニークな特長は元のラベル空間の表現に、ずっと小さな基底集 合しか利用しなくて良いことである。このため、うんと小さな探索空間しか必要としない。連続凸化法は、ラベル化処理において、粗か ら細密へと向かう。重要なことは、元のコスト関数は各段階において、新たな着目領域だけを対象に再凸化処理されることであり、探 索結果を高精度化するために焦点領域が更新される。これによって大きなラベル集合を持つマッチングに適したものになった。マッチ ング実験によって、このマッチング法がオブジェクト検出や、動き検出、トラッキングにうまく応用できることが実証された。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Limin Shang, Piotr Jasiobedzki, Michael Greenspan
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 976-989 , 6 2007
粗な距離画像系列内部空間での剛体変形する3Dオブジェクトを追跡するための1手法をここに紹介する。この方法は離散空間で作 用し、オブジェクトの速度とフレーム周期の間に存在する画像フレーム間の既知の整合関係を利用する。これらの動きに対する制約 によってフレーム間の変換空間の大きさが適度なサイズに縮小するが、実際、その大きさは極めて小さく、数百の状態数に絞られる。 追跡問題はこのような識別問題の枠組みに焼き直され、実行時の効率に関する局所的精度とロバスト性のトレードオフ問題となる。こ の手法は実装化され、各画像中に数百点しか存在しないような粗な距離データ系列中の自由形式のオブジェクトに対して、多数のテ ストが繰り返された。連続領域の繰返し最近傍点(ICP)追跡法に比較して、この方法はより効率的でロバストに実行された。初期の離 散的識別ステップの後、ICP法を利用するハイブリッド法も実装化された。このハイブリッド法はICP単独よりも、あるいは、離散的識別 法、また、ICPそれぞれよりも、ロバストであった。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Georgios K. Ouzounis Michael H.F. Wilkinson,
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 990-1004 , 6 2007
連結フィルターとは、連結性の概念に依存する、エッジ保存性の形態的(morphological)演算子である。通常は標準的な4-あるいは 8-連結を考慮するが、これはあまりにも杓子定規であり、オブジェクトクラスターやオブジェクト分割のような一般化されたグループ化を モデル化できない。連結性の集合論的枠組みにおいては、これらのグループ化、より一般的な第2世代連結性によってモデル化でき る。本論文では、この理論の拡張と、これら連結性に基づく属性フィルターを計算するMax-Tree法に基づく効率的アルゴリズムを紹介 する。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Tae-Kyun Kim Josef Kittler, Roberto Cipolla
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 1005-1018 , 6 2007
オブジェクト認識のための画像集合を比較する場合の問題点について述べる。ここでの画像集合はカメラ位置の変化によるオブジェ クトの見掛け上の変化や照明の変化を表す。正準相関(principal or canonical anglesと言う名前でも知られている)は2つのd-次元部 分空間の間の角度と見なされるが、画像集合のマッチングに適していると考えられるようなった。この正準相関は、2つの古典的従来 法であるパラメトリックな分布に基づく方法と、ノンパラメトリックなサンプルに基づく方法に比べ、精度が良く効率的でロバストである。こ こで、ある適度のデータ量で正準相関を使った新規な識別学習法を初めて実験的に示す。この手法の高効率が判明し、集合の識別 のためのこの新規な学習法を提案する。特に、古典的線形判別分析(LDA)からクラス内正準相関を最大化し、クラス間正準相関を最 小化する線形判別分析を開発する。判別関数によって変換された画像集合は、次に正準相関で比較される。類似の目的のために、 古典的直交部分空間法も調べられるが、提案手法とも比較される。提案手法は、多様なオブジェクト認識問題において評価されるが 、そのために、異なる照明環境下で任意の動きが捉えらている顔画像集合と、異なる視野の500個の一般オブジェクトが利用された。 この手法は、ETH-80データベースを使った認識にも適用された。本手法は、精度と効率において、最新のアルゴリズムを上回った。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Weiming Hu Ou Wu Zhouyao Chen Zhouyu Fu Steve Maybank,
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 1019-1034 , 6 2007
World Wide Webの急速な発展によって人々はますます情報共有の恩恵を受けるようになった。しかし、卑猥で有害な、あるいは、不 法な内容のウェブページにも簡単に接続可能となった。このような不適当で攻撃的、あるいは、ポルノのウェブページが存在することを 認めることは重要である。本論文では、ポルノページを認識するための枠組みを紹介する。そのために、C4.5決定木を用いて、ウェブ ページの内容表現を連続テキストページに変換し、テキストと画像が分離された。これら3種のカテゴリー対象は、連続テキスト分類器 、離散的テキスト分類器と、識別された画像とテキストを融合するアルゴリズムによって個別に処理される。連続テキスト識別器では、 ポルノテキストの認識には統計的・セマンテック特徴量が利用される。離散的テキストの識別にはテキストからポルノ部分を分離するた めに未学習のベイズルールが利用される。画像識別器ではオブジェクトの輪郭に基づく特徴量が抽出され、ポルノ画像が認識される 。テキストと画像の融合アルゴリズムではベイズ理論を利用して、画像とテキストを結びつけて認識する。実験によると連続的識別器 は、従来のキーワードと統計に基づく識別器を凌駕する。輪郭による画像識別器は、従来の肌領域に基づく画像識別器を凌駕する。 そして、融合アルゴリズムによる結果は、それぞれ個々の識別器で認識した結果をいずれも凌駕する。我々の枠組みはウェブの異な るカテゴリーのページにも適用できる。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Yijun Sun
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 1035-1051 , 6 2007
RELIEFは、特徴量の評価に最も成功したアルゴリズムと言われている。本論文では、計算量を大幅に増やすことなく、いくつかの特徴 量の重み付けを与えるいくつかの新しい特徴量獲得法について評価する。まず、発見的なRELIEFアルゴリズムから出発し、見かけ上 発見的数学的解釈であるRELIEFアルゴリズムをオンラインで、マージンを使った目的関数による凸最適化問題を解きながら進行する 。この解釈によってRELIEFを実際の用途に使ってうまく行ったことの説明になるし、また以下のような欠点を指摘することもできる。 RELIEFは、元の特徴量空間に見つかる最近傍重み付け空間に見つかる特徴であるという暗黙の仮定があり、RELIEFは外れ値( outlier)データを処理するメカニズムを持ってない。我々は繰返し(Iterative)RELIEF(= I-RELIEF)アルゴリズムを提案することで、 RELIEFの欠点を軽減するが、これは期待値最大化アルゴリズムの枠組みを利用するものである。このI-RELIEFに新しい多クラスのマ ージン設定を行うことで、多クラスの設定に拡張できる。計算コストを減少するために、オンライン学習アルゴリズムが開発された。提案 アルゴリズムの収束性解析を提案する。UCIやマイクロアレーデータ集合のような大規模のデータベースでの実験結果が示されており 、この提案手法の有効性が実証され、理論的結果の妥当性を示している。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Andrew J. Davison Ian D. Reid, Nicholas D. Molton Olivier Stasse
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 1052-1067 , 6 2007
見知らぬ情景の中を高速に動く、単眼カメラの3D軌跡を実時間で復元できるアルゴリズムを紹介する。我々のシステムは、 MonoSLAMと呼ばれるが、ロボットから純粋なビジョンまでをカバーする最初の非制御単一カメラであり、実時間処理を実現し、構造か ら運動を抽出する方法では得られないドリフトの無い手法である。この手法の核となる部分は、確率論的に自然の目印を、粗であるが 持続的に生成することである。我々の寄与の重要な点は、マッピングと測定を能動的に行ったこと、スムーズなカメラの動きを達成する ため、さらに特徴量初期化と特徴量方位推定のために一般的な動きモデル利用したことである。さらに、これらを付け加えたことで、標 準的なPCとカメラシステム上で30Hzで稼動する、極めて効率的でロバストなアルゴリズムとなった。この研究によってSLAMが有効なロ ボティックシステムの応用可能な範囲を拡大しただけでなく、新分野も開拓した。ここに、フルサイズの人間型ロボットのための MonoSLAMから実時間3Dの位置確定やマッピング、手持ちカメラによる強化現実画像(augmented reality)への応用を示す。
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Yi Deng Qiong Yang, Xueyin Lin Xiaoou Tang
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 1068-1079 , 6 2007
本論文では新規なパッチに基づく対応モデルを紹介する。最近は多くのセグメントに基づく対応付けが提案されている。テクスチャー の無い画素や境界に基づいて、「セグメントは不連続性を有する境界によって定義される」という不連続性仮説として課されているが、 その中で大きな相違を持ったギャップが生じる場所はセグメント境界だけである。テクスチャーの無い画像で不連続領域をもつ画像に おいても顕著な改良が報告されている。しかし、オクルージョン領域近傍では結果は思わしくないが、その理由は、一方の画像領域 が対応していても、他方の画像領域では部分的にしか対応してないからである。この解決のために、可視領域の両方に現れるエッジ と、片方で隠蔽されたエッジを使い、この被隠蔽領域が不連続点であることに注目した。そこで、提案モデルでは最初、両方の領域で カラーセグメンテーションを行い、次に一方の領域だけでより細かいパッチに分割し、もし不一致と判定されれば他方の画像の境界と する。パッチが片方だけ異なる見え方をすることは許されている。セグメントレベルのユニークさが、隠蔽の検出に利用されている。グラ フカット法を使ったエネルギー最小化法はグローバル最適な構成を見つけるために利用されたが、これは不一致と隠蔽の両方を見つ けるために利用された。さらに、セグメントレベルアルゴリズムを不連続性仮説からのはずれの大きさがセグメンテーションアルゴリズム の結果の悪化とならないような尺度を採用した。実験から、我々の提案手法は、特に隠蔽領域、否拡張領域の隠蔽の拡張に有効であ ったが、境界の近くの領域、さらに、これはオクルージョンされた領域、非テキスト画像を持つ領域、テクスチャーの無い領域、そして、 不連続領域の近傍で特に有効であった。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Levente Kovacs, Tamasas Sziranyi
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 1080-1085 , 6 2007
画像や、カメラや情景に関する事前知識なしで1枚の画像だけから自動的に焦点領域を推定する方法を提案する。これは、局所的な ブラインド・デコンボリューションと、新規な残差誤りに基づく識別によって相対的な焦点マップを生成する。この評価と比較を行い、画 像インデックス化を使った応用可能性を示した。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Chengjun Liu
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 1086-1090 , 6 2007
本論文では、良く利用されている白色化した(ランダム化した)コサイン類似尺度は特定の仮定下でベイズ決定則と関連していること を示し、次に2つの類似尺度;PRM(確率推論モデル)ホワイトコサイン(PWC)類似度と、クラス内ホワイトコサイン(WWC)類似度を紹介 する。顔データベースである、Face Recognition Grand Challenge (FRGC) version 2を使った実験では、この新規な尺度の有効性が 示された。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Li Yujian Liu Bo
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 1091-1095 , 6 2007
今までに多くの正規化編集距離が提案されているが、ある用途には有用であっても2つの記号列の間の編集距離として万能なものは 1つもない。どれも三角不等式を満足しないからだ。有限の記号列XとYが与えられたとき、XとYの間に単純な新規の正規化編集距 離が定義される;lengths" (|X| and |Y|)"、および、これらの間のGeneralized Levenshtein Distance (GLD)である。この新しい距離は GLDによって容易に計算可能で、その計算複雑度はO"(|X|・|Y|)"であり、値としては"[0,1]"、つまり、0と1の間をとる。ただし、重み関数 は、同じコストを有する、挿入、削除全部のコスト基本的編集演算集合に関する距離である。AESAアルゴリズムを使った手書き数字の 認識実験では、この新規の距離は、他の正規化編集距離と類似の結果を示すが、特定のデータ集合で、三角不等式則が破られた 場合では多少良い結果を示す。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Jerome Boulanger Charles Kervrann Patrick Bouthemy
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 1096-1102 , 6 2007
時空時限のパッチを当てる画像系列の新規な復元法を提案する。我々の提案は、偏差-変分トレードオフを局所的解析に基づいて 行う適応的な統計的推定法である。各画素において、時空近傍は、提案されたパッチによる推定法の効率を上げるために適応化され ている。提案手法は教師無し学習法であり、動き推定は必要ない。それにもかかわらず、動き推定法と連結し、カメラの大きな動きに 起因する変位にも対応することができる。実験では、この手法で、大きく壊れた画像系列を顕著に改善することができた。人為的なノイ ズで劣化された標準画像系列の修復では、定量的評価によれば、他の最新手法をはるかに凌ぐ結果を示した。また、実ノイズによる 劣化画像系列に対しても、説得性のある結果が得られた。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Federico M. Sukno, Sebastian Ordas, Constantine Butakoff, Santiago Cruz, Alejandro F. Frangi, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1105-1117 , July 2007
本研究は統計的顔認識の分野におけるものである。特に、正面顔画像における顕著な特徴の正確な分割の問題を取り扱う。これまでこのタスクに対して利用されてきた、線形動的形状モデル(Active Shape Models:ASM)を一般化する方法を提案する。この手法は非線形画像強度モデルの発展に基づいたものであり、局所画像記述子としての差分不変特徴の縮小セットを組み込んでいる。これらの特徴は、剛体変換に対して不変である。また、各ランドマークおよび解像度レベルに対する逐次特徴選択(Sequential Feature Selection)により、これらの特徴のサブセットを選択する。これまでのASMは、訓練集合全体にわたり、画像強度値の分布が単峰性(unimodality)およびガウス性をもつことを仮定しなければならなかった。我々の新しいアプローチは、これを克服する。AR、XM2VTS、及びEQUINOXデータベースにおける試験で、我々の方法論が、線形ASM及び最適特徴ASM(最初のアルゴリズムの非線形拡張)に比べ分割精度を顕著に向上させることが示されている。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Jesse Hoey, James J. Little, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1118-1132 , July 2007
本稿はビデオデータからの人間の行動の決定理論モデルの学習のための方法を示す。我々のシステムは、人の動きと、その人が動いているコンテキスト、そして効用関数(utility function)の間の関係を学習する。この学習により、観察者に対する行動の意味が、その行動と、動作及びその結果の関係に包含されることを明確にする。あるエージェントにこれらの関係を強調させたいならば、これらの関係がどのように効用の最大化を助けるのかにしたがって、行動を区別する必要がある。我々が用いるモデルは、部分観測可能なマルコフ決定過程(partially observable Markov decision process:POMDP)である。動的ベイズネットワークを用いて、ビデオ観察をPOMDPに統合する。この動的ベイズネットワークは、高次の決定に従う空間的及び時間的抽象化をもたらす。期待値最大化アルゴリズムに基づいた事後拘束条件下での最適化手法を用いて、このモデルのパラメタを訓練データにより学習させる。本システムは自動的に行動のクラスを検出し、起こりうる結果の効用を全体で最適化するための動きを選択するのに、どれが重要かを決定する。この種の学習法により、どの行動が結果に対して顕著な影響を持つかに関するエキスパートの知識によるラベル付データを不要にできる。また、特定の状況で認識を行う場合に、どの行動が有効かについてのバイアスを取り除いてくれる。以下の3つの相互作用、すなわち単一のプレーヤの物まねゲーム、ジェスチャーによるロボット制御問題、二人のプレーヤによるカードゲームの結果を示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Nicolas Martel-Brisson, IEEE, Andre Zaccarin, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1133-1146 , July 2007
他のオブジェクトから投影される、時間変化する影は、前景抽出アルゴリズムにとっての大きな懸念である。通常、監視アプリケーションにおける前景画像の処理では、検出された前景から、このような影を同定・除去することが必要とされる。本稿では、新しい画素に基づいた統計的アプローチを示す。このアプローチにより、非一様且つ強度が変化する、時間変化する影をモデル化する。このアプローチはガウス混合モデル(Gaussian mixture model:GMM)の学習能力を用いて統計的モデルを形成し、これにより、表面上に投影された、他のオブジェクトからの時間変化する影を記述する。この統計モデル化は、照明の飽和領域を含む複雑な時間変化する照明に照らされたシーンを取り扱うことができる。このモデル化は更に、影が検出されることのない領域における誤検出を防ぐことができる。本稿で提案するアプローチは、文献にある画素に基づいた影のある表面の記述とともに用いることができる。この方法は未検出率を上げることなく、誤検出率を顕著に低減する。様々なタイプのシーンによる実験結果と影のモデルにより本アプローチの頑健性を示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Thomas Zoller, Joachim M. Buhmann
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1147-1164 , July 2007
画像の自動分割は、その構成要素たる画素からセマンティックな意味を抽出するための重要な中間処理タスクとしてとらえられてきた。本稿で我々は、疎な形状情報及び頑健なパラメタ推定と組み合わされた生成的クラスタリングモデルに基づいた画像分割のための統合的アプローチを提案する。画像再サンプリングにより、画像の変化に対する分割解の感度を測量する。形状情報は推論処理に統合され、色及びテクスチャ特徴の不明瞭なグループ化を助ける。形状と類似性に基づいたグループ化情報は、ベイズ統計フレームワークにおけるセマンティック尤度マップに併合される。実験結果は、画像データ単体でも不明瞭な分割となってしまう場合においてすら、セマンティックに意味のある分割が推論されることを示している。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Tomas Werner, IEEE Computer Society
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1165-1179 , July 2007
離散変数の二値(すなわち対)関数の合計を最大化するタスクとして定義される、合計最大ラベル付け問題は、一般的なNP困難な最適化問題であり、マルコフ確率場のMAP構成の計算など多くの応用がある。この問題に対する、あまり知られていないアプローチについてレビューを行う。この方法はウクライナの研究者Schlesingerらにより1976年に開発されたものである。このレビューにより、左記の方法が最近の研究成果に対してどのように貢献するかを示す。中でも重要な、ツリーの凸結合とツリー再重み付けされた最大積に関する最近の研究にどのように貢献するかを示す。特にSchlesingerらによる合計最大指標の上界と、同値変換による最小化、この指標と拘束条件満足問題との関係、この最小化が元々の問題の線形計画法的弛緩法と双対であること、そして上界の最適性のために3つの種類の整合性が求められることをレビューする。ブール変数のもつ問題とsupermodular問題を再検討する。この上界を低めるための2つのアルゴリズムについて述べる。構造的画像解析のための応用例を示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Thomas Pock, Michael Pock, Horst Bischof, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1180-1193 , July 2007
コンピュータビジョンにおける多くの問題は、適当なエネルギー汎関数の最小化として定式化できる。通常、これらのエネルギー汎関数は変分の計算(オイラー・ラグランジュ方程式)に基づいて最小化される。このオイラー・ラグランジュ方程式が決まった場合、デジタル処理を行うコンピュータで処理するために、離散化する必要がある。これは自明な処理ではなく、更に誤差が入り込みやすい処理でもある。本稿では、これに代わる柔軟な代替的手法を提案する。我々は上記汎関数を離散化し、その結果としてアルゴリズム的微分の数学的コンセプトを直接適用し、このエネルギー汎関数の導関数を与えるアルゴリズムを導出する。このアプローチはいくつかの利点をもつ。まず算出された導関数はエネルギー汎関数の実装という意味において厳密である。次に二次導関数を計算する方法として素直なものであり、それゆえに上記エネルギー汎関数のヘス行列(Hessian matrix)の計算も素直なものとなる。第三に、アルゴリズム的微分は自動化可能なプロセスである。我々はこの新しいアプローチを3つの代表的なコンピュータビジョンにおける問題(つまりノイズ除去、分割、そして両眼立体視)において例証する。これにより最先端レベルの結果が非常にわずかな労力で得られることを示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Bastian Goldlucke, IEEE, Ivo Ihrke, IEEE, Christian Linz, Marcus Magnor, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1194-1208 , July 2007
コンピュータビジョンにおける多くの問題は、エネルギー汎関数の最小化問題として定式化することが可能である。この汎関数が、未知の超曲面のスカラー値重み関数の積分として与えられる場合、求められる最少曲面がこの汎関数のオイラー・ラクランジェ方程式の解として決定される。本稿では、重み関数の一般クラスを扱う。このクラスは曲面の方位に依存し、そして同じようにおそらく曲面の点の座標にも依存する。我々は、いかなる曲面パラメタ化や既存の証明の一般化も必要としない条件下で、任意次元の空間におけるオイラー・ラクランジェ方程式を導出する。我々の研究は、三次元以上の空間における極小超曲面を含む複数の問題を解く可能性を与える。この問題は、以前は実際上解くことが不可能だった。我々の新しいフレームワークの、以下の2つの応用についても紹介する。すなわち、どのように時間的コヒーレントな幾何情報を複数のビデオ系列から復元するか、そして流水などの屈折的および透過的な自然現象の容積測定的再構成である。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Sen Wang, Yang Wang, IEEE, Miao Jin, Xianfeng David Gu, Dimitris Samaras, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1209-1220 , July 2007
三次元形状マッチングはコンピュータビジョンの基本である。ここで言うコンピュータビジョンには、形状登録、三次元オブジェクト認識、そして識別などの多くの応用がある。しかしノイズ、隠蔽、そして散乱がある条件下での形状マッチングは難しい問題である。本稿では、調和写像、等角写像、そして最小二乗等角写像を含む疑似等角写像の種類を三次元形状マッチングに関して解析する。この解析の結果として、最小二乗等角写像を利用した、新しい計算量的に効率的な形状マッチングフレームワークを提案する。等角幾何理論によると、円盤と同相な各三次元表面は、大域的最適化により二次元ドメインに写像することができる。また、この結果得られる写像は微分同相写像(diffeomorphism)であり、つまり一対一かつ全射である。この性質により、結果として得られる二次元のパラメトリック写像を比較することで、三次元形状マッチング問題を二次元の画像マッチング問題に単純化することができる。上記二次元写像は安定で、解像度の変化に対する感度が低く、隠蔽とノイズに対して頑健であるなどの特徴がある。このようにして、これら3つのパラメトリック写像を利用することにより、高精度かつ効率的な三次元形状マッチングアルゴリズムが得られる。最後に、最小二乗等角写像を、隠蔽、ノイズ、そして解像度変化のある条件下で、三次元形状マッチングを詳細に評価し解析する。提案方法の性能をさらに例証するために、2つのコンピュータビジョン問題における一連の実験を行った。これはすなわち三次元顔認識と三次元非剛体表面整列とつなぎ合わせである。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Michael Kazhdan
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1221-1229 , July 2007
多くの形状解析アプリケーションにおいて、二つのモデルを整列させるための最適回転角度を見つける能力は、解析プロセスにおける本質的な最初のステップである。過去モデル整列のための方法は、PCA整列などの正規化技術を用いるか、回転角度空間におけるしらみつぶし検索を行うことにより最適な整列を見つけるかのいずれかであった。正規化技術は効率、すなわち2つの形状を登録するための高速な方法を与える面で優位性がある反面、精度は高くなく、まれに誤った結果を与えることもあり得た。これに対し、しらみつぶし検索は最適解を与えることが保障されているが、効率的な信号処理技術を用いてさえも、この種のアプローチは極端に遅かった。本稿では、二つの三次元形状を整列するための新しい方法を示す。この方法が効率的な信号処理に基づいた既存の方法よりも顕著に速いことを示す。我々の方法を用いて得られた整列が高精度であること、そして正規化を用いた方法よりも顕著に高い精度を持つことを示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Feng Han, Song-Chun Zhu
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1230-1243 , July 2007
本稿では、画像および、布のうねりと衣服の表面の奥行きマップを表現するための、2レベルの生成的モデルを示す。上位レベルは、(2次元画像のための)シェーディングプリミティブ(shading primitive)と(3次元奥行きマップのための)折り目プリミティブ(fold primitive)の辞書情報と高いコントラスト(陵)領域を生成するであろう多数の折り目からなる。これらのプリミティブはパラメタ形式で表現され、照度差ステレオ法を用いて得られた衣類の3次元表面を用いた教師付き学習フェーズにおいて学習される。下位レベルは、折り目間を埋める残りの平坦領域とその平滑度事前確率(smoothness prior)(マルコフ確率場)からなる。削減された次元性と中間レベルの視覚知識、即ち前述のプリミティブ辞書の利用により、この2レベル法が、古典的な不良設定問題(陰影からの形状復元:shape from shading(SFS))を顕著に改善することが出来ることを示す。入力画像が与えられた場合、我々の方法はまず折り目を推測し、スケッチ追跡アルゴリズムを用いてスケッチグラフを計算する。このスケッチは文献[10]および[11]に示されるプリミティブスケッチを用いている。三次元折り目を、折り目辞書を用いたパラメタフィッティングにより推定する。この三次元折り目は布のうねり/衣類の表面の“スケルトン”を構成する。次に通常の折り目領域を境界条件としてSFS法により下位レベルを計算する。これらの2つのレベルは最終段において上記奥行きマップにおける結合ベイズ事後確率を最適化することにより相互に作用する。我々の行った多数の実験は、他の最新の研究結果と比較しても更に頑健な結果を示している。より広範に見た場合、我々の表現は、一般的なXからの形状復元問題に適用可能な、2レベルの不均質MRFモデルとみなすことが出来る。我々の研究はMarr[23]の原始スケッチからの2.5次元スケッチの計算というアイディアを再評価するものである。同じく提出した我々の論文[2]において、我々は類似の2レベル生成的スケッチ表現に基づいた立体視からの形状復元を研究している。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Alexia Briassouli, Narendra Ahuja, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1244-1261 , July 2007
周期的若しくは反復的運動の解析は、人間若しくは動物の動きの認識と識別などの多くの応用分野において有用なものである。この解析のための既存の方法では、まず空間情報を用いて動きの軌跡を抽出し、次にそれが周期的なものであるかどうかを決める。この種のアプローチは多くの場合特徴マッチング法若しくは空間相関法に基づいたものである。ただこれら2つの方法は往々にして実現可能性が低いか、信頼性が低いか若しくは計算量が大きい。本稿ではビデオ画像系列を全体として扱う、時間−周波数解析に基づいた新しいアプローチを示す。我々の方法は複数の周期軌跡を抽出し、これらの軌跡の周期を同時に推定することが出来る。空間領域情報を用いて周期的に運動するオブジェクトを抽出する。合成ビデオ画像系列及び実ビデオ画像系列を用いた複数の実験により、このアプローチの能力が示される。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Marsha Meytlis, Lawrence Sirovich
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1262-1267 , July 2007
顔空間の次元性は、心理物理研究において客観的に測量される。このフレームワークにおいて、人間の視覚システムのための次元の測量を得る。固有顔基底を用いることで、才覚ある観察者は、慣れ親しんだ顔を大体100次元の空間において同定でき、平均的な観察者は100ないし200次元の空間を必要とすることを示す根拠を与える。これは今日の多くの推定を下回るものである。これらの推定が顔空間次元の上界を与えること、そしてより良く構成された“固有顔”と才覚ある観察者により、この上界が下げられることを更に論議する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Zhimin Fan, Ming Yang, Ying Wu
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1268-1273 , July 2007
画像測量から復元不可能な動きパラメタは、視覚動的システムにおいて観測不可能である。本稿では、このカーネルに基づいた追跡のコンテキストにおける特異性に関する重要事項を研究し、動き場(motion field)表現に基づいた新しいアプローチを示す。この表現は、コンパクトだが非相関な大域パラメタではなく、頑健だが疎に相関する局所動きパラメタを利用する。このアプローチにより、完全に観測可能なカーネルに基づいた動き推定器の設計が簡単になる。本稿は、これらの高次元動き場が、より単純な局所カーネルに基づいた動き推定器の協調により効率的に推定できることを示す。この動き推定器の組により、本アプローチは非常に実際的なものになっている。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Vladimir Kolmogorov, Carsten Rother
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1274-1279 , July 2007
グラフカットに基づいた最適化技術は、多くのコンピュータビジョンの応用分野において標準的なツールとなっている。これらの技術により、ペア毎のマルコフ確率場(Markov Random Fields: MRFs)に対応する特定のエネルギー関数を効率的に最小化することが出来る。コンピュータビジョンのコミュニティーにおいて、受け入れられている考え方は、グラフカットはMRFエネルギーの限定されたクラス(例えば劣モジュラー関数)にのみ適用可能であるということである。今回のサーベイでは、グラフカットが更に多くのクラスに適用可能であることを示すいくつかの結果をレビューする(特に劣モジュラー性を持たない関数)。これらの結果は最適化コミュニティーで良く知られているが、我々の知る限りでは、コンピュータビジョンとMRF最適化というコンテキストでは利用されたことが無かった。これらの結果と二値テクスチャ復元の問題の今後の展開との関連性を例証する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Sriharsha Veeramachaneni, George Nagy, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1280-1285 , July 2007
本誌で最近報告されたフィールド識別器の精度向上の理由となる、スタイルコンテキストの概念を形式化する。スタイルコンテキストが、全ての次数に依存しないフィールド識別スキームの基底をなすことを議論する。我々はクラス内スタイルとクラス間スタイルを区別する。前者は適応的識別器の基礎となるものであり、後者はフィールドのパターンの特徴間の、特徴間依存性の現れである。スタイルが拘束条件づけされた識別器がフィールドエラー(zipコードなどの短いフィールドのために有用)およびシングレットエラー(ビジネス文書などの長いフィールドのために有用)のどちらかに対して最適化可能であることを示す。フィールド長による誤り率の制限を導出し、最適なスタイル拘束条件づけされたフィールド識別器の誤り率が、スタイルを考慮したベイズシングレット識別器の誤り率に収束することを示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Sotiris Malassiotis, Michael G. Strintzis, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1285-1290 , July 2007
本稿では、新しい局所記述子を提案し、それを三次元オブジェクトの部分ビューの整列問題に適用する。この記述子は、各点における、表面の“スナップショット”を、その表面に垂直な方位の仮想カメラを用いて撮影することに基を置いている。この表現は情報損失を最小にする利点があり、これにより自己隠蔽に対して頑健になり、また非常に効率的に計算できる。次にこの表現の回転の不明瞭さを扱うための効率的な検索技術を示し、実験的に我々のアプローチの利点を例証する。我々のアプローチは特に少量の重複があるビューの整列に効果を発揮する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Sarif Kumar Naik, IEEE, C.A. Murthy
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1291-1296 , July 2007
本稿ではオブジェクト認識問題を検討する。オブジェクト表現のために、複数の分割領域をカバーする明確に分かれた領域の色記述子を検討する。明確に分かれたマルチカラー領域をエッジマップとクラスタリングを用いて検出する。提案方法の性能を3つのデータセットにおいて評価する。これにより、訓練ビュー(データ)が少数の場合に、提案方法が従来の方法よりも高性能であることが示される。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Ping Yan, Kevin W. Bowyer, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1297-1308 , August 2007
バイオメトリック認証(生物的特徴による認証)において、耳は有望な候補である。しかし、従来の研究では耳画像の前処理に手作業が含まれ、髪やイヤリングの処理が自動化されてなかった。ここでは耳の完全自動化されたバイオメトリックを示すが、外観画像からの自動切り出しや、認識のための3Dマッチングもこれに含まれる。我々は、本システムと、今まで最大の耳のバイオメトリックに関する実験的研究とを比較評価し、415項目のデータベースと全部で1386の検証試験において、誤認識と誤拒絶率が等しい条件で、1.2%の誤り率で同定率が97.8%のトップの成績を達成した。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Richard Hartley, Sing Bing Kang
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1309-1321 , August 2007
カメラのラジアルディストーション関数と内部較正パラメータの両方を同時に較正する方法を提案する。この手法は平面的(あるいは、その代わりに非平面の)較正格子を利用するが、この画像を何枚か撮影して利用する。こうして、ラジアルディストーションは、Zhangによる提案法の人気のある校正法に単純な加味するだけで事は足りる。この手法は繰返し計算は不要であるため、計算は超高速で局所最小の影響も考えなくて良い。この方法ではラジアルディストーションをパラメータ無しで決定し、特定なラジアルディストーションモデルを利用する必要はない。この手法は狭角レンズから魚眼レンズまで応用可能である。本手法はラジアルディストーションの中心も計算するが、この場所は考察にあるとおり、最適結果を得るためには重要である。実験が示すように、この点は、画像中心やカメラの主点からも大きくずれている。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Gozde Unal, Anthony Yezzi, Stefano Soatto, Greg Slabaugh,
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1322-1338 , August 2007
本論文は変分法を利用したカメラパラメータの較正法である。一つ紹介する問題は、安価なカメラの高ひずみレンズの補正である。多くのコンピュータビジョン研究アルゴリズムは信頼性の高い3D情景の幾何学的構成と3Dの測定を狙っている。このひずみをそのままにしておけば、再構成される3D画像や幾何学的測定値が不正確であることになる。第二の問題は、カラーの較正問題で、カメラが異なると、被写体に対するカラー特性が変化するため、較正が必要となることだ。この補正がなされないと、得られるカラー情報は測定に依存してアルゴリズムが影響を受けることになる。また、外的要因によるカメラの較正問題について述べる必要がある。これによって複数のカメラの姿勢や方位の相対値を推定し、またカメラ固有の問題である焦点距離やひずみパラメータを推定する。これらの較正問題を理解してもらうために多視野ステレオ法を示し、部分差分方程式を利用する変分法を示す。この手法はカメラ較正パラメータの協調的精密化法とも考えられる。このようなアルゴリズムの計算時間を削減するために、較正物質に関する事前知識を利用し、このようなアルゴリズムの適用オブジェクト表面が滑らかであると言う仮定を順次適用し、カメラ画像の2D画像から特徴抽出することなく3Dモデルのポーズや方位、スケールパラメータを進化させ、計算速度を上げることができた。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Yoav Y. Schechner, IEEE, Shree K. Nayar, IEEE, Peter N. Belhumeur
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1339-1354 , August 2007
オブジェクト(対象物)を可変証明下で画像化することは、コンピュータビジョン、マシンビジョン、画像表現において重要でしばしば実行されている。このような画像化手法は、従来1つの画像では1つの照明を前提としていた。その結果、単一照明によってできるハイライト部の過剰飽和を避けるため、画像としては暗過ぎ、ノイズの多いものになっていた。我々は画像品質が大きく向上する手法を紹介し、この中で、複数光源による多方向同時照明によって著しく画像品質が向上することを示す。このような多重照明をシミュレーション環境で実現する。この手法はぼんやりしたオブジェクトの画像化に適しているだけでなく、鏡面反射のあるオブジェクトの表現にも向いている。最適条件を用意することによって照明光が多重化し、画質が最高品質となり、ノイズは情報とは独立となる。この手法はHadamardコードで記述されている。この手法によって方向解像度の高い照明光の環境が得られる。以上のことは、我々が構築する柔軟性の高い、安定な、プログラム可能な環境で示される。これを使って多重照明の利点を実証できた。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Lewis D. Griffin
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1355-1366 , August 2007
ガウス関数の微分を計量とする6Dベクトル(あるいはジェット)による2次の局所画像構造を特徴付けする方法を考察した。我々は変換グループのジェットである——アフィン強度スケール付き、画像の回転と反射、および、その成分——が内在する画像構造を保存するメカニズムを考察した。このグループが如何にジェット空間をorbit(軌道)の系に階層化するかを示そう。各orbit(軌道)を点と考えると、3D-orbifold(軌道重ね)が定義できる。このorbifold上の尺度が導けるジェット空間上のノルムを提案する。この尺度テンソルは、orbifoldが本質的に湾曲していることを示している。orbifoldの可視化のためと、これによる数値計算のために、緩やかに歪んでいるが体積保存性のorbifoldを3次元ユークリッド空間に組み込む。この結果できた形状はつぶされたレモンの形状であるが、これを2次局所画像構造ソリッドと呼ぶ。このようなソリッドの例として、ノイズ画像と自然画像中での局所構造の分布を計算する。ノイズ画像のりようによって解析的結果が可能得られ、実験的結果とも一致している。自然画像として、過剰な1D構造が見られた。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Dalila Benboudjema, Wojciech Pieczynski
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1367-1378 , August 2007
最近の統計理論と関連する計算手法の発展によって画像モデル化だけでなく画像セグメンテーション法にも新たな展開が見えてきた。その結果多数のモデルが提案され、その中で多くの注目を集めた方法は隠れマルコフ場(hidden Markov fields (HMF) )モデルである。その理由は扱いが簡単なことと画質の改善の可能性が高いことであろう。これらモデルは定常な場面では満足すべき結果が得られているが非定常的場面では満足な結果は得られてない。本論文では、我々は非定常な隠れ確率場において、教師なし統計的モデル化がどのように達成され、その結果、画像セグメンテーションに対してどのような効果が発揮されるかに取り組む。最近開発された三重項マルコフモデルに基づく、独自の手法を提案するが、これは非定常なクラス場を扱うことができる。さらに、ノイズが補正されるが、多分、正規分布でないノイズが。クラスに依存して変化するノイズマージンの性質を見つけるためのピアソン系を利用した独自のパラメータ推定法もまた、提案され、教師なし画像セグメンテーションに利用された。実験の結果、この新しいモデルと関連アルゴリズムによって、従来の古典的結果を改善した。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Anna Corazza, Giorgio Satta, IEEE Computer Society
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1379-1393 , August 2007
本論文では確率的文脈自由文法を考察するが、これは統語的パターンマッチングのいくつかの応用分野で成功裏に用いられたことがあり、特に統計的自然言語構文解析で成功している。この確率的文脈自由文法を、交差エントロピーを最小化するというモデルで無限の木集合や無限の文集合を学習させるという課題について研究した。この課題は、表現がもっと確率論的に豊に生成された分布を有する文脈自由近似の場合に用途が存在する。このような方法で推定される確率論的文脈自由文法のいくつかの理論的性質について述べるが、この結論の中には以前は知られてなかった入力分布付き文法交差エントロピーと、いわゆる文法そのものの派生エントロピーが同一であることも含まれている。標準的応用である有限木と文例に関する最大尤度推定器の結果と、他の有限状態モデルである隠れマルコフモデルや確率的有限オートマタに関する重要な結論について議論する。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Zoran Nenadic
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1394-1407 , August 2007
情報理論の基本的なツールを利用して、識別を目的とした観察空間から、低次元の(特徴量)部分空間への新規な線形変換法を開発した。本手法は情報理論による目的関数の最適化による数値的手法に基づいており、解析的に計算することが可能である。他のいくつかの手法に比べ、この提案手法の利点について述べている。この条件下において、本方式は線形判別分析に帰結することを示す。我々は、この新規な目的関数が様々な相互情報量やベイズ誤りに関する利点を有していること、この方法がベイズ論的に最適化される十分条件を示す。目的関数は数値的に最大化されているので、計算がどのように高速に実現可能な解に至るかを示す。本手法の性能を他の線形記述法に基づく特徴抽出と比較していかに優れているかを、シミューレーションデータや実データで示す。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Dariu M. Gavrila
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1408-1421 , August 2007
本論文は、手本に基づく階層的形状マッチング法を紹介する。この手法は手本間の特徴量の対応は不要であり、単に好ましい対ごとの類似尺度が必要である。この手法では手本となるテンプレート(見本)の木が必要で、このため多様な見本形状に対して効率的にマッチングできる。この木は確率論的手法で別途ボトムアップ的にクラスタリングされた形状見本を利用する。オンラインマッチングでは木に沿って疎から密へ向かって形状とパラメータの同時マッチングを実行する。本論文の新規な点は、木のノードにある程度マッチングした後、オブジェクトクラスの事後確率の推定にベイズモデルを利用することである。このモデルではオブジェクトのスケール、顕著な特徴を利用していることであり、これによって有望でないマッチング経路をたどって木を探索する可能性を減少させるように、マッチングの閾値設定を可能にしたことである。この提案手法は色々な用途で試された。ここで、最も難しい用途の一つである実時間で、車と混在する中から通行人を検出する課題の結果を示す。この提案する確率的マッチング手法の採用と、マニュアルで調整された非確率論的手法を組み合わせることで、同じ木を利用した場合でも、認識速度の顕著な向上が見られた。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Daniel Keysers, Thomas Deselaers, IEEE, Christian Gollan, Hermann Ney, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1422-1435 , August 2007
画像認識という課題のための、異なる非線形画像変形モデルの応用について述べる。この変形モデルは、特に局所変形を有するモデルに適しており、画像オブジェクトが変わり易い場合に適している。このようなモデルの中でも、実装が容易で、計算量が少なく、現実の画像認識課題中でも十分競合できる性能を持つような1つの方法があることを示す。この方法は4つの異なる手書き数字認識と、医用画像の識別に高性能を発揮することを実験的に示そう。特に、MNISTに対する実験では、誤認識率は0.54%が達成されが、同時に2005年医用画像の識別コンテストのImageCLEF評価においては、12.6%の最小誤り率を達成した。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Nikos Komodakis, Georgios Tziritas, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1436-1453 , August 2007
コンピュータビジョンにおいてしばしば必要となるマルコフ確率場(MRF)の広範囲のモデルにおける近似的最適化に適したグラフカットの組合せ論的アルゴリズムの理解と発展のための新規な枠組みについて紹介する。ここで提案する枠組みでは、線形計画法の双対理論から得られるツールを利用する。これによって、選択的で、より一般的な観点の最新手法、例えばalpha拡張アルゴリズム(単なる一例)、が得られる。alpha拡張アルゴリズムと反対に、求まったアルゴリズムは、任意のポテンシャル関数を持つ離散的MRFのような距離尺度の与えられない、より広い課題に対しても、最適解の存在を保証している。更に、これらはインスタンス毎にすべての場合に準最適化有界性を与える。この有界性は実際のところ非常に緊密(tight)である(つまり、1に近い)ことが分かっており、つまり、結果として得られる解はほとんど最適化されている。我々のアルゴリズムの有効性は、様々な低レベルの画像に関する課題、つまりステレオマッチング、画像復元、画像の完全性、さらに、オプティカルフロー推定と人工的効果について、実験結果によって、我々のアルゴリズムの有効性が実証された。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Xianghua Xie, IEEE, Majid Mirmehdi, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1454-1464 , August 2007
ランダムカラーのテクスチャー中の欠陥場所を検出・位置決めする手法を紹介するが、その中でテクスチャーの学習には、教師無しでノイズの無いパッチが少々あれば事足りる。この時の各画像は色々なサイズの画像パッチの重ねあわせによって生成されると仮定している。これら画像パッチとそれらの対応する偏差はここではテクスチャー見本、つまり texemsと呼ぶことにする。 texemsを作るためには混合モデルを利用し、多段スケール(ピラミッドモデル)によって計算速度を向上させた。カラーテクスチャーの新規性を検出するためには多段スケールのデータの類似性に基づく同一起源類似性を調べることで達成し、続いて欠陥候補と局所欠陥を結びつける論理的プロセスを調べた。新規性検出の観点から、この提案手法とガボールフィルターバンク法との比較がなされた。また、欠陥検出における精度と効率の観点から、異なるtexemを比較した。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Cheng-Lin Liu, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1465-1469 , August 2007
グラディエント方向ヒストグラムの特徴量は文字認識において優れた性能を示す。形状正規化によって導入されるストローク方向の歪みの影響を軽減させ、認識率を向上させるために、正規化の助けを借りたグラディエント特徴量抽出法と呼ぶ新規な方法を提案するが、これは、正規化画像を作ることなく、また、いろんな正規化法を組み合わせて、原画の勾配方向要素を方位平面にマップ化する。手書き日本語、手書き中国語のデータベースに対する実験では、本手法は擬似2次元正規化法と組み合わせた結果、8.63%から14.97%の誤認識率の減少を達成した。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Yogesh Rathi, IEEE, Namrata Vaswani, Allen Tannenbaum, Anthony Yezzi
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1470-1475 , August 2007
変形オブジェクトを追跡するには、オブジェクトのグローバルな動きと局所的変形に関する時間の関数の形で推定することが必要である。カルマンフィルターやパーティクルフィルターが形状の有限次元表現として提案されてきたが、これらは選択されたパラメータに依存し、曲線トポロジーの変化を扱うことができない。動的な形状輪郭は、パラメータに依存しない枠組みを提供するし、トポロジーの変化に対応できる。今回の研究において動的に形状が変化する輪郭を有する枠組みにおけるパーティクルフィルターのアルゴリズムを定式化し、これによって動くオブジェクトや変形するオブジェクトを追跡することができる。我々の知る限り、無限次元の状態空間における追跡のための近似的パーティクルフィルタリングアルゴリズムを実装化したのは、我々が初めてである。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Graziano Chesi, IEEE, Y.S. Hung, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1476-1480 , August 2007
与えられたオブジェクトとカメラの配置が与えられたとき、未知であるが有界の誤差によって引き起こされた最悪の場合を想定したカメラの位置合せ問題を評価するための問題について考察する。特に、ある種の画像ノイズ強度に対する回転と並進の最悪ケースの誤差の上限が凸最適化によって得られる。これらの上限は、標準的最適化によって得られる下限と異なり、ロバストな視覚サーボ系の設計が可能となる。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
R. Cappelli, D. Maio, A. Lumini, D. Maltoni
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1489-1503 , September 2007
マイニューシャに基づいたテンプレートは指紋画像の非常にコンパクトな表現であるが、長い間、この表現は、オリジナルの指紋画像を復元するのに充分な情報を持っていないとみなされてきた。本研究では標準テンプレートからの指紋画像再構成のための新しいアプローチを提案する。また再構成された画像がどの程度オリジナルの指紋画像(例えばテンプレートの抽出元になった画像)に類似しているかについて調査する。9つの異なる指紋画像再構成アルゴリズムに対するマスカレード攻撃(仮想攻撃)の成功率を推定することで、我々の再構成手法の効果を検証する。我々の実験結果は、再構成画像が非常に現実的なものであること、人間のエキスパートの目を欺くことは非常に困難であるが、最新の商用の指紋画像再構成システムを欺ける可能性は高いことを示している。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
J. M. Siskind, J. Sherman, Jr, I. Pollak, M. P. Harper, C. A. Bouman
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1504-1519 , September 2007
本稿で我々は画像とその領域の階層構造の新しい確率論的モデルを提案する。このモデルを空間確率木文法(spatial random tree grammars: SRTGs)と呼ぶ。尤度、MAP推定、及びモデルーパラメタ推定のための正確なEMアップデートの正確な計算のためのアルゴリズムを開発する。我々はこれらのアルゴリズムを総称して中心−周辺アルゴリズム(center-surround algorithm)と呼ぶ。この中心−周辺アルゴリズムを利用し、SRTGのMLパラメタを自動的に推定し、尤度及び関連する階層構造のMAP推定に基づいて画像を識別する。我々の方法を自然画像識別に適用し、この階層構造の利用が顕著に(このような階層構造を持たない)ベースラインモデルの性能を向上させることを示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Yu-Wing Tai, Jiaya Jia, Chi-Keung Tang
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1520-1537 , September 2007
本研究で我々は柔軟な色識別のための自動的アプローチを提案する。このアプローチにより、適切な量のオーバーラップと透過性を持つ柔軟な(ソフトな)色セグメントが得られる。多くの種類の、画像に基づいたアプリケーションにおける自然画像合成で、このオーバーラップと透過性は重要な役割を果たす。多くの最新の複雑な手法は、シーンの意味記述を行なうために入力画像を分割することには優れている。これに対して我々は、シームレスな画像合成を実現するために、画像中の不連続を保持しつつも柔軟な境界を持つ領域同士の間の空間的及び色的コヒーレンスも維持するように設計された画像分割アプローチを提唱する。提案手法は、画像中の相対的な色分布に対応するソフトなラベルの組を、各画素に割り当てる。大域色統計量と局所画像合成の柔軟性により与えられる信頼性を利用することで、大域目的関数を最適化する。これにより、ガウス混合モデル(Gaussian Mixture Model:GMM)により大域色統計量が表される画像モデルが得られる。このモデルでは各画素の色は局所色混合モデルで説明される。この色混合モデルでは、収束したGMMの要素に対する上記の柔軟なラベルにより重みが定義される。本モデルでは自然に透過性を取り扱うことができ、これにより各画素における最適な色の混合を推測する。大域及び局所情報を同じフレームワークで適切に扱うために、上記大域及び局所モデルのパラメタを得るための、上記手法の代替となる反復的解法による最適化手法も提案する。我々の手法は完全に自動であり、良い最適解に収束することが示される。大規模な評価と比較を行うことで、我々の方法により、画像マッチング、色変換、画像ボケ補正、そして画像への色付与などのアプリケーションにおいて、良好な画像合成結果が得られることを例証する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Steven C. Gustafson, David R. Parker, Richard K. Martin
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1538-1545 , September 2007
我々は補間関数のためのベイズ確率密度を開発し、これに対する好ましい性質と実際の潜在的能力を例証する。この密度の計算のためには計数論的補間と呼ばれる性質が必要とされるが、これまでのところ、これを適切に得ることが出来ていない。この計数論的補間とは、最小自乗モデルの密度の外挿の計算可能性を確保するためのものである。特に計数論的補間密度の平均値は、与えられた複数の(x, y)点を分割する平滑関数であり、これらの点の最小自乗線を外挿する。この密度の分散は点xにおいてゼロ値をとり、最近傍のx値からの距離に従って増大する平滑関数である。この分散は上記最小自乗線の良く知られた二次分散関数を外挿する。本稿で提案する新しい計数論的補間密度は、完全なベイズ法を利用したガウス放射基底補間であり、これにより補間器の平滑性を最適化する。大きなx値の場合を例外とするが、この最適化は既定関数の幅を決め、非ガウシアンである補間密度を与える。この例外のために、上記補間密度はガウス工程の結果ではない。更なる開発により、最小自乗線モデルの密度に対する外挿の顕在特徴が、(単なる補間ではなく)より一般的な近似関数に適用可能であることを示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Yi Ma, Harm Derksen, Wei Hong, John Wright
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1546-1562 , September 2007
本稿ではロス有りデータコーディングと圧縮のアイディアに基づいた、シンプルだが効果的な、多変量混合データの分割手法を提案する。ここで混合データはガウス分布の混合から得られるものとする。このガウス分布は殆ど縮退していることが許される。本研究の目的は、与えられた歪みに従い、分割されたデータのコード長を最小化する最適分割を見つけることである。混合データのコード長/コードレートを解析することで、データ分割問題と、ロス有りデータ圧縮及び多くのコードレート歪み理論の基本コンセプトとを形式的に強く結びつける。殆どの場合、決定論的分割が混合データの圧縮の(漸近)最適解であることを示す。本稿で我々は、非常にシンプル且つ効果的なアルゴリズムを提案する。本アルゴリズムは、許容範囲の歪みというただひとつのパラメタにのみ依存する。本アルゴリズムは、いかなる歪みにおいても、パラメタ推定なしに、自動的に対応するグループの数と次元を決定する。シミュレーションの結果により、歪みレベルが変化したとき、若しくははずれ値の量が変化したときの、興味深い分割数の相転移に似た振る舞いを明らかにする。最後に、この手法が如何に簡単に実画像及び生体情報データの分割に適用可能かを例証する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
M. Sabry Hassouna, A. A. Farag
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1563-1574 , September 2007
多くの種類のコンピュータビジョンのアプリケーションが、アイコナール方程式として知られる特定のハミルトン‐ヤコビ方程式(Hamilton- Jacobi equation)の高精度な解を必要とする。本稿では、高速マッチング法(fast marching method:FMM)の改良版を提案する。この方法は二次元および三次元デカルト領域の両方に対して高精度である。この新しい方法はマルチステンシル高速マッチング法(multi-stencils fast marching:MSFM)と呼ばれ、いくつかのステンシル(型)に沿ったアイコナール方程式を解き、そして風上条件を満たす解を選ぶことで、各グリッド点における解を計算する。このステンシルはグリッド点に中心を持ち、すべての隣接点をカバーする。二次元空間においては、2つのステンシルが8つの隣接点をカバーし、6つのステンシルで合計26の隣接点をカバーする。自然座標系に沿わないステンシルのために、方向導関数を用いてアイコナール方程式を導出する。そしてこの方程式は高次階差スキームを用いて解かれる。提案手法の精度が、FMMに基づく最先端の方法を超えることを、分かりやすい数値実験により例証する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Pedro Quelhas, Florent Monay, Jean-Marc Odobez, Daniel Gatica-Perez, Tinne Tuytelaars
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1575-1589 , September 2007
本稿では画像に基づいたシーンモデリング及び識別のための新しいアプローチを示す。このアプローチでは、テキストモデリング法と局所不変特徴を同時に用いることを試みる。我々の研究は以下の3点を解明することを目的とする。(1)テキストのようなbag-of-visterms表現(定量化された局所画像特徴のヒストグラム)が(オブジェクト識別よりも)シーン識別に適しているかどうか。(2)離散的なシーン表現とテキストドキュメントの間のアナロジーが存在するか否か、そして(3)教師なし学習による、潜在的な空間モデルを、識別のための特徴抽出器として、そして画像の共起性のパターンの検出の両方に使用することができるか否か。複数のデータセットを用いて我々のアプローチの検証を行い、上記項目それぞれについての実験について検討する。最初に、二値、及び多クラスシーン識別に関して、9500個の画像データセットを用いた大規模実験を示す。この条件においては、bag-of-visterms表現が終始、古典的なシーン識別アプローチを上回る性能を示す。他のデータセットでは、我々のアプローチが、他の最新の、より複雑な方法と互角、若しくはより優れた性能であることを示す。確率論的潜在意味解析(Probabilistic Latent Semantic Analysis:PLSA)によりコンパクトなシーンの表現が生成可能であることも示す。これは高精度識別にとりわけ有用であり、ラベル付けされた訓練データの数が少ない場合には、bag-of-visterm表現よりも頑健である。最後に、アスペクトに基づいた画像ランキング実験を通じて、PLSAの意味ある画像パターンの自動抽出能力を示す。これにより、画像コレクションのブラウジングに、このような表現を有効に使うことができるようになる。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Partha Bhowmick, Bhargab B. Bhattacharya
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1590-1602 , September 2007
既存のいくつかのDSS(digital straight line segments:デジタル直線線分)認識アルゴリズムは、与えられた1画素幅のデジタル曲線のデジタル直線性の決定に用いることができる。デジタル直線性の固有の幾何的制約ゆえに、これらのアルゴリズムは、与えられたデジタル曲線をカバーするために、多数の線分を生成する。ここでデジタル曲線とは、実世界におけるオブジェクト、すなわち画像を表現するものである。このため、デジタル表現において厳密には直線ではない曲線線分は、擬似的に直線として表わされる。そして上記アルゴリズムが適用された場合には、この曲線線分は複数のDSSに分解される。本稿ではDSSの特定の条件を緩和することで直線性を近似する新しいコンセプトを導入し、これらの線分をデジタル曲線から抽出するためのアルゴリズムを示す。ある曲線をカバーするために必要とされる線分の数は、DSSによりカバーされる数よりも顕著に少ないことが示される。結果として、ある曲線を表現するためのデータセットも大幅に削減される。抽出された線分の組をさらに組み合わせることで、特定の近似指標と特定のエラー耐性に基づき、デジタル曲線のコンパクトなポリゴン近似を決定することができる。提案アルゴリズムは一次積分のみ利用するため、DSSに基づくアルゴリズムに比べ非常に高速である。全体の時間複雑性は、代表セットに含まれる点の数に対して線形である。いくつかのデジタル曲線における実験結果により、提案方法の速度、洗練性、そして効果を示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Francois Destrempes, Max Mignotte, Jean-Francois Angers
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1603-1615 , September 2007
本稿では、形状の変形のための新しいモデルを示す。グレーレベル勾配ベクトル場の統計的分布に基づいて疑似尤度を計算し、確率的主成分分析(Probabilistic Principal Component Analysis:PPCA)に基づいて事前分布を計算する。これに加え、形状の変化の幅が大きい場合に有効なPPCAの混合に基づいた新しいモデルも提案する。このモデルには、特に画像の初期的な色分割に基づいた大域もしくは局所オブジェクトの基準が含まれる。画像中の形状の局所化は、対応するギブズ場(Gibbs field)の最小化とみなされる。探索/選択(Exploration/Selection:E/S)確率的アルゴリズムを用いて最適な変形を見つける。これにより形状の局所化のための新しい教師なし統計的方法が得られる。反復条件推定(Iterative Conditional Estimation:ICE)法を用いてグレーレベル勾配ベクトル場の統計パラメタの推定を行う。探索/選択/推定(Exploration/Selection/Estimation:ESE)法を用いて画像の色分割を計算する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Liang Wang, IEEE, Ruigang Yang, IEEE Computer Society, James E. Davis, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1616-1626 , September 2007
両眼立体視による三次元情報復元のためのほぼすべての既存方法が、シーン反射率がランベール反射率であることを前提とし、輝度の定常性をマッチング不変量として利用する。照明移動定常性(light transport constancy:LTC)と呼ばれる、両眼立体視による三次元情報復元のための新しい不変量を導入する。これにより完全に任意のシーン反射率(双方向性反射率分布関数:bidirectional reflectance distribution functions (BRDFs))の下で三次元情報の復元が可能となる。照明強度のみが変化する複数の照明構成の下でシーンが観測される場合、この不変量を用いて、マルチビューの両眼画像マッチングに対するランク拘束条件を作ることができる。更に、2つ以上のカメラ、2つ以上の照明光源の構成で、このマルチビュー拘束条件が利用可能であることを示す。これまでのBRDF不変量による両眼立体視法と異なり、LTCは精密に構成された、もしくは校正された照明光源や、シーン中の校正用オブジェクトを必要としない。重要なのは、適切な照明変化が得られる限りにおいて、すべての既存の両眼立体視法に対して、この新しい拘束条件を用いてBRDF不変量を計算することができることである。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Alice J. O'Toole, P. Jonathon Phillips, Fang Jiang, Janet Ayyad, Nils Penard, Herve Abdi
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1642-1646 , September 2007
近年、コンピュータに基づいた顔認識アルゴリズムの性能向上において、先の10年を上回る顕著な進歩がみられる。多くのアルゴリズムが徹底的にテストされ、相互に比較されてきたが、驚くことにコンピュータに基づいた顔認識システムと人間の顔認識能力を比較した研究はごくわずかである。我々は7つの最新の顔認識アルゴリズムと人間の顔認識能力を比較する。人間の顔認識能力とこれらのアルゴリズムを用いて、異なる照明条件下で撮影された顔画像の対が、同じ人間のものか、異なる二人の人間の顔かを識別することで試験を行う。事前審査で“識別困難”とされていた画像対において、3つのアルゴリズムが人間の能力を上回る性能を示した。また、事前審査で“識別容易”とされた顔画像対において、6つのアルゴリズムが人間の能力を上回った。照明変化条件が、顔認識アルゴリズムにとって困難なものであるにもかかわらず、現在の最新のアルゴリズムは、人間の能力に良く伍するといえる。今現在最良の性能基準は人間の顔識別能力であり、これを基にしたアルゴリズムの比較が必要である。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Chang Yuan, Gerard Medioni, Jinman Kang, Isaac Cohen
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1627-164 , September 2007
静的な三次元構造に起因する強度の視差がある場合の、移動するカメラにより撮影されたビデオ画像系列における動き領域の検出のための方法を示す。2次元平面ホモグラフィー(2D planar homography)、エピポーラ拘束条件、そして新しい幾何拘束条件を連続的に適用することで、提案手法は画像の各画素を二次元の背景、視差、もしくは動き領域に分類する。この幾何拘束条件は“構造整合性拘束条件”と呼ばれるものであり、本研究の一番の成果である。これは3つのフレームからの相対的なカメラの姿勢から導出され、“平面+視差”フレームワークにおいて実装されるものである。これまでの平面—視差拘束条件と異なり、提案する拘束条件は複数のビューで定常となる参照平面を必要としない。これにより、異なるカメラ姿勢から撮影された同一点、及び参照平面の変化による射影構造間の不整合を直接測量する。この構造整合性拘束条件により、同一方向に動くカメラにより撮影された、動くオブジェクトを検出することができる。これは縮退構成と呼ばれるものであり、この構成下ではエピポーラ拘束条件が成り立たない。実世界のビデオ画像系列を利用した実験結果により我々の方法の効果と頑健性を例証する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Anat Levin, Yair Weiss
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1647-1654 , September 2007
透明なガラスを通して写真を撮影した場合、得られる画像は往々にして2つの画像の重畳となる。この二つとは即ち、ガラスの向こうのシーンと、ガラスに反射したシーンである。単一の入力画像を2つの画像に分解することは重度の不良設定問題であり、観察されるシーンに対する追加の情報がない場合、無限数の有効な分解ができてしまう。本稿ではより簡単な問題にフォーカスを当てる。それはユーザによる補助を前提とした分解法である。この方法では、ユーザが対話式に、少数の勾配をいずれかのレイヤーにラベル付けする。全ての勾配のうちの一部にラベル付けするだけでは、この問題はやはり不良設定であり、追加の事前知識を必要とする。最近の自然画像の統計の研究成果に則って、導関数フィルタと共に疎な事前確率を利用する。反復的再加重最小二乗アプローチ(iterative reweighted least squares:IRLS)を用いて、この疎な事前確率を最適化する。我々の実験結果は、自然画像の統計から導出された事前確率を用いることにより、ガウシアン事前確率を用いる方法よりも、遙かに優れた性能が得られること、そしてこれにより適当な数の勾配のラベル付けにより、2つの画像の良い分離が得られることを示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Yoav Y. Schechner, Yuval Averbuch
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1655-1660 , September 2007
散乱媒体中で撮像する場合、オブジェクトとの距離が増大するに従って視界は悪くなる。コンピュータビジョンの方法を用いることで、この様な場合でも視界を顕著に回復することができる。この方法では、画像構成に際して起こる物理的なプロセスを考慮に入れる。しかし、この視野回復は、媒体の透過率が低い場合に遠距離オブジェクトに対応する画素におけるノイズを増大させる傾向がある。上記の問題に対する適応フィルタリングアプローチを示す。この方法は、元画像に対して相対的に顕著に視野を回復するが、ノイズの増大は抑制する。本質的に、視野回復の方法は正規化されている。この正規化は空間的に変化する媒体透過率に適合するものである。これによりこの正規化は閉合オブジェクトをノイズによりぼかすことがない。このアプローチを、媒体透過率を決定するための自動的方法に基づいた大気中および水中の実験により例証する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Hanzi Wang, David Suter, Konrad Schindler, Chunhua Shen
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1661-1667 , September 2007
我々は本校で空間—色混合ガウシアン(Spatial-color Mixture of Gaussians:SMOG)に基づいた類似性尺度を提案する。これは色ヒストグラムに基づいた多くの類似性尺度を向上させる。なぜならばこの方法は領域の色のみならず、その色の空間的なレイアウトも考慮に入れるからである。これによりSMOGに基づいた類似性尺度はより特徴の際立ったものとなる。SMOGのためのパラメタを効率的に計算するために新しい技法を提案する。これにより、計算時間は大幅に短縮される。複数のキューを統合することで我々の方法を拡張し、信頼性と頑健性を向上させる。実験結果により我々の方法が多くの異なるシチュエーションでオブジェクトを追跡できることが示される。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Cyrille Enderli, Laurent Savy, Philippe Refregier
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1668-1672 , September 2007
レーダーターゲットの識別のための二次フィルタを用いた重みづけ偏差の新たな応用を提案する。最適フィルタの明示的な公式化を与える。重みづけされたパラメタの実画像認識に対するインパクトを解析し、偏差がフィッシャー比に一致する場合、この方法の性能がより良いものとなることを示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Michael A. Penna, Kris A. Dines
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1673-1678 , September 2007
本稿では球状表面の、3空間におけるデータセットへのフィッティングのための新しい簡単な方法を示す。球面調和関数を利用する標準的な手法に比べ、特に疎なデータや、不均一なデータの問題を扱う場合、本手法はコンセプト面でより簡単であり、計算面での複雑性及び計算強度がより低い。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Yan Tong Wenhui Liao Qiang Ji
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. pp. 1683-1699 , 10 2007
顔表情を自動的に実時間で解析するシステムは広くて多くの用途がある。しかし、このようなシステムを実際に開発するとなると、表情の豊かさ、あいまい性、必然的に伴う動きなどにより、常に困難が伴う。多くの研究グループが顔の動き単位( action units=AUs )の認識を試みているが、そのためのには顔特徴抽出法の改良か、あるいは、AUのクラス分け法の改良のどちらかを採用しており、これらはAUを個々に統計的に利用するか、あるいは特定のAU の組を認識するかのどちらかである。このときAU間の意味的関係や動的関係は無視されている。したがって、これらの手法ではAUとを安定的に、ロバストに、確実にあるパターンを探し出せる。本論文では、系統的にAU間の関係や、それらの時間的進化をを考慮する新規な手法を提案する。特に、AU間のモデルとして、動的ベイズネットワークモデル(DBN)を利用する。このDBNによって整合性のある統一的階層的確率的枠組みによって多様なAU間の確率的な関係が表現できるため、顔表情の進展の時間的変化にも対応する。このシステム内ではAU尺度の獲得にはロバストなコンピュータビジョン手法が用いられた。このようなAU尺度は、多様なAUの推測のためにDBNに対するエビデンスとして応用された。実験結果から、AU尺度によるAU関連の統合とAU動力学はAUの認識を大きく前進させたことが示された。特に、照明の変化や顔の姿勢変化、隠蔽などの現実的環境における自然な顔表情に対して有効であった。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Dacheng Tao Xuelong Li Xindong Wu Stephen J. Maybank
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1700-1715 , 10 2007
伝統的な画像表現法は従来の識別法である線形判別解析法などには適してない。その理由は特徴量空間の次元数が学習サンプル数よりもずっと大きいことが原因である。2次元LDA法 (2DLDA)による顔認識の成功に刺激され、一般化テンソル判別分析法 (GTDA)をLDAの前処理ステップとして開発した。従来の主成分分析 (PCA) や2次元LDA法などの前処理法と比較して、このGTDAの利点は、1)LDAのように引き続いての識別処理が必要ないこと;2)学習したテンソルには識別情報が保存されていること、3) GTDA は安定した認識率を与えるが、その理由は、2DLDAと異なり、GTDAの解を求める交互投影最適化アルゴリズムは収束するからである。この提案GTDAを人の歩行画像に適用した結果、我々の手法が優れていることが確認された。歩行画像表現には平均化した歩行画像を利用した。画像理解やオブジェクト認識にガボール関数による画像分解の利用が流行しているが、我々は3つの異なるガボール関数に基づく画像表現を開発した:1)方向別のガボールフィルターを加算したGaborD表現、2)いろんなスケールに関するガボールフィルターを加算したGaborS表現、3)方向別、スケール別にガボールフィルターを加算したGaborSD表現、である。平均化された歩行画像から人を認識するために、これらGaborD, GaborS,GaborSD表現が利用された。この手法を評価するために、大量の実験が行われたが、最初にGabor, GaborD, GaborS, GaborSD画像表現を得て、次に、GDTAを利用して特徴量を抽出し、最後にLDAによって識別した。この提案手法はUSF HumanID Databaseからの連続画像に対する実験で、良好な歩行認識を達成した。歩行認識に関する最新の9つの方式と比較した。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Nizar Bouguila Djemel Ziou
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1716-1731 , 10 2007
我々は、クラスター数の知識無しで、高次元データ構造の決定問題を考える。データは、一般化ディリヒレー分布に対する有限混合モデルによって表現される。一般化ディリヒレー分布はディリヒレー分布よりもっと一般化した共分散構造を持っているため、対称的分布や非対称分布の近似にも高い柔軟性を示し、使い易い。このために、一般化ディリヒレー分布は、より実用的で有用である。混合モデルの重要な問題の1つにクラスターの数を決定する問題が有る。成分の数が多過ぎたり少な過ぎる混合分布の場合は、真のモデルを予測するにはふさわしくない。ここに、最小メッセージ長(MML) の原理を利用してクラスター数を決定する応用について考察する。MMLが導入されたのは、データ記述が最良の混合モデルのクラスター数を選ぶためである。他の選択基準との比較も行われた。人工的データ、実データのクラスタリングによる確認実験以外に、2つの興味ある現実的用途がある:ウェブページの識別、効率的検索のためのテクスチャーデータベースの要約化。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Sheng Zhang Terence Sim
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1732-1745 , 10 2007
フィッシャー線形判別法はパターン認識にしばしば利用されている。これは、フィッシャーの基準によれば識別パターンを最大限分離するような線形部分空間を見つけることである。FLDを計算するいくつかの方法が文献で提案されて言うが、そのほとんどはいわゆる分散行列(scatter matrix)を計算する必要がある。本論文ではFLDをFukunaga-Koontz変換 (FKT)させることで新たな展望を開く。我々はこのために、全データ空間において、それぞれ異なる固有値比を有し、異なる区分性能を有する4つの部分空間に分解する。この固有値比を一般化固有値で結合することにより、ここではフィシャー基準を最大限満たしていることを示す。また、FLD と FKTの関係を解析的に証明するとともに、いくつかの既存の研究を理解するための統一的枠組みを提案する。さらに、我々の理論を多重判別解析(Multiple Discriminant Analysis (MDA))へと拡張する。これを行うために、データをクラス内、クラス外空間に変換し、続いて、Bhattacharyya距離を最大化する。FKT解析に基づき、MDA/FKTの判別部分空間を同定し、分散行列が特異であったり、大き過ぎで形成できない場合にも適用可能な効率的アルゴリズムを提案する。この方法の正当性を人工的データと実データの両方で示す。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Fabrizio Angiulli
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1746-1758 , 10 2007
正常なデータと異常なデータを見分ける教師無しで識別する単純で効果的な方法を提案するが、これはオブジェクと参照データの最近傍距離がある閾値内に入っている場合は正常モデルであると見なす方法である。この研究では元のデータの部分集合を識別器の参照集合として利用する効果を調査する。この目的で、参照データと整合性の有る部分集合を用意し、最小基数(minimum cardinality;そのスロットの取りうる最小値)の参照データに整合性のある部分集合が見つけることが出来ないことを示す。そして、CNNDDアルゴリズムが記述でき、これによって参照データと整合する部分集合をたった2つの参照集合を経由させる。実験結果から凝縮データ集合の利点が明らかになり、本提案手法の効果を確認した。関連する方法との比較も行い、1つのクラスの最近傍に基づく訓練集合と整合性のある凝縮の長所・短所をまとめた。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Ali Rahimi Ben Recht Trevor Darrell
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1759-1775 , 10 2007
我々は準教師付き学習による回帰アルゴリズムについて述べるが、これは変換事例を利用して1つの時系列から他の時系列へ変換することを学習する。このアルゴリズムは、観察されたセンサーからの時系列信号を、標的の姿勢を記述できる時系列信号へ変換追跡することに応用される。このような追跡課題を1回ごとの変換の実装を繰返し定義する代わりに、時系列の中から少数の入出力のマッピング例をmemoryless 変換に学習させる。このアルゴリズムは、学習例に適合する滑らかな関数を探索し、入力時系列を仮定された動力学に従って進化させた時系列信号作る。この学習処理は高速で、閉形式の解に適合する。これは非線形のシステム同定と多様体学習法に密接に関連している。このアルゴリズムをRFIDタグからの信号強度測定、剛体オブジェクトの姿勢の復元、変形可能な物体、ビデオ時系列から明瞭化するなどの追跡課題として実証する。これらの課題に対して、本システムは出力時系列信号の動力学的配慮のされてないアルゴリズムに比べ、極めて少ない事例で済む。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Shahriar Negahdaripour
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1776-1788 , 10 2007
水中の構造物を検査するための、光と音響の情報が取得できるカメラは、通常の保守にもセキュリティ活動するにも適している。解像度が高くても、カメラを乱流環境で使用すれば、可視距離は限られている。これに比較して新世代のメガヘルツ帯の高周波音響カメラは、強い乱流中でも被写体の細部まで画像化してくれるが、ただし、その観察可能距離は従来のキロヘルツ以下の音響システムに比べて2桁も低下する。したがって、効果的な検査するための戦略は乱流中で使える水中プラットフォームに装着できる光学・音響カメラと言うことになる。以上の筋書きに沿って視野が確保できる場所では双眼立体視によって貴重な情景情報を提供する。これは、各センサー個別の情報だけでは容易に再現できない。エピポーラ幾何と立体視3角形を利用し、2つの異なる投影モデルを持つ2つの信号取得形態を利用し、この構成の制約方程式を導く。コンピュータシミュレーションに支えられた理論的結果は、光学-音響的立体撮像系は、特に被写体の距離が大きいときや乱流が大きいときには、光学カメラによる従来の双眼立体視系を大きく上回ることを示している。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Alex Rav-Acha Yael Pritch Dani Lischinski Shmuel Peleg
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1789-1801 , 10 2007
本論文はビデオ画像の編集において、経時的にイベントを制御し、時間を操作することを目的にしている。このような時間の操作には、あるイベントを遅らせたり別のイベントを速くするということも含まれている。ビデオカメラで情景を撮影するとき、時間を一定にして貼りあわせると、パノラマ画像となる。時間操作するためには、まず、時間と空間の体積空間にビデオ画像を構成すると事から始まる。続いて、この体積に沿って連続的2D切り出し画像を作り、新しい画像系列を作る。この新しい動的情景を提案するため、動的定数 (Dynamic Constancy) と呼ばれる新しい概念を提案するが、この表現は、従来の「輝度一定」のような定数より、もっとふさわしい。 もう一つの挑戦は、オブジェクトの内部のつなぎ目を無くすことであり、任意幾何表現を持つ時空の体積内をスウィープするとき生じる視覚的な異物 (artifact) を避けることである。このような異物の発生を防ぐため、最適時間タイムフロント幾何学を4Dグラフの最小カットを見つけ、max-flow法によって解を求めることである。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Florent Monay Daniel Gatica-Perez
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1802-1817 , 10 2007
画像検索において、クエリー(問合せ)を出して、これに合致する事例が返信されるというパラダイムの先に進むためには、大規模な画像データがあり、直感的な意味的テキストによって検索する要求が存在する。画像集合の視覚的内容と、この画像に関するテキストの説明文(キャプション)の関連性についてのいくつかの異なる学習モデルが提案されており、これによって画像の注釈のための意味的な索引の自動作成が可能となる。この課題は現在のところ未解決である。本論文では、画像の注釈付けのための、統計的潜在意味解析学習(PLSA)のための3つの代替案を用意し、これらの自動的索引付け能力を比較評価した。PLSAの仮定の下では、画像は画像特徴量とテキストの両方を生成する潜在状態が混合したものであるとモデル化される、これら3状態の混合を学習する3通りの方法を 調べた。従来のBlobヒストグラムより、もっと表現力のある画像表現法を提案するが、この中では量子化された局所的カラー情報と局所テクスチャー記述子を関連付けしている。注釈付き画像のためのPLSA法による最初の学習手続きは標準的EMアルゴリズムであり、視覚とテクスチャーのモダリティは、暗黙的に同等に扱われる。他の2つのモデルは非対称なPLSA学習に基づいており、視覚やテクスチャーのモダリティに関する潜在空間上で条件を付けすることを可能にしている。テクスチャーのモダリティの方が、潜在空間の意味的学習に適しており、その結果注釈付けの効率も優れている。標準的データ集合に対するこの学習アルゴリズムと最近の手法との比較を紹介し、我々の枠組みの妥当性をより詳しい評価によって示す。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Jaume Amores Nicu Sebe Petia Radeva
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1818-1833 , 10 2007
オブジェクトの新規なイメージ表現法である一般化コレログラム(generalized correlogram=GC)に基づいて、オブジェクトのカテゴリーを検索する新規な方法を紹介する。この画像表現法では、オブジェクトはGCの分布配置によって表され、各々のGCは局所部分の情報と、この局所部分とその他の部分との空間関係をコード化している(パーツ間の関係)。このような表現を利用し、弱い管理の下でオブジェクトモデルを学習し、マッチングを大量の画像に対して如何に効率的で高速に行えるかを示す。学習段階では、表現を統合化することによってシステムをブーストし、非常に少ない特徴量でコンパクトなモデルが得られることを示す。ここで各特徴量は、オブジェクトのパーツに関するキーの特徴量とその空間的配置に関する特徴量を伝えている。マッチング段階では、局所的パーツの間の空間的関連性を効率的に考慮できるための表現を利用する直積的手続きを提案する。転置ファイルのように適当なデータ処理と組合せで考え、何千もの画像ファイルが効率よく評価できる。この枠組みは異なる標準のデータベースにも応用され、その結果、我々の結果は最新の技術と比較して、計算速度の面でも精度の面でも遅れてないことを示した。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Qifa Ke Takeo Kanade
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1834-1847 , 10 2007
コンピュータビジョンでの形状再構成問題は2D画像の再投影誤差を組み合わせたコスト関数を最小化させることで解を求めることが多い。本論文では、色々な形状再構成問題において、再投影誤差関数は共通で、かつ、準凸に定式化される。この準凸性に関しては、新規の準凸性の枠組みを示し、形状再構成問題は、すぐにも解ける小規模な少数の凸プログラムとして定式化することが可能となる。最終の再構成アルゴリズムは単純で直感的な幾何学的解釈ができる。既存の局所最小化手法と比べると、我々の方式は決定論的で、最小化結果に、予め定められた精度を保証することができる。準凸性が可能であれば、測定における有向性不確定性と外れ値の処理に直感的方法を導入できる。測定に外れ値があれば、ロバストな誤差関数にグローバルな最小値を導入できる。大規模な問題において計算資源が限られている場合、再構成誤差として上限(下限ではない)を与える効率的近似法を与えることができる。このアルゴリズムを人工的データと実データに適用し、その効果を実証できた。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Ariadna Quattoni Sybor Wang Louis-Philippe Morency Michael Collins Trevor Darrell
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1848-1852 , 10 2007
入力が局所的観察のグラフで表現される構造を持った領域において、潜在的変数判別モデルによる識別問題を紹介する。隠れ状態の条件付確率場枠組みは、局所特徴量に関する潜在的変数の集合を学習する。複数の観察は独立している必要はなく、時間的にも空間的にもオーバーラップもしてないだろう。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Yue Wang Eam Khwang Teoh
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1853-1858 , 10 2007
本論文はBスプラインによるモデル化に基づく新規なアフィン変換不変のマッチングアルゴリズムを紹介し、これが曲線マッチングにおいてB-Splineの非固有性の問題を解く。まず最初に曲線の次数を増やしてB-Splineを滑らかにする。次に、Least Square Error (LSE)法によって曲線の次数を下げ、曲率スケール空間(Curvature Scale Space (CSS))画像を構築する。CSSマッチングが実行される。我々の手法は連続曲線であるB-Splineと、ノイズやアフィン変換にロバストなマッチングであるCSSの組合せである。曲線の再サンプリングが必要な他のマッチングアルゴリズムは必要としない。したがって、曲線マッチング誤りは減少する。本提案アルゴリズムはプロトタイプデータベースからの類似形状のマッチングを使ってテストした。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Michal Haindl Ji?i Filip
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1859-1865 , 10 2007
仮想現実用途において、最近の進歩した現実そっくりの表現法に、双方向テクスチャー関数(Bidirectional Texture Function (BTF))があり、この関数は変化する照明条件や眺める方向に対しても自然なテクスチャーを有する外観を表現する。このような関数は、材料サンプル毎に数千に上る測定(画像)によって表現される。その結果得られたBTFのサイズには、グラフィカルな用途の直接的なレンダリングを除いても、この巨大なBTFデータ空間の圧縮は明らかに避けられない。本論文では新規で高速な確率論的モデルに基づくアルゴリズムによる本物そっくりのBTFモデルを可能にする超高圧縮のハードウエア上での実装を紹介する。この最終的な狙いは、オリジナルな画素レベルの測定を行わないで、同じ視的質感を与えることである。このアルゴリズムの解析ステップは、BTF空間のセグメンテーションとBTF表面の測光ステレオ法による距離マップ推定から始まる。これに続き、選択された部分空間カラーテクスチャー画像のスペクトルと空間の因子分解が行われる。単一の単色でバンド制限のある因子は特定の空間確率モデルによってモデル化される。レンダリング中、任意のサイズの部分空間画像は独立に作られており、両方の色(多スペクトルが望ましいが)と距離情報が一緒にバンプマップフィルター中で関連付けされている。この示されたモデルはBTFの高圧縮率を実現しており、サンプリングに基づく他の方法では実現不可能である。同時にこのモデルによってBTF計測モデルの欠損部分を再構成している。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Mathieu Salzmann Julien Pilet Slobodan Ilic Pascal Fua
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1866-1868 , 10 2007
仮想現実用途において、最近の進歩した現実そっくりの表現法に、双方向テクスチャー関数(Bidirectional Texture Function (BTF))があり、この関数は変化する照明条件や眺める方向に対しても自然なテクスチャーを有する外観を表現する。このような関数は、材料サンプル毎に数千に上る測定(画像)によって表現される。その結果得られたBTFのサイズには、グラフィカルな用途の直接的なレンダリングを除いても、この巨大なBTFデータ空間の圧縮は明らかに避けられない。本論文では新規で高速な確率論的モデルに基づくアルゴリズムによる本物そっくりのBTFモデルを可能にする超高圧縮のハードウエア上での実装を紹介する。この最終的な狙いは、オリジナルな画素レベルの測定を行わないで、同じ視的質感を与えることである。このアルゴリズムの解析ステップは、BTF空間のセグメンテーションとBTF表面の測光ステレオ法による距離マップ推定から始まる。これに続き、選択された部分空間カラーテクスチャー画像のスペクトルと空間の因子分解が行われる。単一の単色でバンド制限のある因子は特定の空間確率モデルによってモデル化される。レンダリング中、任意のサイズの部分空間画像は独立に作られており、両方の色(多スペクトルが望ましいが)と距離情報が一緒にバンプマップフィルター中で関連付けされている。この示されたモデルはBTFの高圧縮率を実現しており、サンプリングに基づく他の方法では実現不可能である。同時にこのモデルによってBTF計測モデルの欠損部分を再構成している。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Kiran S. Balagani Vir V. Phoha
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1866-1868 , 10 2007
Wong と Poonは、Chow と Liuによるツリー依存近似はベイズ誤り率の上界を最小化することで得られる。Wong と Poonの結果は、条件付エントロピーH(w|X)を拡張した結果として得られる。我々はH(w|X)を正しく拡張し、その意味を示す。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
P. Jonathon Phillips, Kevin W. Bowyer Patrick J. Flynn
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1869-1870 , 10 2007
CASIA 虹彩データ集合version 1.0 を編集し、瞳を均一濃度の円領域で置換した画像についてコメントする。このデータ集合は、バイオメトリック研究には、すでに使用しないことをお勧めしたが、画像の性質としてそれなりの理由がある場合は別である。さらに、ICE2005開発プロジェクトに関する経験から、虹彩認識実験の報告結果をお勧めする。
ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Huaijun Qiu, Edwin R. Hancock
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 1873-1890 , November 2007
本稿では、グラフノード間の往復時間特性をクラスタリングと埋め込みのために利用することを検討する。また、この特性を画像分割と多体動き追跡へ応用することも探索する。グラフのheatkernelにより決定される、グラフ上の緩やかなランダムウォークを検討の出発点とし、これをノード往復時間(即ち、2つのノードを往復するのにかかると想定される時間)を用いて特徴づける。このランダムウォークはグラフラプラシアンスペクトルから計算することができる。離散的グリーン関数(discrete Green’s function)を用いて、ラプラシアンスペクトルからノード往復時間を計算する方法を示す。この往復時間は、近接行列そのものよりも、データの近接に関する、より頑健な測量であると予想される。本稿ではこの往復時間の2つのアプリケーションについて探索する。第一のアプリケーションは、往復時間行列の最小固有値に対応する固有ベクトルを用いた画像分割法の開発である。この往復時間による分割法が、グループ間のコヒーレンスを弱めたまま、グループ内のコヒーレンスを高める特性があること、そして正規化カットよりも優れていることを示す。第二のアプリケーションは、往復時間に基づく埋め込みを用いた、頑健な多体動き追跡法の開発である。我々の埋め込み手順はグラフの往復時間を保持できる。またこの手法はカーネル主成分分析、ラプラシアン固有マップ、そして拡散マップに非常によく似ている。合成画像系列と実世界のビデオ画像系列の両方に対する実験結果を示し、我々の方法と他のいくつかの方法を比較する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Joshua Broadwater, Rama Chellappa
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 1891-1903 , November 2007
サブピクセルレベルの検出(画素よりも小さいターゲットの検出)は超スペクトル画像解析における難しい問題である。ターゲットサイズが画素よりも小さいため、検出アルゴリズムは、純粋にスペクトル情報のみに依存しなければならない。この目的のために長きにわたり様々なアルゴリズムが開発されてきたが、殆どの検出器は純粋に統計的なアプローチか、物理特性に基づいたアプローチのいずれかをとっている。我々は2つの新しいハイブリッド検出器を示す。提案する検出器は、背景のモデリングに物理特性と統計を利用することで、上記2つのアプローチの長所を利用する。提案する検出器が、よく知られたAMSD及びACEサブピクセルアルゴリズムを上回る性能を持つことを実験によって示す。本実験は、複数ターゲット、複数画像、そして複数の領域タイプを含む。特に複雑な背景における微弱なターゲットについて試験する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Michael S. Brown, Mingxuan Sun, Ruigang Yang, Lin Yun, W. Brent Seales
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 1904-1916 , November 2007
非一様な照明に照らされた、幾何的な歪みのあるドキュメントからの、二次元コンテンツの復元のためのフレームワークを示す。一般的に、テキストに基づいた文書画像処理アプローチでは、充分に可読なテキストを得るレベル、もしくはOCRが利用可能なレベルまで歪みを修正する必要がある。これに対し我々の方法は、非テキスト文書から、印刷されたオリジナルのコンテンツを復元することを対象とする。このため我々のフレームワークは、文書表面の三次元スキャンと高解像度画像を共に利用する。これは等角“スキュー補正”であり、文書表面のパラメトリックモデルを仮定せず、それゆえ任意の歪みを扱うことができる。三次元形状を用いて照明補正を行い、高解像度画像を利用して印刷されたコンテンツの勾配エッジと照明の勾配エッジを分離する。印刷コンテンツのエッジのみを用いることで、照明ノイズが顕著に少ない反射率画像を生成する。このアプローチでは、光源とその位置に対するいかなる仮定も設けない。幾何的及び測光学的な補正を組み合わせることにより、最終的な出力画像を得る。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Joseph J. LaViola Jr., Robert C. Zeleznik
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 1917-1926 , November 2007
筆記者非依存の認識エンジンを利用することで、筆記者依存の記号認識器の訓練要求を削減しつつ精度と速度を向上させる実用的な技法を示す。我々の筆記者依存の認識器はAdaブースト学習アルゴリズムに基づいた二値識別器の組を利用する。組み合わせ可能な記号比較の対それぞれに対して、一つの識別器を割り当てる。各識別器は低度の学習器の組からなる。ひとつは筆記者非依存の手書き文字認識器である。オンライン認識では、更に筆記者依存認識器の出力からn個の最良の結果を用いる。これにより組み合わせ可能な記号の組を間引きし、必要とされる二値識別器の数を減らす。本稿では我々の識別器で使用される幾何的及び統計的特徴と、全組識別アルゴリズムを説明する。筆記者非依存認識エンジンを筆記者依存認識器に組み込むことによる、精度、速度、そしてユーザの訓練時間に対する効果を定量化するための実験を行い、その結果を示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Ajmal Mian, Mohammed Bennamoun, Robyn Owens
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 1927-1943 , November 2007
本稿で我々は、完全自動顔認識アルゴリズムを示し、その性能をFRGC v2.0データを利用して例証する。我々のアルゴリズムはマルチモーダル(二次元および三次元)であり、ハイブリッド(特徴に基づく形式と、全体論的な形式による)マッチングにより、高い効率と表情の変化に対する頑健性を実現する。自動的に検出される単一の点に基づいた新しいアプローチとHotelling変換を用いることで、三次元の顔の姿勢とそのテクスチャを自動的に修正する。認識対象の母数が大きい場合でも高効率を達成するために、新しい三次元球面顔表現(Spherical Face Representation:SFR)をSIFT記述子との結合に用いて、処理の初期段階で高速に多数の候補顔画像を除外するための棄却識別器を構成する。この処理で残った顔画像を、新しい領域に基づいたマッチングアプローチにより検証する。本アプローチは自動的に、目から額にかけての領域と、鼻領域とを分離する。鼻領域は表情の変化に対して比較的安定である。修正ICPアルゴリズムを用いて鼻領域を目—額領域と別個にマッチングする。高精度を達成するために全てのマッチングエンジンの結果をメトリックレベルで融合する。FRGCベンチマークを用いて我々の方法を他のアルゴリズムと比較する。我々のマルチモーダルハイブリッドアルゴリズムは、自然な表情及び不自然な表情それぞれに対して、0.001%FARにおける検証率99.74%および98.31%を、同定率99.02%および95.37%を達成し、他のアルゴリズムよりも良い性能を示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Inderjit S. Dhillon, Yuqiang Guan, Brian Kulis
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 1944-1957 , November 2007
近年、線形分離できないデータを扱うためのクラスタリングアルゴリズムが多数提案されている。これらのうちの主なものとしては、スペクトルクラスタリングとカーネルk平均法がある。本稿では、一見異なって見えるこれらの方法で用いられる目的関数の間の等価性について議論する。特に一般的重み付きカーネルk平均目的関数は、重み付きグラフクラスタリング目的関数と数学的に等価であることを論ずる。この等価性を用いて高速かつ高品質なマルチレベルアルゴリズムを開発する。このアルゴリズムにより、popular ratio cut, 正規化カット、そして比率関連基準などの様々な重み付きグラフクラスタリング目的関数を直接最適化できる。これによりグラフクラスタリング問題のための固有ベクトルを計算する必要がなくなる。大きなグラフに対して固有ベクトルを計算することは非常に困難である。Meitsなどの以前のマルチレベルグラフ分割法は、同じサイズのクラスタという制約に苦しめられてきた。我々のマルチレベルアルゴリズムは、カーネルk平均法を用いて重み付きグラフカットを最適化することで、この制約を取り払う。実験結果により我々のマルチレベルアルゴリズムが、速度、メモリ使用、そして品質の面で、最新のスペクトルクラスタリングアルゴリズムを凌ぐ性能を持つことを示す。画像分割、ソーシャルネットワーク解析、そして遺伝子ネットワーク解析などの大規模なクラスタリングに対して、我々のアルゴリズムが適用可能であることを例証する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Alessandro Bissacco, Alessandro Chiuso, Stefano Soatto
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 1958-1972 , November 2007
本稿で我々は意思決定問題を扱う。特にデータの時系列を比較するための、動的モデルの世界における識別と認識について論じる。シーン中の人間の動き認識のためのアプリケーションを開発するために、非ガウシアンプロセスにより駆動されるモデル、安定及び低安定性(周期性)モデル、最小及び非最小位相モデル、そして線形動力学を含むモデルのクラスを検討する。このためには、既存の学習アルゴリズム及びシステム同定アルゴリズムを拡張し、データの高次統計量を考慮に入れることで、周期モードと非最小位相の振舞いを扱えるようにする必要がある。モデルが同定されれば、入力の分布、モデルの動力学、及び初期条件を含んだ、カーネルに基くモデル間のコード距離を定義できる。最適移動問題を効率的に解くことで計算される2つの任意の(非ガウシアン)分布間の新しいカーネル定義により、上記コード距離の定義が可能となる。我々のモデル選択、推測アルゴリズム、そして人間の動き合成(学習済みモデルのサンプルパス)と認識(計算された距離の最近傍識別)における距離を検証する。周期的な傾向や、非最小位相の振舞い、そして非ガウシアン入力分布を考慮に入れることで、過去のデータを比較する必要があるようなアプリケーションを含む、より広範な対象に、我々の研究成果を応用することが可能である。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Gehua Yang, Charles V. Stewart, Michal Sofka, Chia-Ling Tsai
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 1973-1989 , November 2007
医療画像、自然画像および人工的なシーンなどの広範な画像を整列することができる、二次元画像対の自動登録アルゴリズムを開発する。このアルゴリズムは小規模のオーバーラップ、相当量の方向ずれ及びサイズの差異、大きな照明の変化、そしてシーン内の物理的な変化に対応する能力を持つ必要がある。このアルゴリズムの重要なコンポーネントは、オーバーラップを持たない画像対や、良好に整列するには違いがありすぎる画像対を自動的に棄却する能力である。初期化、変形パラメタの推定、そして推定の良否の自動決定のための方法を含む完全なアルゴリズムを提案する。画像対から抽出され、マッチングされたキーポイント(keypoint)を用いて初期類似性変形推定を生成する。この推定は小領域に対して高精度である。これらの初期推定をランク関数で順位付けし、個別に連続してテストする。マルチスケール特徴のマッチングによる特徴双対ブートストラップICPアルゴリズムを用いて、それぞれの推定をリファインする。整列精度、推定の安定性、そして拘束条件の整合性の測量を組み合わせた、3つの部分からなる決定基準により、このリファインされた移動推定が正しいかどうかを判定する。22の困難な画像対データにおける実験結果により、本アルゴリズムが22の画像対のうち19を効果的に整列できること、そして99.8%の偽整列を棄却できることを示す。これらの偽整列は、可能なすべての画像対を試験する段階で生じるものである。本アルゴリズムはキーポイントマッチングのみを用いるアルゴリズムを大きく上回る性能を示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Roger Trias-Sanz, Marc Pierrot-Deseilligny, Jean Louchet, Georges Stamon
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 1990-2000 , November 2007
幾何的に不正確なグラフ中のエッジを、画像中の幾何的に正確且つ明確な境界にマッチングするための2つのアルゴリズムを提案する。ここでのグラフは、初期的な分割により画像をオブジェクトに分割するためのものである。この方法を用いることで、画像を不正確な外部データにより記述されるオブジェクトに分解することができ、画像分割問題をより簡単にできる。これらの方法を地籍図データの地理参照航空画像への登録の問題に適用する。(会計情報と実際の土地使用との比較)
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Gary A. Atkinson, Edwin R. Hancock
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 2001-2017 , November 2007
本稿では偏光処理と2つのビューからのシェーディング情報を用いた三次元表面再構築のための新しい方法を示す。本方法は標準的なデジタルカメラを用いて得られる偏光データと線形偏光に基づくものである。フレネル理論を用いて元画像を処理し、表面法線の初期推定を得る。このときこの表面が拡散型の反射タイプであると仮定する。このアイディアに基づいて本稿では表面再構成問題に対する2つの新しい成果を示す。第一の成果はシェーディング情報を利用することによる表面法線推定の強化である。ロバスト統計を用いて、各画素の計測された輝度がどのように表面方向に依存するかを推定することで、シェーディング情報を得る。これらによりオブジェクト表面の材質反射率関数(material reflectance function)を推定する。そしてこの推定を用いて表面法線のリファインを行う。第二の成果はこのリファインされた表面法線の推定を用いて、オブジェクトの二つのビューの間の関連性を構築することである。このためにまず、それぞれのビューからいくつかのパッチを抽出し、表面法線推定と局所位相幾何的特性に基づいて、エネルギー汎関数を最小化することで、これらのパッチを整列する。次に、さまざまなパッチ対の最適な整列パラメタを用いて画像対の対応を決定する。この処理により、あいまいさの無い表面法線の場を形成し、これにより表面の奥行き情報を復元する。我々の技法は、平滑かつ、金属材質でない表面に最も適している。この技法は既存の画像対応アルゴリズムを補完するものであり、画像間の対応付けを得るために顕在表面特徴を抽出する必要がない。大規模な実験により、再構成されたオブジェクトと反射率関数を、それぞれの正解と比較する。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Daisuke Miyazaki, Katsushi Ikeuchi
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 2018-2030 , November 2007
これまでのところ、ガラスやアクリルなどの透明オブジェクトの三次元形状の計測のための方法は、わずかな数しか提案されていない。本稿では照明の偏光状態の解析により透明オブジェクトの表面形状の推定を行うための、新しい方法を提案する。既存方法は、透明オブジェクトの内部で起こる光の反射、屈折、そして伝播を完全には考慮に入れていなかった。我々は、偏光レイトレーシング法を用いることで、光の経路と偏光状態の両方を計算する。偏光レイトレーシングは通常のレイトレーシングと、ミュラー計算法の組み合わせである。通常のレイトレーシングでは光束の軌線を計算する。またミュラー計算法は光の偏光状態を計算する。まず透明オブジェクトの形状の初期値を決め、次に形状を変更することで入力偏光データと偏光レイトレーシングによりレンダリングされた偏光データ差異を最小化する。最終的に、反復計算が収束したときにオブジェクト形状が得られる。実際の透明オブジェクトで計測することで、本手法の評価を行う。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Cristian Sminchisescu, Atul Kanaujia, Dimitris N. Metaxas
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 2030-2044 , November 2007
BM3E(Conditional Bayesian Mixture of Experts Markov Model)、即ちエキスパートマルコフモデルの条件付きベイズ混合を紹介する。これは画像を用いた選択的追跡における整合的な確率論的推定のための手法である。本モデルにより、時間的推定および不確実な推測の諸問題を扱う。またこのモデルは新しいボトムアップアプローチによるものであり、現在一般的なカルマンフィルタもしくは分子フィルタを用いて推定される生成的モデルと対をなすものである。実行時に非線形生成観測モデルの逆変換を行う代わりに、画像の観測の符号化を行う記述子から、複雑な状態分布を直接、協調的に予測する。この観測は、多くの場合、Bag-of-feature型の大域画像ヒストグラムもしくは、一般的な空間グリッドで計算される記述子となる。これらを条件付きグラフィカルモデルに統合することで、時間的な平滑性拘束条件を強化し、整合的に不確実性を管理することができる。本アルゴリズムは、分布の疎密性、混合モデリング、そして高次元連続状態空間における効率的な計算のための非線形次元性削減を結合するものである。本研究の主な成果は以下の3つである。(1)連続な時間チェーンモデルにおける特殊な推測のための密度伝播ルールを確立した。(2) エキスパートモデルのコンパクトな条件付きベイズ混合に基づいた、フィードフォワード、多値コンテキストマッピング(マルチモーダル状態分布)の学習ための、柔軟な、教師あり及び教師なしアルゴリズムを提案した。(3)単眼ビデオ画像系列における三次元空間の人間の動きの再構成において、本フレームワークを実験的に検証した。実際の動きと、モーションキャプチャーに基づいた系列の両方に対する試験により、最近傍法、回帰法、そして構造化予測法に比べて顕著な性能向上を示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Eli Shechtman, Michal Irani
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 2045-2056 , November 2007
本稿では振る舞いに基づいた類似性尺度を紹介する。これにより2つの異なるビデオ系列の、二つの時空間強度パターンが、類似した潜在的動き場によるものであるかどうかを判定する。これは、潜在的な動きを明示的に計算することなく画像の強度情報を用いて直接行うことができる。このような尺度により、ビデオ系列の類似性を検出することが可能となる。たとえば同じ種類の活動を行っている、異なる服装の人を検出することができる。この方式は、前景/背景の分離、活動の事前の学習、動き推定、そして追跡のいずれも必要としない。この振る舞いに基づいた類似性尺度を用いることで、二次元画像補正を三次元の時空間領域に拡張し、これにより動的な振る舞いと動きを関連付けることができる。短い時空間ビデオ系列(小ビデオクリップ)を全画像系列に対して、三次元(画像の縦横二次元と時間軸の一次元)全てにおいて“関連付ける”。ピーク相関値は類似した動的な振る舞いのビデオ位置に一致する。たとえ複数の複雑な動きがカメラの視野の中で同時に起きたとしても、我々のアプローチはビデオ系列中の非常に複雑な振る舞い(例えば弾丸の動き、プールへの飛び込み、流れる水など)を検出できる。更に、関連する振る舞いの、スケール及び方位の小規模変化に対する本アプローチの頑健性を示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Pew-Thian Yap, Raveendran Paramesran, Seng-Huat Ong
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 2057-2062 , November 2007
ハーン(Hahn)モメントを用いることによって、近年導入されたチェビシェフ(Chebyshev)モメント及びクラウチョウク(Krawtchouk)モメントがどのように統一的に理解できるかを示す。適当なセッティングにより、チェビシェフ及びクラウチョウクモメントが、ハーンモメントの特定のクラスとして得られる。そしてこれは、ハーンモメントが、上記2つのモメントの全ての特性を包含していることを暗に示している。本稿は2つの目的を持つ。1)チェビシェフ及びクラウチョウクモメントの一般化としてのハーンモメントが、大域および局所特徴抽出にどのように利用可能かを示す。2)不規則にサンプリングされた信号の局所構造の解析のための正規化畳み込みフレームワークに対して、ハーンモメントがどのように利用可能であるのかを示す。
TS
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Pranab Mohanty, Sudeep Sarkar, Rangachar Kasturi,
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. pp. 2065-2078 , 12 2007
画像のマッチングスコアからテンプレートを再生する試みは、どんなバイオメトリック認証システムのセキュリティやプライバシーにも関連している。線形法を利用して、マッチングスコアから顔を再生する新規な原理を提案する。まず、与えられた顔認識アルゴリズムの振る舞いをアフィン変換によってモデル化する。このモデル化の目標は2つの顔を1つの認識アルゴリズムで認識し、対応する2点間の距離によってアフィン空間内の距離として近似することである。空間が与えられたとき独立した画像集合からのテンプレートと登録テンプレートのマッチングが1度だけ実行され、このマッチングスコアが記録される。このスコアは目的の対象物を近似アフィン(直交)空間に実装するために利用する。目的とする対象空間のアフィン空間内の座標値が与えられると、逆アフィン変換によって元のテンプレートが復元される。我々のアイデアを、3つの基本的に異なるアルゴリズムを使って説明する;マハラノビス・コサイン距離尺度による主成分分析(PCA)、ベイズ法による個人内・個人間識別器(BIC)、および特徴量に基づく市販アルゴリズム。未知の顔画像と、用意されている顔画像の独立性を示すために2つの独立したデータベースから顔のテンプレートを採用した;Face Recognition Grand Challenge (FRGC) および Facial Recognition Technology (FERET)のデータベースである。市販システムでは1196のサンプルに対し、誤認識率1%、真の認識率99%の条件で、600回の不法侵入試行すると73%の侵入成功率があることが判った。類似の条件で、ベイズ法に基づく方法と、PCA法では、それぞれ72%と100%の成功率が期待される。スコアを3レベルに分類し、69%、68%、49%の侵入確率が得られたが、これは我々のシステムが攻撃に対してより高いロバスト性を有することを示している。今回の提案法は、山登り法(Hill climb)法による攻撃に比べ、市販システムでは47%侵入され易いこともわかった。ここに提案するように、別個の顔からテンプレートを再構築することによって、同じ顔が何度も利用される山登り法に比べ、より厳しい脆弱性評価を示している。さらに、提案手法による利用者の顔テンプレートの再構成可能性は、プライバシーの懸念も増加させている。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Pushmeet Kohli Philip H. S. Torr
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2079-2088 , 12 2007
本論文では、st-mincut/max-flow問題を解くために高速で全自動のアルゴリズムを提案する。コンピュータビジョンの画像セグメンテーションのような動的に変化しつつあるMRFモデルのための解を得るため、本アルゴリズムが如何に効率よくMAP解を計算できるかを示そう。特に、グラフにおけるmax-flow問題の解が与えられたとき、グラフが変更された場合、この動的アルゴリズムは最大フローを効率よく計算できる。必要な計算時間はおおよそグラフのエッジの重みの変更分に比例する。我々のアルゴリズムでは、グラフの変更量が少ないときは、この動的アルゴリズムは既存のグラフカットアルゴリズム中の最良のものに比べても遥かに高速であることが実験的に確認された。まず、以下の課題に適用した。これはビデオ中のオブジェクトと背景のセグメンテーション問題である。もちろん、用途はこのような問題に限らない。アルゴリズムは汎用的であり、動的に変化する他の用途にも類似の改善が期待できる。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Gustavo Carneiro Allan D. Jepson
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2089-2104 , 12 2007
剛体的変型と照明系において、局所的画像特徴量が保存され再現性が保たれるように設計された。最新の画像特徴量が高い再現性を持っていたとしても、この局所的見かけだけでは信頼性のあるマッチングを実行するには情報が不足であり、その結果、データ対応付け計算で、多くのミスマッチが対応集合間に形成される。その結果、一般的に大局的空間構成に基づく幾何学的フィルターがミスマッチを減らすために利用される。しかし、この方法は拒絶されたミスマッチへの効率と、非剛性変型のロバスト性のトレードオフとなる。本稿では、局所特徴の準局所的構成に基づく非剛体変型にもロバストな、それでいて、拒絶ミスマッチに対する効率を犠牲にすることの無い、2つの幾何学的フィルターを提案する。我々の結果は、グローバルな空間的構成の特徴量によるミスマッチ除去能力を有するHough変換と比較された。この比較から、我々の方法はより優れており、剛体変形と非剛体変形のミスマッチ除去を適当な計算時間内に実施する。最後に、特徴量間の類似度だけでなく、準局所的配置を利用した最終的確認にこの手法を組み込んだ確率的認識システムを構築するための方法を示した。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Pierre Chainais
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2105-2119 , 12 2007
無限分割可能なカスケード(Infinitely Divisible Cascades (IDC))とよばれる大きなクラスによる確率論的自然画像のモデルを提案する。IDCは当初、水力発電の乱流現象を断続的にモデル化したマルチフラクタルな時系列として一次元的に扱うために導入された。我々は無限分割可能なスカラーを1〜N次元に拡張し、文献(1)の十分発達した乱流中に関連するモデルについて解説した。本稿では2次元の場合について述べる。IDCは自然画像を扱うのに適しているように見える。これはほとんど通常の性質を保持しており、文献で知られているいくつかの独立な理論的実験的手法と整合性があるようだ。IDCの応用で興味ある点としてテクスチャー合成手続きがあることを指摘しておく。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Feng Tang Ryan Crabb Hai Tao
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2120-2134 , 12 2007
効率的でコンパクトな画像表現はコンピュータビジョンにおける基本的問題である。本稿では、1つの、あるいは、多数の画像を表現するためにHaar-Likeな2値関数を使うことを提案する。このような箱型関数の望ましい性質は画像に関する内積演算は極めて効率的であることである。画像のモデル化のための2つの互いに関連する新規な部分空間法を提案する;非直交性2値空間法(NBS)、および、2値主成分分析法(B-PCA)。NBSは2値箱型関数によって直接張られており、画像表現に利用された場合、高速テンプレートマッチングやその他の画像の応用に利用できる。B-PCAはNBSとPCAの両方の特長(高速演算とデータ構造情報のモデル化)を兼ねた部分構造空間である。新規なPCAに導かれるNBS法によってB-PCAベクトルが得られる。また、BPCAに基づくベクトルは互にほぼ直交している。その結果、非直交ベクトル分解の過程において、計算負荷の大きい擬似逆投影演算は、大きな距離歪みを伴うことなく直接内積で近似できる。実画像による実験で、画像マッチングにおいて有望な性能が得られたことから、再生や認識の課題には顕著な演算速度向上が期待される。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Annabella Astorino Antonio Fuduli
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2135-2142 , 12 2007
識別問題にTSVM (Transductive Support Vector Machine)を参照しながら非平滑最適化法を応用する。ここでは、対象とする決定関数は非凸で非微分可能で、最小化困難な場合を想定する。我々は2値識別問題の文献から抽出した標準的テスト問題をこの手法で数値的に解いた結果を示す。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Effrosyni Kokiopoulou Yousef Saad
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2143-2156 , 12 2007
本論文は直交投影による次元の削減問題を考察する。この提案手法の主な特徴は、対象データに固有な近傍幾何情報と全体的情報の両方を保存することを目的にしていることである。とくに、直交近傍保存投影法(ONPP)というデータの関連性(affinity)グラフをまず構成することから始めるが、これはある意味で、局所線形埋め込み法(Locally Linear Embedding (LLE))に似ている。しかし、入力空間と縮退空間の写像が間接的な標準的LLE とは異なり、ONPPは2つの間の明示的な線形写像を利用する。その結果、新しいデータを扱うとき直接変換でき、単純な線形変換となる。また、ONPPのカーネル変化の定義の仕方を示すとともに、教師付き学習の数値実験に応用する方法を示し、数少ない競合手法との性能比較を示す。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Datong Chen Jie Yang
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2157-2169 , 12 2007
本論文はビデオから動的に学習するロバストな形状空間変形法によるオブジェクト追跡法を紹介する。オブジェクト追跡において人間が確信度の異なる領域に分割し、領域確信度の推定から動的に形状が空間的に変形するモデルの利用を提案する。ある領域の確信度は,特長量空間の領域の識別能力と隠蔽部の確率を反映するように見積もられる。各フレームにおいて動的に領域確信度を学習するよう、新規な階層的モンテカルロ法を提案する。このアルゴリズムは2段階のモンテカルロ法から成っており、各レベルにおいて2つの粒子フィルタリングからなる効果の高い確信度領域をビデオフレームの時間的な整合性を利用して抽出できる手続きを有している。その後、動的空間の変形マップが高確信度領域から生成され、これがオブジェクトの見かけモデルを適応させるために利用され、ビデオ画像の隣接フレームの対応関係を捜す追跡アルゴリズムへとガイドするのに利用される。この提案法をビデオ捜索用途としての可能性を実証する。この提案法は他の多くの追跡システムを組合せ、このシステムのロバスト性を更に高めることができる。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Sergio Hernandez-Marin Andrew M. Wallace Gavin J. Gibson
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2170-2180 , 12 2007
時間相関型単フォトン計数およびバースト照射レーザーデータを利用して距離輪郭画像とその識別を行った。一般的に、求められる課題は標的表面からの反射光の数や位置や強度を評価するために、フォトンを計数するか、光強度の積分を取るかのいずれかである。最終目的はレーザー撮像システムでオブジェクトの3D 表面を完全に特徴付けることである。著者たちは画素の処理をするための統一的な理論を示したが、これはデータに含まれるあらゆるタイプの不確実性を注意深く、かつ、完全に処理できるベイズ法に基づく方法である。我々は、逆ジャンプ・マルコフ鎖モンテカルロ法を利用し、パラメータの事後分布を評価し、異なるディメンジョンの空間を探索した。さらに、遅延拒絶ステップを使って生成されたマルコフ鎖と、異なる提案分布を混合させることを可能にした。この手法はシミュレーションデータと実データの両方に対して実証された。このことから、反射パラメータには高精度に至るまで推定可能であることが示された。さらに、本手法は遠方でも近距離でも実用的であることを示された。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Marc Droske Martin Rumpf
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2181-2194 , 12 2007
多様な画像の位置合せは、位置合せ処理直前にノイズ除去と構造セグメンテーションを行っておくことで著しい性能向上を示す。この逆も成り立つ。特に、異なる画像様式の場合、セグメンテーションは顕著にロバストになる。画像処理の基本的部分は関連性が強い。実際、多様な方法に提供してみる;対応するエッジの検出、エッジ保存性ノイズ除去、非剛体変形後のエッジ保存性ノイズ除去と形態位置合せを組合せ、構造的対応場関係を有する画像対などに。この画像関数の形態はエッジ集合からなる特異部分と、レベル集合のアンサンブルに垂直な場で表現できる定常部分とから構成される。Mumford-Shah型の自由非連結問題を変形した特異形態処理と、対応エッジのマッチング問題に適用した。定常形態は第2適用で定量化できたが、これは変形垂直場と、変形位置での垂直場を比較する。最後に、非線形弾性エネルギーが変形量を制御し、滑らかさと圧入量を制御する。位相場が基になっている多段スケール法によって効果的で効率的なアルゴリズムが導ける。数値実験から、本手法のロバスト性が確認され、医用画像への応用例を示した。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Anupama Jagannathan Eric. L. Miller
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2195-2204 , 12 2007
新規なパラメータを使わないグラフ・モルフォロジーに基づくセグメンテーションアルゴリズムが提案され、これが3D三角形メッシュを、実態の対象物の物理的部品に対応する分離された部分メッシュに分離する問題に適用するために提案された。ここで提案するCurvednessは並進・回転不変の形状記述子であり、入力されるすべての三角化近似表現(triangulation)の頂点について計算される。Curvednessの値がはずれ値の場合は、繰返し膨張処理や、モルフォロジーフィルタリングによって、複数の、分離され、最大限に連結した部分メッシュに分割される:例えばその結果、各部分メッシュは類似のcurvedness値を持つ頂点集合となり、分離された部分メッシュには顕著に異なるcurvedness値の頂点が含まれることになる。多数の複雑なオブジェクトを用いた三角形分割を使った実験では、本アルゴリズムのロバスト性と効率性が実証され、多くの最新のメッシュセグメンテーションアルゴリズムと良い対比になる。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Chen Liang Kwan-Yee K. Wong
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2205-2216 , 12 2007
本論文ではシルエットからオブジェクト表面を復元する課題について述べる。他の著者による従来の研究は、双対原理に基づくと、理論的には表面の点は、オブジェクトの接平面に双対として復元される。実際問題として、接平面空間中の接底を同定することは、離散データの集合を与えられたとしても、それほど単純ではない。この論文の新規な主要点は、はっきり定義された局所接底の同定において、エピポーラパラメータ化を導入したことである。これによって、現在の双対空間復元法の応用範囲を、オブジェクトのトポロジーに特別な仮定を設けなくても、かなり複雑な形状にまで拡張できる。この手法の妥当性を、人工的データと実世界のデータの両方に適用し、他の有名な形状復元アルゴリズムと定量的定性的に比較した。実験から、我々の提案手法は、複雑な形状に対しても適当なロバスト性を保ちながら、より正確な推定が可能なことが実証された。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Yue Wang John Oliensis Richard Hartley
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2217-2233 , 12 2007
Sturm/Triggsアルゴリズムの反復拡張性についての最初で完全な理論的収束性解析を示す。 最も単純な拡張のSIESTAにおいては無意味な結果に収束することを示そう。もう一つの拡張も類似の問題点を持っており、“バランスの取れた”反復法での実験では収束に失敗するか、あるいは、不安定化する。これらの問題を回避できるCIESTAアルゴリズムを提案する。これは、たった一つ余分に必要な簡単な計算以外はSIESTAと同一である。弱い仮定を置くことで、CIESTAは反復しながら誤差を減少させることが出来、最終的に定点に近付く。もう一つの仮定を付加することで、収束がユニークであることを証明する。この結論から、CIESTAは、他の処理手法に比べ良い結果が出ることが確認された。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Xin Geng Zhi-Hua Zhou, Kate Smith-Miles
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2234-2240 , 12 2007
ほとんどの顔認識は、同一人物かどうか、表情、性別、などの顔の変化の認識を目標としているが、自動的な年齢認識はほとんどなされてない。他の表情の変化に比べ、加齢による変化はユニークな特徴を持っており、そのため推定が難しくなっている。本論文はAGES (AGing pattErn Subspace)と呼ばれる自動年齢推定法を提案する。基本的には加齢パターンをモデル化する方法であり、表現された部分空間中で年齢順に典型的な顔パターンを並べたものである。未知の顔パターンは、この部分空間に投影され、最小誤差で、この顔が再生成され、年齢パターン中での位置がその顔の年齢となる。実験ではAGESとその変動が、いくつかの既存の年齢推定法(WAS, AAS)と比較され、確立された識別法である(kNN, BP, C4.5, and SVM)とも比較された。さらに、人間による年齢認知能力との比較も行われた。その結果、AGESは他の手法のどれよりも優れていただけでなく、人間とも同等レベルであった。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
George Vogiatzis Carlos Hernandez Esteban Philip H. S. Torr Roberto Cipolla
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2241-2246 , 12 2007
本論文は多方向ステレオ問題のための立体要素(volumetric)導出の定式化を提案するが、これはグラフカットを使ったグローバルな最適化計算による制御の影響を受け易い。我々の手法は3D空間を「オブジェクト」と「空」の2つのラベル付け空間に最適分割するアルゴリズムを捜すのが目的であり、次の2項を有するコスト関数を持っている:(1)2つの領域の間の境界を、画像的に整合性のある場所を通って無理やり設定する項と、(2)オブジェクト領域を膨張させる項とから成る。第1項の隠蔽効果を考慮に入れるため、正規化交差相関に基づく隠蔽にロバストな画像的に整合性のある尺度を導入するが、これには復元されたオブジェクトに関して幾何学的な仮定は必要ない。グローバルに最適な3D分割は、重みつきグラフの最小カット解として得られる。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Lena Gorelick Moshe Blank Eli Shechtman Michal Irani Ronen Basri
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2247-2253 , 12 2007
ビデオ画像中の人間の動きは、動いている胴体に繋がった手足が突き出たシルエットのように見える。人の動きを時空空間におけるシルエットによって誘導される3次元の形状と見なそう。最新の手法である2D形状を解析し、これを一般化して3次元の空時の動き形状に適用する。この方法は、局所的時空的に顕著な特徴量を抽出するために、ポアソン方程式の解の特徴を利用している。これらの特徴量が動き認識や、検出・識別に有用であることを示す。この手法は高速で、ビデオの整列は不要で、背景が既知の多くの用途に応用できる。さらに、本手法が部分的隠蔽や、非剛体変形や、視点や大きさの大きな変化にも、動きの不規則な場合にも、ビデオ品質が低い場合にもロバストであることを実証する。
Ej
Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.