[前の年]

IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.36, No.1

曲線と表面の曲率に基づく展開のための形態学的アプローチ
A Morphological Approach to Curvature-Based Evolution of Curves and Surfaces

Marquez-Neila, Pablo Universidad Politécnica de Madrid, Boadilla del Monte Baumela, Luis Alvarez, Luis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 1, pp. 2 - 17 , January 2014

Keywords: Computer vision, curve evolution, level-sets, mathematical morphology, morphological snakes

微分演算子(differential operator)と形態演算子(morphological operator)とを関連付ける、高速かつ安定な輪郭展開を目的とする形式的で理論的な裏付けを持つアプローチの新しい結果を紹介する。輪郭展開アルゴリズム(contour evolution algorithm)は、コンピュータビジョンにおける輪郭検出や追跡において頻繁に利用されている。偏微分方程式とレベルセット法に基づく一般的な解法は、積分の数値解析を必要とするが、これは計算コストが高く安定性に欠ける恐れがある。我々は、任意の次元の平面に対して有効な曲率形態演算子に基づく、輪郭展開への形態学的アプローチを示す。我々は輪郭展開偏微分方程式の数値的解法を、二値のレベルセットに対して定義された形態演算子を逐次的に作用させると共に、等価な微小変動(infinitesimal behavior)により近似する。これらの演算子は非常に高速で、数値的安定性(numerical stability)の問題とは無縁であり、レベルセット関数に悪影響を及ぼさないことから、再初期化の必要性がない。更に、これらの演算子は複雑な数値解析アルゴリズムを必要としないことから、実装が容易である。我々は、測地的動的輪郭(geodesic active contour)、境界を持たない動的輪郭、そしてターボピクセル(turbopixel)の形態学的実装(morphological implementation)が与えられた条件下で、提案手法の有効性を検証する。形態学的実装は従来の数値的解法よりも遥かに単純、高速、且つ安定でありながら、いずれの実験においても後者と等価な解へと収束した。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


混雑した状況下における異常の検知と位置特定
Anomaly Detection and Localization in Crowded Scenes

Li, Weixin University of California, San Diego, La Jolla Mahadevan, Vijay Vasconcelos, Nuno

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 1, pp. 18 - 32 , January 2014

Keywords: Video analysis, anomaly detection, center-surround saliency, crowded scene, dynamic texture, surveillance

混雑した状況下における異常行動の検知と位置特定の課題を扱い、時間的異常と空間的異常との結合検知器を提案する。提案する検出器は、動的テクスチャの混合モデルのセットを用い、外観と運動との両方を説明するビデオ表現に基づいて構築されている。これらのモデルは、1) 空間的な顕著性スコアを生成する中心周辺判別的顕著性検出器(center-surround discriminant saliency detector)、2) 時間的な顕著性スコアを生成する、訓練データから学習された正常動作のモデル、を実現するために利用される。その後、対象とする領域を徐々に拡大しながら求めたこれらの演算子の得点を勘案し、時間的、空間的異常マップを複数の空間的スケールにおいて定義する。複数のスケールでのスコアは、条件付き確率場のポテンシャルとして働くことで、異常判定の大域的な安定性を保証する。混雑した歩道のデータセットを用い、提案する異常検出器を評価する。このデータセットと他のデータセットとを用いた実験から、提案手法が最高水準の異常検出性能を持つことが示される。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


二値埋め込みのための非対称距離
Asymmetric Distances for Binary Embeddings

Gordo, Albert Universitat Autònoma de Barcelona, Barcelona Perronnin, Florent Gong, Yunchao Lazebnik, Svetlana

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 1, pp. 33 - 47 , January 2014

Keywords: Large-scale retrieval, asymmetric distances, binary codes

例示による大規模な画像検索において、画像シグネチャ(image signature)を二値空間に埋め込むことは、データ圧縮と検索効率の二つの観点で有効である。大多数の埋め込みアルゴリズムではクエリとデータベースのシグネチャを共に二値化しているが、厳密にはこれは必要条件でないことが知られている。事実、データベースシグネチャを二値化し、クエリシグネチャを二値化しない非対称な手法であっても、先述した二つの恩恵を享受できるだけでなく、より高い精度をも実現できる場合がある。本稿において我々は、広範な埋め込み技術に適用できる二種類の一般化非対称距離を提案する。上述の埋め込み手法には、局所性鋭敏型ハッシュ(locality sensitive hashing)、局所性鋭敏型二値コード(locality sensitive binary codes)、スペクトルハッシュ(spectral hashing)、PCA埋め込み(Principal Component Analysis Embedding, PCAE)、ランダム回転付きPCAE、そして反復量子化付きPCAE、が含まれる。我々は合計で100万画像を格納する4つの公開ベンチマークデータセットを用いた実験により、提案する非対称距離が対称なハミング距離と比較して、全ての二値埋め込み手法に対して大幅な性能向上を安定的にもたらすことを示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ランダムドット積グラフのための安定した潜在位置推定と頂点分類
Consistent Latent Position Estimation and Vertex Classification for Random Dot Product Graphs

Sussman, Daniel L. Johns Hopkins University, Baltimore Tang, Minh Priebe, Carey E.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 1, pp. 48 - 57 , January 2014

Keywords: $(k)$-nearest-neighbor, Random graph, latent space model, universal consistency, Encyclopedias, Estimation, Internet, Pattern recognition, Random variables, Stochastic processes, Vectors

本稿において我々は、隣接行列(adjacency matrix)の固有値分解を用いることで、潜在位置がある分布から独立同一に分布する条件下において、ランダムドット積グラフ(random dot product graph)の潜在位置を安定的に推定できることを示す。クラスラベルが観測された頂点数が無限に近づくにつれ、残った頂点の分類誤差はk最近傍決定則を用いることでベイズ最適に収束することを示す。我々は提案手法をシミュレーションデータとWikipediaから導出したグラフを用いて評価する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチターゲット追跡のための連続的エネルギー最小化
Continuous Energy Minimization for Multitarget Tracking

Milan, Anton Technische Universität Darmstadt, Darmstadt Roth, Stefan Schindler, Konrad

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 1, pp. 58 - 72 , January 2014

Keywords: Multiobject tracking, continuous optimization, tracking-by-detection, visual surveillance

マルチターゲット追跡の分野における近年の進展の多くは、ある時間窓(temporal window)において(準)最適な軌跡の集合を見つけることに主眼を置いている。軌跡仮説が取りうる大規模な空間を扱うために、ある種のデータ駆動離散化ないし正規離散化(regular discretization)によって有限集合に縮退することが一般的である。本稿において我々は、マルチターゲット追跡問題を連続エネルギー最小化問題として定式化する新たなアプローチを提案する。近年のアプローチとは対照的に、大域最適化が可能なエネルギーではなく、マルチターゲット追跡問題をより完全に表現できるエネルギーの設計に焦点を当てる。提案するエネルギーは画像から得られる情報(image evidence)の他に、追跡対象の動力学、相互排他、そして追跡の持続性などの物理的制約を考慮する。これに加え、部分画像から得られる情報は明示的な遮蔽推定(explicit occlusion reasoning)により扱い、異なる追跡対象は外観モデルにより曖昧性が取り除かれる。提案する非凸なエネルギーの強い極小(strong local minima)を見つけるために、我々は連続的共役傾斜降下移動(continuous conjugate gradient descent move)と次元を跨ぐ離散的なジャンプ移動(discrete transdimensional jump move)とを交互に繰り返す、適切な最適化スキームを構築する。常にエネルギーを減少させるように実行されるこれらの移動により、探索処理が弱い極小(weak minima)から離脱できると共に、様々な次元数の探索空間のより多くの領域をカバーできる。提案手法の有効性を、複数の公開データセットを用いた詳細な定量評価により示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カーネル学習を用いたセンサを跨ぐ虹彩認識
Cross-Sensor Iris Recognition through Kernel Learning

Pillai, Jaishanker K. University Of Maryland, College Park Puertas, Maria Chellappa, Rama

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 1, pp. 73 - 85 , January 2014

Keywords: Kernel learning, Sensor shift, adaptation, biometrics, cross-sensor matching, iris

虹彩生体認証がより一般的になるにつれ、虹彩画像を取得する新しいセンサが開発されると共に、従来のセンサは引き続き改良されている。新しいセンサが導入される度にユーザを再登録することは、特に登録ユーザ数が多い用途において多額の費用と時間を必要とする。一方で、異なるセンサで登録したデータに対してテストサンプルを照合するセンサを跨ぐ照合は、近年の研究から多くの場合に性能の低下を招くことが確認されている。本稿において我々は、機械学習を用いてあるセンサで取得された虹彩のサンプルを別のセンサに適合させることで、センサを跨ぐ照合による性能低下を軽減することを提案する。まず、虹彩生体認証における変換を学習するための新しい最適化フレームワークを提示する。次に、このフレームワークを利用し、取得したセンサとは無関係にサンプル間の距離を同じクラスでは削減し、異なるクラスでは増加させることでセンサ適合を行う。複数のセンサから得られた虹彩データを用いた詳細な評価から、提案手法はセンサを跨ぐ認識の精度向上に寄与することが示される。更に、提案手法は虹彩認識パイプラインに対する変更を最小限に抑えられることから、既存の虹彩認識システムに対して容易に導入することができる。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


弁別的照明:スペクトルBRDFの最適投影に基づく素材の画素単位の分類
Discriminative Illumination: Per-Pixel Classification of Raw Materials Based on Optimal Projections of Spectral BRDF

Liu, Chao Rochester Institute of Technology, Rochester Gu, Jinwei

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 1, pp. 86 - 98 , January 2014

Keywords: Computational illumination, appearance modeling, material classification

金属、プラスティック、セラミック、布などの未塗装の素材を分類することは、コンピュータビジョンの分野において重要で尚且つ困難な課題である。従来の研究では、分類の特徴として表面の分光反射率の一部を計測している。しかし、分光反射率を完全に取得することは時間がかかるだけでなく失敗しやすい(error-prone)。本稿において我々は、材料の分類に用いる弁別的な特徴を、符号化された照明を用いることで直接的に計測することを提案する。弁別的照明(discriminative illumination)と呼ぶ最適な照明パターンは、異なる材料の分光反射率が最大限に分離される空間に射影された訓練データから学習される。この射影は、表面反射全体に対して入射光を積分することで自動的に実現される。単一の弁別的照明は線形2クラス分類を可能とするが、複数の弁別的照明は非線形の多クラス分類に利用できることを示す。これに加え、提案手法は照明の多重化により従来手法よりも高い信号対雑音比を実現できることを理論的に証明する。最後に、我々はLEDベースのマルチスペクトル・ドームを構築し、弁別的照明手法を用いることで多種多様な素材を分類する実験を行い、提案手法の有効性を示す。実験に用いた素材には、金属(アルミニウム、合金、鋼、ステンレス鋼、真鍮、そして銅)、プラスティック、セラミック、布、そして木材が含まれる。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


エントロピー率クラスタリング:マトロイド制約に則った劣モジュラ関数の最大化によるクラスタ解析
Entropy-Rate Clustering: Cluster Analysis via Maximizing a Submodular Function Subject to a Matroid Constraint

Liu, Ming-Yu Mitsubishi Electric Research Laboratories, Cambridge Tuzel, Oncel Ramalingam, Srikumar Chellappa, Rama

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 1, pp. 99 - 112 , January 2014

Keywords: Clustering, discrete optimization, graph theory, information theory, submodular function, superpixel segmentation

我々はクラスタリングにおける新しい目的関数を提案する。この目的関数は二つの要素から成り立っている。これらはグラフのランダムウォークのエントロピー率(entropy rate)とバランス項(balancing term)である。エントロピー率はコンパクトで均一なクラスタの生成を助け、バランス関数は類似する大きさのクラスタの生成を促進すると共にサンプルを積極的に集める大規模なクラスタにペナルティを科す。我々はデータに関連付くグラフの新しいグラフ構築法を提案し、この構築法によりマトロイド(matroid)が生成されることを示す。マトロイドとは、ベクトル空間における線形独立性の概念を一般化する組み合わせ構造(combinatorial structure)のことである。クラスタリング結果は、マトロイド制約の下で目的関数を最大化するグラフトポロジーとして与えられる。目的関数の劣モジュラ性(submodular property)と単調性(monotonic property)とを活用し、我々は効率的な貪欲法を実現する。更に、我々は貪欲解(greedy solution)の最適性(optimality)に対する近似限界(approximation bound)が1/2となることを証明する。提案手法の有効性を様々なベンチマークを用いて検証し、一般的なクラスタリング手法と比類する性能を持つことを示す。更に、我々は提案手法をスーパーピクセル分割の課題に適用する。バークレー分割データセットを用いた実験から、標準の評価尺度全てにおいて、提案手法が最先端のスーパーピクセル分割アルゴリズムを凌駕することが明らかになる。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


頑強なマルチモーダル生体認識のための同時スパース表現
Joint Sparse Representation for Robust Multimodal Biometrics Recognition

Shekhar, Sumit University of Maryland, College Park Patel, Vishal M. Nasrabadi, Nasser M. Chellappa, Rama

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 1, pp. 113 - 126 , January 2014

Keywords: Multimodal biometrics, feature fusion, sparse representation

従来の生体認識システムは、単一の生体情報のみを用いて認証を行っている。識別情報を構築する上で複数の情報源を用いることの利点は広く知られているものの、マルチモーダル生体認識のための計算モデルは近年になって漸く注目を集めるようになった。我々はマルチモーダルなスパース表現法を提案する。提案手法では、テストデータを訓練データの疎な線形結合として表現する一方で、テスト対象に対する様々なモダリティからの観測に対して制約を設けることで、モダリティ間でのスパース表現を共有する。このために、我々は様々な生体情報を組み合わせるだけでなく、同時に互いに補正を行う。加えて、各モダリティを合成する際に重み付けを行う、マルチモーダル品質尺度を提案する。更に、データの非線形性を扱うためにアルゴリズムのカーネル化を行う。最適化問題は効率的な交代方向法 alternative direction method)を用いて解く。様々な実験から、提案手法が合成ベースの手法(fusion-based method)と比較して優るとも劣らない性能を持つことが示される。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高次空間における尤度比ベースの検証
Likelihood-Ratio-Based Verification in High-Dimensional Spaces

Hendrikse, Anne University of Twente, Enschede Veldhuis, Raymond Spreeuwers, Luuk

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 1, pp. 127 - 139 , January 2014

Keywords: High-dimensional verification, MarÄ'enko Pastur equation, eigenvalue bias correction, eigenwise correction, euclidean distance, fixed-point eigenvalue correction, principle component analysis, variance correction

データセットの次元の増加は一般に、次元の呪い(curse of dimensionality)と呼ばれる推定時の問題を引き起こす。二次統計量推定における課題の一つに、得られる共分散行列が最大階数(full rank)でないことが挙げられる。従って、尤度比(likelihood ratio)に基づく検証システムにおいて必要とされる、例えば逆行列を求めることは、特異点問題(singularity problem)として知られる不良設定問題になる。この問題に対する伝統的な解法は、主成分分析(Principle Ccomponent Analysis, PCA)を用いてデータを低次元の部分空間に射影することであり、次元削減されたデータに対する推定は高い次元数による影響を受けないと仮定される。我々は高次元空間における二次統計量推定に対する理論を用い、高い次元数が誤差の唯一の原因である条件下において、主成分分析に基づく手法は検証システムにおいて最適とは程遠いことを証明する。主成分分析に基づく手法は、既に中程度の次元数においてユークリッド距離に基づく手法の後塵を拝しており、次元数が極めて高くなると完全に破綻する。我々は先述の欠点を持たず準最適解が得られる定点固有補正(fixed-point eigenwise correction)と呼ぶ新しい手法を提案する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ディリクレ過程を用いた混合モチーフの時間的解析
Temporal Analysis of Motif Mixtures Using Dirichlet Processes

Emonet, Remi IDIAP Research Institute, Martigny Lausanne Varadarajan, Jagannadan Odobez, Jean-Marc

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 1, pp. 140 - 156 , January 2014

Keywords: Bayesian modeling, Motif mining, camera network, mixed activity, multicamera, multivariate time series, nonparametric models, topic models, unsupervised activity analysis

本稿において我々は、時系列データ(または記録)において繰り返し出現する時系列パターン(またはモチーフ)を教師なしで検出する新しいモデルを提示する。このモデルは複数の活動が混在する環境で得られた、多変量時系列データを扱う目的で設計されている。つまり、観測は同時かつ非同期に発生している複数の事象が重畳された状態で行われる。提案モデルはノンパラメトリックなベイズモデルを用いて時系列データ中のモチーフとその発生との両方を説明する。我々は、繰り返し出現するモチーフ(それらの特徴と数)とその出現の瞬間を、自動かつ同時に取得するための推論手法を導出する。提案モデルは汎用性が高く、固定カメラから得られた動画や音響定位データ(audio localization data)を主とする複数のモダリティから入力されたデータセットによって説明される。モデルが提供する豊富な意味解釈(semantic interpretation)は、イベント計数やシーン解析などの課題に有用である。提案するアプローチはカメラネットワークの簡易キャリブレーションにも利用できる。モデルパラメータの綿密な調査結果を提供すると共に、提案する推論アルゴリズムのクロスプラットフォーム実装を公開する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチラベル問題のための凸緩和では何が最適化されるのか:離散MAP推定と連続的にインスパイアされたMAP推定との関連付け
What Is Optimized in Convex Relaxations for Multilabel Problems: Connecting Discrete and Continuously Inspired MAP Inference

Zach, Christopher Microsoft Research Cambridge, Cambridge Hane, Christian Pollefeys, Marc

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 1, pp. 157 - 170 , January 2014

Keywords: Markov random fields, approximate inference, continuous labeling problems, convex relaxation

本稿において我々は、画像平面に対するマルチラベル付けを対象とする、マルコフ確率場(Markov Random Field, MRF)と近年提案された連続厳密凸緩和(continuous tight convex relaxation)とに対する統合的視点を提示する。この緩和手法はマルコフ確率場と比較してグリッド形状に対する偏りが極めて少ない。連続的な手法は、既にしっかりと構築された局所ポリトープMRF緩和(local polytope MRF relaxation)の非線形な拡張であることが明らかになる。この結果を考慮することで、離散的な条件におけるこれらの厳密凸緩和法に対する理解が深まる。更に、厳密形式の最小化子(minimizer)を求める用途には広範な最適化手法が適用できる。我々は最小化の効率を向上させるために二つの手法を提案する。一方は相対的に弱いながらより効率的な連続的にインスパイアされた(continuously inspired)手法を初期化に用い、必要に応じて徐々にエネルギーを更新する。他方は二つのエネルギーを改定することで、効率的な最適化に平滑近似(smooth approximation)を利用できるようにする。我々は提案する最小化手法の有効性を数値実験により示す。最後に、我々はエネルギー方程式を等方的で計量な平滑性コスト(isotropic metric smoothness cost)から任意の非計量で角度依存な平滑性表現(nonmetric and orientation dependent smoothness term)へと一般化する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


変形可能な形状対応付けのためのスペクトル記述子の学習
Learning Spectral Descriptors for Deformable Shape Correspondence

Litman, R. Tel Aviv University, Tel Aviv Bronstein, A.M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 1, pp. 171 - 180 , January 2014

Keywords: Diffusion geometry, Laplace-Beltrami operator, Mahalanobis distance, Wiener filter, correspondence, deformable shapes, descriptor, heat kernel signature (HKS), metric learning, retrieval, spectral methods, wave kernel signature (WKS), Eigenvalues and eigenfunctions, Equations, Heating, Kernel, Manifolds, Measurement, Shape

情報量が多く弁別的な特徴の記述子は、可変形状解析(deformable shape analysis)において重要な役割を担う。例えば、これらは対応付けや位置合わせ、検索などの課題において活用されている。近年、形状と対応づくラプラス・ベルトラミ演算子のスペクトル分解によって得られた記述子が注目を浴びている。この記述子の一群の有名な例として、熱カーネル特徴(heat kernel signature)や近年提案された波カーネル特徴(wave kernel signature)が挙げられる。ラブラシアンベースの記述子は多くの形状解析の課題において最高水準の性能を達成している。この記述子は計算効率が高く、非等長的(isometry-invariant)な構成で、様々な変形に対して良好に対応できる。本稿において我々は、パラメトリックなスペクトル記述子の一般的な一群(generic family)を定式化する。また、記述子を特定の課題に最適化するためには、適用対象となる形状(信号)のコーパスや、鈍感となるべき変形(雑音)の種類の、統計的性質を加味する必要がある点について議論する。これらの統計的性質をモデル化することは原理的に困難であるが、事例に基づいて学習することはできる。信号処理におけるウィーナフィルタの精神に則り、我々はマハラノビス距離学習(Mahalanobis metric learning)に関する最適なスペクトル記述子を構築する学習法を示す。対応付けの生成における提案手法の有効性を、人間の指の合成データと実際にスキャンしたデータとを用いて示す。我々は更に、学習された記述子は頑強であり、合成データで学習したものをスキャンして得られたものに対して適用できることを示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


潜在変数を用いた視覚音声データのコンパクトな表現
A Compact Representation of Visual Speech Data Using Latent Variables

Zhou, Ziheng University of Oulu, Oulu Hong, Xiaopeng Zhao, Guoying Pietikainen, Matti

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 1, pp. 1 , January 2014

Keywords: Computer vision, Data models, Hidden Markov models, Image sequences, Mouth, Pattern analysis, Representations, Speech, Speech recognition, Visualization, and transforms, data structures, Data models, Hidden Markov models, Image sequences, Mouth, Speech, Speech recognition, Visualization

視覚音声認識(visual speech recognition)における課題は、高次元視空間において話者の口の運動をデコードすることにある。本稿において我々は、視覚音声データのコンパクトな表現の実現を目的に、生成的潜在変数モデル(generative latent variable model)を提案する。本モデルは潜在変数を用いることで話者ごとや発音ごとの外観のばらつきを個々に表現する。また、道グラフ(path graph)を用いると共に、その埋め込み曲線に沿って変数の事前知識を配置することで、発声の構造をモデル化し、観測された視覚データの構造情報を提案モデルに組み込む。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


超高速で弁別的な特徴記述のための局所差分二値記述子
Local Difference Binary for Ultrafast and Distinctive Feature Description

Yang, Xin University of California, Santa Barbara, Santa Barbara Cheng, Kwang-Ting Tim

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 1, pp. 188 - 194 , January 2014

Keywords: Binary feature descriptor, augmented reality, mobile devices, object recognition, tracking, Databases, Detectors, Face, Real-time systems, Robustness, Training, Training data

多くのコンピュータビジョンの用途において、特徴記述子の効率と品質は極めて重要である。しかし、従来の記述子はリアルタイム性を実現するには計算コストが高すぎるか、多種多様な変形を含む大規模なデータベースにおいて十分な照合精度を得るためには弁別性に欠ける。本稿において我々は、局所差分二値記述子(Local Difference Binary, LDB)と呼ぶ高効率で弁別的な二値記述子を提案する。LDBはある画像パッチの二値文字列を、パッチ内の格子領域の対ごとの単純な輝度と勾配の識別テスト(difference test)を用いて直接的に算出する。多グリッド化戦略(multiple-gridding strategy)と顕著ビット選択法(salient bit-selection method)とを適用し、異なる空間的粒度における各パッチに特有なパターンを抽出する。実験結果から、主に高速性に主眼を置いて設計された従来の最先端の二値記述子と比較して、LDBは同等の構築効率を持ちながら、移動物体認識と追跡の課題においてより高精度で高速であることが示される。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像共起性ヒストグラムのための頑強で効率的な顕著性モデリング
Robust and Efficient Saliency Modeling from Image Co-Occurrence Histograms

Lu, Shijian Institute for Infocomm Research, A*STAR, Singapore Tan, Cheston Lim, Joo-Hwee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 1, pp. 195 - 201 , January 2014

Keywords: Saliency modeling, image co-occurrence histogram, visual attention, Computational modeling, Context modeling, Equations, Histograms, Image color analysis, Mathematical model, Visualization

本稿では、効率的で画像のスケール変化に頑強な視覚的顕著性モデリング手法を提示する。多数のフィルタや複雑な学習過程を用いる従来手法とは異なり、提案手法は画像ヒストグラムから顕著性を算出する。画像を構成する画素の出現回数(生起性)だけでなく、出現場所と出現形態(共生起性)を含めて符号化する幾つかの二次元画像共起性ヒストグラムを用いる。従って、一般には大域的な「稀さ(uncommonness)」(つまり生起頻度の低さ)や局所的な周辺と比較しての「不連続さ(discontinuity)」(つまり共起頻度の低さ)に基づいて知覚される物体や画像領域の「珍しさ(unusualness)」を捉えることができる。提案手法は多数の有用な性質を備えている。提案手法は高速で容易に実装できだけでなく、最小限のパラメータチューニングで済み、訓練が不要で、画像のスケール変化に頑強である。AIMデータセットを用いた実験結果から、最先端手法で0.7178であるシャッフル化曲面下面積(shuffled Area Under the Curve, sAUC)において、提案手法は0.7221を達成する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.36, No.2

反射の分離のための物理モデルに基づいたアプローチ:物理モデルから拘束条件付き最適化へ
A Physically-Based Approach to Reflection Separation: From Physical Modeling to Constrained Optimization

Kong, Naejin , Korea Advanced Institute of Science and Technology, Daejeon Tai, Yu-Wing Shin, Joseph S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 2, pp. 209 - 221 , February 2014

Keywords: Reflection separation, computational photography, image enhancement, polarized light, Ash, Cameras, Equations, Glass, Image edge detection, Image sensors, Mathematical model

本稿で我々はガラス越しに撮像された複数の偏光画像を用いて、背景シーンとその前方にあるガラス面での反射を分離するための物理学に基づいたアプローチを提案する。本アプローチの入力情報は3種類の偏光画像であり、これらは同一の視点から偏光角を45度ずつずらして撮像されたものである。これらの入力画像から、ガラス面反射と背景シーンを分離し、それぞれの高品質な出力画像を出力する。この課題における主な技術的困難は、ガラス面での反射と背景レイヤーの混合係数が光の入射角と入射面の方位に依存し、これらが画像中の位置に従って変化することである。二表面を持つガラス媒体における物理的な偏光特性を利用し、ガラス面での反射と背景画像の最適な分離をみつけるためのマルチスケール法を提案する。いくつかの実験により、我々のアプローチが既存手法よりも優れた結果を示すことが例証される。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


さまざまなランキングを用いたカテゴリ非依存のオブジェクト提案
Category-Independent Object Proposals with Diverse Ranking

Endres, Ian , University of Illinois at Urbana-Champaign, Urbana Hoiem, Derek

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 2, pp. 222 - 234 , February 2014

Keywords: Object segmentation, object recognition

本稿では、領域集合とそれらの順位を与えるカテゴリ非依存の手法を提案する。この順位が高い領域は、様々なオブジェクト種類に対して良好な画像領域分割結果として利用できる。本研究の主な目的は完全性と適用性である。つまり、すべてのオブジェクトは少なくとも1つは良い分割結果が割り当てられるようになっており、且つ広範な種類をカバーする分割候補がトップになるようにランク付けされる。我々のアプローチでは、初期シードをランダムに配置したグラフカットと学習済みの類似性コスト関数により領域候補を生成する。次に、生成された領域候補を様々なキューに基づいた構造化学習(structured learning)を用いてランク付けする。Berkeley Segmentationデータセット及びPascal VOC2011データベースを用いた実験の結果、提案アプローチはほとんどの場合、少数の提案領域群の中に正解となる物が含まれることが示された。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


判別的三次元姿勢推定のための共変量シフト適応
Covariate Shift Adaptation for Discriminative 3D Pose Estimation

Yamada, Makoto , NTT Communication Science Laboratories, Kidugawa Sigal, Leonid Raptis, Michalis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 2, pp. 235 - 247 , February 2014

Keywords: Three-dimensional pose estimation, covariate shift adaptation, importance weight estimation, twin Gaussian processes

これまでの研究で、判別的もしくは(構造化)予測に関する方法はコンピュータビジョンの様々な課題に対して効果的であることが分かっている。この顕著な例としては三次元単眼姿勢推定がある。しかしこの課題について、今日までのすべての方法は、訓練(入力)及び試験(ターゲット)データが同じ同時確率分布からのものであることを暗黙の前提としている。だが標準的なデータセットを含む多くの実際のケースでこの前提は成り立たない。訓練データ集合にバイアスがある場合、学習の結果はバイアスのかかったモデルとなり、ターゲット試験データセットに対する性能は低下する。共変量シフトの仮定をもとに、本稿で我々はこの課題に対する教師無しドメイン適応アプローチを提案する。このアプローチでは、訓練インスタンスの再重み付けを用いる。これは各データ点について、訓練データセットとテストデータセットの周辺分布の比率に基づいて重みが再調整されるものである。この重み付き訓練集合により、前記の訓練モデル中のバイアスの影響が緩和される。カーネル回帰(kernel regression: KR)及び対のガウス過程(twin Gaussian process: TGP)についての重み付き変量を提案することで、我々のアプローチの効果を示す。我々の重み付き変量が、重みのないそれを上回る性能を持つこと、そしてだれでもアクセス可能なデータセット(HumanEva)において、他の最新の方法を超える性能を持つことを示す。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高速撮像のための画素毎符号化露出による効率的時空間サンプリング
Efficient Space-Time Sampling with Pixel-Wise Coded Exposure for High-Speed Imaging

Liu, Dengyu , Rochester Institute of Technology, Rochester Gu, Jinwei Hitomi, Yasunobu Gupta, Mohit Mitsunaga, Tomoo Nayar, Shree K.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 2, pp. 248 - 260 , February 2014

Keywords: Space-time sampling, computational camera, dictionary learning, sparse reconstruction

カメラでの撮像には空間解像と時間解像の間の本質的なトレードオフが存在する。デジタルスチルカメラは高い空間解像度で撮像可能だが、ほとんどの高速ビデオカメラは低い空間解像度しかない。ハードウェアコストの増大を伴わずにこのトレードオフを克服することは困難である。本稿ではこのトレードオフを克服するための時空間情報のサンプリング、表現、および再構成方法を提案する。我々のアプローチには既存の手法にはない以下の2つの重要な差異化要素がある。1)ビデオパッチに対する過完備な辞書を学習することで、ビデオのスパース表現を得ている。2)現在のイメージセンサーのアーキテクチャによるハードウェア的制約に準拠し、現実的な解法となるようにしている。このため我々のサンプリング機能は制御ユニットを修正することで将来的にCMOSイメージセンサーに実装することができる。いくつかの既存手法との比較により、我々のアプローチのコンポーネント、サンプリング機能、およびスパース表現を評価する。シリコンデバイス上に液晶を配置した画素毎符号化露出によるプロトタイプ撮像システムを実装する。我々のシステムの被写界深度やMTFなどのシステム特性を評価する。広範なシーンにおけるシミュレーションと実際の実験により、我々の手法が単一の符号化露出画像から高い空間解像度を保持したまま、ビデオを効果的に再構成することができることが示される。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


頑健なスパース表現のための半二次形式の反復的最小化
Half-Quadratic-Based Iterative Minimization for Robust Sparse Representation

He, Ran , Institute of Automation, Chinese Academy of Sciences, Beijing Zheng, Wei-Shi Tan, Tieniu Sun, Zhenan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 2, pp. 261 - 275 , February 2014

Keywords: $(ell_1)$-minimization, M-estimator, correntropy, half-quadratic optimization, sparse representation

頑健なスパース表現はバイオメトリクスや画像による監視などのコンピュータビジョンの困難な課題を解くための高いポテンシャルを持っていることが分かっている。いくつかの頑健なスパースモデルが提案されており、有望な結果が既に得られているが、これらはエラー修正かエラー検出のためのものであり、この2つの視点を体系的に融合し、この関係を探索するための一般フレームワークの学習はいまだに未解決の問題である。本研究では、頑健なスパース表現問題を解く半二次形式(half-quadratic: HQ)フレームワークを開発する。さまざまな半二次関数を定義することで、本稿で提案するHQフレームワークはエラー修正とエラー検出両方の課題に対して適用可能なものとなっている。より詳細には、加法形式HQを用いて、ノイズと外れ値の影響を受けるエラーからの反復的データ復元によるL1正規化誤差修正法を提案し、乗法形式HQを用いることで、ノイズなどの影響を受けていないデータからの反復的な学習によるL1正規化エラー検出法を提案する。ソフト閾値処理(soft-thresholding)関数により解かれるL1正規化はHuberのM推定器と双対の関係にあることを示す。この推定器はM推定における頑健なスパース表現を理論的に保証するものである。強度の隠蔽及びノイズ条件下での頑健な顔認識実験により、本稿で提案するフレームワークおよび本研究の成果の検証を行った。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


近傍点へのハッシュ超平面クエリと大規模能動学習への応用
Hashing Hyperplane Queries to Near Points with Applications to Large-Scale Active Learning

Vijayanarasimhan, Sudheendra , University of Texas at Austin, Austin Jain, Prateek Grauman, Kristen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 2, pp. 276 - 288 , February 2014

Keywords: Hashing, active learning, approximate nearest neighbors, large-scale search

本稿では、データベース全体を全数スキャンすることなく、超平面クエリに対する再近傍点をデータベースから検索する問題を取り扱う。2つのハッシュに基づく解法を提案する。第一のアプローチはデータベース中の各データを、超平面法線と該データ点との間の角度に局所的に感のある2ビットのバイナリキーに対応付ける。第二のアプローチではユークリッドノルムが原点と超平面クエリとの間の距離を表すようなベクトル空間にデータを埋め込む。これら両者はともにハッシュを用いることで、線形時間以下の短時間で近傍点を検索することができる。第一アプローチの前処理段は効率に優れ、第二アプローチはより高い精度を保証することができる。これら2つの方法をプールに基づく能動学習に適用する。現在の超平面識別器をクエリとし、我々のアルゴリズムは、良く知られた超平面への最小距離選択指標を(近似的に)満たす点を同定することができる。我々の手法のトレードオフを実証的に示し、数百万のラベルなしデータ点からの能動的選択を現実的な速度で実行できることを示す。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


判別的顔記述子の学習
Learning Discriminant Face Descriptor

Lei, Zhen , Institute of Automation, Chinese Academy of Sciences, Beijing Pietikainen, Matti Li, Stan Z.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 2, pp. 289 - 302 , February 2014

Keywords: Face recognition, discriminant face descriptor, discriminant learning, heterogeneous face recognition, image filter learning

ガボールやLocal Binary Patterns(LBP)などの局所特徴記述子は顔認識の重要なモジュールであり、顔記述子として効果的であることが示されている。従来の技術ではこれらの局所記述子の形態は事前に手動で定義されているものだった。本稿ではデータ駆動的な判別的顔記述子(discriminant face descriptor: DFD)を提案する。これの基になるアイディアは、同一人物画像からの特徴の差異を最小にし、異なる人物からの画像特徴の差異を最大化するような、最も判別的な局所特徴を学習することである。特に、以下の3つの側面から顔表現の判別能力を拡張する方法を提案する。まず判別的画像フィルタを学習する。第二に、最適な近傍サンプリング戦略をソフトに決定する。第三に主要なパターンを統計的に学習・構築する。効果的かつ頑健な特徴を抽出するために判別学習を用いる。提案手法を異種(モダリティ横断的な)顔認識問題に適用し、カップリングDFD(coupled DFD/ C-DFD)を学習することで異種顔画像の特徴間のギャップを低減し、この困難な課題における性能を向上させる。FERET、CAS-PEAL-R1、LFW及びHFB顔データベースを利用した大規模な実験により、同種/異種顔認識問題における本稿提案のDFD学習の効果を検証する。DFDはLFWデータベースでの実験でPOEM及びLQPを約4.5%向上させ、C-DFDはLBPの異種顔認識性能を25%以上向上させる。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチモーダル潜在特性の学習
Learning Multimodal Latent Attributes

Fu, Yanwei , Queen Mary University of London, London Hospedales, Timothy M. Xiang, Tao Gong, Shaogang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 2, pp. 303 - 316 , February 2014

Keywords: Attribute learning, latent attribute space, multitask learning, transfer learning, zero-shot learning

今日のソーシャルメディアでのデータ共有の急速な発展が、自動メディア識別と自動アノテーション手法の必要性を高めている。特性学習(attribute learning)は、所謂セマンティックギャップを克服するための有望なパラダイムとして始まり、オブジェクト認識や比較的シンプルな動作識別における特性知識をもとに、データのスパース性を取り扱うものである。本稿ではスパース且つ不完全なラベルの付いたマルチメディアデータの理解のための特性学習のタスクを取り扱う。本研究では、特に難しく且つこの類の代表的な課題である社会的活動を撮影したビデオの解析にフォーカスする。この課題には、アノテーションの密度に対してコンテンツがマルチモーダルで複雑、そして根本的な問題として構造化されていないという特徴がある。この課題を解くために、1)統一フレームワークにおいてユーザ定義の特性、および潜在特性を表現するための準潜在特性空間(semilatent attribute space)を導入する。2)マルチモーダル準潜在特性の学習のための新しい拡張性に優れた確率的トピックモデルを提案する。これにより網羅的かつ正確な特性オントロジー及びこれに対するコストの高いアノテーション付けの要求を劇的に低減することができる。実際的なマルチメディアスパースデータ学習課題に対して、我々のフレームワークが潜在特性を利用することで既存のアプローチを大きく上回る性能を持つことを示す。これにはマルチタスク学習、ラベルノイズありの学習、N-回転移学習(N-shot transfer learning)及び特に重要なタスクとして、0回学習も取り扱う。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


トーンマッピングによるマッチング:測光学的不変量テンプレートマッチング
Matching by Tone Mapping: Photometric Invariant Template Matching

Hel-Or, Yacov , The Interdisciplinary Center, Herzliya Hel-Or, Hagit David, Eyal

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 2, pp. 317 - 330 , February 2014

Keywords: MTM, Pattern matching, matching by tone mapping, nonlinear tone mapping, photometric invariance, structural similarity, template matching, Convolution, Correlation, Equations, Histograms, Mathematical model, Pattern matching, Vectors

トーンマッピングによるマッチング(matching by tone mapping: MTM)と名付けた高速なパターンマッチング法を紹介する。これにより非線形トーンマッピング条件下でのマッチングが可能となる。トーンマッピングが区分不変/線形な関数で近似できる場合、正規化交叉相関(normalized cross correlation: NCC)の高速な実装と同程度の速度となるような、高速計算が可能であることを示す。実際のところMTM尺度は、非線形マッピングのためのNCCの一般化とみなすことができ、また、マッピングが線形である場合にはNCCに縮退する。MTMが高度な弁別能を持つこと、そして、相互情報量に基づく手法に伍するノイズに対する頑健性を持ちながらも、計算時間に関してはNCCと互角であることを示す。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


血縁関係検証のための近傍抑制尺度学習
Neighborhood Repulsed Metric Learning for Kinship Verification

Lu, Jiwen , Advanced Digital Sciences Center, Singapore Zhou, Xiuzhuang Tan, Yap-Pen Shang, Yuanyuan Zhou, Jie

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 2, pp. 331 - 345 , February 2014

Keywords: Face and gesture recognition, biometrics, kinship verification, metric learning, multiview learning, Databases, Educational institutions, Face, Feature extraction, Learning systems, Measurement, Training

顔画像に基づく血縁関係検証はコンピュータビジョンにおいて興味深く且つ困難な課題であるが、既存の研究例は少ない。本稿では、血縁関係検証のための新しい近傍抑制尺度学習(neighborhood repulsed metric learning: NRML)法を提案する。クラス間サンプル(血縁関係無しのサンプル群)が近傍においてより高い類似性を持ち、これらはより低い類似性を持つものよりも誤識別されやすいという事実に基づいて、クラス内サンプル(血縁関係あり)は相互に可能な限り引き合い、近傍のクラス間サンプルは抑制され、より遠方に可能な限り押されるような距離尺度を学習し、同時に、この識別のためのより弁別能の高い情報を探す。更に、補完的情報を抽出するための複数の特徴記述子を利用するためにマルチビューNRML(MNRML)法を提案する。この方法では、共通の距離尺度を探索し、複数の特徴量の融合により血縁関係検証の性能を向上させる。実験の結果、我々の提案手法の効果が示される。最後に顔画像からの血縁関係検証についての人間の能力も試験し、その結果我々の手法が人間の観測者の能力に伍する性能を持つことが示される。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ベイジアン適応的動画超解像について
On Bayesian Adaptive Video Super Resolution

Liu, Ce , Microsoft Research New England, Cambridge Sun, Deqing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 2, pp. 346 - 360 , February 2014

Keywords: Super resolution, aliasing, blur kernel, noise level, optical flow

複数フレーム超解像は、過去数十年の間広く研究されて来たにも関わらず、実世界動画シーケンスの超解像には、依然、課題が残されている。既存のシステムでは、動きモデルが過度に単純化されているか、ぼけカーネルやノイズレベルなどの重要な因子が、既知であると仮定される。そのようなモデルでは、一つのシーケンスと他のシーケンスで異なる可能性のある本質的な特性を取得することができない問題がある。本稿では、高解像の原フレームの復元と同時に、その背景にある動き、ぼけカーネル、およびノイズレベルの推定を伴う適応的動画超解像へのベイジアン・アプローチを提案する。結果として、本提案のシステムは、最新の結果を凌ぐ非常に有望な超解像結果を生成するだけでなく、さまざまなノイズレベルやぼけカーネルに適応される。また、さらなるノイズとぼけカーネルの分析のために、クラメール・ラオ下界を用いた2段階の分析を実施した。本研究では、どのように、ぼけカーネルとノイズが、エイリアシングを伴う信号による動き推定に影響するか、どのように、ノイズが完全な動きによる超解像に影響するかを調査し、最終的には、ぼけカーネルとノイズが、未知の動きの超解像にどのように影響するのかを検討する。これらの分析結果は、実験的観測により確認した。特に、中間的な大きさのぼけカーネルにより、最良の画像復元結果が得られる。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


静的映像監視のためのシーンに特化した歩行者検出
Scene-Specific Pedestrian Detection for Static Video Surveillance

Wang, Xiaogang , The Chinese University of Hong Kong, Hong Kong Wang, Meng Li, Wei

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 2, pp. 361 - 374 , February 2014

Keywords: Pedestrian detection, confidence-encoded SVM, domain adaptation, transfer learning, video surveillance

汎用歩行者検出の性能は、特定のシーンに適用される場合、訓練用画像集と、目的シーンとの不整合により、著しく低下する。本稿では、目的シーンから手作業でラベル付けされたサンプルを用いない静的映像監視において、汎用の歩行者検出器を、シーンに特化した検出器に自動的に変換する新しいアプローチを提案する。提案する変換の学習フレームワークは、次の4つの段階で構成される。1) 視覚的親和性グラフ上の、目標サンプルから原サンプルへの入次数(indegrees)の探索を通して、目標サンプルの分布に一致するよう原サンプルに重みをつける。2) 自動的に目標シーンからのサンプルを選択し、それらのラベルを予測した後、変換学習を補助する信頼度(confidence scores)を算出するための一組のコンテキスト・キューを探索する。3) これらの信頼度は、その背景にある視覚構造に従って、目標サンプルの間を伝搬する。4) 高い信頼度を有する目標サンプルは、シーンに特化した検出器の訓練において、より大きな影響力を持つ。これらの考慮は全て、信頼符号化SVM (confidence-encoded SVM)と呼ばれる、信頼度に強固な閾値を設ける必要の無い、単一の目的関数の下に定式化される。評価の間は、外観に基づく検出器だけが、コンテキスト・キューを用いずに使用される。本方式の有効性は、2つの監視映像データセット上での実験を通じて示した。汎用検出器と比較して、本方式では、各データセットそれぞれについて、画像当たり誤り(one false positive per image: FPPI)による検出率が、48パーセントおよび36パーセント改善される。なお、実験では、データセット上の1回または2回の反復で、学習プロセスは収束した。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


統合シーンテキスト読み取りに向けて
Toward Integrated Scene Text Reading

Weinman, Jerod J. , Grinnell College, Grinnell Butler, Zachary Knoll, Dugan Feild, Jacqueline

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 2, pp. 375 - 387 , February 2014

Keywords: Scene text recognition, baseline estimation, character recognition, cropped word recognition, discriminative semi-Markov model, image binarization, skew detection, text guidelines, word normalization, word segmentation

日常の豊富なテキストに結びつけられたデジタルカメラの利用法の発展は、パターン認識やパターン読み取りの古典的な問題を、新しい豊かな領域に置き換えて来た。伝統的な文書処理では、しばしば、変則的な書体や、ノイズ、制約の無い語彙などのような課題に直面するが、シーンテキスト読み取りでは、これらの課題がより大きな問題となるのに加え、うごきぼやけ、曲がったレイアウト、透視射影、他の物体との間の覆い隠しのような新しい課題を生じる。シーンテキストの読み取りは、頑健で正確な結果を得るために、効果的に扱わなければならない多くの詳細を含む複雑な課題である。本研究では、与えられたテキスト領域の粗い2値化、識別されたベースライン、および、認識過程において結合的に機能する語と文字の分割に対して、確率的手法を用いていくつかの断片を結合した読み取りシステムを記述し、評価を行なった。また、幾つかの語を集めて一連の文として認識するために、シーンのコンテキストを使用した。これにより、本システムは3つの異なるベンチマークデータセット上で、他の最新の手法と同等の性能を示した。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最近傍探索近似のための3値射影木(Trinary-Projection Trees)
Trinary-Projection Trees for Approximate Nearest Neighbor Search

Wang, Jingdong , Microsoft Research Aisa, Beijing Wang, Naiyan Jia, You Li, Jian Zeng, Gang Zha, Hongbin Hua, Xian-Sheng

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 2, pp. 388 - 403 , February 2014

Keywords: Approximate nearest neighbor search, KD trees, trinary-projection trees

本稿では、視覚記述子による見出し付けのための、近似最近傍(approximate nearest neighbor: ANN)探索の問題を扱う。KD木やVP木などの、たいていの空間分割木は、2値の階層的空間分割フレームワークに従っている。データを分類するための、(超平面や超球面の様な)様々な分割関数を設計するための鍵となる取り組みは、1) 効果的なNN候補位置の探索を支援するために、データ点が上手くグループ分けできること、2) 効率良いNN候補位置の探索を支援するために、分割関数が素早く評価できること、である。本稿では、3つの射影方向に基づく分割関数を設計する。3つの射影方向は、(1)または(-1)の重みを持つ幾つかの座標軸の組合せとして定義される。ここでは、良好な空間分割を保証するために、広く受け入れられている分散最大基準を用いて射影方向を追跡し、効果的な分割関数評価を保証するために、より少ない座標軸を見つける。また、主3射影方向を見つけるための、座標毎の列挙アルゴリズムを提示する。加えて効率改善のために、複数のランダマイズした木を用いた拡張を提供する。大規模な局所パッチインデックスと、類似画像検索上で本アプローチの正当性を検証した。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動画における事象検出: 時空間的経路探索に対するサブボリューム位置決めから。
Video Event Detection: From Subvolume Localization to Spatiotemporal Path Search

Tran, Du , Dartmouth College, Hanover Yuan, Junsong Forsyth, David

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 2, pp. 404 - 416 , February 2014

Keywords: Event detection, action detection, dynamic programming, max-path search, multiple event detection, Complexity theory, Detectors, Dynamic programming, Event detection, Robustness, Search problems, Target tracking

移動窓に基づくアプローチは、これまでの画像上の物体検出では非常に上手くいってきた。しかし、それらのアプローチを映像における事象の検出に拡張することは容易な問題ではない。本稿では、動画事象検出に対して時空間的に探索することを提案する。この新しい定式化では、乱雑で込み入った動画事象の正確な検出と位置決めが可能であり、カメラの動きに頑健となる。これはまた、スケールや形状、および事象のクラス内ばらつきも上手く取り扱うことができる。これにより、時空間的な移動窓を用いた事象検出と比べ、映像空間における事象軌跡についての時空間的経路は、移動物体からなる事象を、よりよく扱うことができる。また、本提案の探索アルゴリズムにより、最も簡潔な大域最適解を求めることができることを証明する。実験は、例外事象検出、歩行者検出、走者検出のような、様々な事象検出課題を備えた実動画像データセット上で実施した。本提案の手法は、さまざまな型の動画特徴や物体検出と互換性があり、局所的な誤検出や検出欠損に対して頑健である。また、本手法は、検出全般や位置決め精度を、最新の手法を超えて著しく改善する。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.36, No.3

クラス分離性尺度を用いた階層型単語統合アルゴリズム
A Hierarchical Word-Merging Algorithm with Class Separability Measure

Wang, Lei , University of Wollongong, Wollongong Zhou, Luping Shen, Chunhua Liu, Lingqiao Liu, Huan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 3, pp. 417-435 , March 2014

Keywords: Hierarchical word merge, bag-of-features model, class separability, compact codebook, object recognition

bag-of-featuresモデルを用いた画像認識では、低次元ヒストグラム表現と高い計算効率を実現するために、小規模な視覚的コードブックが一般に好まれる。優れた認識性能を実現するためには、このような視覚的コードブックは十分に判別的である必要がある。本稿において我々は、簡潔で判別的なコードブックを作成するために、大規模な初期コードブックに存在するvisual wordを、クラス分離性を最大限に維持しながら統合することを提案する。我々はまず、提案するアプローチが困難な最適化問題に帰着することを示す。この問題に対応するために、我々は準最適でありながら効率的な階層型単語統合アルゴリズムを考案する。このアルゴリズムは各階層において二つの単語を最適に統合する。提案アルゴリズムは、クラス分離積尺度の特性を活用すると共に、新しいインデックス構造(indexing structure)を設計することで、10,000語のvisual wordを2語へと90秒で階層的に統合することができる。更に、提案手法の特性を示すと共に利点を明らかにするために詳細な理論的分析を行い、相互の情報を最大限に維持する別の階層型単語統合アルゴリズムと比較する。このことにより興味深い発見が得られる。実験的研究を通じて複数のベンチマーク・データセットに対する提案手法の効果を検証する。先述の通り、提案手法は最先端の階層型単語統合アルゴリズムよりも簡潔で判別的なコードブックを効率的に生成できる。このことは特に、コードブックの規模が大幅に削減される条件において顕著である。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


人間の動作の検出とモデル化のための抽象化された構造による姿勢テンプレート
Animated Pose Templates for Modeling and Detecting Human Actions

Yao, Benjamin Z. , University of California, Los Angeles, Los Angeles Nie, Bruce X. Liu, Zicheng Zhu, Song-Chun

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 3, pp. 436-452 , March 2014

Keywords: Action detection, action recognition, animated pose templates, structural SVM, Complexity theory, Feature extraction, Hidden Markov models, Optical imaging, Shape, Support vector machines, Videos

本稿では、動画中の複雑なシーンから短期的、長期的、そして意味的動作を検出するための、抽象化された構造による姿勢テンプレート(Animated Pose Templates, APTs)を提示する。各姿勢テンプレートは次の2つの要素から成る。1) ANDノードとして表され、その外観がHOG(Histogram of Oriented Gradient)特徴により表現される、変形可能な部品を持つ形状テンプレート。2) 部品の運動をHOF(Histogram of Optical-Flows)特徴により表現する運動テンプレート。形状テンプレートは一つ以上の運動テンプレートを持つことができ、これらはORノードとして表現される。従って、各動作はAND-OR木構造における姿勢テンプレートの組み合わせ(ORノード)として定義される。この姿勢テンプレートは2から5フレーム内の短期的な動作の断片を検出する用途に適しているが、我々はこれを次の2つの方法により拡張する。1) 長期的な動作を検出するために、隠れマルコフモデルに時間的制約を追加することで姿勢テンプレートに動きを与える。2) 意味的な動作を検出するために、意味的な物体を姿勢テンプレートにおける追加的な部品として扱い、部品間の空間的相関関係を符号化する制約を追加する。モデルを学習するために、我々は各ビデオのキーフレームに対して部品の位置を手動でアノテートすると共に、EMアルゴリズムによりこれらを姿勢テンプレートに分類する。これにより、提案する学習アルゴリズムの未知パラメータは次の2つのグループに分けられる。1) アノテートされていないフレームの姿勢IDと部品位置を含む潜在変数。2) 全ての訓練サンプルに共通のモデルパラメータ。例えば、HOGやHOF特徴の重み、各姿勢における基準部品位置、そして姿勢変動と部品変形に対してペナルティを与える係数、が挙げられる。これらのパラメータを学習するために、我々は半教師あり構造化SVMアルゴリズムを導入する。このアルゴリズムは次の2ステップを繰り返す。1) ラベル情報を用いて構造化SVM最適化問題を解くことで、モデルパラメータを学習(更新)する。2) 前ステップにおいて学習したパラメータを未知変数に帰属させ(つまり、ラベルなしフレームの動作を検出する)、高スコアのフレームを新規のラベル付き教師データとして逐次受け入れる。 このアルゴリズムは凹凸手順(Concave-Convex Procedure, CCCP)として知られる最適化手法の一群に属し、局所最適解に収束する。推論アルゴリズムは次の2つの要素から成る。1) 最良の姿勢テンプレートを検出する。2) 姿勢テンプレートの系列を計算する。これら両方は動的計画法、より正確にはビーム探索(beam search)により実現される。実験により、提案手法が動作における顕著な姿勢だけでなく、意味的な物体との相互作用をも検出できることを示す。提案手法を幾つかの公開された動作データセットと、独自に収集した高難易度の屋外における意味的な動作のデータセットとを用いて試験を行う。この結果から提案モデルが最先端の手法と比較して同等以上の性能を持つことが示される。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


教師なし物体分類のための属性別分類
Attribute-Based Classification for Zero-Shot Visual Object Categorization

Lampert, Christoph H. , IST Austria, Klosterneuburg Nickisch, Hannes Harmeling, Stefan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 3, pp. 453-465 , March 2014

Keywords: Object recognition, vision and scene understanding, Computer vision, Marine animals, Probabilistic logic, Semantics, Training, Vectors

ゼロデータまたはゼロショット学習とも呼ばれる訓練データのないカテゴリの物体認識問題を取り上げる。この状況は頻繁に生じるにもかかわらず、コンピュータビジョン分野においてほとんど取り上げられて来なかった。実世界には何万もの異なる物体クラスが存在する一方で、画像集はその極めて限られた範囲でしか作成やアノテートされていない。この問題に対処するために、我々は属性別分類(attribute-based classification)を導入する。物体は意味的属性に基づいて表現された色や形状などの高次記述(high-level description)に基づいて識別される。このような各種の特性を識別することは特定の学習課題を超越することから、属性識別器は独立に事前学習できる。例えば、現在の課題とは無関係の既存の画像データセットを用いることができる。その後、新たな訓練課程を経ることなく新しいクラスをその属性表現に基づいて検出することができる。本稿において我々は、"Animals with Attributes"と呼ぶ、85個の意味的属性によりアノテートされた50種類の動物クラスを包含する30,000画像で構成される新しいデータセットを紹介する。このデータベースと他の2種類のデータベースとを用いた詳細な実験から、属性別分類によりターゲットクラスの訓練画像を用いることなく画像を分類することができることを示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ジーナス・ゼロ表面の自動位置合わせ
Automatic Alignment of Genus-Zero Surfaces

Koehl, Patrice , University of California, Davis, Davis Hass, Joel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 3, pp. 466-478 , March 2014

Keywords: Conformal mapping, Möbius transformation, mesh warping, nonrigid registration, Conformal mapping, Equations, Geometry, Proteins, Shape, Shape measurement

ジーナス・ゼロ(genus zero)の三角メッシュを目的の表面に最小計量変形(minimal metric deformation)で等角に歪ませる(conformally warp)ための、有望な手法を提供する新たなアルゴリズムを提示する。また、ジーナス・ゼロの二表面間の幾何学誤差尺度を自動的に計算する方法も併せて提示する。本アルゴリズムは入力として、トポロジー球面(topological sphere)であり特殊な三角形分割(distinct triangulation)により与えられる二つの表面のペアを受け付ける。その後、本アルゴリズムは二表面間のマップfを構築する。まず、離散等角写像アルゴリズム(discrete conformal mapping algorithm)により二つの三角メッシュを単位球面(unit sphere)に写像する。続いて二つの写像をメビウス変換と組み合わせることで、関数fを生成する。メビウス変換は、関数fとその等長写像(isometry)との距離を尺度とするエネルギーを最小化するように選択される。幾つかの実世界データセットを用いて提案手法を説明する。我々はまず、提案アルゴリズムが脳の表面を正確かつ自動的に、目印なして非剛体位置合わせできることを示す。次に我々は、提案手法の有効性をたんぱく質の形状を比較することで検証する。数値実験により、提案手法を用いてたんぱく質の低解像度な表面ベースの表現に基づいて計算された距離と、高解像度の原子モデル(atomistic model)に基づいて計算された距離とが極めて高い相関を持つことを示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高次のグラフマッチングのための高速でスケーラブルな近似スペクトルマッチング
Fast and Scalable Approximate Spectral Matching for Higher Order Graph Matching

Park, Soonyong , Samsung Advanced Institute of Technology (SAIT), Yongin-si Park, Sung-Kee Hebert, Martial

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 3, pp. 479-492 , March 2014

Keywords: Higher order graph matching, approximation algorithm, spectral relaxation, Approximation methods, Indexes, Pattern matching, Redundancy, Sparse matrices, Tensile stress, Vectors

本稿では、高次のスペクトルグラフマッチングのための高速で効率的な計算手法を提示する。特徴点間の類似性を表現するテンソルの冗長性を活用することで、類似度テンソルを基底と指数テンソル(index tensor)とのクロネッカー積の線形和で近似する。基底と指数テンソルは、近似的な類似度テンソルを効率的に圧縮した表現である。このことにより、完全な類似度テンソルを記録する従来手法と比較して、メモリ使用量を大幅に削減できる。我々は近似的な類似度テンソルの主固有ベクトル(principal eigenvector)を、少数の基底と指数テンソルとを用いて計算することで、近似的なテンソルの全体を格納することなく計算する。近似に伴うマッチング精度の低下を補償する目的で、固有ベクトルの計算過程に高次テンソルを行列に射影する周辺化手法(marginalization scheme)を適用すると共に、1対1対応の制約を導入する。実験結果から、提案手法は既存手法とほぼ同等の精度を、より高速かつ省メモリで実現することが示される。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像分類における特徴符号化: 包括的な調査
Feature Coding in Image Classification: A Comprehensive Study

Huang, Yongzhen , Institute of Automation, Chinese Academy of Sciences (CASIA), Beijing Wu, Zifeng Wang, Liang Tan, Tieniu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 3, pp. 493-506 , March 2014

Keywords: Image classification, bag-of-features, feature coding

画像分類はコンピュータビジョンやパターン認識の分野において活発に取り組まれている課題である。画像分類の重要な構成要素である特徴符号化(feature coding)は、過去数年に渡って広範な研究が成されており、多くの符号化アルゴリズムが提案されてきた。一方で、異なる符号化手法間の関連性、特にそれらの進展に関する包括的な調査は行われていない。本稿において我々は、まず様々な特徴符号化手法を開発動機や数学的表現を含む観点から調査し、次にそれらの進展を明らかにするために新たに提案する分類基準(taxonomy)に基づいて手法間の関連性を抽出する。更に、我々は既存手法を複数の符号化戦略に共通する主要な特徴に基づいて要約する。最後に、異なる種類の符号化手法から代表的なものを幾つか選択し、コードブックの規模と訓練データ数の観点から実験的に評価する。実験には広く利用されているデータベース(15-Scenes, Caltech-256, PASCAL VOC07, and SUN397)を用いる。実験結果から得られる知見は、我々の理論的解析の正当性を証明し、この結果は実用途や将来的な研究に有益である。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像分類のための大規模学習の優良事例
Good Practice in Large-Scale Learning for Image Classification

Akata, Zeynep , Xerox Research Centre Europe, Meylan and INRIA Rhone-Alpes, Montbonnot Perronnin, Florent Harchaoui, Zaid Schmid, Cordelia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 3, pp. 507-520 , March 2014

Keywords: Large scale, SVM, fine-grained visual categorization, image classification, ranking, stochastic learning, Accuracy, Encoding, Linear programming, Optimization, Support vector machines, Training, Visualization

我々は大規模画像分類を目的とするSVMの目的関数を幾つかベンチマークする。一対他(one-versus-rest)、マルチクラス、ランキング、そして重み付き近似ランキング(weighted approximate ranking)SVMを取り上げる。目的関数の最適化を行うオンライン手法とバッチ手法との比較から、オンライン手法は分類精度の面でバッチ手法と同等であるが、訓練速度の面で大幅な改善が見られる。確率的勾配降下法(stochastic gradient descent)を用いることで、訓練課程を何千ものクラスに属する何百万もの画像に対して拡張できる。実験に基づく評価結果から、大規模な訓練データを用いる条件下において、ランキングベースのアルゴリズムが一対他戦略を上回ることはない。更に、特徴の次元が増加するに従ってアルゴリズム間の精度差は縮まる傾向にある。これに加え、交差検定(cross-validation)を用いて正解データと不正解データとの最適な割合を学習することで、一対他戦略の性能が劇的に向上することを示す。最後に、オンラインアルゴリズムを用いて訓練を行う際に、早期に終了することは有効な正則化戦略として利用できる。これらの優良事例に従うことで、ImageNetの1万クラスに属する900万画像で構成される大規模なサブクラスに対する最先端技術のトップ1精度(第一候補で完全一致した正解率)を16.7%から19.1%に向上させることができた。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


クロスモーダル・マルチメディア検索における補正と抽象化の役割について
On the Role of Correlation and Abstraction in Cross-Modal Multimedia Retrieval

Costa Pereira, Jose University of California, San Diego, La Jolla Coviello, Emanuele Doyle, Gabriel Rasiwasia, Nikhil Lanckriet, Gert R.G. Levy, Roger Vasconcelos, Nuno

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 3, pp. 521 - 535 , March 2014

Keywords: Multimedia, content-based retrieval, cross-modal, image and text, kernel correlation, logistic regression, multimodal, retrieval model, semantic spaces, Correlation, Databases, Hidden Markov models, Joints, Multimedia communication, Semantics, Vectors

マルチメディア・リポジトリにおけるクロスモーダル検索の問題について取り上げる。この問題では、コンテンツのモダリティをまたぐクエリを受け付ける検索システムの設計について検討する。一例として、画像を用いてテキストを検索する用途が挙げられる。クロスモーダル検索システムの設計を、異なるコンテンツのモダリティに対する同型特徴空間(isomorphic feature space)の設計と等価とする数学的定式化を提案する。その後、これらの空間の基本属性に関する二つの仮説を検証する。第一の仮説は低次クロスモーダル補正を説明する必要があるというものであり、第二の仮説はその空間は意味的抽象化を可能とする必要があるというものである。これらの仮説に基づき、クロスモーダル検索問題に対する三つの新しい解法を導出する。それらは、クロスモーダルの相関をモデル化する教師なし手法である相関マッチング(correlation matching)、意味的表現に依存する教師付き手法である意味的マッチング(semantic matching)、そしてそれらを統合する意味的相関マッチング(semantic correlation matching)である。検索性能に対する詳細な評価を通じて、仮説の妥当性を確認する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像検索のためのオンライン・マルチカーネル類似度学習
Online Multiple Kernel Similarity Learning for Visual Search

Xia, Hao , Nanyang Technological University, Singapore Hoi, Steven C.H. Jin, Rong Zhao, Peilin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 3, pp. 536-549 , March 2014

Keywords: Similarity search, content-based image retrieval, kernel methods, multiple kernel learning, online learning, Algorithm design and analysis, Image retrieval, Kernel, Measurement, Optimization, Support vector machines, Visualization

近年、コンテンツベースの画像検索(Content-Based Image Retrieval, CBIR)の分野における画像類似性に基づく検索の精度向上を目的とする、様々な距離尺度学習手法の研究が行われてきた。これらの研究の進展にも関わらず、既存の多くの距離尺度学習手法には二つの制約がある。第一に、一般に目的とする近接関数(proximity function)がマハラノビス距離の一群に従うという仮定を置いているため、実用途の複雑なパターンに対する類似度の計測性能を制限している。第二に、多くの場合に複数の媒体から得られたマルチモーダルデータの類似度尺度を満足に扱うことができない。これらの制約を解消するために、本稿では既存の線形距離尺度学習手法を乗り越えた、カーネルベースの近接関数の学習のためのオンライン・カーネル類似度学習フレームワークについて研究する。本フレームワークに基づき、我々は新たなオンライン・マルチカーネル類似度(Online Multiple Kernel Similarity (OMKS))学習手法を提案する。本手法では、マルチカーネルを用いて柔軟な非線形近接関数を学習し、CBIRにおける画像類似性検索の性能向上を図る。提案手法を広範な画像データセットを用いたCBIRに対して適用した評価実験から、OMKSが最先端手法を大きく凌駕する有望な結果を示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


弱ラベル正則化局所座標符号化による検索ベースの顔アノテーション
Retrieval-Based Face Annotation by Weak Label Regularized Local Coordinate Coding

Wang, Dayong , Nanyang Technological University, Singapore Hoi, Steven C.H. He, Ying Zhu, Jianke Mei, Tao Luo, Jiebo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 3, pp. 550-563 , March 2014

Keywords: Face annotation, content-based image retrieval, label refinement, machine learning, weak label, web facial images, Encoding, Face, Image coding, Image databases, Optimization, Sparse matrices, Vectors

顔画像から顔を検出し適切な氏名を特定する自動顔アノテーションは、基礎的な研究課題であると共に多くの実用途において有用である。この問題に対処するために我々は、インターネットにおいて自由に利用可能な多数の顔画像から有益な情報を抽出する検索ベースのアノテーション手法を検討する。より具体的には、顔画像が与えられると、まずコンテンツベースの画像検索技術を用いて大規模な顔画像データベースから類似度の高いn枚を取得し、次に得られた画像のラベルを自動アノテーションに用いる。このような枠組みには大きく二つの課題がある。1) クエリに真に合致する類似顔画像をいかにして獲得するか。2) 類似顔画像に付与されているラベルは、ウェブ画像の特性から不正確であったり不完全であったりとノイズを含むが、これをいかに利用するか。本稿において我々は、弱ラベル正則化局所座標符号化(Weak Label Regularized Local Coordinate Coding, WLRLCC)と呼ぶ有効な技術を提案する。提案手法はスパース特徴を学習することで局所座標符号化の原理を活用し、グラフベースの弱ラベル正則化の考え方を導入することで類似顔画像の弱ラベルを改善する。WLRLCC問題を解くために効率的な最適化アルゴリズムを提案する。更に、顔アノテーションを行うための効果的なスパース再構成手法を開発する。幾つかのウェブ顔画像データベースに対する詳細な実験的研究を行い、WLRLCCアルゴリズムを様々な角度から評価する。実験結果から提案手法の有効性が確認される。我々が構築した二つのデータベース、"WDB"(6,025人で構成される714,454画像)と"ADB"(1,200人で構成される126,070画像)を公開する。提案手法の効率性と拡張性を更に向上させるため、オフラインの推定手法を提案する。この手法により結果の一貫性を維持しつつ、アノテーションに要する時間を劇的に削減できる。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


シーン粒子:非正則な粒子ベースのシーンフロー推定
Scene Particles: Unregularized Particle-Based Scene Flow Estimation

Hadfield, Simon , University of Surrey, Guildford Bowden, Richard

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 3, pp. 564-576 , March 2014

Keywords: 3D, 3D motion, 3D tracking, Scene flow, bilateral filter, hand tracking, motion estimation, motion segmentation, occlusion, occlusion estimation, optical flow, particle, particle filter, probabilistic occlusion, scene particles, sign language, tracking, Equations, Estimation, Optical sensors, Smoothing methods, Sociology, Statistics

本稿では、オプティカルフローのより情報量の多い三次元拡張版であるシーンフローを推定するアルゴリズムを提示する。本手法は代替技術と比較して10倍以上高速であると共に、並列実装による一層の性能向上に適している。本手法は動きの曖昧さに対処するために、従来の平滑性拘束(smoothness constraints)ではなく複数の仮説を導入する。これにより過平滑誤差(oversmoothing errors)を除去すると共に、ベンチマーク・データセットに対して従来の最先端手法よりも大幅な性能向上を実現する。本手法は柔軟であり、外観センサや深度センサのいかなる組み合わせや構成に対しても、必要に応じて構造と動きを同時推定することが可能である。これに加え本アルゴリズムは、既存手法のように各フレームに対して独立に推定するのではなく、情報を時間軸に沿って伝播させることで曖昧さを解消する。複数仮説の利点を犠牲にすることなく動き場(motion field)を平滑化する手法を検討すると共に、遮蔽推定に対する確率的アプローチを紹介する。前者により10%の、また後者により15%の性能向上が実現される。最後にデータ駆動の追跡手法を説明し、手話における手の三次元の軌跡推定に適用する。手案手法により、各視点における複雑な外観のばらつきをモデル化することなく軌跡推定が可能となる。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


前提要因を用いたテンソル分解と補完の同時実行
Simultaneous Tensor Decomposition and Completion Using Factor Priors

Chen, Yi-Lei , National Tsing Hua University, Hsinchu Hsu, Chiou-Ting Liao, Hong-Yuan Mark

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 3, pp. 577-591 , March 2014

Keywords: Tensor completion, Tucker decomposition, factor priors, multilinear model analysis, Approximation methods, Brain modeling, Equations, Mathematical model, Matrix decomposition, Tensile stress, Visualization

様々な実用途において行列補完に関わる研究の成果は明白である。行列補完の高次拡張であるテンソル補完も、近年多くの関心を集めている。要素が不完備なテンソルが与えられたとき、既存手法は因子分解手法や補完手法を用いて欠落要素を復元する。しかし、欠落要素の数が増大するに従い、因子分解手法は誤って設定されたランクによりモデルが過剰適合されてしまう場合があり、また補完手法はモデル係数の推定に失敗する場合がある。本稿において我々は、欠落要素を補完すると同時に潜在的なモデル構造を推定するという新しいコンセプトを導入する。このために、我々はテンソルの同時分解・補完(Simultaneous Tensor Decomposition and Completion, STDC)と呼ぶ、ランク最小化とタッカーモデル分解(Tucker model decomposition)とを組み合わせた手法を提案する。更に、モデル構造は暗黙のうちにタッカーモデルに組み込まれていることから、実世界のテンソルオブジェクトにおいて一般に事前確率(priori)として知られる前提要因(factor prior)を用いることで、モデル係数から導き出される潜在的な連結多様体(joint-manifold)の特徴を記述する。この補助的な情報(auxiliary information)を活用することで、提案手法は二つの伝統的な手法を利用してモデル係数と欠落要素を正確に推測する。提案アルゴリズムの収束性を実験的に検証する目的で合成データを用いた実験を行い、また広範な実データに対する有効性を評価する。実験により提案アルゴリズムの合成データに対する収束性の検証と、広範な実データに対する有効性の評価を行う。この結果から提案手法の有効性とテンソルベースの用途に対する応用可能性が示される。また提案手法は多重線形モデル解析(multilinear model analysis)と画像補完(visual data completion)の課題において、最先端手法を凌駕する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


正定値行列のためのテンソルスパースコーディング
Tensor Sparse Coding for Positive Definite Matrices

Sivalingam, Ravishankar , University of Minnesota, Twin Cities, Minneapolis Boley, Daniel Morellas, Vassilios Papanikolopoulos, Nikolaos

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 3, pp. 592-605 , March 2014

Keywords: Sparse coding, computer vision, optimization, positive definite matrices, region covariance descriptors, Covariance matrices, Dictionaries, Encoding, Sparse matrices, Symmetric matrices, Tin, Vectors

近年、ベクトル値信号(vector-valued signals)のスパース表現に関する研究が盛んに行われている。行列に対しては、データ点は単にベクトル化され、以降ベクトルとして扱われる。(例えば画像パッチ) しかし、この方式はデータ固有の構造を破壊してしまう恐れがあることから、全ての行列に対して適用できるわけではない。対称正定値行列(symmetric positive definite matrices)はこのような信号クラスの一つであり、ベクトル化の過程で正の固有値の内的構造(implicit structure)が失われる。本稿では、正定値行列のためのスパースコーディング手法を提案する。提案手法ではベクトル化に頼ることなく、リーマン多様体の構造を考慮すると共に、固有値の正値性を維持する。コンピュータビジョンの合成データと実データに対する領域共分散記述子(region covariance descriptors)を用いた実験から、提案するスパースコーディングモデルの必要性と適用可能性が示される。我々の研究はスパースモデリングの枠組みと正定値行列の空間との橋渡しとなる。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


視差推定と超解像のための変分型ライトフィールド解析
Variational Light Field Analysis for Disparity Estimation and Super-Resolution

Wanner, Sven , Heidelberg Collaboratory for Image Processing (HCI), Heidelberg Goldluecke, Bastian

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 3, pp. 606-619 , March 2014

Keywords: 3D reconstruction, Light fields, epipolar plane images, super-resolution, variational methods, view interpolation, Cameras, Estimation, Geometry, Image reconstruction, Spatial resolution, Tensile stress

4次元ライトフィールドの解析のための連続的なフレームワークを構築し、視差再構成と空間的・角度的超解像のための新たな変分型手法を説明する。視差マップはエピポーラ平面画像解析により局所的に推定される。このことにより、計算コストのかかるマッチングコスト最小化が不要となる。提案手法は高速であるだけでなく、視差空間の離散化が不要であるためサブピクセルレベルの精度が実現できる。変分型フレームワークにおいて、我々は視差マップを導入することで、あるシーンの超解像された新しい視点を生成する。このことは4次元ライトフィールドにおける空間的・角度的なサンプリング間隔の増加に対応する。従来技術とは異なり、我々は視点合成の問題を連続逆問題として定式化するため、シーンの幾何変換に伴う圧縮効果(foreshortening effect)を適切に考慮することができる。全ての最適化問題は最先端の凸緩和法を用いて解く。多数の実例と独自に構築したライトフィールドのベンチマーク・データセットを用いて、提案手法と多視点ステレオ法とを比較する。提案手法は高速であると共に高精度である。追評価のためにデータセットとソースコードはオンラインで提供されている。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


"頑強な追跡のための依存関係にある複数のキューの統合"に用いられたキューは互いに独立である
The Cues in "Dependent Multiple Cue Integration for Robust Tracking" Are Independent

Leichter, Ido , Technion - Israel Institute of Technology, Haifa Lindenbaum, Michael Rivlin, Ehud

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 3, pp. 620-621 , March 2014

Keywords: Bayesian tracking, multiple cue integration, Approximation methods, Atmospheric measurements, Bayesian methods, Copper, Equations, Mathematical model, Robustness

幾つかの論文において、複数のキューの統合による追跡のための方法論が提案されている。これらの論文では他の方法論とは異なり、キューの条件付き独立性(conditional independence)が考慮されていないと主張している。本通信では、1)この主張に意義を唱え、2)当該方法論の他の主要な問題について指摘する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


公平な比較は共通のプロトコルに基づいて行われるべきである -"訓練可能なコンボリューションフィルタとその顔認識への応用"に対するコメント
A Fair Comparison Should Be Based on the Same Protocol--Comments on "Trainable Convolution Filters and Their Application to Face Recognition"

Chen, Liang , Wenzhou University, China and University of Northern British Columbia, BC

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 3, pp. 622-623 , March 2014

Keywords: Face recognition, Volterra kernels, Volterrafaces, filtering classifier, Computer vision, Face recognition, Kernel, Protocols, Standards, Training

ボルテラカーネル識別器(Volterra kernel classifier)と呼ばれる画像分類手法を紹介した論文に対してコメントする。当該手法は顔認識に適用された場合にVolterrafacesと呼ばれる。提案された手法の性能評価は顔認識データベースを用いて実施されたが、我々の検証によれば3つのデータベースを用いた最先端手法との比較は公平とは言えない実験条件に基づいて行われていた。一般的なプロトコルに基づく実験条件において3つのデータベースに対する追実験を行った結果を示し、Volterrafacesは1つのデータベースのみで最高水準の性能を発揮することを示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.36, No.4

テンプレートを利用した画像中のオブジェクトトラッキングのための幾何的パーティクルフィルタ
A Geometric Particle Filter for Template-Based Visual Tracking

Kwon, J. , TeleSecurity Sciences, Inc., 7391 Prairie Falcon Road, Suite 150-B, Las Vegas, Lee, H.S. Park, F.C. Lee, K.M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 4, pp. 625-643 , April 2014

Keywords: Gaussian importance function, Lie group, Visual tracking, affine group, object template, particle filtering, special linear group, Algebra, Approximation algorithms, Approximation methods, Equations, Mathematical model, Tracking, Visualization

テンプレートを利用した画像中のオブジェクトトラッキングのための既存手法は、オブジェクトテンプレートの空間的変形パラメタを複数のビデオフレームにわたり連続的に求めることを目的としており、多くは決定論的な最適化手法に基づいている。しかしこれらの手法は局所解に落ち込みやすことでも知られている。このような決定論的最適化手法の限界を克服するために、本稿ではテンプレートを利用した画像オブジェクトトラッキングのための新しいパーティクルフィルタに基づいたアプローチを紹介する。本稿で我々はこの問題を、行列リー群(matrix Lie group)上のパーティクルフィルタリング問題、特に三次元特殊線形群(three-dimensional Special Linear Group: SL(3))及び二次元アフィン群(Aff(2))として定式化する。以下に示すさまざまな特徴により計算性能と頑健性を向上させている。(i)局所線形化によりこれらの類に対するガウシアン重要度関数を反復的に更新する。(ii)ヤコビアンの逆公式を用いている。(iii)テンプレートサイズの変更、(iv)親子パーティクルを利用。困難なビデオ映像を用いた大規模な実験により、従来のテンプレートに基づく画像中のオブジェクトトラッキングに比べ、我々のパーティクルフィルタに基づくアプローチが高い性能と頑健性持つことを示している。一般的に入手可能なベンチマークデータセットを用いた実験により、我々のアプローチが他の最新のテンプレートに基づく手法を超える性能を持つことを示す。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率密度関数推定のためのヒストグラム変換
A Histogram Transform for ProbabilityDensity Function Estimation

Lopez-Rubio, E. , Department of Computer Languages and Computer Science, University of M?laga, M?laga, Spain

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 4, pp. 644-656 , April 2014

Keywords: Probability density function estimation, kernel density estimation, multivariate histograms, nonparametric estimation, Estimation, Histograms, Kernel, Matrix decomposition, Probability density function, Training, Transforms

これまでの多変量確率密度関数の推定は、パラメトリック確率密度関数の混合か、カーネル確率密度推定によるものだった。本稿ではこの問題に対する新しいノンパラメトリックアプローチを紹介する。これはアフィン変換された訓練データの多変量ヒストグラムの統合に基づく手法である。我々のこの提案手法はいわゆる平均ヒストグラム密度推定器に属するものであり、計算量の少なさを保ったまま、ヒストグラムの不連続性を平滑化するところに特徴がある。提案手法の結果として得られる確率密度関数が、訓練データが増大するに従って実際の確率密度関数に収束することを示し、併せて標準的な確率密度推定器の組み合わせとの比較した場合の我々の提案手法の性能を例証する。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔認識のためのマルコフ確率場のグループごとの位置決めフレームワーク
A Markov Random Field Groupwise Registration Framework for Face Recognition

Liao, S. , Department of Computer Science and Engineering, the Hong Kong University of Science and Technology, Hong Kong, Shen, D. Chung, A.C.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 4, pp. 657-669 , April 2014

Keywords: Face recognition, Markov random field, anatomical signature, correspondences, deformable image registration, groupwise registration, Equations, Face recognition, Feature extraction, Image registration, Mathematical model, Training, Vectors

本稿では顔の認識及び追跡システムのための新しいフレームワークを提案する。顔認識をグループごとの可変位置決め及び特徴マッチング問題として定式化する。本研究及び提案手法の主な成果は以下のとおりである。(1)顔画像中の各画素は、最も顕著なスケールの局所領域に対応する解剖学的分類により表現される。この領域は生残指数エントロピー(survival exponential entropy: SEE)情報理論的尺度により決定される。(2)顔認識を特徴ガイド付き可変画像位置決め問題として定式化するために、各画素から計算された解剖学的分類に基づく新しいマルコフ確率場に基づくグループごとの位置決めフレームワークを提案する。さまざまな顔画像の間の類似度を、上記可変変換に基づく非線形リーマン多様体上で測量する。(3)提案手法には、学習に基づくアルゴリズムに広くみられる一般化問題が存在しない。一般的に入手可能な4つのデータベース(FERET, CAS-PEAL-R1, FRGC ver 2.0及びLFW)を用いて、提案手法を評価する。また他の最新の顔認識アプローチとの比較も行い、その結果提案手法は一貫して最も高い認識率を示した。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ディリクレ過程混合モデルによる背景削除
Background Subtraction with DirichletProcess Mixture Models

Haines, T.S. , Department of Computer Science, University College London, Gower Street, London WC1E 6BT, United Kingdom Xiang, T.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 4, pp. 670-683 , April 2014

Keywords: Background subtraction, Dirichlet processes, confidence capping, non-parametric Bayesian methods, video analysis, Bayes methods, Computational modeling, Data models, Hidden Markov models, Image color analysis, Kernel, Noise

多くの場合ビデオ解析の最初のステップは背景除去であり、これは背景モデルと正規化の2ステップで構成されることが多い。背景モデルにより画素ごとに前景との判別が可能になり、正規化では隣接画素からの情報を統合する。本稿では、画素ごとの背景分布を推定するためのディリクレ過程ガウシアン混合モデルに基づいた新しい手法を紹介する。さらにこの後、確率的正規化を行う。ノンパラメトリックベイズ法を用いることにより、画素ごとのモードの推定・選択が可能となり、さらには過剰適合・過小適合を回避することができる。シーンの切り替わりに際し原則連続的にモデルを更新する新しいモデル学習アルゴリズムも開発した。提案手法はこれらの主要な技術的アドバンテージにより、4つのベンチマーク試験において他の最新の手法を上回る性能を持つにいたった。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


軌道及び地図情報を用いたカメラ位置決め
Camera Localization UsingTrajectories and Maps

Mohedano, R. , Grupo de Tratamiento de Im?genes, E.T.S.I. Telecomunicaci?n, Universidad Polit?cnica de Madrid, Spain Cavallaro, A. Garcia, N.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 4, pp. 684-697 , April 2014

Keywords: Markov processes, Vision and scene understanding, camera calibration, tracking, Cameras, Estimation, Kernel, Monte Carlo methods, Probability distribution, Proposals, Trajectory

新たなベイズフレームワークによる未校正カメラ位置及び方位の自動決定方法を提案する。この方法は移動物体の観測情報と環境中で通過可能なパスを示す地図情報を利用している。我々のアプローチは、オブジェクト力学(object dynamics)のための事前確率分布に基づくシーン構造に関する静的及び動的な情報を用いている。与えられた設定における潜在的な不確定性を考慮しつつも、提案手法は尤もらしいセンサー位置候補を絞り込むことができる。提案手法はまた、探索空間を制約する初期幾何解析によりガイドされ、データ駆動型MCMCにより事後確率分布からサンプルを抽出する。明示的にセッティングの不確定性を低減しつつ、Kullback-Leibler情報量解析により、最終的なカメラ位置及び方位の推定を行う。提案アプローチを模擬環境及び実環境において評価し、不確定的セッティング及び確定的セッティング療法において充分な性能を持つことを示す。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


分離可能な非負行列因数分解のための高速かつ頑健なアルゴリズム
Fast and Robust Recursive Algorithmsfor Separable Nonnegative Matrix Factorization

Gillis, N. , Department of Mathematics and Operational Research, Facult? Polytechnique, Universit? de Mons, Rue de Houdain 9, 7000 Mons, Belgium Vavasis, S.A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 4, pp. 698-714 , April 2014

Keywords: Nonnegative matrix factorization, algorithms, hyperspectral unmixing, linear mixing model, pure-pixel assumption, robustness, separability, Algorithm design and analysis, Equations, Hyperspectral imaging, Indexes, Materials, Noise, Robustness

本稿では、分離可能性前提(つまりすべての列を含む入力非負データ行列の小規模な部分列により張られるコーンが存在する前提)の下での非負行列因数分解問題について検討する。これはつまり、線形混合モデル及び純画素前提下における超スペクトラル不混合問題(hyperspectral unmixing problem)と等価である。本稿で紹介する高速な反復アルゴリズムの一群が、入力データ行列にあるあらゆる小規模の擾乱に対して頑健であることを証明する。これらのアルゴリズムは、いくつかの既存の超スペクトラル不混合アルゴリズムを一般化するものであり、本稿はこれらの持つ優れた性能の理論的裏付けを世界で初めて与えるものである。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大規模画像認識アプリケーションのための画像修正された辞書の共学習
Jointly Learning Visually Correlated Dictionaries for Large-Scale Visual Recognition Applications

Zhou, N. , Department of Computer Science, University of North Carolina at Charlotte, Charlotte, Fan, J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 4, pp. 715-730 , April 2014

Keywords: Joint dictionary learning, category-specific visual atoms, common visual atoms, large-scale visual recognition, visual tree, Clustering algorithms, Correlation, Dictionaries, Joints, Training, Vegetation, Visualization

画像コンテンツ表現のための判別辞書の学習は、画像認識において中心的な役割を果たしている。本稿ではカテゴリ間の画像の相関を利用し、より判別能力の高い辞書を学習するための、辞書の共学習(joint dictionary learning: JDL)アルゴリズムを紹介する。画像補正されたカテゴリが与えられたとき、JDLは単一の共通辞書と複数のカテゴリ毎の辞書を同時に学習する。JDL問題を、フィッシャーの判別基準に則した判別促進項のある共最適化問題として定式化する。各グループが画像補正されたカテゴリのいくつかを含むように、多数カテゴリを分離されたグループにクラスタ化するための画像木法(visual tree method)を開発した。JDLと画像カテゴリクラスタリングとを組み合わせて用いることで、同じグループに属するカテゴリが、画像として強い関連を持つこととを確保し、これにより良い辞書を学習する。さらにこれによりJDLが大規模アプリケーションに適用できる程度の計算量になる。画像カテゴリ化における画像コンテンツ表現のためにJDLにより学習された辞書をフルに活用するために、3つの識別法を採用する。提案アルゴリズムの効果を、それぞれ17種類、100種類のカテゴリを含む2つの画像データベースを用いて評価する。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


直積量子化の最適化
Optimized Product Quantization

Ge, T. , University of Science and Technology of China, China He, K. Ke, Q. Sun, J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 4, pp. 744-755 , April 2014

Keywords: Vector quantization, compact encoding, image retrieval, inverted indexing, nearest neighbor search, Artificial neural networks, Encoding, Indexing, Linear programming, Optimization, Quantization (signal), Vectors

直積量子化(Product Quantization : PQ)は、効果的なベクトル量子化手法である。直積量子化では非常に少ないメモリ/時間コストで、指数オーダの大きなコードブックを生成することが可能である。PQの本質は高次元のベクトル空間を、部分空間の直積(※1)に分解した後、 これらの部分空間を個別に量子化することにある。その最適な部分空間分解は、PQの効率の要だが、未だに取り残されている課題である。本稿では、空間分解と量子化コードブックについての量子化歪みを最小化することにより、PQを最適化する。ここでは、この難解な最適化問題に対して2つの新しい手法を提示する。 第1の手法は、より単純な2つの部分問題を反復的に解く方法である。 第2の手法は、ガウス分布の仮定に基づいて、最適性に関する理論的な解析を提供するものである。 本提案の最適化された直積量子化を、以下の3つの応用において評価した。 (i)完全な順位づけのためのコンパクト符号化。 (ii)ラフな検索のための反転多重インデックス(inverted multi-indexing)の構築。 (iii)画像検索のためのコンパクトな画像表現。 これらすべての応用で、最適化された直積量子化は、従来手法より優れている。 ※1) 訳注: 意味的には"直和"の方が適切と推察されるが、ここでは原文に近い"直積"を訳語とした。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


モデルフリー追跡における構造保存
Preserving Structure in Model-Free Tracking

Zhang, L. , Department of Intelligent Systems, Delft University of Technology, Mekelweg 4, 2600 GA, The Netherlands van der Maaten, L.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 4, pp. 756-769 , April 2014

Keywords: Model-free tracking, multiple-object tracking, online learning, structured SVM, Bismuth, Deformable models, Detectors, Feature extraction, Support vector machines, Target tracking

モデルフリー追跡では、追跡対象の単一のアノテーションとしてのバウンディング・ボックスに基づいて、任意のオブジェクトを追跡することが可能である。モデルフリー追跡は、近年著しく性能が改善される一方で、類似の外観を有する複数の対象を同時に追跡することが、非常に困難な課題として残されている。 本稿では、検出による追跡フレームワークを用いた新たな多対象モデルフリー追跡器(multi-object model-free tracker)を提案する。これは、対象間の空間的制約条件を組み込むことにより前述の課題を解決する。この空間的制約条件は、オブジェクト検出器からの検出値に従って、オンライン構造化SVMを用いて学習される。 実験評価により、本提案の構造保存追跡器(structure-preserving object tracker : SPOT)は、 複数対象追跡において著しい性能向上があることを示す。またSPOTは、単一対象追跡に於いても、対象の異なる部分を同時に追跡することで性能を向上できることも示す。さらに、SPOTは、追跡中に、汎用的なモデルに基づく検出器を、その対象の特定のインスタンスに向けて適応させることにも利用できることを示す。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


暗黙の正則化子によって劣化した低ランク行列の頑健な復元
Robust Recovery of Corrupted Low-RankMatrix by Implicit Regularizers

He, R. , Center for Research on Intelligent Perception and Computing (CRIPAC) and the National Laboratory of Pattern Recognition (NLPR), Institute of Automation, Chinese Academy of Sciences, #95, Zhongguancun East Road, Haidian District, PO Box 2728, Beijing, China Tan, T. Wang, L.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 4, pp. 770-783 , April 2014

Keywords: regularization, PCA, correntropy, implicit regularizers, low-rank matrix recovery, Equations, Kernel, Minimization, Optimization, Principal component analysis, Robustness, Sparse matrices

低ランク行列の復元アルゴリズムは、スパースな誤差によって劣化した低ランク行列の復元を目的としている。しかしながら、実世界の課題において劣化誤差はスパースであるとは限らず、ノイズ上のL1正則化子と頑健なM推定の間の関係は、依然知られていない。 本稿では、頑健なM推定の暗黙の正則化子を経由する低ランク行列復元のための、一般的で頑健なフレームワークを提案する。これは、凸共役性(convex conjugacy)から導出される任意の劣化誤差に適用することが可能なフレームワークである。半二次最適化の和形式(additive form of half-quadratic optimization)に基づいて、暗黙の正則化子の近接オペレータ(proximity operators)は、低ランク構造と劣化誤差が相互に補正できるよう成長する。特に、L1正則化子におけるノルム関数とHuberのM推定子との間の相対関係が学習される。これにより、頑健な低ランク行列復元手法と、M推定に基づく頑健な主成分分析手法の連携が確立される。 合成データと実世界データによる広範な実験により、主張の裏付けと提案フレームワークの頑健性の検証を行った。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


領域トラッキングへの時空間的に方向づけられたエネルギー特徴量の応用可能性
The Applicability of Spatiotemporal Oriented Energy Features to Region Tracking

Cannons, K.J. , Department of Computer Science and Engineering and Centre for Vision Research, York University, Toronto, Canada Wildes, R.P.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 4, pp. 784-796 , April 2014

Keywords: Visual tracking, feature representations, motion analysis, spatiotemporal orientation, visual spacetime, Histograms, Layout, Lighting, Spatiotemporal phenomena, Target tracking, Visualization

本稿では、視覚追跡領域への極めて豊かな特徴表現の新しい応用を提案する。本提案の追跡表現では、ターゲットの空間構造と力学系の双方を、統合した方法でモデル化すると同時に、照明変化に対する頑健性も保証する。特に、本提案の特徴量は、時空間的エネルギー尺度から導かれるもので、映像の(x, y, t)の3次元時空におけるフィルタ処理によって算出される。これらの時空間的エネルギー尺度は、多重スケールに股がるターゲットの背景にある局所的な時空方位構造を捕捉する。視覚追跡の分野におけるこれらの特徴量の適用範囲は、応用分野における領域追跡の様々な基本型の典型である3つの異なった追跡パラダイムでの実装によって示される。これらの3つの追跡パラダイムの実装では、ヒストグラム加算から恒等変換に及ぶさまざまな手法を用いて、後処理される生の向き付けられたエネルギー計測値が必要となる。一連の困難な映像を用いた質的・量的な実験評価により、追跡に対する本提案の表現の頑健性と適用性が、さまざまな追跡パラダイムで一般的に用いられる、あらゆる特徴量を凌ぐことを示す。さらに、本提案の表現により、時空間的に方向付けられたエネルギー実装が、幾つかの最新の追跡子を凌ぐことを示すことで、総合的に高い追跡精度が得られることを示す。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


歩行者検出を目的とした仮想世界と実世界への適応
Virtual and Real World Adaptationfor Pedestrian Detection

Vazquez, D. , Centro de Visi?n Por Computador-Edificio O, Universidad Aut?noma de Barcelona, Bellaterra, Spain Lopez, A.M. Marin, J. Ponsa, D. Geronimo, D.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 4, pp. 797-809 , April 2014

Keywords: Pedestrian detection, data set shift, domain adaptation, photo-realistic computer animation, Accuracy, Cameras, Detectors, Image resolution, Interpolation, Testing, Training

多くの応用において、歩行者検出は高い関心を集めている。ほとんどの有用な検出器は、識別的な学習--すなわち、アノテーション付けられたサンプルによる学習--による識別器に基づいている。しかしながら、アノテーション付けの段階は人手による主観的な処理であるため、これを最小化することが必要となる。これにはビジュアルワードを用いることで、的確で豊かなアノテーションを自動的に得ることが可能であるが、ここで、「リアルな仮想空間で学習した歩行者の外観モデルが、実世界の画像での歩行者検出に対して正しく動作するか?」という問題に行き当たる。これについては本研究で行った実験から、仮想世界に基づく訓練により、実世界で優れた評価精度が得られることが示される。しかし一方で、実世界に基づく訓練が被るデータセットのシフト問題も生じる。そこで、本研究では領域適応フレームワーク(V-AYLA)の設計を行った、そこでは、ターゲット領域である実世界からの、いくつかの歩行者サンプルを収集するための、様々な技術の評価を行う。そして、それらをターゲット領域で使用する領域適応した歩行者分類器を訓練するために、ソース領域である仮想世界の多くの例と結合する。このV-AYLAは、人手で用意した多くの歩行者アノテーションを用いた訓練と同じ領域の実世界画像による評価を行った場合と、同等の検出精度を出力する。知る限りにおいて、これは、オブジェクト識別器開発のために、仮想世界と実世界への適応を行った最初の事例である。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


クエリに特化したセマンティックシグネチャを用いたWeb画像の再順位付け
Web Image Re-Ranking UsingQuery-Specific Semantic Signatures

Wang, X. , Department of Electronic Engineering, the Chinese University of Hong Kong, Shatin, Hong Kong Qiu, S. Liu, K. Tang, X.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 4, pp. 810-823 , April 2014

Keywords: Image search, image re-ranking, keyword expansion, semantic signature, semantic space, Accuracy, Indexes, Search engines, Semantics, Training, Visualization

Webによる画像検索結果を改善する効果的な手法としての画像の再順位付けは、BingやGoogleのような、現在の商用検索エンジンによって採用されてきた。与えられたクエリキーワードと蓄積画像は、最初にテクスチャ情報に基づいて検索される。蓄積画像からクエリ画像選択するためにユーザに尋ねることで、残された画像は、クエリ画像との類似性に基づいて再順位付けされる。一つの大きな課題は、画像特徴の類似性が、ユーザの検索意図を翻訳する画像の意味と、うまく相関しないことである。最近の研究では、意味空間上で画像を照合することが提案されている。意味空間では基礎として、画像の意味に密接に関係する属性や参照クラスが用いられる。しかしながら、Webから非常に多様な画像を特徴付けるための普遍的な画像意味空間(universal visual semantic space)を学習することは、困難であり非効率である。本稿では、画像の再順位付けの新しいフレームワークを提案する。それは、様々な検索語(query keyword)のための様々な意味空間を自動的にオフライン学習する。画像特徴は、意味シグネチャ(semantic signature)を得るために、それらが関連する意味空間へ投影される。オンラインの段階では、画像は検索語によって特定された意味空間から得られたそれらの意味シグネチャを比較することにより、再順位付けされる。提案するクエリに特化した意味シグネチャは、画像の再順位付けの精度と効率の双方を、著しく改善する。数千次元ものオリジナルの画像特徴は、25次元程度の意味シグネチャへ投影することができる。実験結果では、再順位付けの精度として、最新の手法との比較で、25-40%の改善が達成された。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多種のモード類似性を保存するハッシュ
Multimodal Similarity-Preserving Hashing

Masci, J. , Swiss AI Lab (IDSIA), Manno, the Faculty of Informatics, University of Lugano (USI), and the SUPSI, Switzerland Bronstein, M.M. Bronstein, A.M. Schmidhuber, J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 4, pp. 824-830 , April 2014

Keywords: Similarity-sensitive hashing, feature descriptor, metric learning, neural network, Databases, Measurement, Neural networks, Optimization, Standards, Training, Vectors

本稿では、多種のモードを互いに比較可能となる単一の表現空間に落とし込む、ハッシュデータのための効率の良い計算フレームワークを提案する。提案するアプローチは、新たな対をなすシャム・ニューラルネット・アーキテクチャに基づいており、モード内およびモード間の類似性の統合された学習を可能にする。既存のクロスモード類似性学習のアプローチと異なり、本提案のハッシュ関数は、二値化された線形射影に制限されないため、任意の複雑な形式を仮定することができる。ここでは、本手法がマルチメディアの復元作業において、最新のハッシュ・アプローチより著しく優れていることを実験により示す。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所的な逐次交互整列(Local Interleaved Sequential Alignment : LISA)による非剛体検出
Non-Rigid Object Detection with LocalInterleaved Sequential Alignment (LISA)

Zimmermann, K. , Center for Machine Perception, Faculty of Electrical Engineering, Department of Cybernetics, Czech Technical University in Prague, Prague, Hurych, D. Svoboda, T.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 4, pp. 731-743 , April 2014

Keywords: Non-rigid object detection, alignment, exploiting features, real-time, regression, sequential decision process, sliding window, waldboost, Computational modeling, Deformable models, Detectors, Estimation, Feature extraction, Object detection, Training

本稿では、物体変形情報も含めて、物体の在/不在を決定するための、移動窓検出プロセスに使用される、連続評価特徴量(successively evaluated features)を紹介する。ここでは、これらの検出特徴量を、物体の変形推定に利用する。そして推定された変形を、未評価の特徴量に直ちに適用することで、それらの特徴量を観測された画像データ上に対応づける。このアプローチにおいて、整列推定子は検出器と結合的に学習される。結合プロセスは、各検出段階で、前の段階のトレーニングサンプルよりも変形の少ないサンプルからの学習を許容する。位置決め推定のために、ここでは、非線形回帰関数を近似する独立変数(regressor)を提案し、極めて高速に位置決めパラメータを計算する。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.36, No.5

頑強なカメラ校正による写真の自動歪み補正
Automatic Upright Adjustment of Photographs With Robust Camera Calibration

Lee, H. , Department of Computer Science and Engineering, Pohang University of Science and Technology (POSTECH), Pohang, South Korea Shechtman, E. Wang, J. Lee, S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 5, pp. 833-844 , May 2014

Keywords: 3D/stereo scene analysis, Camera calibration, Geometric correction, Upright adjustment, perspective correction, photo aesthetics enhancement, single image camera calibration, Buildings, Calibration, Cameras, Erbium, Optimization, Robustness, Transmission line matrix methods

カメラのライトユーザにより撮影された人工構造物は、多くの場合歪んでいるように見える。これはシーンのレイアウトと人間の知覚が期待するものとの間に齟齬があるためである。本稿において我々は、入力画像において斜めに写った人工構造物をまっすぐに補正することで知覚的な画像品質を向上させる、自動的な手法を提案する。 この種の補正手法を直線歪み補正(upright adjustment)と呼ぶ。我々は人間の知覚に関する研究に基づく歪み補正の基準を提案し、補正のための最適な射影変換(homography)を導出する最適化フレームワークを構築する。更に、従来手法の性能を凌駕し、提案手法の広範な用途における安定動作に寄与する新たな最適化ベースのカメラ校正手法を開発する。提案するシステムの有効性を定量的な比較と定性的なユーザスタディーにより示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


機械知覚におけるドメイン異常検知:システム構成と分類体系
Domain Anomaly Detection in Machine Perception: A System Architecture and Taxonomy

Kittler, J. , Centre for Vision, Speech and Signal Processing, University of Surrey, Guildford, U.K. Christmas, W. de Campos, T. Windridge, D. Yan, F. Illingworth, J. Osman, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 5, pp. 845-859 , May 2014

Keywords: Domain anomaly, anomaly detection framework, anomaly detection mechanisms, machine perception, Bayes methods, Cognition, Computational modeling, Context, Data models, Detectors, Probabilistic logic

機械知覚における異常検知の問題を取り上げる。既存文献で用いられている従来の概念における異常とは一線を画す、ドメイン異常のコンセプトを導入する。我々は、異常状態が内包する多面的な特性(multifaceted nature)を露わにする、異常検知のための統合フレームワークを提案する。また我々は、(多面的な特性の)個々の側面をドメイン異常検知の手段として識別し区別するための効果的な仕組みを提案する。このフレームワークは様々なコンセプトを明確に定義するベイズ確率推論(Bayesian probabilistic reasoning)を利用する。上述のコンセプトの例としては、外れ値、ノイズ、分布の歪み(distribution drift)、新規性検出(novelty detection) (物体、物体要素)、希少事象(rare event)、そして予期しない事象などが挙げられる。これらのコンセプトに基づき、我々はドメイン異常事象の分類体系を提示する。異常状態の特性を特定する上で役立つメカニズムの一つは、センサデータの意味的な解釈と非意味的な解釈との間にある不一致を検出することにある。提案手法は広範な用途に応用可能であり、また既存文献で取り上げられている異常検知用途を統合的に補強する。提案手法の突出した特徴を示すために、ビデオアノテーションシステムの異常検知の課題に対してドメイン異常検知手法を適用する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


事例ベースの色恒常性と複数光源
Exemplar-Based Color Constancy and Multiple Illumination

Joze, H.R.V. , School of Computing Science, Simon Fraser University, Burnaby, BC, Canada Drew, M.S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 5, pp. 860-873 , May 2014

Keywords: Color Constancy, Color constancy, Exemplar Based Learning, Multiple Illuminants, exemplar based learning, multiple illuminants, Estimation, Feature extraction, Image color analysis, Light sources, Lighting, Surface treatment, Training

事例学習(exemplar-based learning)またはそれと等価な最近傍分類手法は、利用可能なデータ量の増加と記憶容量の拡大に伴い、近年コンピュータ科学の広範な分野の研究者から注目を集めている。コンピュータビジョン分野では、シーン認識や形状照合、画像パーシング(image parsing)、文字認識、そして物体検知など幾つかの課題において、この種の手法が成果を挙げている。色恒常性の課題に事例学習のコンセプトを適用することは、初めは不可思議に見えるかもしれない。まず、最近傍の画像群は常に同一の光源の下で撮影されているわけではない。また、実世界で生じうる全ての条件、例えば屋内と屋外のシーンや想定される全ての光源の色と強度を網羅した画像データセットを収集することは、無論不可能である。本稿において我々は、画像中の面(surface)に注目し、訓練画像中の面の適切なモデルを教師なし学習することで、色恒常性の課題に取り組む。実験画像中の各々の面に対して最近傍モデルを探索し、最近傍の面と実験画像の面とのそれぞれに属する画素の統計量を比較することで光源を推定する。このようにして推定された光源を組み合わせることで、最終的な光源推定結果を得る。標準データセットを用いた実験において、提案手法は実験データセットとは異なるデータセットを用いて学習を行った場合であっても、従来の色恒常性アルゴリズムよりも極めて良好な結果が得られる。多くの従来手法は光源色が画像全体にわたって一様であるという仮定に基づいているため、複数光源が混在する条件に対処することができない。一方、提案手法はこの様な条件を克服できる利点がある。我々は複数光源が混在する条件を、提案手法を用いて克服する方法を示し、この方法を2種類の異なる光源が存在する条件下において評価する。この評価に際して複数光源が混在した色恒常性データセットを用いる。本稿において提案するコンセプトは、色恒常性の課題において全く新しいアプローチであり、単純な学習ベースのフレームワークを提供する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビットから画像まで:局所二値記述子の逆変換
From Bits to Images: Inversion of Local Binary Descriptors

d'Angelo, E. , , Advanced Silicon S.A., Lausanne, Switzerland Jacques, L. Alahi, A. Vandergheynst, P.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 5, pp. 874-887 , May 2014

Keywords: BRIEF, Computer vision, FREAK, Feature representation, Image Processing and Computer Vision, Reconstruction, Representations, and transforms, data structures, image reconstruction, inverse problems, privacy, Benchmark testing, Databases, Image reconstruction, Minimization, Mobile communication, Privacy, Vectors

局所二値記述子(Local Binary Descriptors)は、画像照合分野において頻繁に利用されるようになってきている。この傾向はモバイル用途において特に顕著である。局所二値記述子はこのコンテキストにおいて詳細に研究されているが、元画像を推測する上で十分な情報を保持するか否かに関しては注目されてこなかった。本稿において我々は、逆問題的アプローチ(inverse problem approach)を有効利用することで、局所二値記述子から画像コンテンツを直接再構成できることを示す。この過程は利用可能な記述子のパターンに関する知識とは別に、非常に広範囲の仮説に依存する。このことにより、事前の学習データベースや二値化前の特徴を必要とする従来手法を一般化する。更に、我々の再構成手法は、異なる局所二値記述子が画像情報を異なる形で記録し符号化することを明らかにする。従って、提案手法の潜在的な応用用途は、モバイル機器によって流される画像キーポイントの盗聴により生じるプライバシー問題から、可視化と幾何学的内容(geometric content)の分析とを通じたより高性能な記述子の設計まで、多数想定される。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ガウス過程混合条件付き分散不均一性
Gaussian Process-Mixture Conditional Heteroscedasticity

Platanios, E.A. , Department of Machine Learning, Carnegie Mellon University, Pittsburgh, PA, USA Chatzis, S.P.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 5, pp. 888-900 , May 2014

Keywords: Financial, Gaussian process, Machine learning, Nonparametric statistics, Pitman-Yor process, conditional heteroscedasticity, copula, mixture model, volatility modeling, Bayes methods, Biological system modeling, Computational modeling, Data models, Gaussian processes, Noise, Predictive models

一般化自己回帰条件付き分散不均一性(Generalized Autoregressive Conditional Heteroscedasticity, GARCH)モデルは長年、財務収益系(financial return series)の変動予測(volatility modeling)において最も有効な手法の一つであると考えられてきた。本稿において我々は、統計的機械学習の分野において広く利用されている方法論に基づく代替手法を提案する。具体的には、ガウス過程回帰モデルのノンパラメトリック・ベイズ混合(nonparametric Bayesian mixture of Gaussian process regression models)の新手法を提案する。各要素は観測データを汚染する雑音分散過程(noise variance process)を、観測データから導出される独立した潜在ガウス過程としてモデル化する。この手法により実質的に、財務収益系の変動予測におけるガウス過程混合条件付き分散不均一性(Gaussian Process-Mixture Conditional Heteroscedasticity, GPMCH)モデルを得る。我々は指数特性(power-law nature)を持つノンパラメトリックな事前確率、具体的にはPitman-Yor過程事前確率を、モデルの混合要素の分布に対して課すことで、広い裾野と高い歪度を持つモデルデータ分布に対する表現力の向上を実現する。最後に連辞(copula)を用いた手法を提示し、推定された(postulated)GPMCHモデルによりモデル化された資産収益率の共分散に対する事後確率の推測値を得る。多数のベンチマークシナリオに基づいて提案手法の有効性を検証し、その性能を最先端手法と比較する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動的表面整合のための測地線マッピング
Geodesic Mapping for Dynamic Surface Alignment

Tung, T. , Graduate School of Informatics, Kyoto University, Kyoto, Japan Matsuyama, T.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 5, pp. 901-913 , May 2014

Keywords: 3D video, Geodesic mapping, MRF, dynamic surface, multiple view stereo, non-rigid deformation, non-rigid surface alignment, surface alignment, Robustness, Shape, Surface reconstruction, Surface texture, Surface treatment, Three-dimensional displays, Topology

本稿では測地線マッピングによる動的表面整合(dynamic surface alignment)を実現する新たな手法を提示する。表面は(人間など)運動する非剛体物体を表現する三次元多様体メッシュであり、多視点ステレオ再構成により取得することができる。提案するフレームワークは、距離関数(具体的には大域測地距離)を持つ表面間の測地線マッピング(つまり、測地線微分同相写像(geodesic diffeomorphism))、そして一般化重心座標(generalized barycentric coordinate)と同様に定義される測地線に基づく座標系(具体的には大域測地座標)とから構成される。座標はcoarse-to-fine戦略に基づいて非曖昧領域(non-ambiguous region)間の対応点を再帰的に選択するために利用される。ここで粗密戦略(coarse-to-fine strategy)は表面上の点を安定的に特定し、離散マッピングを定義するために用いられる。次に、確率的フレームワークの部分ごとの目的関数を最適化することで、平滑なマッピングを持つ点対点の完全な表面整合を導出する。提案手法は表面に固有の幾何特性のみに依存し、外観(e.g. 色やテクスチャ)、形状(e.g. トポロジー)、あるいはパラメータ化に関する事前知識を必要としない。本手法は多数の用途に利用可能であり、例示すれば異なる物体を表現する表面モデル間の視覚情報(e.g. テクスチャ)の転写、三次元動的表面の密な動き推定、幅広い時間フレームでのマッチング、などが挙げられる。高難易度の実世界の公開データセットを用いた実験から、注目に値する結果が得られる。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


三次元人体動作認識のための動作素集合の学習
Learning Actionlet Ensemble for 3D Human Action Recognition

Wang, J. , EECS Department, Northwestern University, Evanston, IL, USA Liu, Z. Wu, Y. Yuan, J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 5, pp. 914-927 , May 2014

Keywords: Action recognition, Computer vision, Gesture, Kinect, Video analysis, ensemble method, human pose, human-object interaction, Feature extraction, Hidden Markov models, Joints, Noise, Robustness, Three-dimensional displays

人体動作認識(human action recognition)は重要でありながら困難な課題である。人体動作は通常、人体と物体との相互作用、高度な関節運動(articulated motion)、クラス内の大きなばらつき、そして複雑な時間軸での構造(temporal structure)を伴う。近年開発された汎用の距離センサにより、シーンの三次元距離データが得られるようになったことで、この問題に対処するための新たな可能性が開けた。この情報は人体動作の強力な獲得技術の実現を容易にするだけでなく、人体と物体との相互作用やクラス内のばらつきの効率的なモデル化を可能にする。本稿では、人体の結合部の部分集合間に生じる相互作用を表現する新たな動作素集合モデル(actionlet ensemble model)を用いて、人体動作を特徴付けることを提案する。提案するモデルはノイズに頑強で、位置や時間軸のズレに不変であり、人体動作だけでなく人体と物体との相互作用をも特徴付けることが可能である。Kinectを用いて取得された3種類の高難易度の動作認識データセット、Kinectを用いて取得された多視点動作認識データセット、並びにモーションキャプチャシステムを用いて取得されたデータセットを用いて提案手法を評価する。実験的評価から、提案手法の性能が他の最先端手法を凌駕することが示される。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチモデル知識移転による少数事例からのカテゴリ学習
Learning Categories From Few Examples With Multi Model Knowledge Transfer

Tommasi, T. , , KU Leuven, ESAT-PSI and iMinds, Leuven, Belgium Orabona, F. Caputo, B.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 5, pp. 928-941 , May 2014

Keywords: Classifier design and evaluation, Computer vision, Knowledge transfer, Learning, Machine learning, Object recognition, discriminative learning, image categorization, Adaptation models, Knowledge transfer, Learning systems, Support vector machines, Training, Vectors, Visualization

視覚物体カテゴリを少数のサンプルから学習することは、切実で且つ高難易度の課題である。幾つかの実用途では、アノテーション付きのデータを多数収集することはコストが掛かるだけでなく、現実的でない場合がある。しかし、少数の訓練データセットでは典型的な画像中の物体のクラス内の大きなばらつきをカバーすることができない。このような条件下では機械学習手法に大きな制約が生じる。本稿では、学習済みの他のソースカテゴリを参考にすることで、少数事例から目的の物体を上手に学習する判別モデル適合アルゴリズム(discriminative model adaptation algorithm)を提示する。提案手法は凸最適化問題を解くことで、どのソースカテゴリからどの程度の情報を移転するか自動的に選択する。これにより、利用可能な訓練データセットに対するleave-one-out誤差を最小化する。提案手法の幾つかの特性を分析すると共に、従来の知識移転手法との詳細な実験的比較により提案手法の有効性を示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


正則化貪欲森を用いた非線形関数の学習
Learning Nonlinear Functions Using Regularized Greedy Forest

Johnson, R. , , RJ Research Consulting, Tarrytown, NY, USA Zhang, T.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 5, pp. 942-954 , May 2014

Keywords: Boosting, boosting, decision forest, decision tree, ensemble, greedy algorithm, Additives, Boosting, Decision trees, Greedy algorithms, Tuning, Vectors, Vegetation

一般損失関数を持つ非線形決定則の森を学習する問題に取り組む。一般的な手法はブーストされた決定木(boosted decision tree)を利用する。例えば、指数損失にはAdaboost、一般損失にはFriedmanの勾配ブースティングなどが挙げられる。木学習器(tree learner)をブラックボックスとして扱う従来のブースティングアルゴリズムに対し、提案手法は潜在的な森構造を用いた完全に修正可能な正則化貪欲探索法(fully-corrective regularized greedy search)を通じて決定森を直接学習する。提案手法は実験を行った多くのデータセットにおいて、勾配ブースティング法よりも高精度で且つコンパクトなモデルを実現可能である。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


潜在指紋を対象とする局所化辞書に基づく方向場推定
Localized Dictionaries Based Orientation Field Estimation for Latent Fingerprints

Yang, X. , Department of Automation, Tsinghua University, Beijing, China Feng, J. Zhou, J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 5, pp. 955-969 , May 2014

Keywords: Fingerprint enhancement, Hough transform, Markov random field, dictionary, latent fingerprint matching, orientation field, pose estimation

辞書に基づく方向場推定(orientation field estimation)手法は、潜在指紋(latent fingerprint)の検出に有効であることが知られている。本稿では、指紋のより強い事前知識を活用することで、その更なる性能向上を目指す。我々は指紋の異なる位置における稜線(ridge)方向が異なる特徴を持つことに着目し、局所化辞書(localized dictionary)に基づく方向場推定アルゴリズムを提案する。このアルゴリズムでは、局所推定手法により出力されたある場所におけるノイズを含む方向パッチ(orientation patch)を、同じ位置に対応する局所辞書に存在する正しい方向パッチに置き換える。局所化辞書を適用するための事前条件は、潜在指紋の向きを予め推定しておく必要があるというものである。我々はハフ変換に基づく指紋方向推定(fingerprint pose estimation)アルゴリズムを提案する。このアルゴリズムでは、潜在指紋において全ての方向パッチにより生成される指紋方向に関する事前条件を累積する。困難な潜在指紋データベースを用いた実験結果から、提案手法が従来手法を明らかに凌駕することが示される。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自然情景画像からの頑強な文字検出
Robust Text Detection in Natural Scene Images

Yin, X. , Department of Computer Science and Technology, School of Computer and Communication Engineering, University of Science and Technology Beijing, Beijing, China Yin, X. Huang, K. Hao, H.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 5, pp. 970-983 , May 2014

Keywords: Computing Methodologies, Image Processing and Computer Vision, Scene Analysis, Scene text detection, Text processing, distance metric learning, maximally stable extremal regions, single-link clustering, Algorithm design and analysis, Clustering algorithms, Databases, Educational institutions, Measurement, Robustness, Vegetation

自然情景画像からの文字検出は、多くのコンテンツベースの画像解析課題において重要な要件である。本稿では、自然情景画像中の文字を正確かつ頑強に検出する手法を提案する。規格化分散(regularized variation)を最小化する戦略を用いて最安定外部領域(Maximally Stable Extremal Region, MSER)を記号候補(character candidate)として抽出する、高速で効果的な枝刈りアルゴリズムを設計する。最短距離分類アルゴリズム(single-link clustering algorithm)により記号候補を文字候補(text candidate)としてグループ化する。ここで、距離の重みと分類閾値は、新たな自己訓練型距離尺度学習アルゴリズムにより自動的に学習される。非文字に対応する文字候補の事後確率を記号分類器により推定し、非文字に属する確率の高い文字候補は除去され、文字は文字分類器により識別される。提案するシステムをICDAR 2011 Robust Reading Competitionデータベースを用いて評価し、F尺度(f-measure)において最先端手法の71%を大きく上回る76%を得る。多言語、ストリートビュー、多方向、そしてデジタルで作成されたデータベースを用いた実験結果からも、提案手法の有効性が示される。提案する情景中の文字検出システムのオンラインデモは、http://prir.ustb.edu.cn/TexStar/scene-text-detection/において公開している。 ※characterは文字を含むより上位の概念を意図しているものと推測されることから「記号」と訳した。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ピンボール損失付きサポートベクター分類器
Support Vector Machine Classifier With Pinball Loss

Huang, X. , Department of Electrical Engineering (ESAT-STADIUS), Katholieke Universiteit Leuven, Leuven, Belgium Shi, L. Suykens, J.A.K.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 5, pp. 984-997 , May 2014

Keywords: Classification, Classifier design and evaluation, Models, pinball loss, support vector machine, Fasteners, Kernel, Loss measurement, Noise, Optimization, Robustness, Support vector machines

伝統的に、サポートベクターマシン(Support Vector Machine, SVM)分類器を構築する際にはヒンジ損失(hinge loss)が用いられてきた。ヒンジ損失はセット間の最短距離と関連していることから、構築された分類器は雑音に敏感であり、また再サンプリングに際して不安定となる。これに対し、ピンボール損失(pinball loss)は変位距離(quantile distance)と関連していることから、(構築された分類器は)ノイズに対して相対的に鈍感である。ピンボール損失は詳細に研究され、回帰問題に対して広く適用されているが、分類器では利用されてこなかった。本稿では、pin-SVMと呼ぶピンボール損失を用いたSVM分類器を提案し、そのノイズ耐性、頑強性、そして分類誤差を含む特性を調査する。加えて、スパースモデルを対象としpin-SVMに不感地帯(insensitive zone)を適用する。ヒンジ損失を用いたSVMと比較すると、提案するpin-SVMは同等の計算複雑度でありながらノイズ耐性と再サンプリング安定性を享受できる。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


二次元アフィン・射影形状解析
2D Affine and Projective Shape Analysis

Bryner, D. , , Naval Surface Warfare Center, Panama City, FL, USA Klassen, E. Le, H. Srivastava, A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 5, pp. 998-1011 , May 2014

Keywords: Affine invariance, Affine shape analysis, Elastic metric, Karcher mean shapes, Projective invariance, Riemannian methods, Shape models, Shape statistics, geodesic computation, path-straightening method, projective shape analysis, shape models, Computational modeling, Manifolds, Measurement, Orbits, Shape, Space vehicles, Standardization

形状解析分野の従来手法は相似変換(回転、変位、並びに変倍)に対する不変性を追求しているが、特定の撮像条件ではアフィン変換群や射影変換群などより大きな(変換)群に対する不変性が要求される。本稿において我々は、距離や関連する性質がアフィン変換群や射影変換群に不変である平面物体の形状解析を目的とする一般化リーマンフレームワークを提示する。順序点(ordered points)(またはランドマーク)とパラメータ化された曲線(parameterized curves)という物体境界を代表し得る二つの候補に注目し、これらの様々な組み合わせ(点群や曲線群)や変換(アフィン変換や射影変換)を調査する。具体的には、4つの条件のうち3つについて解法を提示し、測地線(geodesics)やサンプルの固有統計量(intrinsic sample statistics)を計算するアルゴリズムを開発する。これによりガウス型の統計モデル(Gaussian-type statistical model)が導出される。更に、訓練データを学習して得られた前述のモデルを用いてテスト形状を分類する。これに加え、パラメータ化された曲線に関しては、最終目標である再パラメータ化に対する不変性を実現する。経路直線化(path-straightening)アルゴリズムを注目する多様体の幾何形状に対して特化させることにより、測地線を構築する。得られた測地線を順に利用し、形状の統計量とガウス型の形状モデルを計算する。形状認識や動作認識の多数の例題を用いて、これらのアイディアを実証する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


可搬プラットフォームからの三次元交通状況理解
3D Traffic Scene Understanding From Movable Platforms

Geiger, A. , , MPI for Intelligent Systems, T?bingen, Germany Lauer, M. Wojek, C. Stiller, C. Urtasun, R.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 5, pp. 1012-1025 , May 2014

Keywords: 3D scene layout estimation, 3D scene understanding, Autonomous vehicles, Image Processing and Computer Vision, Robotics, Scene Analysis, autonomous driving, Hidden Markov models, Layout, Roads, Semantics, Splines (mathematics), Three-dimensional displays, Vehicles

本稿において我々は、可搬プラットフォームからの複数物体交通状況理解のための新たな確率的生成モデルを提示する。提案手法は三次元のシーンレイアウトとシーン中の物体の位置と向きとを同時推定する。特に、短時間のビデオシーケンスからシーントポロジー、幾何形状、並びに交通活動を推定する。人間の素晴らしい運転能力に触発され、我々のモデルはGPS、レーザー測距計(LIDAR)、並びに地図情報に依存しない。その代わりに、車両の軌跡群、消失点、意味的なシーンラベル、シーンフロー、そして占有格子地図(occupancy grid)という広範な視覚情報を活用する。各視覚情報に対し確率的生成モデルに組み込む尤度関数を提案する。全てのモデルパラメータは訓練データから対比距離(contrastive divergence)を用いて学習する。113種類の典型的な交差点の動画を用いた実験から、提案手法が多数の困難なシナリオにおいてもシーンレイアウトを適切に推定できることを示す。各特徴量の重要度を評価するために、異なる特徴の組み合わせによる実験を実施する。更に、提案手法により導出されたコンテキストを導入することで、困難で乱雑な都市環境における物体検知と物体方向推定の観点から最先端手法を改良できることを示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ステレオマッチングのためのハードウェア高速化に適したバイラテラルフィルタ処理
Hardware-Efficient Bilateral Filtering for Stereo Matching

Yang, Q. , Department of Computer Science, City University of Hong Kong, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 5, pp. 1026-1032 , May 2014

Keywords: 3D/stereo scene analysis, Computer vision, Filtering, Stereo matching, bilateral filtering, edge-preserving smoothing, Graphics processing units, Image edge detection, Image resolution, Joints, Kernel, Runtime, Stereo vision

本稿では、実用途のステレオビジョンシステムに特化して設計された新たなバイラテラルフィルタ手法を提示する。先述の用途ではリアルタイム性能が要求されることから、並列化アルゴリズムが望まれる。バイラテラルフィルタなどエッジ保存フィルタは、高精度な局所ステレオマッチングにおいて極めて有効であることが知られている。本稿ではハードウェア高速化に適したバイラテラルフィルタを提案する。NVIDIA GeForce GTX 580のGPUに移植することで、100万画素のカラー画像を毎秒417フレーム処理できる。このフィルタは、全ての局所ステレオマッチングアルゴリズムにおいて必要とされるコスト集計に、直接利用可能である。Middleburyベンチマーク・データセットを用いた定量評価において、提案手法を導入した局所ステレオマッチング手法は全ての同種の既存手法を精度と速度の観点で凌駕する。提案手法のMiddleburyデータセットに対するマッチング精度は120手法中12位に位置し、平均処理時間(マッチングコスト計算、遮蔽対応、並びに後処理を含む)は15ミリ秒(毎秒67フレーム)程度である。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像認識のための局所ピラミッド型記述子
Local Pyramidal Descriptors for Image Recognition

Seidenari, L. , Media Integration and Communication Center, University of Florence, Firenze, Italy Serra, G. Bagdanov, A.D. Del Bimbo, A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 5, pp. 1033-1040 , May 2014

Keywords: Image recognition, Kernel methods, Local features, Object categorization, kernel methods, local features, Approximation methods, Image recognition, Image resolution, Kernel, Vectors, Visualization, Vocabulary

本稿では、特徴空間において局所マルチ解像度ピラミッドを用いることで、画像認識における記述子の照合の柔軟性を向上させる新たな手法を提示する。我々は画像パッチを複数レベルの記述子の詳細度において表現し、このレベルを局所空間的プーリング解像度の観点で定義することを提案する。局所記述子の詳細度を複数レベルで保持することにより、学習段と認識段において最適なレベルを選択する必要性を回避することができる。我々はピラミッドSIFT(Pyramid-SIFT, P-SIFT)記述子を紹介し、最先端の4つの画像認識パイプラインに適用することでそれらの精度が向上し、最高水準の結果が得られることを示す。提案手法は空間的ピラミッド型照合とは独立に適用でき、空間的ピラミッドと局所ピラミッドとを統合することで更なる性能向上に繋がることを示す。輝度画像に対するSIFT特徴を用いた他の手法と比較して、Caltech-101とCaltech-256とにおいて最高水準の結果(Caltech-101:80.1%、Caltech-256:52.6%)が得られる。提案手法は効率的であり、画像認識パイプラインに極めて容易に実装できる。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.36, No.6

ボケ量からの奥行き復元における、位置と奥行き計算のための統合的なアプローチ
A Unified Approach for Registration and Depth in Depth from Defocus

Ben-Ari, R. , , Orbotech Ltd., Yavne, Israel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 6, pp. 1041-1055 , June 2014

Keywords: 3D reconstruction, Depth cues, GPU computing, Image Processing and Computer Vision, Reconstruction, Registration, Shape, depth from defocus, extended depth of field, focus sensing, registration, Adaptive optics, Estimation, Optical imaging, Shape, Standards, Stereo vision, Three-dimensional displays

ボケ量からの奥行き復元(Depth from Defocus: DFD)は、奥行きがそれほど無いシーンの撮像の場合に、シーン内の構造の復元のための、シンプルな光学的機構である。このDFDのために多くの手法がこれまでに提案されてきたが、画像間の整列問題は特に注目されていなかった。固有のシフト量変量(shift-variant)ボケのために、標準的な位置決め手法では、形状の再構築を行うために必要な精度を達成することができない。本稿ではDFD及び位置決め問題を統合フレームワークにおいて取り扱い、これらの総合関係を利用して双方のキューに対してより良い解を与える。位置決めとボケの間の関係を定式化し、これにより従来の位置決めと奥行き推定をそれぞれ別個に行う標準的なアプローチの限界と弱点を明らかにする。この解法はエネルギー最小化のアプローチをとっている。本手法が名高いNewton-Raphson法と等価であることを証明することにより、本手法の数値解法の効率を示し、併せてこの線形システムの収束の証明を与える。DFDは計算量が多いが、新たな同時位置決め法と合わせてGPUを用いた計算でこれに対応する。実験の結果、形状の復元精度が位置決め精度に強く依存すること、位置決めとDFDを別々に適用するような比較対象の手法に比べ、優れた性能を持つことが示される。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


結合階層化確率場(Associative Hierarchical Random Fields)
Associative Hierarchical Random Fields

Ladicky, L. , , Computer Vision and Geometry Lab at ETH Zurich, Zürich, Switzerland Russell, C. Kohli, P. Torr, P.H.S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 6, pp. 1056-1077 , June 2014

Keywords: Conditional Random Fields, Conditional random fields, Discrete Energy Minimisation, Object Recognition, Segmentation, discrete energy minimisation, object recognition and segmentation, Computational modeling, Computer vision, Context, Context modeling, Image segmentation, Labeling, Semantics

本稿では、結合階層化確率場(Associative Hierarchical Random Fields: AHRF)と呼ぶ新たな最適化アルゴリズム/モデルの提案と、このモデルをセマンティック分割(semantic segmentation)問題への適用という2つの成果について説明を加える。セマンティック分割に適用される既存手法の大半は、画素や画素群(super-pixel)に対して対応付けられることになる変数に対するラベル付問題として定式化されている。画素群分割は一意に生成されないことが知られており、そのためセマンティック分割や単一ビューからのシーン再構成問題において多くの研究者が複数種類の画素群分割法を利用している。これら複数種類の画素群分割の結果の組み合わせは体系的に検討されていなかった。これは分割構造のオーバーラップや入れ子構造を考えると難しい問題である。我々の新しい階層型確率場モデル手法では、すべての前述の分割結果からの情報が大域エネルギー関数に対して寄与するようになっている。このモデルにおけるMAP推測は、グラフカットに基づく移動実装アルゴリズム(graph cut based move making algorithm)により効率的に行うことができる。我々のフレームワークは画素やセグメントに基づく既存手法の多くを一般化するものであり、結果として得られるラベルは画素レベルの詳細情報としても利用可能だし、さまざまな分割結果からベストなものを選択するようなジグソーのようなものとしても用いることができる。この手法の性能をオブジェクトクラス分割におけるいくつかの最も困難なデータセットを用いて試験し、その結果、我々の手法により複数のオーバーラップのある分割を用いた推測を行うことができること、そしてその結果が他の最新の手法に伍するものであることを示す。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


低周波反射率の双多項式モデリング
Bi-Polynomial Modeling of Low-Frequency Reflectances

Shi, B. , Institute of Industrial Science, the University of Tokyo, Tokyo, Japan Tan, P. Matsushita, Y. Ikeuchi, K.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 6, pp. 1078-1091 , June 2014

Keywords: Intensity, Low-frequency reflectance, Shape, and thresholding, color, parametric BRDF model, photometric stereo, photometry, radiometric image analysis, reflectometry, Brain modeling, Computational modeling, Lighting, Materials, Mathematical model, Polynomials

本稿で我々は、反射率の低周波成分を正確に表現できる双多項式反射率モデルを紹介する。ほとんどの既存の反射率モデルは、写真の現実的なレンダリングのために完全な反射率情報を正確に表現しようとしているが、我々の双多項式モデルは、低周波成分の非線形変動を保持しつつ、効率的高周波成分を除去することにより、逆問題を高精度に解くことを目的としている。この双多項式反射率モデルはオブジェクトの表面反射率と形状を推定するために役立つ。他のパラメトリック反射率モデルとの比較実験による検証の結果、提案モデルは反射率計(reflectometory)での観測と測光ステレオ法の用途において、他の手法よりも優れた性能を示した。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


「構成によるクラスタリング」画像カテゴリの教師なし発見
“Clustering by Composition”-Unsupervised Discovery of Image Categories

Faktor, A. , Department of Computer Science and Applied Math, Ziskind Building, The Weizmann Institute of Science, Rehovot, POB 26, Israel Irani, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 6, pp. 1092-1106 , June 2014

Keywords: Image clustering, category discovery, image affinities, unsupervised object recognition, Animals, Clustering algorithms, Collaboration, Image edge detection, Image segmentation, Probability, Shape

本稿で我々は「良い画像クラスタ」を、クラスタ内では、(パズルのように)画像をお互いの部分を組み合わせることで簡単に構成可能で、且つクラスタ外の画像からは構成することが難しいようなものとして定義する。これらの部分がより大きくなるか、より統計的に有意になるにしたがって、画像間の親和性も強くなっていくものとする。これは極めて困難な画像カテゴリに対する教師なし発見の端緒となるものである。協調的確率的探索アルゴリズムを用いることで複数の画像をお互いから同時に構成する方法についても説明する。この強調過程では、「画像群の英知」を利用することで、スパースではあるが意味ある画像間関係の組を導出する。この計算は画像群のサイズに対してほぼ線形時間である。このような仕組みに基づく「構成によるクラスタリング」は、現在のベンチマークデータセットにおいて、他の最新の手法に伍する性能を与える。この手法はさらに、ごくわずかの画像しか含まないような新たな困難なデータセット(このような場合には既存手法ではクラスタモデルの学習ができない)と、(スケールと外観について大きなバラエティがある)PASCAL VOCデータセットのサブセットに対しても、優れた結果を示している。 

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数インデクスによるハッシュを用いたハミング空間における高速かつ厳密な検索
Fast Exact Search in Hamming Space With Multi-Index Hashing

Norouzi, M. , Department of Computer Science, University of Toronto, Toronto, ON, Canada Punjani, A. Fleet, D.J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 6, pp. 1107-1119 , June 2014

Keywords: Binary codes, Hamming distance, large-scale image retrieval, multi index hashing, multi-index hashing, nearest neighbor search, Algorithm design and analysis, Binary codes, Complexity theory, Databases, Hamming distance, Search problems, Upper bound

高速な近傍検索のための、コンパクトなバイナリコードによる特徴記述子及びそれを用いた画像の表現に対する関心が高まってきている。バイナリコードは、ハッシュテーブルに対する直接のインデクス(アドレス情報)としての利用がメインであるものの、不効率になってしまう32ビットを超える長いコードは使われていない。バイナリコードのサブストリングに対して複数のハッシュテーブルを構築するための厳密な方法を紹介する。この手法によりハミング空間における厳密なk最近傍法による検索が可能になる。このアプローチはストレージの空間効率が良く、実装も用意である。理論的解析により、このアルゴリズムが均一分布のコードに対して劣線形の実行時間挙動であることが示される。実験の結果から、10億コードまでの64bit, 128bit, 及び256bitのコードに対して、本手法はベースラインとなる線形スキャン法を大きく上回る速度を達成していることが示される。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


階層的画像コードブックに基づく虹彩画像識別
Iris Image Classification Based on Hierarchical Visual Codebook

Sun, Z. , Center for Research on Intelligent Perception and Computing (CRIPAC), National Laboratory of Pattern Recognition (NLPR), Institute of Automation, Chinese Academy of Sciences (CASIA), Beijing, China Zhang, H. Tan, T. Wang, J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 6, pp. 1120-1133 , June 2014

Keywords: Coarse-to-fine iris identification, Ethnic iris classification, Hierarchical Visual Codebook (HVC), Iris image classification, Iris liveness detection, coarse-to-fine iris identification, iris liveness detection, race classification, Biomedical imaging, Encoding, Feature extraction, Iris, Iris recognition, Visualization, Vocabulary

信頼性の高い個人同定手段としての虹彩認識はこれまでに広く研究されてきた。これらの研究では、各虹彩画像のクラスラベルを、各ユーザに割り当てることが目的としている。これに対して虹彩画像識別では、アプリケーション特有のカテゴリにし対して虹彩画像を識別することを目的としている。この特有カテゴリの例としては、虹彩生体性判定(iris liveness detection:偽の人工虹彩の識別)、人種識別(たとえばアジア人と非アジア人の識別)、粗密虹彩同定(複数のカテゴリを持つ単一のデータベースにおけるすべての虹彩画像の識別)がある。本稿では、テクスチャ解析に基づく虹彩画像識別のための一般フレームワークを提案する。虹彩画像のテクスチャプリミティブを符号化するための、階層的画像コードブック(Hierarchical Visual Codebook: HVC)と呼ぶ新たなテクスチャパターン表現方法を提案する。このHVCは語彙木(Vocabulary Tree: VT)及び局所性拘束付き線形コーディング(Locality-constrained Linear Coding: LLC)と呼ばれる2つの既存のBag-of-Words法を統合した方法である。HVCは粗密戦略による画像コーディング戦略を採っており、虹彩画像の正確かつスパースな表現というVT及びLLCの利点の両方を取り込んでいる。大規模な実験により提案手法が虹彩生体性検出、人種識別及び粗密戦略による虹彩同定のための他の最新の手法に伍する性能を持つことが示される。虹彩生体性検出の研究のためのベンチマーキングのための4種類の虹彩画像の偽装方法を模擬した包括的な偽虹彩画像データベースを開発した。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


教師付き及び半教師付き異種ドメイン適応のための強化特徴の学習
Learning With Augmented Features for Supervised and Semi-Supervised Heterogeneous Domain Adaptation

Li, W. , School of Computer Engineering, Nanyang Technological University, Singapore Duan, L. Xu, D. Tsang, I.W.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 6, pp. 1134-1148 , June 2014

Keywords: Heterogeneous domain adaptation, augmented features, domain adaptation, transfer learning, Convergence, Kernel, Linear programming, Measurement, Optimization, Support vector machines, Vectors

本稿では異種ドメイン適応(heterogeneous domain adaptation: HDA)問題について検討する。この問題は、ソースドメインのデータとターゲットドメインのデータを異なる次元の異種特徴により表現する問題である。2つの異なる投影行列(projection matrices)を導入することで、これら2つのドメインのサンプル間の類似度が計測できるように、2つのドメインからのデータを共通した部分空間に変換する。次に各ドメインに対して新しい特徴マッピング関数を提案する。変換後のサンプルの特徴とゼロ点によりこれらの特徴を強化している。本稿で提案する強化特徴取り入れることで既存の教師付き学習法(SVMやSVRなど)を教師付きHDAにそのまま利用することができる。技術紹介目的で、異種特徴強化(Heterogeneous Feature Augmentation: HFA)と我々が呼ぶSVMに基づく新しい方法を提案する。本稿で提案する定式化は、標準的な複数カーネル学習(Multiple Kernel Learning: MKL)問題と等価な問題として導出することができる。MKLは凸問題であり、それゆえ大域解が保証される。さらに、ターゲットドメインにおけるラベルなしデータを追加で利用するために、半教師付きHFA(Semi-supervised HFA: SHFA)を提案する。これはラベルなしのターゲットサンプルのラベルを推定すると共にターゲット識別器も同時に学習することができるものである。3種の異なるアプリケーションにおいて大規模な実験を行い、これにより我々のSHFA及びHFAが既存のHDA法を上回る性能を持つことを例示する。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


シフト付き非対称ラプラス分布の混合
Mixtures of Shifted AsymmetricLaplace Distributions

Franczak, B.C. , Department of Mathematics & Statistics, University of Guelph, Guelph, Canada Browne, R.P. McNicholas, P

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 6, pp. 1149-1157 , June 2014

Keywords: Statistical computing, multivariate statistics, Algorithm design and analysis, Annealing, Convergence, Gaussian distribution, Indexes, Mathematical model, Random variables

本稿ではクラスタリングと識別のための、シフト付き非対称ラプラス分布の混合を紹介する。期待値最大化法の派生アルゴリズムを開発し、このアルゴリズムと一般化逆ガウシアン分布との関係を利用することでパラメタ推定を行う。このアプローチは数学的にエレガントなものであり、計算としても相対的に簡単なものである。この新しい混合モデリングアプローチをクラスタリングと識別のアプリケーションにおける合成及び実データによる実験で例証する。これらの解析により、我々のシフト付き非対称ラプラス分布の混合モデルは、一般的なガウシアン混合モデルに伍する性能を持つことが示される。本研究はガウシアン以外のモデルを用いたクラスタリング及び識別のアプリケーションにおける重要な貢献である。本稿ではさらにディスカッションと今後の課題について述べる。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


軌道計算におけるオンライン学習と連続異常値検出
Online Learning and Sequential Anomaly Detection in Trajectories

Laxhammar, R. , , Saab AB, Järfälla, Sweden Falkman, G.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 6, pp. 1158-1173 , June 2014

Keywords: Anomaly detection, Conformal prediction, Machine learning, Outlier detection, Trajectory data, Video analysis, Video surveillance, conformal prediction, online learning, trajectory data, Algorithm design and analysis, Design automation, Detection algorithms, Detectors, Hidden Markov models, Training, Trajectory

異常軌道の検出は監視分野における重要な問題であり、通常軌道パターンの学習に基づくさまざまなアルゴリズムが提案されてきた。ただ、これらのアルゴリズムは多くの場合いくつかの制約がある。たとえば不完全な起動の連続解析や、訓練集合が逐次更新されるような場合でのオンライン学習などは難しい。さらにこれらのアルゴリズムは多数のパターンチューニングを必要とすることが多く、アドホックな異常値閾値の決定や、これによるオーバーフィッティング、そして低い予知率(alarm rate)などが問題となる。本稿では、軌道計算におけるオンライン学習および連続以上検出のための連続Hausdorff最近傍等角異常検出(Sequential Hausdorff Nearest-Neighbor Conformal Anomaly Detector: SHNN-CAD)を提案する。これは決定しなければならないパラメタ数が少ないアルゴリズムであり、異常値閾値のキャリブレーションのためのよく整備された方法となる。Keoghらにより提案された不調和アルゴリズム(discords algorithm)は、上記のアルゴリズムとは別のパラメタ数の少ないアルゴリズムであり、既に軌道データを含む様々な時系列データに対して高い識別性能を持つことが示さされている。SHNN-CADと上記の不調和アルゴリズムを実装し性能を調査するために、4つのラベル付軌道データセットについて試験した。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


制約フローによるオンライン映像イベント検出
On-Line Video Event Detection by Constraint Flow

Kwak, S. , Department of Computer Science and Engineering, POSTECH, Pohang, Korea Han, B. Han, J.H.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 6, pp. 1174-1186 , June 2014

Keywords: Activity recognition, Constraint flow, Dynamic programming, Temporal logic, Video event detection, activity recognition, constraint flow, dynamic programming, temporal logic, Event detection, Heuristic algorithms, Hidden Markov models, Inference algorithms, Optimization, Probabilistic logic, Stochastic processes

本稿では、複合映像イベントの検出と記述のための新たなアプローチを提案する。これは基礎事象の時間的論理構造によって、目的イベントの設定(configration)を制約するシナリオに基づくアプローチである。ここでは、より流暢に効率良く複合イベントを表現する新たなシナリオ記述手法を提案し、組み合わせ最適化に基づくオンライン検出アルゴリズムについて論じる。この目的のために、最初に制約フロー(シナリオ制約の動的な設定)が、シナリオ解析アルゴリズムにより自動的に生成される。次いで複合事象検出が、制約フローに対する最良の動画解釈を見つけることを目的とする制約付き離散最適化問題として定式化される。最適化問題の探索空間は著しく広大であるが、本提案の動的計画を用いた制約フローに基づくオンラインイベント検出アルゴリズムは、探索空間を劇的に縮小し、前処理エラーを効果的にハンドリングして、大域的な最適解を保証する。自然動画を用いた実験により、本アルゴリズムの有効性を示す。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


長時間動画解析による移動体セグメンテーション
Segmentation of Moving Objects by Long Term Video Analysis

Ochs, P. , Department of Computer Science and also with the BIOSS Centre for Biological Signalling Studies, University of Freiburg, Freiburg, Germany Malik, J. Brox, T.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 6, pp. 1187-1200 , June 2014

Keywords: Computer vision, Motion segmentation, motion segmentation, point trajectories, variational methods, Adaptive optics, Computer vision, Motion segmentation, Noise, Optical imaging, Tracking, Trajectory

運動は教師なしオブジェクトレベル分類の強力な手がかりである。本稿では、より大きな時間窓上での評価において、運動が最も効果的に活用できることを示す。古典的な2フレームのオプティカル・フローとは対照的に、数百ものフレームで張られる点の軌跡は、異なるオブジェクトの分離の妨げとなる短期間の変化に影響されにくい。また好ましい副作用として、解として得られる分類では、既存アプローチの膨大な大多数が後処理として必要とする特性が、全動画に渡って時間的に整合する。我々は半稠密な動きの手がかりから始めて、テクスチャの無い領域を色に基づいて後から埋める枠組みによる作業を推奨する。また本研究は、フライブルク・バークレー・モーション・セグメンテーション(Freiburg-Berkeley motion segmentation : FBMS)データセットに貢献している。このデータセットは、大きく多様な59シーケンスと、移動物体に関するピクセル精度の正解アノテーションを備えている。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


半教師付カーネル・ミーンシフト・クラスタリング
Semi-Supervised Kernel Mean Shift Clustering

Anand, S. , Electrical and Computer Engineering Department, Rutgers University Mittal, S. Tuzel, O. Meer, P.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 6, pp. 1201-1215 , June 2014

Keywords: Algorithms, Applications, Clustering, Computer vision, Computing Methodologies, Pattern Recognition, Semi-supervised kernel clustering, Similarity measures, log det Bregman divergence, mean shift clustering, Clustering algorithms, Clustering methods, Computer vision, Null space, Symmetric matrices, Vectors

ミーンシフト・クラスタリングは、クラスタ数と事前知識と、クラスタ形状に関する制約を必要としない強力なノンパラメトリック手法である。しかし完全な教師なしを実現しようとすると、オリジナルの計量が、背景にあるクラスタ構造の取得に失敗する場合に、その(速度)性能が犠牲となる問題を生じる。このため、半教師付クラスタリング手法の昨今の優位性にも関わらず、これをミーンシフトに取り込む努力は、ほとんどされてこなかった。本稿では、カーネル平均値シフトクラスタリングのための半教師付フレームワーク(semi-supervised framework for kernel mean shift clustering : SKMS)を提案する。これは、クラスタリング手続きをガイドするための一対毎の制約を用いるものである。そのポイントは、最初に制約が線形変換で課せられるような高次元のカーネル空間に写像することである。このことは、初期のカーネル行列を、対数行列式勾配に基づく目的関数の最小化で修正することにより実現される。ここでは、SKMSの優位性を、さまざまな合成データセットと実データセット上で、最新の半教師付クラスタリング・アルゴリズムとの比較を伴う性能評価により示す。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ソフト・バイオメトリクス; 比較可能記述子を用いた個人識別
Soft Biometrics; Human Identification Using Comparative Descriptions

Reid, D.A. , School of Electronics and Computer Science, the University of Southampton, Southampton, United Kingdom Nixon, M.S. Stevenage, S.V.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 6, pp. 1216-1228 , June 2014

Keywords: Soft biometrics, comparisons, gait biometrics, human descriptions, regression, retrieval, Color, Databases, Face, Iris recognition, Reliability, Surveillance

ソフト・バイオメトリクスは、人間によって自然に記述される物理的特徴、あるいは振る舞いの特徴を用いた新しいバイオメトリクスの形式である。他のバイオメトリクスアプローチとは異なり、本方式はバイオメトリクスと人物記述の間の意味上の隔たりの橋渡しすることで、言語記述のみに基づく識別を可能とする。このソフト・バイオメトリクスを可能とするための識別子は正確でなくてはならないが、絶対的なラベルと推定からなる伝統的な人物識別子では、しばしば信頼性の問題を生じる。そこで人物識別子を得る新たな方法として、ここでは題材毎の差異を記述するための比較に適したカテゴリラベルを利用する方法を導入した。これまでに、この革新的なアプローチを、絶対的なカテゴリラベルが最もクリティカルになるような多くの問題を扱えることを示してきた。その記述子は、より客観的な情報と、より多くの識別能力を備える。また被験者の相対的な特徴量は、イロレーティング(Elo rating)システムを用いて、比較人物識別子から推論される。ここで得られたソフト・バイオメトリクス計測値は頑健で、被験者の正確な認識を可能とすることが示される。また相対計測値も、その他の人物表現形式から得ることができる。このことは、SVMを用いて、歩容バイオメトリクス特徴から、相対計測値を決定することで示される。この歩容バイオメトリクス特徴は、意味的な隔たりの橋渡しをする人物比較結果を用いて、歩容画像から被験者を検索することを可能にする。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大規模オブジェクト復元のための、空間的に制約された類似性尺度
Spatially-Constrained Similarity Measurefor Large-Scale Object Retrieval

Shen, X. , Adobe Research, 345 Park Ave, San Jose, Lin, Z. Brandt, J. Wu, Y.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 6, pp. 1229-1241 , June 2014

Keywords: Object retrieval, bag-of-words, k-NN re-ranking, product image search, spatially-constrained similarity measure, Feature extraction, Image segmentation, Mobile communication, Search problems, Spatial databases, Visualization

Bag-of-wordsを用いたオブジェクト復元における一つの基本的な課題は、空間情報が欠落することである。これまでにも空間的な制約をモデルに取り込むために、様々な取り組みが提案されてきたが、ほとんどのものは制約が強すぎたり弱すぎたりするために、限られたケースでしか有効ではなかった。本稿では、オブジェクトの回転、視点変換、および外観変形(appearance deformation)のための、新たな空間制約付き類似尺度(spatially-constrained similarity measure : SCSM)を提案する。本類似性尺度では、反転ファイル(inverted files)を用いた投票に基づいて、効率よく算出すること可能となる。また検索プロセスの間、データベース画像内でのオブジェクトの位置決めも、SCSMを用いることで、後処理なしに同時に達成される。さらに本稿では、SCSMによる検索と位置決めの結果に基づいて、自動的に初期検索結果をリファインするための、クエリk-最近傍に対する新しく頑健な再順位付け手法を提案する。ここでは6つの公開データベース上での広範な性能評価により、SCSMの性能がRANSACに基づく空間照合を含めた他の空間モデルを遥かに凌ぐことと、k-最近傍再順位付けが、ほとんどのクエリ拡張による最新アプローチを凌ぐことを示す。 本研究ではSCSMを、モバイルクエリ画像からの製品領域の抽出、照合、および類似する製品画像の検索を同時に実行する対話的アルゴリズムを備えるモバイル端末の画像検索にも適応させた。また、2つの製品画像検索データセット上での実験により、本アプローチによって、頑健に位置決めとクエリ画像内での製品展開ができることと、それにより、基準手法による検索精度を劇的に改善することを示す。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオ映像からの集団活動理解
Understanding Collective Activitiesof People from Videos

Choi, W. , NEC Laboratories, Savarese, S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 6, pp. 1242-1257 , June 2014

Keywords: Collective activity recognition, tracking, tracklet association, Context, Hidden Markov models, Histograms, Target tracking, Trajectory, Vectors, Videos

本稿では、ビデオ映像からの、様々なレベルの意味粒度における集団活動分析のための合理的なフレームワークを紹介する。本フレームワークは、個人の単独での活動(即ち、"歩いている"、"立っている"などの活動要素(atomicc activities))と、ペア間の相互作用(相互活動(interaction activities))および、グループの活動(集団活動(collective activities))を認識することにより、複数の個人を結合的にトラッキングすることを可能とする。本方式の鍵となる特性は、検出情報やトラックの断片(トラックレット)によるボトムアップの情報と、トップダウン・エビデンスとの密接な関連づけができることである。トップダウン・エビデンスは、映像シーケンスの時空間近傍内でのグループの密接な挙動を捕捉する新提案の記述子によって提供される。このトップダウン・エビデンスが、フレーム間にまたがる検出物やトラックレットの正確な関連性を構築し、それにより頑健なトラッキング結果を得るための文脈情報を提供する。ボトムアップ・エビデンスは、結合した行動ラベルを自動的に推定するように、上位に向けて浸透する。難易度の高い2つのデータセット上での実験により、本稿での理論的主張を検証し、提案モデルによるトラッキング性能の向上と、今日までの最良の集合識別結果を与えることを示す。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


GNCCP - 段階的な非凸および凹手続き(Graduated NonConvexity and Concavity Procedure)
GNCCP-Graduated NonConvexityand Concavity Procedure

Liu, Z.-Y. , State Key Laboratory of Management and Control for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Room 904, Zidonghua Building, 95 Zhongguan East Road, China Qiao, H.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 6, pp. 1258-1267 , June 2014

Keywords: Combinatorial optimization, deterministic annealing, graduated optimization, partial graph matching, quadratic assignment problem, Algorithm design and analysis, Eigenvalues and eigenfunctions, Linear programming, NP-hard problem, Pattern matching, Simulated annealing

本稿では、部分置換行列の集合上で定義される複合最適化問題を、近似的に解くための一般的な最適化フレームワークとして、段階的な非凸手続きと凹手続き(graduated nonconvexity and concavity procedure : GNCCP)を提案する。GNCCPは、凸緩和を実現する段階的非凸化と、凹緩和を実現する段階的凹化の二つの手続きで構成される。GNCCPは、正に凹凸緩和手続き(convex-concave relaxation procedure : CCRP)型のものを実現したものにすぎないことが証明されるが、凸緩和や凹緩和を陽に必要としない、より簡潔な定式化となっている。実際、GNCCPは評価関数の勾配のみを含み、それ故、実応用での利用が非常に容易となっている。関連する2つの典型的な NP困難問題である、部分グラフマッチング問題と、2次割当配置問題(quadratic assignment problem : QAP)を用いて、本手法の簡潔性と最先端の性能を示す。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Sum-over-Forest 密度指標 : グラフ内の高密度領域識別
The Sum-over-Forests Density Index: Identifying Dense Regions in a Graph

Senelle, M. , Institute of Information and Communication Technologies, Electronics and Applied Mathematics (ICTEAM), Louvain School of Management (LSM) & the Machine Learning Group (MLG), Univ. catholique de Louvain (UCL), Mons, Hainaut, Belgium Garcia-Diez, S. Mantrach, A. Shimbo, M. Saerens, M. Fouss, F.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 6, pp. 1268-1274 , June 2014

Keywords: Data mining, Discrete Mathematics, Graph Theory, Graph mining, Mathematics of Computing, Mining methods and algorithms, Trees, dense regions on graphs, density index, matrix-forest theorem, Correlation, Equations, Indexes, Physics, Probability distribution, Vegetation

本稿では、グラフ上の新たなノン・パラメトリック密度指標である Sum-over-Forest (SoF) を紹介する。これは、「グラフ内の高密度領域は、低密度領域にはほとんど含まれない高い出次数(out-degree)の低コスト木を大量に含んでいる」という、明確で直感的なアイデアに基づいている。そのためにまず、グラフ内フォレストの可算集合上のボルツマン確率分布を、低確率の場合に大きな(高コストな)フォレストが生起し、高確率の場合に小さな(低コストな)フォレストが生起するよう定義する。次いで、ノードのSoF密度指標をフォレスト集合上の点に期待される出力次数として定義する。これにより、ノードのまわりの密度測度が与えられる。行列フォレスト理論(matrix-forest theorem)と統計物理のフレームワークに従って、SoF密度指標は、単純な逆行列計算から閉形式として容易に計算されることが示される。合成データセットおよび実データセット上の実験により、提案指標が、多様な起源のグラフにおける高密度領域の検出を良好にこなすことを示す。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


変換不変PCA: 顔画像のアライメント・表現・認識の完全自動統合アプローチ
Transform-Invariant PCA: A Unified Approach to Fully Automatic FaceAlignment, Representation, and Recognition

Deng, W. , Pattern Recognition and Intelligent System Laboratory, School of Information and Communication Engineering, Beijing University of Posts and Telecommunications, PO Box 186, Beijing, China Hu, J. Lu, J. Guo, J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 6, pp. 1275-1284 , June 2014

Keywords: Face alignment, eigenfaces, face coding, face recognition, principal component analysis, Face, Face recognition, Image recognition, Image reconstruction, Principal component analysis, Probes, Training

本研究では、人の顔に固有の構造を正確に特徴付けることを目的として、トレーニング画像の面内変換に対して不変な、変換不変PCA (transform-invariant PCA : TIPCA) を開発した。特にTIPCAは、整列画像とそれらの再構成画像の間の二乗誤差が最小になるように、画像全体を代わる代わる整列して、最適な固有空間を生成する。またFERET顔画像集 1,196 枚の画像からの学習により、画像アライメントと固有空間表現との間に相互の進展があることを立証した。結果として最適な符号化と、顔上の目印となる特徴に基づいた人手によるアライメントを凌ぐ認識性能が得られた。実験結果に基づいて、局所バイナリパターン(local binary pattern : LBP)や、輝度勾配ヒストグラム(histogram of oriented gradient : HOG)、ガボールフィルタ(Gabor energy filer : GEF)といった最新の不変記述子や、スパース表現に基づく識別(sparse representation based classification : SRC)や、サポートベクタマシン(SVM)などの識別手法に対しても、正解情報として広く認められている手作業により目の位置を利用して整列した顔の代わりに、TIPCAアライメントされた顔を用いることが有効であることを示す。また、顔の符号化や認識に対する最新の結果に対する優位性についても報告する。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.36, No.7

移動DLTによる可能な限り射影的な画像連結
As-Projective-As-Possible Image Stitching with Moving DLT

Zaragoza, J. , School of Computer Science, University of Adelaide, Adelaide, SA, Australia Chin, T. Tran, Q. Brown, M.S. Suter, D.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 7, pp. 1285-1298 , July 2014

Keywords: Direct Linear Transformation, Image Alignment, Image Stitching, Image stitching, Moving Least Squares, Projective Warps, direct linear transformation, image alignment, moving least squares, projective warps, Cameras, Educational institutions, Estimation, Extrapolation, Three-dimensional displays, Yarn

商用の画像連結ツールの成功により、画像連結(image stitching)は解決済みの課題として認識される傾向にある。しかし現実は、入力画像が撮像系に対するかなり厳密な仮定から外れると、多くのツールは期待に反する結果を返す。先述の仮定の主要なものは、入力画像が回転角のみ異なる視点に対応するという仮定、並びに撮影されるシーンは概ね平面であるという仮定の二点である。これらの仮定は、画像を位置合わせに際して二次元射影変換や相同性(homography)を用いるために必要となるものである。ライトユーザにとってこれらの条件を満たすことは容易ではないことから、結果画像における位置ずれに伴うノイズやゴースト(ghosting)の発生要因となっている。したがって、多くの既存の画像連結ツールでは、後処理においてゴーストを除去している。本稿では、移動DLT法(Moving Direct Linear Transformation, Moving DLT)と呼ぶ新たな推定手法を提案する。移動DLT法では、入力データの理想条件からのズレに対処するために射影歪みを微調整することができる。これにより可能な限り射影的な画像の位置合わせ(as-projective-as-possible image alignment)が実現され、透視投影画像連結における幾何学的正確さを犠牲にすることなく、ゴーストを劇的に低減することができる。したがって提案手法は、計算コストの高い後処理アルゴリズムに対する依存性を低減できる。更に、複数の可能な限り射影的な歪み補正がバンドルアジャストメントを通じて同時更新でき、大規模なパノラマ画像生成において複数の画像を正確に位置合わせすることが可能であることを示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


情動的行動の分析と連続的アノテーションの統合のための動的確率CCA
Dynamic Probabilistic CCA for Analysis of Affective Behavior and Fusion of Continuous Annotations

Nicolaou, M.A. , Department of Computing, Imperial College London, London, SW, U.K. Pavlovic, V. Pantic, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 7, pp. 1299-1311 , July 2014

Keywords: Fusion of continuous annotations, affect analysis, component analysis, dimensional emotion, temporal alignment, Bismuth, Computational modeling, Estimation, Heuristic algorithms, Joints, Noise, Probabilistic logic

複数の連続的エキスパートアノテーション(continuous expert annotations)を統合することは、機械学習とコンピュータビジョンの分野において極めて重要な課題である。これは特に、情動的行動(affective behavior)に関連する不確実で主観的な課題を扱う際に顕著である。確率的正準相関分析(Probabilistic Canonical Correlation Analysis, PCCA)における共有空間と個々の潜在空間の推定方法から着想を得て、共有空間と固有空間との時間的関連性を見つけ出す新たな生成モデルを提案する。(Dynamic Probabilistic CCA, DPCCA) 連続的アノテーションにおいて顕著である時間的遅延に対応するため、更に潜在的ワーピング処理を導入し、時間ワープ付きDPCCA(DPCCA with Time Warpings, DPCTW)を導き出す。最後に、DPCCAとDPCTWに対して学習過程を導入した2種類の拡張を提案する。これらは入力を生成的に用いる手法(SG-DPCCA)と、判別的に用いる手法(SD-DPCCA)である。このようにして得られたモデル群が次の特性を持つことを示す。(i)複数のアノテーションの時間的位置合わせや統合の課題を解く統一フレームワークとして利用できる、(ii)潜在事後確率を初めとする様々なモデルの統計量に基づいて、自動的にアノテーションを並べ替えたりフィルタしたりすることができる、(iii)DPCTWは動力学、アノテーションに特有の偏りのモデル化、ノイズ推定、時間ワーピング、そして学習過程を導入することで、複数の不完全なエキスパートアノテーションの集約課題と情動的行動の位置合わせ課題において最先端手法を凌駕する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数画像解釈からの一般化境界
Generalized Boundaries from Multiple Image Interpretations

Leordeanu, M. , Institute of Mathematics, Romanian Academy (IMAR), Bucharest, Romania Sukthankar, R. Sminchisescu, C.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 7, pp. 1312-1324 , July 2014

Keywords: Edge, Edge and feature detection, Image models, Motion, Multidimensional, Pixel classification, Region growing, boundary and contour detection, computer vision, occlusion boundaries, partitioning, soft image segmentation, Computational modeling, Image color analysis, Image edge detection, Image segmentation, Lead, Mathematical model, Optical imaging

境界検出は、領域分割、対称性検出、そして物体の認識と分類を初めとする広範な課題において必要とされる、コンピュータビジョンの基本的な問題の一つである。本稿では、閉形式解を持ち、自然画像における物体輪郭や動画中の遮蔽を伴う境界など様々な種類の境界の位置特定に適用できる、境界検出の一般的定式化を提案する。提案する一般化境界検出法(generalized boundary detection method, Gb)は、単独固有値問題(single eigenvalue problem)における低レベルと中レベルの画像表現の組み合わせと、最適な連続境界方向と強度の導出とを同時に行う。境界検出の閉形式解により、本アルゴリズムは既存手法よりも大幅に計算コストを削減しつつ、最高水準の結果を達成する。これに加え、Gbとシームレスに組み合わせられる2種類の相補的な新要素を提案する。第一に、提案する境界検出アルゴリズムに領域入力レイヤを提供するソフトセグメンテーション手順を導入することで、顕著な精度向上を僅かな計算コストで達成する。第二に、最終的な後処理段階に適用することで境界検出性能を更に向上する、輪郭のグループ化と推論のための効率的な手法を提示する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Human3.6M: 自然環境における三次元人体検出のための大規模データセットと予測手法
Human3.6M: Large Scale Datasets and Predictive Methods for 3D Human Sensing in Natural Environments

Ionescu, C. , , Institute of Mathematics of the Romanian Academy (IMAR), Bucharest, Romania Papava, D. Olaru, V. Sminchisescu, C.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 7, pp. 1325-1339 , July 2014

Keywords: 3D human pose estimation, Fourier kernel approximations, Modeling and recovery of physical attributes, Motion, articulated body modeling, human motion capture data, large-scale learning, optimization, structured prediction, Cameras, Estimation, Joints, Sensors, Solid modeling, Three-dimensional displays, Training

本稿ではHuman3.6Mと呼ぶ新たなデータセットを紹介する。本データセットは、女性5名と男性6名とのパフォーマンスを4視点から撮影して獲得した360万件に及ぶ正確な三次元人体姿勢から構成されており、現実的環境下における人体検出システムの訓練と、次世代人体姿勢推定モデルやアルゴリズムの評価での利用を目的とする。最先端のデータセットよりも規模を一桁増加させるだけでなく、典型的な人体動作(写真撮影、電話を通した会話、ポージング、挨拶、食事、など)の一環において遭遇する広範な動作や姿勢を包含することを目的とする。これに加え、同期した画像、人体モーションキャプチャ、そして飛行時間(距離)データ、並びに被写体となった全ての俳優の正確な三次元人体形状計測結果をも完備する。また、制御された複合現実評価シナリオ(controlled mixed reality evaluation scenarios)を提供する。この評価シナリオでは、三次元人体モデルがモーションキャプチャにより取得され、正確な三次元幾何により挿入された複雑な実環境を、遮蔽を伴いながら、移動するカメラによって撮影したものである。最後に、本データセットに関する大規模な統計モデルと詳細な評価基準とを提示し、その多様性と研究コミュニティ(research community)による今後の活動における改良対象を説明する。実験結果から、我々が構築したものの中で最良な大規模モデルは、我々の全訓練データセットを用いることで、既存の最大規模の公開データセットを用いた場合よりも、この課題に対して20%の性能向上が得られた。より高性能で複雑なモデルを我々の大規模なデータセットと組み合わせることで期待される改善効果は更に大きく、今後の研究を活発化させるものと考えられる。本データセット、関連する大規模学習モデル、特徴量、可視化ツールのソースコード、並びに評価サーバは、http://vision.imar.ro/human3.6mにおいて公開されている。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数の代替クラスタリング視点の反復的発見
Iterative Discovery of Multiple AlternativeClustering Views

Niu, D. , Department of Electrical and Computer Engineering, Northeastern University, 409 Dana Research Bldg., Boston , Dy, J Jordan, a

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 7, pp. 1340-1353 , July 2014

Keywords: Kernel methods, alternative clustering, dimensionality reduction, multiple clustering, non-redundant clustering, Algorithm design and analysis, Clustering algorithms, Correlation, Kernel, Labeling, Optimization, Vectors

複雑なデータは多数の異なる方法によってグループ化や解釈を行うことができる。しかし、既存のクラスタリングアルゴリズムの大多数は一つの解しか見つけることができず、その解に満足せずに代替解を求めるデータ解析者に対して僅かな情報しか提供しない。本稿では探索的データ解析(exploratory data analysis)を目的とする利用者に、複数のクラスタリング解を提示する新たなアプローチを紹介する。提案手法は代替クラスタリング解が異なる部分空間(または視点)に存在する可能性があるという考えを導入する。これらの部分空間と対応するクラスタリング解とを同時に検出するアルゴリズムを提示する。本アルゴリズムは、クラスタ品質の項と既に発見されたクラスタリング解に関する新規性の項とを導入する最適化手続きに基づいて設計されている。提案手法と既存手法とを比較する広範な実験結果を提示し、複数のクラスタリング解を発見する同時モードと反復モードとの関連性を調査する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


視覚的物体認識を目的とするマルチカーネル学習に対するレビュー
Multiple Kernel Learning for Visual Object Recognition: A Review

Bucak, S.S. , Department of Computer Science and Engineering, Michigan State University, East Lansing, MI, USA Jin, R. Jain, A.K.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 7, pp. 1354-1369 , July 2014

Keywords: Feature evaluation and selection, Introductory and Survey, Machine learning, Multiple kernel learning, Object recognition, convex optimization, support vector machine, visual object recognition, Histograms, Image color analysis, Kernel, Object recognition, Optimization, Training, Visualization

マルチカーネル学習(Multiple Kernel Learning, MKL)は、与えられた認識課題のためのカーネルを選択し組み合わせる理念(principled approach)である。多くの研究によりMKLは物体認識において有用であることが示されている。物体認識に際しては各画像が複数セットの特徴で代表され、MKLは異なる特徴セットを組み合わせる目的で利用される。本稿では、関連する最適化問題を解くための様々な定式化方法やアルゴリズムを含むMKLの最先端技術を、物体認識への応用という観点で再考察する。物体認識にMKLを利用しようと考えている専門家が陥るジレンマの一つとして、異なる文献がMKLの性能や効率性に関して相反する結果を示すケースが少なくないことが挙げられる。この問題を解決するために、物体認識を目的とする様々なMKLの手法に対して、標準データセットを用いた詳細な実験を実施する。様々な文献において相反する結論が提示されている原因が、実験条件の差異にあることを明らかにする。本研究における結論は、(i)十分な数の訓練データと特徴数、カーネル種別が与えられていれば、MKLは単一のカーネルを用いる構成(例えば、最も高性能なカーネルを一つ選んだり、複数のカーネルの平均と取ったりする方法)よりも物体認識において高性能である。(ii)MKL用に提案された様々な手法の中で、逐次最小最適化(sequential minimal optimization)、半無限計画法(semi-infinite programming)、そしてレベル法に基づく手法が最も計算効率が高い。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


物体プロパティの相互作用を通じた物と素材との対応付け
Relating Things and Stuff via ObjectProperty Interactions

Sun, M. , University of Washington, AC101 Paul G. Allen Center, 185 Stevens Way, Seattle, Kim, B Kohli, P. Savarese, S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 7, pp. 1370-1383 , July 2014

Keywords: Scene understanding, graph-cut, segmentation, semantic labeling, Detectors, Electronic mail, Image color analysis, Image segmentation, Object detection, Semantics, Shape

近年、「物」(人や車など詳細に定義された形状を持つ物体カテゴリ)や「素材」(草や空など空間的な広がりが不定形である物体カテゴリ)を分割し検出するために、それぞれ全く異なる手法が用いられてきた。一般的に物が移動窓やハフ変換に基づく手法によって検出されるのに対し、素材の検出は画素または領域単位の分類問題として定式化されることが多い。本稿では物と素材との両方をモデル化するシーン認識のフレームワークを提案する。本フレームワークでは、両者に対して共通の表現を用いつつ、プロパティリストを用いて各々の異なる特性を維持する。この表現により、単一のグラフモデルにおけるプロパティの相互作用を通じて、物カテゴリと素材カテゴリとの間に適切な幾何学的関係と意味的関係を築くことができる。離散最適化分野における最新の成果を用い、このモデルに対して効率的に事後確率最大化(Maximum A Posteriori, MAP)推定を行う。スタンフォードデータセットを用いた評価により、提案手法を物体領域分割と物体検出の最先端手法と比較する。また、高難易度のPASCAL'09分割データセットにおいても、提案手法が最先端手法に比肩する性能を誇ることを示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多重連結された平面物体の等角接合を用いた形状分析
Shape Analysis of Planar Multiply-Connected Objects Using Conformal Welding

Lui, L.M. , Department of Mathematics, Chinese University of Hong Kong, Hong Kong Zeng, W. Yau, S. Gu, X.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 7, pp. 1384-1401 , July 2014

Keywords: Applications, Computational models of vision, Image Processing and Computer Vision, Numerical algorithms, Reconstruction, Representations, Shape, Shape analysis, Vision and Scene Understanding, and transforms, conformal modules, conformal welding, data structures, morphing, multiply-connected shapes, shape signature, Educational institutions, Electronic mail, Equations, Shape, Shape measurement, Welding

形状分析はコンピュータビジョン分野の中核を成す課題である。二次元形状分析において、観測されたシルエットによる物体の分類と認識は極めて重要であるが困難でもある。多くの場合、更なる分析において数学的構造が利用可能となるよう、計量を用いて二次元形状空間を効率的に表現することが必要である。二次元の単連結形状(simply-connected shapes)に関する研究は多くの文献において取り上げられているが、多重連結形状(multiply-connected shapes)に関する研究は相対的に極めて少ない。本研究では、任意のトポロジーを持つ一般的な二次元の多重連結領域に対する、等角接合(conformal welding)を用いた表現方法を提案する。提案する表現空間において計量を定義することができ、この計量は物体間の非類似性を計測することができる。提案手法の本旨は、領域の外部と内部とを等角的に対応付けることで、単位円盤と円領域(内部の円盤が幾つか除去された単位円盤)とを正則一次微分形式(holomorphic 1-form)を用いて統一することにある。単位円(S')の一組の微分同相写像(diffeomorphism)を得、等角モジュール(conformal module)と共に形状シグネチャを定義するために用いる。形状シグネチャ間の形状距離は、形状間の非類似度を測るために定義することができる。本稿では、提案する形状シグネチャが適切な正規化の下で、多重連結物体を一意に特定できることを理論的に証明する。更に、形状シグネチャから形状を得る再構成アルゴリズムを導入する。これにより提案するフレームワークが完成し、形状とシグネチャとの間を行ったり来たりすることが可能となる。このことにより、シグネチャに対応するベルトラミ係数の補間を通して、形状間のモーフィングアルゴリズムを構築することができる。実画像から抽出された形状を用いた実験の結果から、提案アルゴリズムの安定した形状表現手法としての効果が示される。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


増加的干渉を用いたステレオ飛行時間型距離計測
Stereo Time-of-Flight with Constructive Interference

Castaneda, V. , Computer Science DepartmentComputer Aided Medical Procedures (CAMP), Technische UniversitÄt München (TUM), Münich, Bavaria, Germany Mateus, D. Navab, N.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 7, pp. 1402-1413 , July 2014

Keywords: Emerging technologies, Reconstruction, Sensors, Time-of-Flight, constructive interference, multi-view system, sensor, Biomedical measurement, Cameras, Cost function, Interference, Lighting, Three-dimensional displays

本稿では、一組の飛行時間(Time-of-Flight, ToF)型カメラを用いて距離画像を取得する新しい手法を説明する。画像取得後にフィルタ処理やキャリブレーション、または三次元再構成を行う手法とは異なり、提案手法では改良した取得過程に2台のカメラによる計測結果を組み合わせる。新たに提案するステレオToF計測は、シーンの赤外光源を動的に更新する3つのステージで構成される。まず二台のカメラは順次赤外光の信号を発信し(ステージ1と2)、次に同時に発信する(ステージ3)。3つのステージにおいてシーンが静止しているという仮定の下、両カメラから距離計測結果を取得し、両方の深度画像を最適化するためのコスト関数を定義する。提案するステレオToF撮影の性能を、ToFカメラのシミュレーションデータと実データとを用い、定量的、定性的に評価した結果を示す。両条件においてステレオToF撮影はより正確な距離計測結果を得た。更に、多視点ToF条件に対する拡張方法と、本システムの干渉仕様(interference specification)に関する詳細な分析結果とを併せて示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


人物動作の分割と認識を目的とする時系列データの構造化分析
Structured Time Series Analysis for Human Action Segmentation and Recognition

Gong, D. , , Institute for Robotics and Intelligence Systems, University of Southern California, Los Angeles, CA, USA Medioni, G. Zhao, X.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 7, pp. 1414-1427 , July 2014

Keywords: Computer vision, Machine learning, Multivariate time series, action recognition, online temporal segmentation, saptio-temporal alignment, transfer learning, Heuristic algorithms, Hidden Markov models, Kernel, Manifolds, Motion segmentation, Three-dimensional displays, Time series analysis

任意の人物を任意の視点から単眼カメラで撮影した連続的な動作系列から行動認識を行うための、人物動作の構造化学習の問題を取り上げる。人間の動作系列は、関節軌跡空間(joint-trajectories space)における多変量の時系列データとして表現される。構造化された時系列データのフレームワークの下で、まずカーネル化時間切断(Kernelized Temporal Cut, KTC)と呼ぶ手法を提案する。本手法は既存の変動点検出手法に対して分布のヒルベルト空間埋め込み(Hilbert space embedding)を導入することで拡張し、人物動作のノンパラメトリック問題と高次元問題とに対処する。実験により実時間での分割と高精度な行動分割結果とが得られ、提案手法の有効性が示される。次に、多変量の時系列データから動系列間の動作類似性を計算する、動的多様体変形(Dynamic Manifold Warping, DMW)と呼ぶ効率的な時空間位置合わせアルゴリズムを提案する。更に、時間分割アルゴリズムと位置合わせアルゴリズムとを組み合わせることにより、少数のラベル付きモーションキャプチャデータを関連付けることで、オンラインの人物行動認識が可能となる。人物のモーションキャプチャデータと3D深度センサデータとを用いた実験から、提案手法の転移学習モジュールにおける動作系列の自動的な分割と認識における有効性と雑音や部分的な遮蔽を伴うデータへの適応性が示される。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数の追跡器のサンプリングと統合による追跡
Tracking by Sampling and IntegratingMultiple Trackers

Kwon, J. , Department of Electrical Engineering and Computer Science, Automation and Systems Research Institute, Seoul National University, 1 Ganak-ro, Gwanak-gu, Seoul 151-744, South Korea Lee, K.M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 7, pp. 1428-1441 , July 2014

Keywords: Object tracking, abrupt motion, interacting Markov Chain Monte Carlo, severe appearance change, visual tracker sampler, visual tracking decomposition, Bayes methods, Lighting, Robustness, Target tracking, Videos, Visualization

物体の複数の外観変化と動作変化とが同時に生じる困難なシナリオにおいて頑強に動作する、視覚追跡器サンプラ(visual tracker sampler)と呼ぶ新たな追跡アルゴリズムを提案する。提案する追跡アルゴリズムは、各フレームに適した追跡器を探索することにより、対象を正確に追跡する。実世界の追跡環境は時間経過に伴い大幅に変動することから、追跡器はその時点の状況に対して適合させるか新たに構築し、物体のある変化に対して特定の追跡器が対処する必要がある。これを実現するために、提案手法では追跡対象だけでなくサンプリング過程における追跡器の状態をも含めて幾つかのサンプルを取得する。追跡器は予め定義した追跡器空間からマルコフ連鎖モンテカルロ法(Markov Chain Monte Carlo, MCMC)により効率的にサンプリングする。このサンプリングは、新たに提案する外観モデル、動作モデル、状態表現形式、そして観測形式に基づいて行う。これらは何れも視覚追跡器の重要な要素である。全ての追跡器は相互作用マルコフ連鎖モンテカルロ法(Interacting MCMC, IMCMC)に基づいて一つの結合追跡器へと統合される。この結合追跡器では、各追跡器が並列に動作しながらも相互に通信する。他の追跡器と情報交換を行うことで、各追跡器は自身の性能を改善することができ、結果として全体の追跡性能を向上させる。実験結果から、提案手法は時間経過に伴い外観や動作が急激に変化する現実的な映像において物体を正確かつ安定的に追跡でき、最先端の追跡手法を凌駕することが示される。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


視覚追跡:試験に基づく調査
Visual Tracking: An Experimental Survey

Smeulders, A.W.M. , Informatics Institute, University of Amsterdam Chu, D.M. Cucchiara, R. Calderara, S. Dehghan, A. Shah, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 7, pp. 1442-1468 , July 2014

Keywords: Camera surveillance, Computer vision, Image processing, Object tracking, Tracking dataset, Tracking evaluation, Video understanding, camera surveillance, computer vision, image processing, tracking dataset, tracking evaluation, video understanding, Educational institutions, Object tracking, Radar tracking, Robustness, Target tracking, Videos

過去20年に渡って多種多様な追跡器が提案され、一部は部分的に成功を収めている。現実的なシナリオにおける物体追跡は困難な課題であることから、コンピュータビジョンでは最も活発に取り組まれている分野の一つとなっている。良い追跡器は照明変化、遮蔽、乱雑な状態(clutter)、カメラの移動、低コントラスト、反射、そして他の少なくとも6要因を内包する多数の映像において、十分な性能を発揮する必要がある。しかし、既存の追跡器の性能は一般に10未満の映像や特定の目的に基づいて構築されたデータセットを用いて評価されている。本稿では、先述の要因を網羅する315の映像を用い、追跡器の性能評価を体系的かつ実験的に評価することを目的とする。様々な文献において頻繁に参照されるアルゴリズムと、2010年から2011年に登場しソースコードが公開されている追跡器とを含む、19種のアルゴリズムを選定した。生存曲線(survival curve)やカプラン・マイヤー統計量(Kaplan Meier statistics)、そしてグラブス検定(Grubbs test)を用いて追跡器を客観的に評価できることを示す。評価過程において、F値は追跡精度と同程度に有効であることが判明する。多様な条件下での分析によって、各追跡器の強みと弱みとに対する客観的な知見が示される。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


写真を脳裏に焼き付ける要因は何か?
What Makes a Photograph Memorable?

Isola, P. , , Massachusetts Institute of Technology, Cambridge, MA, USA Xiao, J. Parikh, D. Torralba, A. Oliva, A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 7, pp. 1469-1482 , July 2014

Keywords: Scene Analysis, Scene understanding, Vision and Scene Understanding, attributes, global image features, image memorability, Atmospheric measurements, Correlation, Delays, Games, Observers, Particle measurements, Visualization

雑誌を読んだりインターネットをブラウズしたりする際、我々は常に写真を目にしている。このような視覚情報の氾濫にもかかわらず、人間は何千もの写真とその一部詳細とを記憶することに秀でている。しかし、記憶の中で全ての画像が同等に扱われる訳ではない。一部の画像が記憶に長く留まるのに対し、他は直ぐに忘れられてしまう。本稿では、写真がどの程度記憶に残るかを推測する課題に着目する。記憶への残りやすさ、観察者に依らない個々の画像に固有で安定的な特性であり、時間経過にも影響されないことを示す。また、写真とそれが一目見たあとに記憶される確率を計測した結果を格納するデータベースを紹介する。画像を記憶に留める要因となる画像特徴、ラベルそして属性の一群を分析し、大域画像記述子(global image descriptors)に基づいて推測器を訓練することで、画像の記憶への残りやすさの推定は、現在のコンピュータビジョン技術を用いて対処可能な課題であることを示す。記憶に残る画像を作成することは、可視化、写真技術、そして教育の分野において困難な課題であるが、本研究は画像のこの有用な特徴を定量化する先駆けとなる試みである。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


HMM退却距離の学習
Learning Pullback HMM Distances

Cuzzolin, F. , Department of Computing, Oxford Brookes University Wheatly Campus, Turing Building, Wheatly, Oxford OX33 1HX, United Kingdom Sapienza, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 7, pp. 1483-1489 , July 2014

Keywords: Distance learning, action recognition, hidden Markov models, pullback metrics, Covariance matrices, Feature extraction, Hidden Markov models, Manifolds, Measurement, Training, Vectors

動作認識分野における近年の研究において、時空間映像から抽出された局所特徴を直接分類する手法の限界が露呈した。これに対し、生成的動力学モデル(generative dynamical model)により動作のダイナミクスを符号化する手法は、多くの魅力的な特性を兼ね備えている。しかし、分類において一般用途の距離尺度を用いることは必ずしも良好な結果に結びつかない。本稿では、ラベル付きの映像の訓練データセットが与えられている条件下において、生成的動的モデルのための距離関数を学習する一般化フレームワークを提案する。最適な距離関数は、パラメータ化されたモデル空間の自己同型(automorphism)に基づき、退却距離(pullback distance)の一群から選択される。我々は隠れマルコフモデルとそのモデル空間に注目し、この空間において適切な自己同型を設計する。提示する実験結果から、退却距離学習により基本的な距離と比較して動作認識性能が大幅に向上することを示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.36, No.8

RGBD画像からの三次元顔情報再構成のための2段階フレームワーク
A Two-Stage Framework for 3D FaceReconstruction from RGBD Images

Wang, K. , Department of Computer Science , Zhejiang University, Room 410, the State Key Lab of CAD&CG, Hangzhou, China Wang, X. Pan, Z. Liu, K.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 8, pp. 1493-1504 , August 2014

Keywords: Face reconstruction, deformation transfer, non-rigid registration, rigid registration, sparse coding, statistical learning, surface modeling, surface tracking, Databases, Face, Image reconstruction, Noise, Solid modeling, Three-dimensional displays, Training

本稿では廉価で一般入手可能なセンサーにより撮像されたRGBD画像からの、三次元顔情報の再構成のための新しいアプローチを提案する。課題は以下の2点である。1)解像度の低い奥行きマップに対してさらに大量のランダムノイズと情報欠落があること。2)顔姿勢と表情には大きなバラエティがあること。これらに対応するため、低品質奥行きマップから現実的な顔モデルを効果的に作成するための2段階アルゴリズムを開発した。各処理段はそれぞれ特定の種類のノイズに対応するためのものである。第一段ではデータ駆動型の局所スパースコーディングにより奥行きパッチからスパース誤差を抽出する。第二段ではまずパッチ境界上のノイズを平滑化し、次に我々が提案するテンプレートに基づく表面高精度化法を用いて局所形状を組み合わせることにより、大域形状を再構成する。我々のアプローチは画像マーカーやユーザインタラクションを必要としない。合成データ及び実データを用いて定量評価及び定性評価を実施した結果、入力情報が低品質で且つ視点と顔の表情に大きなバラエティがある場合でも提案アプローチにより高精度・高解像度な三次元顔モデルを生成できることが示された。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔情報を用いた適応的色恒常性
Adaptive Color Constancy Using Faces

Bianco, S. , Department of Informatics, Systems and Communication, University of Milano-Bicocca, Viale Sarca, Italy Schettini, R.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 8, pp. 1505-1518 , August 2014

Keywords: Color constancy, face detection, global illuminant estimation, local illuminant estimation, Algorithm design and analysis, Cameras, Estimation, Histograms, Image color analysis, Lighting, Skin

本研究では適応的色恒常性アルゴリズムを設計する。これは顔画像の肌領域を利用しシーンの照明情報を推定し補正するものである。このアルゴリズムは、入力画像中で検出された異なる顔領域それぞれに対しての照明推定結果を基盤として、画像全体での均一照明推定から領域適応的な色補正へ自動的にスイッチする。顔が写っているRAW画像の大規模な異種データセットを用いた大規模実験により、大域的色恒常性及び局所的色恒常性アルゴリズムそれぞれと提案アルゴリズムを比較し、その統計的及び知覚的に関する効果を検証した。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数の協調的表現の識別とブースティング
Classification and Boosting with Multiple Collaborative Representations

Chi, Y. , Department of Electrical and Computer Engineering and Biomedical Informatics, Ohio State University, Columbus, OH, USA Porikli, F.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 8, pp. 1519-1531 , August 2014

Keywords: Classifier design and evaluation, Design Methodology, Feature evaluation and selection, Multi-class classification, Pattern analysis, boosting, collaborative representation, compressive sensing, sparsity, Biomedical measurement, Boosting, Collaboration, Dictionaries, Face recognition, Feature extraction, Training

スパース表現を含むマルチクラス認識において、全クラスからの訓練サンプルで構成される辞書中のテストサンプルの協調表現の探索が大きな可能性を持つことが、最新の研究により示されている。本稿では、複数の協調表現を定式化で利用する2つのマルチクラス識別アルゴリズムを紹介し、この拡張自由度の探索の性能向上を例証する。まず協調表現最適化識別器(Collaborative Representation Optimized Classifier: CROC)を紹介する。これは最近傍部分空間識別器と協調的表現に基づく識別器(Collaborative Representation based Classifier: CRC)との間のバランスをとるためのものである。この最近傍部分空間識別器は、テストサンプルを、そのサンプルと選択されたクラスの主投影との間の距離を最小化するクラスに割り当てるものであり、前記のCRCは、テストサンプルを、サンプルとその協調成分との間の距離を最小化するクラスに割り当てるものである。幾つかの良く知られた識別器は異なる正規化パラメタにおけるCROCの特殊なケースとなる。クロスバリデーションにより、この正規化パラメタを最適化ことで識別性能を向上させることができることを示す。次に協調的表現に基づくブースティング(Collaborative Representation based Boosting: CRBoosting)アルゴリズムを提案する。これは複数の協調的表現を取り扱えるようにCROCを一般化したものである。特にテストサンプルが圧縮測量によってのみ利用可能な場合について、大規模な数値実験により様々な協調表現の性能比較を行った。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オブジェクト検出のための高速な特徴ピラミッド
Fast Feature Pyramids for Object Detection

Dollar, P. , Interactive Visual Media Group at Microsoft Research, One Microsoft Way, Redmond, Appel, R. Belongie, S. Perona, P.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 8, pp. 1532-1545 , August 2014

Keywords: Visual features, image pyramids, natural image statistics, object detection, pedestrian detection, real-time systems, Accuracy, Approximation methods, Detectors, Feature extraction, Histograms, Object detection, Visualization

多重解像度画像特徴は、陽に計算するよりも、近傍スケールからの外挿によって近似的に求めることができる。この基礎的な知見により、他の最新のアルゴリズムよりも正確且つ顕著に高速なオブジェクト検出アルゴリズムを設計することができる。近年の多くのオブジェクト検出器の計算上のボトルネックは、密にサンプルされた画像ピラミッドの全てのスケールにおける特徴の計算である。我々の研究の鍵となる知見は、性能を犠牲にすることなく、極僅かの計算コストで密な特徴ピラミッドを計算することができるというものである。多くの特徴は、オクターブスケール間隔で計算されていれば、密にサンプルされた特徴ピラミッドを近似できることを我々は見出した。直接的な特徴計算に比べ外挿は計算コストが低いため、我々の近似手法は無視できる程度の検出性能の低下だけで、顕著な高速化を実現している。3つの異なる種類の画像認識システムをこの高速特徴ピラミッドを使うように改変し、歩行者検出(Caltech、INRIA、TUD-Brussels、及びETHデータセットを用いて計測)及び一般オブジェクト検出(PASCAL VOCを用いて計測)の両方のタスクにおける実験を行った結果も示す。このアプローチは一般的で、且つ、詳細な多重スケール解析を必要とする広範な画像処理アルゴリズムに対して適用性を持つ。我々の近似手法は広いスペクトラムを持つ画像(ほとんどの自然画像)に対して有効であるが、狭小なバンドパススペクトラム画像(例えば周期性を持つテクスチャ)に対しては失敗することがある。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般化グラフを用いた、複数の最近傍特徴マッチングに基づく画像の位置決め
Image Geo-Localization Based on MultipleNearest Neighbor Feature Matching UsingGeneralized Graphs

Zamir, A.R. , Center for Research in Computer Vision, University of Central Florida, 4000 Central Florida Blvd., Harris Corporation Engineering Center, Orlando, Shah, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 8, pp. 1546-1558 , August 2014

Keywords: Generalized Minimum Clique Problem (GMCP), Geo-location, feature correspondence, feature matching, generalized graphs, generalized minimum spanning tree (GMST), image localization, multiple nearest neighbor feature matching, Context, Equations, Feature extraction, Image color analysis, Image edge detection, Robustness, Visualization

本稿では、一般化最小クリークグラフ(Generalized Minimum Clique Graphs: GMCP)を用いた、新しい複数最近傍特徴マッチング法に基づく画像の位置決めフレームワークを紹介する。まず(SIFTなどの)局所特徴をクエリ画像から抽出し、各クエリ特徴に対して最近傍の近接特徴をリファレンスデータセットから多数検索する。次に前記のGMCPに基づく特徴マッチングを用いて、全ての対応が大域的に整合するように各クエリ特徴に対して単一の最近傍を選択する。我々は本稿で、画像マッチングにおける対応点の探索のためには、最初に選択される最近傍特徴が最善の選択である必要はないことを提案する。このアイディアに基づく提案手法は複数のリファレンス最近傍特徴を潜在的なマッチング対象として扱い、これらの大域特徴(例えばGIST)間の整合性をGMCPを用いて強化することで、最も好適な最近傍特徴を選択する。この場合、クエリ画像が大域特徴の異なる複数のリファレンス画像と高いマッチングを示すような場合において、頑健な距離関数を用いて大域特徴間の類似性を見つけることが本質的に重要である。この目的のために、ガウシアン円形基底関数(Gaussian Radial Basis Function: G-RBF)に基づく頑健な距離関数を提案する。この提案フレームワークを新しい102,000枚のストリートビュー画像からなるデータセット上で評価した結果、他の最新の手法よりも10%上回る性能を示した。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大マージン複数ビュー情報ボトルネック
Large-Margin Multi-ViewInformation Bottleneck

Xu, C. , Key Laboratory of Machine Perception (Ministry of Education), School of Electronics Engineering and Computer Science, Peking University , Beijing, China Tao, D. Xu, C.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 8, pp. 1559-1572 , August 2014

Keywords: Multi-view learning, information bottleneck, large-margin learning, Accuracy, Complexity theory, Kernel, Linear programming, Optimization, Support vector machines, Vectors

本稿では、情報ボトルネック(Information Bottleneck: IB)理論を、複数ビュー特徴により表現されるサンプルから学習できるように拡張する。この問題を複数の送信元がある通信システムの符号化のひとつとして定式化した。このとき、それぞれの送信元はデータのビューを表している。「ボトルネック」によって複数の情報源から正確な成分を抽出することにより、符号化理論の枠組みにおける符号距離を改善し、マージン最大化アプローチを用いることで符号器識別性能を強化する。それゆえ結果として得られるアルゴリズムは、IBと符号化理論の全ての利点を引き継いでいる。これは既存アルゴリズムに比べ以下の2つの明確な利点がある。i)精度と複数ビューモデルの複雑性のトレードオフを見つけられること、ii)符号化されたマルチビューデータは識別タスクのための充分な弁別能を保っていること。我々は更に提案アルゴリズムの頑健性と汎化誤差界を導出し、複数ビュー学習の特性の幾つかを明らかにした。すなわちi) 複数ビュー特徴の相補性により提案アルゴリズムの頑健性が保証されること。ii) 複数ビュー特徴間の一致により、目的関数の実際的なRademacher複雑性を低減し、解の精度を高め、そして汎化誤差界を改善する。結果として得られる目的関数は交番方向法(alternating direction method)を用いて効率的に解くことができる。アノテーションタスク、識別タスク、及び認識タスクにおける実験結果により、提案アルゴリズムが実用的な応用で有望であることが示される。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


凸最適化による局所特徴記述子の学習
Learning Local Feature Descriptors Using Convex Optimisation

Simonyan, K. , Visual Geometry Group, Department of Engineering Science, University of Oxford, Oxford, United Kingdom Vedaldi, A. Zisserman, A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 8, pp. 1573-1585 , August 2014

Keywords: Descriptor learning, binary descriptor, dimensionality reduction, feature descriptor, feature matching, image retrieval, nuclear norm, sparsity, trace norm, Detectors, Feature extraction, Image retrieval, Optimization, Robustness, Training, Vectors

本研究の目的は、視点非依存なマッチングで利用されるスパースな特徴検出器に適した記述子を学習することである。この目的に向け、以下に述べる多くの技術成果を出した。i) 記述子のためのプーリング領域の学習は、スパース性を用いて領域選択を行う凸最適化問題として定式化できることを示した。ii) 同じように記述子の次元削減が、マハラノビス行列核ノルム正規化(Mahalanobis matrix nuclear norm regularisation)を用いた凸最適化問題として定式化できることを示した。これらは判別的大マージン学習制約に基づいている。iii) 二値化による学習済み実数値記述子から得られる、圧縮された記述子の性能を評価した。iv) アノテーション無し画像セットを用いて学習することができるように、弱教師付の場合について我々の学習定式化を拡張した。この新しい学習法により、Brownらによるアノテーション付局所パッチデータセットを用いて学習された、他の最新の記述子学習法の性能を改善した。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


群集集団性(Crowd Collectiveness)の計測
Measuring Crowd Collectiveness

Zhou, B. , Department of Electrical Engineering and Computer Science, Massachusetts Institute of Technology, Cambridge, Tang, X. Zhang, H. Wang, X.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 8, pp. 1586-1599 , August 2014

Keywords: Crowd behavior analysis, collective motion, graph connectivity, video analysis, Computational modeling, Correlation, Dynamics, Hidden Markov models, Manifolds, Microorganisms, Monitoring

群集の集団性は自然界では一般的であり、様々な学際的分野から高い関心を集めている。集団性(collectiveness)とは、要素各個が集団として振舞う度合いを示しており、様々な群集系に対して基礎的且つ普遍的な測量となるものである。群集の集団多様体(collective manifold)位相幾何的構造を定量化することで、本稿では集団性記述子と、群集とその構成要素である個人の効率的な計算方法を提案する。次にランダムな動きから集合的な動きを検出するための、集団的マージング(Collective Merging)アルゴリズムを提案する。自動推進パーティクルシステム、及び歩行者群集やバクテリア集合などの他の実際の群集系において、本稿で提案する集合記述子の効果と頑健性を検証する。この集団性記述子と集合的な動きに対する人間の知覚を比較し、これらの高い整合性を示す。本稿で提案する群集集合性は、汎用的な記述子として様々な群集システムを比較するために用いることができ、広範な応用が可能である。この応用には群集散乱、群集ダイナミクスの監視、そして込み入ったシーンにおける集合性マップの生成などが含まれる。62の込み合ったシーンからの413のビデオクリップからなる新しい集合動きデータベースを一般公開した。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフ上の拡散界面法による多クラスデータ分割
Multiclass Data Segmentation Using Diffuse Interface Methods on Graphs

Garcia-Cardona, C. , Institute of Mathematical Sciences at Claremont Graduate University, Los Angeles, Merkurjev, E. Bertozzi, A.L. Flenner, A. Percus, A.G.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 8, pp. 1600-1613 , August 2014

Keywords: Ginzburg-Landau functional, MBO scheme, Segmentation, convex splitting, diffuse interface, graphs, high-dimensional data, image processing, Equations, Government, Image segmentation, Laplace equations, Minimization, TV, Vectors

本稿では、グラフ上の高次元データを多クラス分類するための、グラフに基づく2つのアルゴリズムを提案する。これらのアルゴリズムでは、全バリエーションとグラフカットに関するGinzburg-Landau 汎関数に基づく拡散界面モデルを用いる。これに対して、Gibbs単体を多クラスのケースを扱うために拡張された汎関数の二重井戸ポテンシャルとともに用いることで、多クラスへと拡張する。この第1のアルゴリズムでは、凸分離数値スキームにより汎関数を最小化する。また、第2のアルゴリズムでは、古典的な数値スキームである Merriiman-Bence-Ocher (MBO)スキームをグラフに適応したものを使用する。本稿では、両アルゴリズムの性能を、合成データ、画像ラベリング、および、MNIST, COIL, WebKBなどの幾つかのベンチマークデータセットを用いた実験により示す。また、グラフ・ラプラシアンの固有ベクタと固有値の計算、および、行列の疎性を活用するために、高速数値ソルバを利用した。これらの実験では、高次元データに対する、グラフに基づく現状最新の多クラス分割アルゴリズムに匹敵する、あるいはそれを超える結果が得られた。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数人トラッキングのための多品種フロー
Multi-Commodity Network Flow for Tracking Multiple People

Shitrit, H.B. , Ecole Polytech. Fed. de Lausanne, Lausanne, Switzerland. Berclaz, J. Fleuret, F. Fua, P.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 8, pp. 1614-1627 , August 2014

Keywords: Linear Programming, MCNF, Multi-Commodity Network Flow, Multi-object tracking, Tracklet association, layered graph, linear programming, multi-commodity network flow, tracklet association, Linear programming, Optimization, Radar tracking, Real-time systems, Target tracking, Trajectory

本稿では、互いの経路が交差する可能性のある複数の人間をトラッキングする問題が、多品種フロー(multi-commodity network flow)の問題として定式化できることを示す。ここで提案するフレームワークでは、個人の識別情報が入れ替わることを防ぐために画像上の特徴を利用する。本手法は、それらの特徴として時間的に隔たったものしか得られない場合でも有効である。このことは、画像フレーム間で画像上の特徴を相互に利用する多くの現行のアプローチと異なっている。さらに、我々のアルゴリズムは、それ自身のリアルタイム実装に有効である。本アプローチの妥当性を、長尺で複雑なシーケンスを含む一般入手可能な3つのデータセット、"APIDISバスケットボール"、"ISSIAサッカー"、および "PETS'09歩行者" 上で確認した。またその性能を、バスケットボール世界選手権の試合を完全にフィチャーした、より新しいバスケットボールのデータセット上でも示す。いずれのケースでも、本アプローチが、最新のトラッキングアルゴリズムに対して、より正確に個人の識別情報が入れ替わること無く保持される。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


適応スパース事前分布を用いた複数画像からのブラインド・デコンボリューション
Multi-Observation Blind Deconvolution with an Adaptive Sparse Prior

Zhang, H. , School of Computer Science, Northwestern Polytechnical University, Xi’an, China Wipf, D. Zhang, Y.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 8, pp. 1628-1643 , August 2014

Keywords: Multi-observation blind deconvolution, blind image deblurring, sparse estimation, sparse priors, Algorithm design and analysis, Cost function, Deconvolution, Estimation, Kernel, Noise level, Noise measurement

本稿では、ぼけやノイズの乗った複数の観測画像から、それらの背景にある一つの鮮鋭な画像を推定するための頑健なアルゴリズムについて述べる。本アルゴリズムの基礎となる複数画像からのブラインド・デコンボリューションは、ベイズ推定に触発された、ペナルティ関数を経由して収集される全ての観測画像を関連づけることにより解かれる。このペナルティ関数は、各観測画像に関連する分離ぼけカーネル(separate blur kernel)とノイズ分散に従って、未知の潜像を対応付ける。それらは全データから結合的に推定される。この対応付けられたペナルティ関数は、相対的な凹性や疎性が、劣化した各観測画像に内在する画質の関数として適応するメカニズムを含む多くの望まれる特性を備えている。これにより、自動的に良質の観測画像が、著しく劣化した観測画像よりも最終推定に大きく寄与することになる。結果として得られる、本質的なチューニングパラメータを不要とするアルゴリズムは、各画像の劣化タイプを事前に知ることなしに、ぼけやノイズを共に含む可能性のある観測画像のセットから、鮮鋭な画像を復元することができる。合成テスト画像と実世界のテスト画像上での実験により、提案手法の有効性を明らかにする。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


時系列パターン検出による人間行動予測
Prediction of Human Activity by Discovering Temporal Sequence Patterns

Li, K. , Department of Electrical and Computer Engineering, College of Engineering, Northeastern University, Boston , Fu, Y.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 8, pp. 1644-1657 , August 2014

Keywords: Activity prediction, causality, context-cue, predictability, Context, Context modeling, Games, Hidden Markov models, Markov processes, Predictive models, Semantics

進行中の人間の行動を早期に予測することは、処理速度が重視される多種多様な応用において、より価値のあるものになってきている。この予測に有効な表現を構築するために、人間の行動は、単純な行動とオブジェクトとの相互作用を構成要素とする複合的な時系列構造によって、特徴付ける方法がある。ここでは、短期間の単純な行動上の検出による早期検出と異なり、3つの鍵となる行動特徴、因果関係(causality)、文脈手がかり(context-cue)、予測可能性(predictability)、の検出に基づいて、長期間の複雑な行動を予測する新たなフレームワークを提案する。本研究のでは主な成果は以下の4点である。(1)時系列パターンの分析による複合的な行動予測を、系統的に扱うための一般的なフレームワークの提案。(2)行動要素間の偶発的な関係をモデル化するためのPST(probabilistic suffix tree)の導入。ここでは、行動とオブジェクトの共起系列が、複雑な記号列として符号化される。(3)コンテキストキュー(特に相互作用のあるオブジェクトの情報)。これは、時系列的パターンマイニング(sequential pattern mining : SPM)を通じてモデル化される。ここでは、行動とオブジェクトの共起系列が、複合的な記号列として符号化される。(4)行動種類それぞれの予測可能性を記述するための予測可能な可積算関数(predictive accumulative function : PAF)。本アプローチの有効性を、行動に限定した予測と、コンテキストが既知場合の予測のデータセットによる2つの実験的シナリオに基づいて評価した。本提案手法により、大域的な行動クラスと、局所的な行動ユニットの予測に対して、優れた性能が達成される。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


頑健な幾何フィッティングのためのランダム・クラスタモデル
The Random Cluster Model for Robust Geometric Fitting

Pham, T.T. , ACVT and School of Computer Science , The University of Adelaide, Adelaide, Australia Chin, T.-J. Yu, J. Suter, D.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 8, pp. 1658-1671 , August 2014

Keywords: Robust geometric fitting, guided sampling, hypothesis generation, multiple structures, Accuracy, Computational modeling, Data models, Generators, Labeling, Optimization, Robustness

ランダムな仮説生成は、コンピュータビジョンにおける頑健な幾何モデルフィッティングの中心課題である。この優れた手法は、データの極小部分集合をランダムに収集し、それらから幾何モデルを仮定するものである。極小部分集合の取得が、サンプル中の "正常値" (inlier) を連続的に引き当てる機会が増加する一方で、極小部分集合に適合する仮説は、それが純粋に外れ値を含まない場合であっても、計測ノイズの影響により著しい偏りを生じる可能性がある。本稿では、極小部分集合よりも大きな部分集合を用いて仮説生成を誘導するために、結合スピン系(coupled spin system)をシミュレートするために使われてきた手法であるランダム・クラスタ・モデルを提案する。我々は、モデルの真のインスタンスからのデータに対して、どの程度大きさのクラスタが、極小部分集合上でのフィッティングの揺らぎによる影響を、より少なくできる正確な仮説を効率良く生成し取得できるかを示す。別の見方をすれば、この問題はデータを最良近似する一連の構造の最適化である。我々は、どのようにして、この新しい仮説収集器が、単純なアニーリングフレームワークの下でのグラフカットを、フィティングの最適化に継ぎ目無く統合することが効率良くできるのかを示す。仮説収集とフィティング最適化を2つの分離されたステージとして導出するこれまでの手法と異なり、本提案のアルゴリズムは、2つのサブタスクが交代で相互を強化するように機能する。実験結果により、総合的な効率が明らかに向上していることを示す。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


近赤外情報を用いた自動かつ安定な陰影検出
Automatic and Accurate Shadow Detection Using Near-Infrared Information

Rufenacht, D. , Sch. of Comput. & Commun. Sci., Ecole Polytech. Fed. de Lausanne (EPFL), Lausanne, Switzerland. Fredembach, C. Susstrunk, S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 8, pp. 1672-1678 , August 2014

Keywords: Color, Miscellaneous, Near-infrared, Photometry, Pixel classification, Sensor fusion, Shadow Detection, Shadow detection, near-infrared, Ash, Cameras, Detection algorithms, Image color analysis, Lighting, Sensors

本稿では、デジタルカメラのセンサが本来備える近赤外(near-infrared : NIR)領域の感度の利点を生かすことで、高速で正確な陰影を自動的に検出する方法を提案する。多くの陰影検出アルゴリズムを困らせる暗い色の物体は、しばしば NIR において、より高い反射率を有している。これにより、可視光域とNIRの双方で暗い画素に基づく正確な陰影候補マップを構築する。さらに、NIR波長帯において極めて明瞭に識別できるスペクトルをもつ(複数の)光源で共通に照射された観測に基づいて、この陰影マップを、可視光の比率をNIR画像に組み入れることにより高精度化する。結果は、陰影の正解を手作業でラベル付けした、非常に多様な実世界の陰影を生む照明条件に対して、可視/NIR 双方を含む新しいデータセット上で検証した。量と質を兼ね備えた評価に基づき、精度と計算効率の点で、最新の陰影検出アルゴリズムより、本提案手法が優れていることを示す。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


知覚的アノテーション: コンピュータビジョン改良のためのヒューマンビジョン計測
Perceptual Annotation: Measuring Human Vision to Improve Computer Vision

Scheirer, W.J. , School of Engineering and Applied Sciences, Department of Molecular and Cellular Biology, and the Center for Brain Science, Harvard University, Cambridge, Anthony, S.E. Nakayama, K. Cox, D.D.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 8, pp. 1679-1686 , August 2014

Keywords: Machine learning, citizen science, face detection, psychology, psychometrics, psychophysics, regularization, support vector machines, visual recognition, Accuracy, Face, Face detection, Support vector machines, Training, Training data, Visualization

コンピュータビジョンの多くの問題に対して、人間の学習者は機械よりも遥かに優れている。人間は、未だに良く解っていない高度に正確な認識と学習の機構を内に備え、視覚世界からの偏りの無い生涯経験を通じて、より膨大なトレーニングデータに度々接している。本稿では、より良い機械学習システムを構築する上で、人間被験者の能力を直接利用するために視覚心理物理を利用することを提案する。最初に、先進的なオンラインの心理計測テストプラットホームを使用して、学習に利用可能な新しい種類のアノテーションデータを作成した。次いで、新たな技術開発により、これらの新しい情報(知覚的アノテーション)をサポートベクタマシンに適用した。本アプローチの鍵となる洞察は、劇的に増大するデータ量と、与えられたシステムのトレーニングに利用できる高品質なラベルに対して実行不能なものが残されるかもしれない一方で、標本毎に計測することの困難と、アノテーション付けでのヒューマンエラーのパターンが、システムの解を手作業で正則化するための重要な情報を提供することができることである。顔検出のケーススタディにより、本アプローチが、難度の高いFDDBデータセットを用いた比較試験で他の最新のアルゴリズムを凌ぐ性能を持つことを示す。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


p-スペクトル・クラスタリングを用いた3Dメッシュ分割
Segmentation of 3D Meshes Usingp-Spectral Clustering

Chahhou, M. , Faculty of Science Dhar Mahraz , University Sidi Mohamed Ben Abdellah, Fes, Morroco Moumoun, L. Far, M.E. Gadi, T.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 8, pp. 1687-1693 , August 2014

Keywords: 3D mesh, Cheeger cuts, minima rule, segmentation, spectral clustering, Benchmark testing, Clustering algorithms, Eigenvalues and eigenfunctions, Laplace equations, Silicon, Standards, Three-dimensional displays

本稿では、最低限のルールとスペクトル・クラスタリングを用いて、人が理解できる3Dメッシュの最適分割を取得する新しいアプローチを提案する。本手法は、完全な教師無し学習であり、再帰カットによる階層セグメンテーションを提供する。ここでは認知研究に基づく、新たな隣接行列の概念を導入する。また、最適Cheegerカット値を導く1-スペクトル・クラスタリングの利用法も紹介する。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スタックされた時系列、尺度空間 Taylor コンテキスト
Stacked Sequential Scale-SpaceTaylor Context

Gatta, C. , Centre de Visió per Computador, Edifici O, Campus UAB, 08193 Bellaterra, Spain Ciompi, F.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 8, pp. 1694-1700 , August 2014

Keywords: Contextual modeling, semantic image labeling, stacked sequential learning, Context, Feature extraction, Image segmentation, Nickel, Semantics, Training, Vectors

本稿では、コンテキスト情報を収集するための事後ラベルを収集する時系列画像のラベリング手法を分析する。ここでは、異なるスケールでの事後確率から、局所的なTaylor展開の係数を決定する効果的な方法を提案する。本提案手法が、MSRC-21、CAMVID、eTRIMS8、およびKIST2のデータセット上で最新手法を凌ぐことを示す。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.36, No.9

変分推論を用いたフォンミーゼス・フィッシャー混合分布のベイズ推定
Bayesian Estimation of the von-Mises Fisher Mixture Model with Variational Inference

Taghia, J. , Commun. Theor. Lab., KTH R. Inst. of Technol., Stockholm, Sweden Zhanyu Ma Leijon, A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 9, pp. 1701-1715 , September 2014

Keywords: Bayes methods, Bessel functions, approximation theory, computational complexity, data analysis, inference mechanisms, learning (artificial intelligence), mixture models, optimisation, statistical distributions, variational techniques, Bayesian estimation, Bessel function, VI procedure, analytically tractable approximation, closed-form solution, functional forms, intractable moment evaluation, learning task, lower bound, model complexity, parameter distribution, performance verification, predictive density, re-estimation procedure, real data, synthetic data, tight bound, vMF distributions, vMF mixture model, variational inference, variational posterior distribution optimization, von-Mises Fisher mixture model, Bayesian estimation, directional distribution, gene expressions, mixture model, predictive density, speaker identification, variational inference, von-Mises Fisher distribution, Approximation methods, Bayes methods, Computational modeling, Data models, Numerical models, Optimization, Vectors

本稿では、変分推論(Variational Inference, VI)を用いたフォンミーゼス・フィッシャー(von-Mises Fisher, vMF)混合分布のベイズ推定を取り上げる。VIの学習は変分事後分布の最適化から成る。しかし、VIによる厳密解は必ずしも分析的に扱いやすい解(an analytically tractable solution)に繋がるとは限らない。これは、べゼル関数の関数形式を変数として取る、扱いにくいモーメント(intractable moments)の評価を要するためである。閉形解を導出するために、パラメータ分布の一点において境界が密となるよう、解の下界を下げていく。最大化の過程では境界値が上昇することが保証されているが、割り当てられた事前分布と同様の関数形式を持つ事後分布の、分析的に扱いやすい近似(an analytically tractable approximation)を導出する。提案アルゴリズムは、再推定過程において反復計算を必要とせず、モデル複雑度を決定できると共に期待値最大化に基づく従来手法で生じる過剰適合問題を回避できる。更に、vMF分布のベイズ混合モデルの予測密度に対する分析的に扱いやすい近似を導出する。提案手法の性能を、合成データと実データとを用いた実験により検証する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


隠れマルコフモデルの構造適応とパラメータ適応との組み合わせによる活字認識
Combining Structure and Parameter Adaptation of HMMs for Printed Text Recognition

Ait-Mohand, K. , Lab. of Comput. Sci., Inf. Process. & Syst., Rouen Univ., St. Etienne du Rouvray, France Paquet, T. Ragot, N.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 9, pp. 1716-1732 , September 2014

Keywords: hidden Markov models, optical character recognition, optimisation, text analysis, HMM parameter adaptation algorithms, MAP, MLLR, character recognition, parameter adaptation, polyfont printed text recognizer, printed text recognition, semisupervised algorithms, state merging operations, state splitting operations, structure optimization procedure, Hidden Markov models, historical documents, parameter adaptation, printed text recognition, structure adaptation, Adaptation models, Character recognition, Data models, Hidden Markov models, Optical character recognition software, Optimization, Training

従来の隠れマルコフモデル(Hidden Markov Model, HMM)のパラメータ適応アルゴリズム(最大事後確率(Maximum A Posteriori, MAP)と最尤線形回帰(Maximum Likelihood Linear Regression, MLLR))を拡張する2つのアルゴリズムを提示する。この改良はMAPやMLLRと構造最適化手法との効果的な組み合わせにより実現される。提案アルゴリズムは、任意のHMMモデルを新たなデータに適応させるため半教師付きであり、パラメータ適応のための少数のラベルありデータと、HMM構造最適化に利用する基準を推定するための一定量のラベルなしデータとを必要とする。構造最適化は状態分割処理と状態統合処理とに基づいて、尤度または発見的基準(heuristic criteria)を最適化するよう行われる。提案アルゴリズムは、ポリフォント活字認識器のHMM文字モデルを新たなフォントに適応させることで、活字認識に有用である。実験では1,120,000個の実文字画像と3,100,000個の合成文字画像とを利用し、更に89個のHMMモデルを考慮する。提案手法と最先端の適応アルゴリズム(MAPやMLLR)との比較から、文字認識精度の飛躍的な向上が示される。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


静的な格子パターンを用いた高フレームレート動画からの密な三次元再構成
Dense 3D Reconstruction from High Frame-Rate Video Using a Static Grid Pattern

Sagawa, R. , Intell. Syst. Res. Inst., Nat. Inst. of Adv. Ind. Sci. & Technol., Tsukuba, Japan Furukawa, R. Kawasaki, H.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 9, pp. 1733-1747 , September 2014

Keywords: image capture, image colour analysis, image motion analysis, image reconstruction, image sequences, object detection, video signal processing, 3D shape reconstruction, Bruijn sequence, batch reconstruction algorithm, color-encoded grid pattern detection method, dense 3D reconstruction algorithm, fast moving objects, high frame-rate video, image processing, intersection points, line detection algorithm, one-shot scanning method, projected parallel-line patterns, scene capturing, spatiotemporal constraints, static pattern, Dense 3D reconstruction, grid patterns, projector-camera systems, spatio-temporal analysis, Cameras, Equations, Image color analysis, Image reconstruction, Mathematical model, Shape, Three-dimensional displays

高速移動する物体の密な三次元再構成は、身体構造分析や衝突回避など様々な用途に貢献できる。本稿ではワンショット・スキャン手法に基づく技術を提案する。提案手法は、静的な格子パターンが投影されたシーンを撮影した高フレームレート動画の各フレームから、三次元形状を再構成する。提案手法は、(1)交点を用いることで投影された平行線パターンの曖昧性を除去する効率的なアルゴリズム、(2)時空間制約を用いた複数フレームのバッチ再構成アルゴリズム、そして(3)デブルーイン系列に基づく色符号化格子パターンの効率的な検出アルゴリズム、から構成される。実験において、直線検出アルゴリズムは効果的に機能し、また密再構成アルゴリズムは高精度で頑強な結果を生成した。更に、時間制約を用いることで結果が改善することを示す。最後に、高フレームレート動画における高速移動物体の密再構成結果を例示する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像二乗和を用いた高速直交Haar変換パターンマッチング
Fast Orthogonal Haar Transform PatternMatching via Image Square Sum

Yujian Li , Coll. of Comput. Sci. & Technol, Beijing Univ. of Technol., Beijing, China Houjun Li Zhi Cai

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 9, pp. 1748-1760 , September 2014

Keywords: Haar transforms, image processing, pattern matching, Haar projection, fast orthogonal Haar transform pattern matching, image square sum, image strip sum, multiple pattern matching, solid mathematical foundation, Square sum, full search equivalent algorithm, orthogonal Haar transform, pattern matching, strip sum, template matching, Algorithm design and analysis, Approximation algorithms, Complexity theory, Pattern matching, Strips, Transforms, Vectors

直交Haar変換(Orthogonal Haar Transform, OHT)パターンマッチングアルゴリズムは、画像短冊和(image strip sum)を用いることで良好な性能を示すが、移動窓において各Harr射影値を計算するために3つの減算処理を行う必要がある。OHTの強固な数学的基盤を確立することで、本稿では画像二乗和(image square sum)の考えに基づき、高速直交Haar変換(Fast Orthogonal Haar Transform, FOHT)パターンマッチングアルゴリズムを提案する。このアルゴリズムではHaar射影値は1つの減算処理のみで得られる。従って、全数探索パターンマッチングと同一の結果を得ながら、大幅な高速化を実現できる。大規模な実験から、FOHTの高速化効果は1つのパターンを照合する条件の大半においてOHTを大幅に上回り、複数のパターンを照合する全ての条件においてOHTを概ね上回り、他の高度な全数探索と等価なアルゴリズムを凌駕した。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高次相関関係クラスタリングを用いた画像分割
Image Segmentation UsingHigher-Order Correlation Clustering

Sungwoong Kim , Qualcomm Res. Korea, Seoul, South Korea Yoo, C.D. Nowozin, S. Kohli, P.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 9, pp. 1761-1774 , September 2014

Keywords: correlation methods, image segmentation, linear programming, support vector machines, graph partitioning algorithm, higher order correlation clustering, hypergraph based image segmentation framework, linear programming relaxation, pairwise graph, parameter learning, support vector machine, Image segmentation, correlation clustering, structural learning, Clustering algorithms, Correlation, Image edge detection, Image segmentation, Inference algorithms, Partitioning algorithms, Vectors

本稿では、高次のコンピュータビジョンの課題での利用を目的とする、ハイパーグラフに基づく画像分割フレームワークを教師付き形式で構築する。画像内の様々な領域間での短期間と長期間の依存関係を考慮し、また広範な特徴から選択可能とするために、本フレームワークは高次相関関係クラスタリング(Higher-Order Correlation Clustering, HO-CC)を導入する。相関関係クラスタリング(Correlation Clustering, CC)はグラフ分割アルゴリズムであり、近年、自然言語処理や文書分類、画像分割など多くの用途において有効であることが示されている。この手法ではクラスタ内類似度とクラスタ間非類似度とを同時に最大化する大域目的関数を最適化することで、グラフ対の分割結果を導出する。HO-CCでは、CCに用いられるグラフ対はハイパーグラフへと一般化され、CCにおいて生じる局所的な境界の曖昧さを緩和する。線形計画緩和法により高速な推論が可能となる。また、分解可能な構造化損失関数の導入により、構造化サポートベクターマシンを用いた効果的なパラメータ学習が可能となる。様々なデータセットを用いた実験の結果から、提案するHO-CCが最先端の画像分割アルゴリズムを上回る性能を示すことを確認する。このことから、HO-CCフレームワークは効率的で柔軟な画像分割フレームワークであると結論付けられる。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


相互作用素:人間の相互作用認識のための意味的表現
Interactive Phrases: Semantic Descriptionsfor Human Interaction Recognition

Yu Kong , Dept. of Electr. & Comput. Eng., Northeastern Univ., Boston, MA, USA Yunde Jia Yun Fu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 9, pp. 1775-1788 , September 2014

Keywords: gesture recognition, support vector machines, video signal processing, BIT-interaction data set, UT-interaction data set, collective activity data set, data-driven phrases, descriptive model, discriminative phrases, human interaction recognition, human knowledge, information-theoretic approach, interacting people, interactive phrase encoding, latent SVM formulation, latent variables, learned high-level descriptions, mid-level features, motion ambiguity, motion relationships, partial occlusion, specified interactive phrases, training video, Human interaction, action recognition, latent structural SVM, Feature extraction, Hidden Markov models, Semantics, Torso, Training, Vectors, Videos

本稿では動画から人間の相互作用を認識する課題に取り組む。本稿では、相互作用素(interactive phrase)と呼ぶ学習により得られた高次表現を用い、人間の相互作用を認識する新しいアプローチを提案する。相互作用素は相互作用を行う人間の間に生じる動作の関係性を表現する。これらの要素は人間の知識を自然に利用することで、人間の相互作用を認識するためのより表現力豊かなモデルの構築を可能とする。潜在SVM形式(latent SVM formulation)に基づいて相互作用素を符号化する判別モデルを提案する。相互作用素は潜在変数として扱われ、中間レベル特徴として利用される。手動で指定された相互作用素を補足するために、データ駆動の要素をデータから発見する。これは人間の相互作用を区別する上で潜在的に有用で判別的な要素を見つけるためである。データ駆動の要素を学習するために、情報理論的アプローチを導入する。動作の曖昧さや相互作用の部分的な遮蔽に対応するために、相互作用素の相互依存性はモデルにおいて明示的に記録される。BIT相互作用データセット、UT相互作用データセット、そして収集的活動データセットを用いて提案手法を評価する。実験結果から、提案手法は従来手法を上回る性能が得られることを示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


少数サンプルを用いたイベント検出のための部分共有特徴による知識適応
Knowledge Adaptation with PartiallyShared Features for Event Detection Using Few Exemplars

Zhigang Ma , Sch. of Comput. Sci., Carnegie Mellon Univ., Pittsburgh, PA, USA Yi Yang Sebe, N. Hauptmann, A.G.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 9, pp. 1789-1802 , September 2014

Keywords: feature extraction, video retrieval, video signal processing, MED, complicated generic event detection, data collection platforms, feature types, knowledge adaptation, labeled multimedia content, multimedia event detection, partially-shared features, real-world multimedia archives, source features, target features, Multimedia event detection (MED), heterogeneous features based structural adaptive regression (HF-SAR), heterogenous features, knowledge adaptation, Detectors, Event detection, Feature extraction, Multimedia communication, Semantics, Streaming media, Videos

マルチメディア・イベント検知(Multimedia Event Detection, MED)は、近年注目を集めている研究分野である。従来研究は主にスポーツやニュース映像における単純なイベント検知や、監視映像における異常検知に主眼が置かれていた。これらとは異なり、本稿ではよりユーザの興味を引く、より複雑で生成的なイベントの検知に焦点を当て、MEDに対する効果的な解法を探索する。更に、実世界において正確にラベル付けされたマルチメディア・コンテンツが非常に少ないことに鑑みて、提案手法では少数の正例のみを用いる。少数の正例から得られる情報量は限られることから、イベント検知を容易にするために知識適応(knowledge adaptation)を活用することを提案する。最先端技術とは異なり、提案手法はソースとターゲットとの特徴量が部分的に異なっているが重なりを持つ場合に、他のソースから得られたMEDの知識を適応させることができる。データ収集プラットフォームが変わったり、規模が拡張されたりする場合があるため、二つのドメイン間で特徴が一致するという要件を緩和できることが望ましく、この変化に対して僅かな労力で対応できることが必要である。幾つかの難易度の高いイベントから構成される実世界のマルチメディア・アーカイブを用いて詳細な実験を行う。実験結果から提案手法が幾つかの他の最先端検出手法を凌駕することが示される。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


任意視点からの物体認識のための遮蔽推論
Occlusion Reasoning for Object Detectionunder Arbitrary Viewpoint

Hsiao, E. , Robot. Inst., Carnegie Mellon Univ., Pittsburgh, PA, USA Hebert, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 9, pp. 1803-1815 , September 2014

Keywords: object detection, object recognition, 3D object interactions, LINE2D methods, arbitrary viewpoint, gradient network methods, local occlusion coherency, object instance detection, occlusion reasoning, occlusion structure, texture-less object recognition, unified occlusion model, Occlusion reasoning, arbitrary viewpoint, object detection, Approximation methods, Cognition, Computational modeling, Data models, Object detection, Solid modeling, Three-dimensional displays

任意視点からの物体認識のための統合遮蔽モデルを紹介する。従来手法は主に遮蔽の局所整合性をモデル化するか、データから遮蔽の構造の学習を試みるのに対し、提案手法では物体間の三次元相互作用を推論することで遮蔽を明示的にモデル化する。提案手法は任意視点からの遮蔽を、通常は取得するのが困難な追加の学習データ抜きで高精度に表現できる。物体検出を目的とする最先端のLINE2Dや勾配ネットワーク法(gradient network method)に遮蔽推論を導入することで提案モデルを検証し、深刻な遮蔽を伴う条件下におけるテクスチャを持たない物体の認識において顕著な改善が見られることを示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


全般拡散面に対する疎ベイズ回帰を用いた照度差ステレオ
Photometric Stereo Using Sparse Bayesian Regression for General Diffuse Surfaces

Ikehata, S. , Dept. of Inf. Sci. & Technol., Univ. of Tokyo, Tokyo, Japan Wipf, D. Matsushita, Y. Aizawa, K.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 9, pp. 1816-1831 , September 2014

Keywords: belief networks, photometry, piecewise linear techniques, regression analysis, stereo image processing, complex reflectance representations, dense Lambertian structure, general diffuse surfaces, hierarchical Bayesian model, inverse diffuse model, nonlinear optimization, photometric stereo method, piecewise linear approximation, sparse Bayesian regression, stable outlier rejection techniques, Photometric stereo, piecewise linear regression, sparse bayesian learning, sparse regression, Bayes methods, Computational modeling, Lighting, Materials, Mathematical model, Robustness, Vectors

非ランバート照度差ステレオ法の従来アルゴリズムの多くは、二つのカテゴリに分類することができる。第一のカテゴリは、安定した異常値除去技術に基づいて構築されているが、正常値に対して密なランバート構造を仮定している。このため全般拡散(general diffuse)領域が存在すると性能が低下する。第二のカテゴリは、非ランバート効果に対処するために画素間での複雑な反射表現と非線形最適化を利用している。一方で、影や悪影響を与える他の異常値を明示的に説明してない。本稿では、純粋な画素単位の照度差ステレオ法を紹介する。提案手法は、外観が疎な非拡散成分(例えば影や鏡面と拡散成分)と、表面法線と光源との内積の単調関数で表現される拡散成分とに分解できると仮定することで、安定的で且つ様々な非ランバート効果に効率的に対応できる。この関数は逆拡散モデルの区分線形近似(piecewise linear approximation)を用いて構築され、非拡散面が存在しない条件下では、表面法線やモデルパラメータの閉形な推定値が導出できる。後者は階層的ベイズモデルに埋め込まれた隠れ変数としてモデル化され、未知の表面法線を正確に計算しながら、同時に拡散成分と非拡散成分とを分離できる。合成画像と実画像とを用いた詳細な評価結果から、提案手法が最高水準の性能を誇ることが示される。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カメラ非依存の特徴のための尺度空間
Scale Space for Camera Invariant Features

Puig, L. , GRASP Lab., Univ. of Pennsylvania, Philadelphia, PA, USA Guerrero, J.J. Daniilidis, K.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 9, pp. 1832-1846 , September 2014

Keywords: cameras, image processing, partial differential equations, transforms, Laplace Beltrami operator, camera invariant features, central projection system, intrinsic scale selection, neighborhood description, partial differential equations framework, scale space, Central projection systems, Laplace-Beltrami operator, image smoothing, linear diffusion equation, scale space, Cameras, Computational modeling, Manifolds, Mathematical model, Measurement, Mirrors, Smoothing methods

本稿では、反射屈折カメラや魚眼カメラ、従来のカメラを含む任意の中心投影システム(central projection system)における尺度空間(scale space)を計算する新しい手法を提案する。これらのシステムは統一モデルにより説明できるため、各システムを定義する唯一のパラメータは、対応するリーマン計量を自動的に計算するために用いられてきた。この計量を多様体の変微分方程式のフレームワークと組み合わせることで、ラプラス・ベルトラミ演算子を計算することが可能となる。これにより任意の中心投影システムの尺度空間が計算できる。尺度空間はSIFTなどの特徴における固有の尺度選択や近傍表現に欠くことができない。合成画像と実画像とを用いた実験により、任意の中心投影システムに対する提案手法の汎化性能を検証する。提案手法を最高性能の手法と比較し、反射屈折カメラや魚眼カメラ、透視投影カメラのいずれにおいても優位な結果が得られることを示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


潜在指紋の分割と強調:粗密稜線構造辞書の一提案
Segmentation and Enhancement of Latent Fingerprints: A Coarse to Fine RidgeStructure Dictionary

Kai Cao , Dept. of Comput. Sci. & Eng., Michigan State Univ., East Lansing, MI, USA Eryun Liu Jain, A.K.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 9, pp. 1847-1859 , September 2014

Keywords: fingerprint identification, image denoising, image enhancement, image matching, image segmentation, image texture, coarse ridge structure, fine ridge structure, fingerprint matching, latent fingerprints enhancement, latent fingerprints segmentation, latent identification systems, overlapping patches, piecewise smooth background noise, ridge structure dictionary, texture component image, total variation decomposition model, Latent fingerprint, dictionary learning, image decomposition, ridge enhancement, segmentation, sparse coding, Dictionaries, Estimation, Feature extraction, Frequency estimation, Image segmentation, NIST, Noise

潜在指紋の照合は容疑者や犯人を特定する上で重要な役割を果している。しかし、回転指紋(rolled fingerprint)や明瞭な指紋(plain fingerprint)の照合と比較すると、潜在照合の精度は著しく低い。この原因としては、背景ノイズが複雑であること、稜線の品質が低いこと、そして潜在画像において構造を持ったノイズが重なっていることが挙げられる。それゆえ、潜在画像から信頼できる特徴を抽出するためには、一般に様々な特徴(例えば注視領域、特異点、特徴点)を手動で指定することが必要となる。手動で指定する労力を低減し、特徴指定の安定性を向上させるためには、全自動で高精度な(人間不在の("lights-out" capability))潜在指紋照合アルゴリズムが必要とされている。本稿では、人間不在の照合システム("lights-out" latent identification systems)の実現に向け、自動的な潜在分割と強調を目的とする辞書ベースの手法を提案する。潜在指紋画像が得られると、L1忠実度正則化(L1 fidelity regularization)を用いた全変分分解モデル(total variation decomposition model)により、緩やかな背景ノイズを一つ一つ除去する。潜在画像を分割して得られた画像のテクスチャ成分は、重なりを持ったパッチに分割される。次に、高品質な稜線パッチから学習された稜線構造辞書を用いて、潜在パッチの稜線構造を復元する。潜在分割に利用されるパッチの稜線の品質は、パッチとその再構成結果との構造類似性(structural similarity)として定義される。その後、潜在強調に利用される配向場(orientation field)と周波場(frequency field)は、再構成パッチから抽出される。頑強性と精度とのバランスをとるため、粗密戦略を提案する。2種類の潜在指紋データベース(NIST SD27とWVU)を用いた実験結果から、提案アルゴリズムは最先端の分割アルゴリズムと強調アルゴリズムを凌駕し、最先端の商用潜在指紋照合器の性能を向上させることを示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


名前の隠れた側面:ファーストネーム属性を用いた顔のモデル化
The Hidden Sides of Names―Face Modeling with First Name Attributes

Huizhong Chen , Dept. of Electr. Eng., Stanford Univ., Stanford, CA, USA Gallagher, A.C. Girod, B.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 9, pp. 1860-1873 , September 2014

Keywords: Internet, face recognition, image classification, Internet, US, age classification, data labeling, face modeling, facial appearance, facial attributes, first name attributes, gender recognition, human intervention, pairwise name classifier, practical systems, user interaction, Facial processing, attributes learning, multi-feature fusion, social contexts, Detectors, Face, Feature extraction, Support vector machine classification, Training, Vectors

本稿では人々をファーストネームで表現する新しいアイディアを紹介する。該当する可能性の高いファーストネームのベクトルに対する類似性という観点で人々を表現することが、顔の見た目を表現する手段として極めて有用であり、初めて見る顔に名前を付ける用途や顔属性分類器を構築する用途を始めとする多くの重要な用途に適用可能である。米国で広く利用されているファーストネーム100個から成るモデルを構築し、全ての組み合わせについて一対ファーストネーム分類器を構築する。これらの分類器はインターネットからダウンロードされた訓練画像のみを用いて構築される。このため、提案手法はデータのラベル付けに対する人間の関与が不要であり、この利点は実用的なシステムを構築する上で重要である。各一対ファーストネーム分類器の分類スコアは、顔の見た目を説明する顔属性として利用できる。幾つかの驚くべき結果を示す。提案する名前属性は、偶然よりも高い確率で実験画像のファーストネームを正しく予測する。名前属性を性別認識や年齢分類に利用することで、インターネット上から自動的に収集した全ての訓練画像について最先端技術を凌駕した。更に、画像中の顔とキャプション中の名前とを対応付ける用途や、制約なし顔認証という重要な用途において、提案する名名前性は極めて有効であることを示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スパイクとスラブを用いた制限付きボルツマン・マシンとその離散的で疎なデータ分布への拡張
The Spike-and-Slab RBM and Extensions to Discrete and Sparse Data Distributions

Courville, A. , Dept. of Comput. Sci. & Oper. Res., Univ. of Montreal, Montreal, QC, Canada Desjardins, G. Bergstra, J. Bengio, Y.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 9, pp. 1874-1887 , September 2014

Keywords: Boltzmann machines, image classification, natural scenes, statistical analysis, unsupervised learning, CIFAR-10 object classification task, MNIST digit recognition task, binary spike variable, canonical ssRBM framework, conditional covariance, discrete data distributions, invariant feature learning, real-valued slab variable, sophisticated probabilistic models, sparse data distributions, spike-and-slab RBM, spike-and-slab restricted Boltzmann machine, statistical natural image properties, subspace-ssRBM framework, Feature learning, natural image modeling, restricted boltzmann machines, unsupervised learning, Covariance matrices, Data models, Feature extraction, Slabs, Standards, Training, Vectors

スパイクとスラブを用いた制限付きボルツマン・マシン(spike-and-slab Restricted Boltzmann Machine, ssRBM)は、隠れ層の各ユニットと対応付けられた実数のスラブ変数と二値のスパイク変数とを持つ物として定義される。このモデルはスラブ変数を用いることで、自然画像の統計的性質を捉える上で重要と見られる観測結果の条件付き共分散をモデル化する。本稿では、正準ssRBMフレームワークとその幾つかの拡張を提案する。これらの拡張は、高次データ全般、特に自然画像データに対するより適切な確率モデルを探索するプラットフォームとしてのssRBMの柔軟性を際立たせる。本稿では、不変特徴の学習に焦点を当てた部分空間ssRBMを紹介する。ssRBMとその拡張の挙動を、MNIST数字認識課題とCIFAR-10物体分類課題とを用いた実験により明らかにする。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


三次元の二次曲面に対する直交距離
Direct Orthogonal Distance to Quadratic Surfaces in 3D

Lott, G.K. , MITRE Corp., McLean, VA, USA

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 9, pp. 1888-1892 , September 2014

Keywords: computational geometry, arbitrary dimension, arbitrary quadratic surface, direct orthogonal distance, general finite 3D point, geometric task, intersection point detection, noncoincident plane orthogonality, orthogonal point continuum detection, quadratic surface classes, quadratic surface intersection, quadric plane, sixth-order single-variable polynomial, sphere center, surface point coordinate, synthetic data, tangent plane, Orthogonal distance regression, direct methods, foot-point, projective geometry, quadratic surface, Approximation algorithms, Approximation methods, Convergence, Polynomials, Three-dimensional displays, Transforms

二次曲面に対する直交距離の導出は、コンピュータビジョンやモデリング、ロボット工学の幾何学分野における長年の課題である。本稿では、一般的で有限な三次元点群から任意の二次曲面への直交距離(足点)を導出する、単純、且つ効率的で、安定的な直接解法を紹介する。この問題は三つの二次曲面の交点を求める問題として表現される。三つの二次曲面のうち二つは、二つの二次曲面の一致しない接平面に対する直交性の要件から導出される。表面上の一点から、六次多項式が直接的に導かれる。本手法は交点を極限において求め、全ての現実的な二次曲面群に対して円滑に利用できる。更に、本手法は球の厳密な中心から、直交点の連続性を幾何学的に検出することができる。提案するアルゴリズムの性能を議論し、最先端の推定器と比較し、合成データに対して提案アルゴリズムを実例し、任意の次元に対する拡張方法を説明する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ラベル統計量の利用のための効率的なエネルギー最小化法
Efficient Energy Minimization for Enforcing Label Statistics

Yongsub Lim , Dept. of Comput. Sci., KAIST, Daejeon, South Korea Kyomin Jung Kohli, P.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 9, pp. 1893-1899 , September 2014

Keywords: computer vision, image segmentation, minimisation, polynomial approximation, statistics, NP-hard problem, background image segmentation problem, computer vision problems, constrained energy minimization problem, discrete approximate solution, efficient energy minimization, foreground image segmentation problem, label statistics enforcement, polynomial time solvable, relaxation based methods, second order constraints, Computer vision, Markov random fields, energy minimization, image segmentation, Computational modeling, Computer vision, Image segmentation, Labeling, Minimization, Polynomials, Probabilistic logic

グラフカットなどエネルギー最小化アルゴリズムは、マルコフ確率場など特定の確率モデルの下でのMAP解を計算することを可能とする。一方で、多くのコンピュータビジョンの課題において、当該モデル下でのMAP解は正解ではない。多くの課題シナリオでは、システムは正解の一部の統計的性質を知ることができる。例えば、画像分割では物体の面積や境界長が既知である場合がある。これらのケースでは、このような統計的性質と一貫性のある、つまり特定の等式制約または不等式制約を満たす、最も確からしい解(most probable solution)を得ることが望ましい。上述の制約付きエネルギー最適化問題は一般にNP困難であり、整数的制約(integrality constraint)を緩和する線形計画法を用いて解かれることが多い。本稿では、対応するラグランジュ双対(Lagrangian dual)を最大化することでこれらの問題に対する離散的近似解を直接的に導出する、新しい手法を提案する。本手法は、制約なし版が多項式時間可解(polynomial time solvable)である全ての制約付きエネルギー最小化問題に適用可能である。また本手法は、線形または非線形の、等式または不等式制約を、複数扱うことができる。提案手法の重要な利点の一つは、緩和ベースの手法では自明でない、弱い制限付きの両側不等式(both-side inequalities)の二次制約(second order constraint)を扱え、そして制限が精度に影響を与えないことである。提案手法の画像の前景/背景分割問題における有効性を実証し、誤りの少ない優れた分割結果を生成すると共に、最先端のLP緩和ベースの手法よりも20倍高速に動作することを示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自然画像のための低レベル階層的マルチスケール分割統計量
Low-Level Hierarchical Multiscale Segmentation Statistics of Natural Images

Akbas, E. , Dept. of Psychological & Brain Sci., Univ. of California Santa Barbara, Santa Barbara, CA, USA Ahuja, N.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 9, pp. 1900-1906 , September 2014

Keywords: Markov processes, graph theory, image segmentation, probability, random processes, Markov random field based model, geometric structure, image classification, image structure, low-level hierarchical multiscale segmentation statistics, natural image segmentation, object detection, photometric structure, probabilistic model, segmentation graph properties, semantic image segmentation, topological structure, Markov random field, Natural image statistics, low-level hierarchical segmentation, Computational modeling, Gray-scale, Histograms, Image edge detection, Image segmentation, Markov processes, Vectors

本稿では統計量を、自然画像の幾何学的、トポロジー的、そして測光的構造に属する確率モデルとして取得することを目的とする。画像構造は、低レベル階層的マルチスケール画像分割により導出された分割グラフによって表現される。まず、多数の分割グラフの特性の統計的性質を、多数の画像群を用いて推定する。この推定結果から、従来研究における発見が再確認されると共に、新たな発見が提示される。次に、分割グラフのマルコフ確率場に基づくモデルを取得する。このモデルは観測した統計量を包含する。このモデルと統計量の価値を示すために、これらを事前知識として利用することが、画像分類、意味的画像分割、そして物体検知の用途においていかに有効であるかを示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.36, No.10

計算的画像処理システム(Computational Imaging Systems)の解析フレームワーク:信号事前確率、センサーノイズ、及び多重化の役割
A Framework for Analysis of Computational Imaging Systems: Role of Signal Prior, Sensor Noise and Multiplexing

Mitra, K. , Dept. of Electr. & Comput. Eng., Rice Univ., Houston, TX, USA Cossairt, O.S. Veeraraghavan, A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 10, pp. 1909-1921 , October 2014

Keywords: Gaussian processes, approximation theory, image reconstruction, least mean squares methods, mixture models, multiplexing, GMM, Gaussian mixture model, MMSE, analytical tractability, computational imaging systems, defocus deblurring, flutter shutter, focal sweep, minimum mean square error, motion deblurring, multispectral imaging, noise characteristics, optical multiplexing, parabolic exposure, performance analysis, reconstruction algorithms, sensor noise, signal prior, universal approximation property, Computational imaging, Gaussian mixture model (GMM), extended depth-of-field (EDOF), motion deblurring, Analytical models, Cameras, Gain, Multiplexing, Noise, Photonics

過去10年にわたり、動きブレ低減、ボケ低減、そしてマルチスペクトラル画像処理など、多くの計算的画像処理システム(computational imaging: CIシステム)が提案されてきた。これらの手法は光線の多重化によりセンサーに到達する光の量を増大させ、その上でこの多重化による悪影響を再構成アルゴリズムを用いて削減する。これらの手法の有用性は広くアピールされ、多くの研究者を熱中させたが、その上で尚、この手法の利点の精密な解析を行うことは重要である。残念ながら、CIの詳細な解析は困難な課題であることが照明されている。これは性能が以下の3つのコンポーネントに等しく依存するためである。1)光学的多重化、2)センサーのノイズ特性、3)信号の事前確率を用いることが多い再構成アルゴリズム。少数の最近の論文ではこの多重化とノイズ特性を考慮に入れたものもあるが、信号の事前確率を用いることが多い最新の再構成アルゴリズムによるCIシステムの解析は極めて難しいことが照明されている。本稿では前記の3つのコンポーネント全てを考慮したCIシステムの大規模な解析フレームワークを紹介する。この解析を実施するために信号の事前確率をガウシアン混合モデル(Gaussian Mixture Model:GMM)を用いてモデル化する。GMM事前確率は2つのユニークな特性を持っている。まずGMMは一般的な近似特性を満たす。これはすなわちGMMの適切な混合数を選択することにより、任意の事前確率密度関数が、任意の忠実度で近似可能であることを意味する。第二に、GMM事前確率自体が高い解析性を持っており、これにより「最小事情平均誤差(minimum mean square error: MMSE)」の単純な表現を導出することができる。我々はこのMMSEをCIシステムの性能指標として用いる。このフレームワークを用いて幾つかの既存のCI手法(焦点距離走査(focal sweep)、フラッターシャッター(flutter shutter)、放物線露出(parabolic exposure)など)を解析することで、「信号の事前確率を用いることによる性能向上の度合いはどれほどか?」「多重化による性能向上は?」という問いに対する回答を得る。また我々の解析により、多重化による性能向上は、事前確率の利用による性能向上をしのぐものであることが明確に示される。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


輪郭検出のためのマルチスケールパーティクルフィルターフレームワーク
A MultiScale Particle Filter Framework for Contour Detection

Widynski, N. , Dept. of Comput. Sci. & Oper. Res. (DIRO), Univ. of Montreal, Montreal, QC, Canada Mignotte, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 10, pp. 1922-1935 , October 2014

Keywords: Bayes methods, Monte Carlo methods, image texture, particle filtering (numerical methods), Berkeley segmentation data sets, approximated trajectory distribution, color information, complex natural images, gradient information, interactive cut-out task, learned offline, likelihood functions, local gradient-based features, multiscale edgelet structure, multiscale particle filter framework, oriented gradient-based features, profile gradient-based features, recursive Bayesian modeling, semilocal information, sequential Monte Carlo approach, shape database, soft contour detection map, textural gradient-based features, BSDS, Particle filtering, multiscale contour detection, sequential Monte Carlo methods, statistical model, Approximation methods, Detectors, Feature extraction, Image edge detection, Image segmentation, Lead, Shape

複雑な自然画像における輪郭検出課題を検討する。本稿では、我々がedgeletと呼ぶエッジ小片を2つのスケールで協調的に追跡する新しい輪郭検出アルゴリズムを提案する。このマルチスケールedgelet構造は、もともと準局所情報を取り扱うことができ、本稿で提案する反復型のベイズモデリングの基本的な要素となっている。事前確率分布及び変換確率分布(transition disribution)をオブジェクト形状データベースを用いてオフラインで学習する。尤度関数はオンラインで学習されるので画像適応性を持つことになる。またこれにより、局所的で、テクスチャ情報をあらわし、方位性を持つ、プロファイル勾配に基づく特徴を用いた購買情報と、色情報を統合する。この手法の背景にあるモデルは連続モンテカルロ法を用いて推測され、最終的な柔輪郭(soft contour)検出マップを近似された軌道分布から検索する。このモデルをインタラクティブな画像切り抜き作業に拡張する方法も提案する。バークレー画像分割データセットを用いた実験により、本稿で提案するマルチスケールパーティクルフィルタによる輪郭検出方法が、他の最新の手法に伍する性能を持つことが示される。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


角度類似性のためのバッチ直交性局所性有感ハッシュ
Batch-Orthogonal Locality-Sensitive Hashing for Angular Similarity

Jianqiu Ji , Dept. of Comput. Sci. & Technol., Tsinghua Univ., Beijing, China Shuicheng Yan Jianmin Li Guangyu Gao Qi Tian Bo Zhang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 10, pp. 1963-1974 , October 2014

Keywords: cryptography, file organisation, mean square error methods, random processes, ANN retrieval, BOLSH, SRP-LSH, approximate nearest neighbor, batch-orthogonal locality-sensitive hashing, batch-orthogonalized random projection, mean squared error reduction, pairwise angular similarity, random projection vector, sign-random-projection, Sign-random-projection, angular similarity, approximate nearest neighbor search, locality-sensitive hashing, Binary codes, Educational institutions, Gaussian distribution, Hamming distance, Nearest neighbor searches, Probabilistic logic, Vectors

信号確率投影局所性有感ハッシュ(sign-random-projection locality-sensitive hashing: SRP-LSH)は現在広く用いられているハッシュ法の一つであり、角度類似性対(pairwise angular similarity)のバイアスの無い推定を与えるが、それでもなお推定値の大きなばらつきの影響を受ける。本稿で我々は、SRP-LSHの顕著な性能向上方法として、バッチ直交性の局所性有感ハッシュ(batch-orthogonal locality-sensitive hashing: BOLSH)を提案する。独立した確率的投影の代わりに、BOLSHはバッチ直交性確率的投影を用いる。すなわちこの方法では確率的投影ベクトルを幾つかのバッチに分解し、これらの投影ベクトルを各バッチにおいて直交化する。これらのバッチ直交化確率投影により、データ空間を正規化領域(regular region)に分割することで、より正確な推定器を与える。SRP-LHSと比較してBOLSHが (0, Π)の区間の任意の角度に対してより小さいばらつきでありつつも、角度類似性対のバイアス無し推定を与えることを理論的に証明する。さらにこの低減されたばらつきの下界を与える。実データを用いた大規模な実験により、同一長のバイナリコードに対して、角度類似性対の推定において、BOLSHが有意に平均自乗誤差を低減できることが示される。さらにBOLSHは大規模な近似最近傍(approximated nearest neighbor: ANN)検索実験においても優れた性能を示した。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


情報量の高い事例及び代表的事例のクエリによる能動学習
Active Learning by Querying Informative and Representative Examples

Sheng-Jun Huang , Nat. Key Lab. of Novel Software Technol., Nanjing Univ., Nanjing, China Rong Jin Zhi-Hua Zhou

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 10, pp. 1936-1949 , October 2014

Keywords: learning (artificial intelligence), minimax techniques, query processing, QUIRE approach, active learning, informative example querying, label querying, labeling cost reduction, min-max view, multilabel learning, query selection criteria, representative example querying, single-label learning, Active learning, informativeness, learning with unlabeled data, multi-label learning, representativeness, Algorithm design and analysis, Clustering algorithms, Correlation, Kernel, Labeling, Measurement uncertainty, Uncertainty

能動学習は、ラベルクエリのために最も情報量の高いデータを反復的に選択することで正解情報のラベル付けコストを低減する。大量のラベル無しデータが与えられラベル付けコストが高すぎる場合に、この方式は非常に注目される。既存のほとんどの能動学習法は、情報量の多い、もしくは代表的なラベル無しインスタンスを選択し、これによりラベルをクエリするが、これが性能に対する強い制約となっている。この2つのクエリ選択指標を組み合わせるために幾つかの能動学習アルゴリズムが、これまでに提案されているが、これらは情報量が高く代表的なラベル無しインスタンスを見つけるためにアドホックな仕組みを利用している。本稿では能動学習のmin-max viewに基づいたQUIREと名づけられた理屈に裏付けられたアプローチを開発することで、この性能に対する制約問題を取り扱う。このアプローチは、ラベルなしインスタンスの情報性(informtiveness)と代表性(representativeness)を計量し、且つ組み合わせる体系的な方法を与えるものである。更にラベル間の共起性を取り入れることで、インスタンス?ラベル対に対して能動的にクエリすることによりQUIREアプローチをマルチラベル学習に拡張する。大規模な実験により提案アプローチQUIREが、単一ラベル問題、マルチラベル問題の両方において、いくつかの他の最新の能動学習アプローチを上回る性能を持つことが示される。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自動文書クリーニング:重度に崩れたスキャン文書画像を再構成するための生成的アプローチ
Autonomous Document Cleaning—A Generative Approach to Reconstruct Strongly Corrupted Scanned Texts

Zhenwen Dai , Dept. of Comput. Sci., Univ. of Sheffield, Sheffield, UK Lucke, J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 10, pp. 1950-1962 , October 2014

Keywords: document image processing, expectation-maximisation algorithm, feature extraction, image reconstruction, image representation, learning (artificial intelligence), natural language processing, probability, text analysis, variational techniques, autonomous document cleaning, character discrimination, character representations, character types, document patches, feature occurrences, full Latin alphabet, latent variables, learning, manual line strokes, model parameters, noncharacter patterns, pattern class, pattern features, pattern position, planar arrangements, probabilistic generative model, quality measure, scanned text documents cleaning, single letter-size page, spilled ink, strongly corrupted scanned texts reconstruction, structural regularity, truncated variational EM approach, Probabilistic generative models, document cleaning, expectation maximization, expectation truncation, scanned text, unsupervised learning, variational approximation, Approximation methods, Computational modeling, Data models, Histograms, Probabilistic logic, Vectors, Visualization

本稿で我々は手書きの線分やこぼれたインクなどにより重度に崩れたスキャン文書画像のクリーニング問題を取り扱う。単一のレターサイズのページ画像から得られた情報のみを用いて自律的にこれらの崩れを修正することを目的とする。我々のアプローチではまず文書画像パッチから文字表現を教師無しで学習する。この学習のために確率的生成モデルパラメタパターン特徴と、その2次元版、そして更なる変種を利用する。このモデルの潜在変数は、パターンの位置及びクラス、そして特徴の発現を記述する。切り捨て変分型期待値最大化アプローチ(truncated variational EM approach)を用いることで、このモデルパラメタを効率的に推測する。各パッチについてパターンクラスと位置を同定することにより、また、文字と非文字パターンを区別するための品質尺度を導入することにより、学習された表現に基づいてノイズを取り除いた文書画像を復元することができる。今回の検討により、単一の文書ページが全てのアルファベット(ラテン)文字について、充分な標本を与えるわけではないことが確認された。しかし入力文書画像が重度に汚れていた場合であっても、少数の文字タイプしか含まない文書画像は、その少数の文字の構造正規制のみに基づいて効率的且つ自律的に精練できることを示す。さまざまな文字セットを持つさまざまな種類のアプリケーションについて、本アプローチの効果、効率、そして普遍性を示した上で議論する。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顕在動き検出のためのブロックスパースなRPCA
Block-Sparse RPCA for Salient Motion Detection

Zhi Gao , Interactive & Digital Media Inst., Nat. Univ. of Singapore, Singapore, Singapore Loong-Fah Cheong Yu-Xiang Wang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 10, pp. 1975-1987 , October 2014

Keywords: image motion analysis, image sequences, matrix decomposition, principal component analysis, sparse matrices, MRF, block-sparse RPCA, camera jitter handling, camouflage, complex intensity variation, crisply defined foreground region, foreground regions, illumination change, image alignment, image quality, image sequence, large dynamic background motion handling, low-rank background matrix, matrix decomposition, motion saliency estimation, representative background subtraction technique, robust principal component analysis method, salient motion detection, smoothness constraint, sparse outlier matrix, spatial coherence, Block-sparse RPCA, camera jitter, dynamic background, salient motion, Cameras, IEEE transactions, Jitter, Lighting, Sparse matrices, Tracking, Trajectory

代表的背景差分法の近年の評価により、これらの方法が未だに大きな課題に直面していることがわかってきた。これらは実際的な課題であり、明度の複雑な変化をもたらす照明変化や、背景領域に動きがある場合(木や波など)、特にその動きが前景の動きよりも大きくなりうる場合、照明が弱い場合やカモフラージュなどで画質が悪い、などが含まれる。既存手法の多くはこれらの課題の一部のみを取り扱っている。我々はこれらの課題を、背景についての若干特殊な仮定があるものの統一されたフレームワークにおいて取り扱う。低ランクの背景行列(low-rank background matrix)とスパースなはずれ値行列(sparse outlier matrix)の和により構成されるものとして画像シーケンスを解釈し、頑健主成分分析(Robust Principal Component Analysis)を用いてこの分解問題を解く。動きの顕在性を推定する処理段により、前景領域の空間的コヒーレンスをよりどころに前景領域の確からしさ動的に推定することが我々の研究の第一の成果である。MRFなどで見られる平滑性に対する拘束条件とは違い、我々の手法は明確に定義された前景領域を得ることが可能であり、一般的には大規模な背景の動きを既存の手法よりもはるかに上手く扱うことができる。さらにカメラジッターに対応するために画像整列処理段を導入している。ベンチマークデータセット及び追加の困難なデータセットを用いた大規模な実験により、我々の手法が広範な種類の複雑なシナリオに対して効果的に働くことが示される。この実験の結果は我々の手法が、既存の他の最新手法の多くを有意に上回る性能を持っていることを示している。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効率的なオブジェクト識別のためのClassemesと他の識別器に基づく特徴
Classemes and Other Classifier-Based Features for Efficient Object Categorization

Bergamo, A. , Dept. of Comput. Sci., Dartmouth Coll., Hanover, NH, USA Torresani, L.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 10, pp. 1988-2001 , October 2014

Keywords: image classification, image representation, object recognition, support vector machines, abstract category, classemes, classifier-based feature, compact image descriptor, image representation, linear SVM, linear classification model, object categorization, Object categorization, attributes, image features, Accuracy, Databases, Feature extraction, Image recognition, Kernel, Training, Vectors

本稿では線形識別モデルを用いて正確なオブジェクトカテゴリ化を可能にするコンパクトな画像記述子について紹介する。この線形識別モデルは学習段と認識段両方で効率的であるという利点がある。我々が提案する複数の記述子に共通する特性として、各画像の特徴を精製するために識別器を用いることである。直感的に説明ならば、これらの識別器が画像中の基底クラス群の有無を評価する。本稿ではまず、手動で選択されたオブジェクトクラス群の認識器として、この基底識別器を訓練することを提案する。次にこの基底クラスを「概要カテゴリ(abstract categories)」として学習することで、より高い精度が得られることを示す。この概要カテゴリは線形識別のための特徴として集合的に最適化されたものである。最後に、画像中に複数のオブジェクトがある場合や大規模な散乱がある場合にも対処できるように、複数の画像の部分領域において評価された規定識別器の出力を統合する幾つかの戦略について説明する。本稿で提案する記述子を、難易度の高いオブジェクトカテゴリ化ベンチマーク及びオブジェクト検出のためのベンチマークデータを用いて、単純な線形SVMを識別器として利用した試験を行った。実験結果は、この記述子が既存の最良の記述子と伍する性能を持ちつつ、計算コストは2桁以上低減できていることを示している。

TS

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高速圧縮トラッキング
Fast Compressive Tracking

Kaihua Zhang , Sch. of Inf. & Control, Nanjing Univ. of Inf. Sci. & Technol., Nanjing, China Lei Zhang Ming-Hsuan Yang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 10, pp. 2002-2015 , October 2014

Keywords: Bayes methods, computational complexity, image classification, image motion analysis, learning (artificial intelligence), lighting, object tracking, pose estimation, search problems, sparse matrices, adaptive appearance models, binary classification, coarse-to-fine search strategy, compressed domain, compressive tracking algorithm, computational complexity, data- independent basis, drift problems, fast compressive tracking, illumination change, image feature space, misaligned samples, motion blur, multiscale image feature space, naive Bayes classifier, nonadaptive random projections, occlusion, online algorithms, online tracking algorithms, pose variation, robust object tracking, self-taught learning, sparse measurement matrix, tracking algorithm, Visual tracking, compressive sensing, random projection, Compressed sensing, Feature extraction, Image coding, Object tracking, Robustness, Sparse matrices, Target tracking

さまざまな姿勢、照明の変化、隠蔽、動きぼけ、といった因子に対して、頑健なオブジェクト・トラッキングのための効果的で、効率の良い外観モデルを開発することは、困難な課題である。既存のオンライン・トラッキング・アルゴリズムは、近接フレームにおける観測値のサンプルにより、度々モデルを更新する。しかし、これまで多くの成功事例が示されてきたにも関わらず、扱うべき多くの課題は依然残されている。第1は、これらの適応外観モデルがデータに依存する一方で、オンライン・アルゴリズムが最初に学習するための十分なデータが存在しないということ。第2は、オンライン・トラッキング・アルゴリズムが、しばしば遭遇するドリフト問題。即ち、自己学習の結果として、誤調整されたサンプルが追加される可能性があり、これにより、外観モデルが劣化するという課題である。本稿では、データ非依存の基底を用いた、マルチスケール画像特徴空間から展開される特徴に基づく、簡潔ながら効果的で効率の良いトラッキング・アルゴリズムを提案する。本提案の外観モデルでは、オブジェクトの画像特徴空間の構造を保存する非適応的な確率的射影を採用する。また、非常にスパースな計測行列により、外観モデルに対する特徴が効率良く展開するよう構築される。この同じスパース行列を用いて、前景の目的オブジェクト画像と背景画像とを圧縮する。このトラッキングタスクは、圧縮領域において、オンラインで更新されるナイーブ・ベイズ分類器を通じて、2クラス分類問題として定式化される。ここでは、検出手続きにおける計算上の複雑さを、よりいっそう低減するために、疎から密への探索戦略を採用した。本提案の圧縮的トラッキング・アルゴリズムは、効率、精度および、頑健性が課題となるシーケンス上で、リアルタイムで動作し、最新の手法に遜色の無い性能を示す。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


外観に基づく視線推定のための適応線形回帰
Adaptive Linear Regression for Appearance-Based Gaze Estimation

Feng Lu , Inst. of Ind. Sci., Univ. of Tokyo, Tokyo, Japan Sugano, Y. Okabe, T. Sato, Y.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 10, pp. 2033-2046 , October 2014

Keywords: feature extraction, gaze tracking, image motion analysis, image resolution, optimisation, regression analysis, ℓ1-optimization, ALR method, adaptive linear regression, appearance-based gaze estimation, blink detection, eye blinking, eye image features, image resolution variation, slight head motion, subpixel alignment, Eye, blink detection, face and gesture recognition, gaze estimation, sub-pixel alignment, Accuracy, Estimation, Feature extraction, Head, Image resolution, Magnetic heads, Training

本研究では、外観からの視線推定問題を扱っている。ここでは、必要トレーニングサンプル数の低減における本質的な困難に対する問題の他、僅かな頭の動きや、画像解像度の違い、瞬きといった、実践的な課題に取り組んでいる。本稿では、これらの課題を目の画像特徴の高次元空間から、低次元の視線位置への写像の問題として扱うとともに、解決の鍵となる適応的線形回帰(adaptive linear regression : ALR)を提案する。ALR法では、L1-最適化による視線推定のための、最もスパースなトレーニングサンプルの最適集合を、適応的に選択する。これにより、要求されるトレーニングサンプルの数は、高精度な推定に対して劇的に低減される。加えて、基本的なALR目的関数を適応させることにより、視線推定、サブピクセル調整、および、瞬き検出が統一的な最適化フレームワークとして統合される。これらの問題を同時に解くことにより、外見に基づく視線推定における、僅かな頭の動き、解像度変化、まばたきを上手く扱うことを可能とした。多数のユーザと、有効性を検証するための、さまざまな条件に基づいて計画された実験により、本提案手法の評価を行った。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高次元セミパラメトリック・スケール不変主成分分析
High Dimensional Semiparametric Scale-Invariant Principal Component Analysis

Fang Han , Dept. of Biostat., Johns Hopkins Univ., Baltimore, MD, USA Han Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 10, pp. 2016-2032 , October 2014

Keywords: Gaussian distribution, principal component analysis, COCA, copula component analysis, data contamination, estimation rates, feature selection, high dimensional semiparametric scale-invariant principal component analysis, monotone transformations, multivariate Gaussian distribution, semiparametric model, sparse PCA, High dimensional statistics, nonparanormal distribution, principal component analysis, robust statistics, Convergence, Correlation, Covariance matrices, Equations, Mathematical model, Principal component analysis, Vectors

本稿では、連結主成分分析(Copula Component Analysis : COCA)と名付けた、新しい高次元のセミパラメトリック主成分分析手法を提案する。このセミパラメトリック手法では、特に特定しない周辺単調関数での変換により、分布が多次元正規分布となることを仮定する。COCAは、次の3つの点について、PCAおよびスパースPCAを改良したものである。(i)モデルの仮定に対して頑健であること。(ii)はずれ値やノイズ(data contamination)に対して頑健であること。(iii)スケール不変でかつ、より解釈性にすぐれた結果をもたらすこと。本稿では、COCA推定量は、推定率が高速に得られることと、次元がサンプル数に対して、ほぼ指数的に増大する場合の特徴選択が一貫していることを証明する。合成データセットおよび実世界データセット双方での、注意深い実験により、COCAがスパースPCAに対して優れていることを検証した。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


姿勢耐性のある顔認識のためのスパース特徴抽出
Sparse Feature Extraction for Pose-Tolerant Face Recognition

Abiantun, R. , Electr. & Comput. Eng. Dept., Carnegie Mellon Univ., Pittsburgh, PA, USA Prabhu, U. Savvides, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 10, pp. 2061-2073 , October 2014

Keywords: face recognition, feature extraction, image matching, minimisation, pose estimation, random processes, ℓ1-minimization, 3D face models, 3D generic elastic model, automatic face recognition performance, expression, face viewpoint, frontal-looking face, illumination, matching scores, one-to-one matching scenarios, pose problem, pose-tolerant face recognition, query face image, random pose matching, resolution, sparse feature extraction, subspace modeling, 3D generic elastic models, Face recognition, pose tolerance, sparse feature extraction, Face, Face recognition, Feature extraction, Image reconstruction, Solid modeling, Three-dimensional displays, Vectors

自動顔認識の性能は、何年もの研究に渡って、絶え間なく改良され続けている。しかしながら、照明、姿勢、表現、解像度、および、その他の照合スコアに影響のある因子、といった多くの因子の強い影響が残されている。本稿の主題は、ほんどの実世界応用において広く見落とされたままになっている姿勢問題である。特に、ランダムな姿勢の顔画像クエリを、検索対象の画像集合と照合する1対1の照合シナリオに焦点を当てる。本提案の手法は、2つの基礎的な要素を基礎に置く。(a)顔の視点を幾何学的に修正するための3Dモデル化ステップ。この目的のために、3D一般エラスティックモデル(3D Generic Elastic Model)と呼ばれる3D顔モデルの効率の良い合成技術を拡張した。(b)係数空間における姿勢トレランスを誘導するための、部分空間モデリングとL1最小化を用いた、スパース特徴抽出ステップ。これにより、認識に利用可能な正面から見たのと等価な顔を合成するこが可能となる。本稿では、市販の照合器と比較で、照合率において、本提案手法が有意に性能向上していることを示す。また、入力画質の劣化に対する提案手法の柔軟性も示す。提案手法により、非正面画像を他の様々なアングルの非正面画像と照合することを可能となることが分かった。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カーネル化ベイズ行列の因子分解
Kernelized Bayesian Matrix Factorization

Gonen, M. , Sage Bionetworks, Seatle, WA, USA Kaski, S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 10, pp. 2047-2060 , October 2014

Keywords: approximation theory, biology computing, learning (artificial intelligence), matrix decomposition, pattern classification, probability, Hamming losses, drug-protein interactions, full-Bayesian treatment, full-conjugate probabilistic formulation, kernelized Bayesian matrix factorization, multioutput regression, out-of-matrix predictions, real-valued matrix, semisupervised multilabel classification, side information sources, supervised multilabel classification, variational approximation, yeast cell cycle data set, Automatic relevance determination, biological interaction networks, large margin learning, matrix factorization, multilabel classification, multiple kernel learning, multiple output regression, variational approximation, Approximation methods, Bayes methods, Computational modeling, Covariance matrices, Kernel, Prediction algorithms, Probabilistic logic

本稿では、カーネル化された行列の因子分解を拡張する。これには、完全ベイズ処理と、異なるカーネルとして表現される複数の副次的情報源(side information source)と連携する能力を用いる。カーネルは行と列に関する副次的情報を統合することにより導出される。これは、行列外予測(out-of-matrix prediction)を構築するために必要となる。ここでは特に、二値出力の行列について論じるが、実数値行列には容易に拡張される。本稿では、2つの鍵となる最新技術を拡張する: (i) 完全ベイズ処理が、初期のアプローチで計算可能でなくなることに対して、カーネル化された行列の因子分解の完全共役(full-conjugate)な確率的定式化が、効率の良い変動近似を可能とすること。(ii) 複数のカーネル学習において、逐次導かれる副次的情報原が有益であるような、種々のカーネルとして扱われる複数の副次的情報源が含まれること。次いで、行列の因子分解が機能する領域としてのサンプルと出力を考慮することにより、本フレームワークが、教師付あるいは準教師付マルチラベルクラス分類と、多値出力の回帰分析にも利用できることを示す。本手法は、薬物タンパク質(drug-protein)の相互作用予測における2つのデータセット上で他を凌いでいる。マルチラベルのクラス分類では、本アルゴリズムが、5つの最新アルゴリズムに対して、14データ中10データで、突出して最小のハミング損失を達成している。最後に、本提案アプローチが、イースト菌データセット上での多出力回帰分析実験において、他を凌ぐことを示す。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像に基づく3Dモデリングのための統計的逆光レイトレーシング
Statistical Inverse Ray Tracing for Image-Based 3D Modeling

Shubao Liu , Image Analytics Lab., GE Global Res., Niskayuna, NY, USA Cooper, D.B.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 10, pp. 2074-2088 , October 2014

Keywords: Bayes methods, Markov processes, dynamic programming, inference mechanisms, random processes, ray tracing, solid modelling, stereo image processing, Bayesian formulation, MRF model, Markov random field model, dynamic programming, generative statistical modeling, geometric priors, image analysis, image-based 3D modeling, inference, linear computational complexity, multiview stereo, occlusion relationship, physically sound image generation model, random variables, ray clique, recursive chain structure, statistical inverse ray tracing, volumetric ray tracing, Markov random fields, Multi-view stereo, belief propagation, dynamic programming, image-based 3D modeling, inverse ray tracing, optimization, photo-realistic reconstruction, Computational modeling, Image reconstruction, Inference algorithms, Ray tracing, Solid modeling, Surface reconstruction, Three-dimensional displays

本稿では、多視点立体画像(multi-view stereo)として知られる画像に基づく3Dモデリングへの新しい定式化と、生成的統計モデリングと推論に基づく解を提案する。統計的逆レイトレーシングと名付けた、この新しいアプローチでは、ボリューム・レイトレーシングに基づく物理的音響画像生成モデルの最適化を通じて、画像欠損の関係を正確にモデル化し、推定する。そして、幾何的事前分布とともに、それらを、マルコフ確率場(Markov random field : MRF)として知られるベイジアン・フレームワークに落とし込む。このMRFモデルは、レイトレーシング・プロセスをモデル化する光線群(ray clique)の意味での画像解析に用いられる典型的なMRFと異なり、2つから数十の変数の代わりに、数千もの確率変数を含む。この大規模な光線群についての計算課題を扱うために、動的プログラミングによる、光線群の再帰チェーン構造を利用して、線形計算上の複雑さを扱うアルゴリズムを開発した。さらに、正確なモデリングと、正確な欠損関係推定の利点を、幾つかの課題データセット上で提案アルゴリズムを評価することにより示す。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


意味的ラベル付けとオブジェクト検出のためのランダムフォレストにおける構造化ラベル
Structured Labels in Random Forests for Semantic Labelling and Object Detection

Kontschieder, P. , Machine Learning & Perception Group, Microsoft Res., Cambridge, UK Bulo, S.R. Pelillo, M. Bischof, H.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 10, pp. 2104-2116 , October 2014

Keywords: computer vision, decision trees, image classification, learning (artificial intelligence), object detection, CamVid database, Hough-forest framework, Kaist database, MSRCv2 database, TU Darmstadt database, classification level, complex problems, computer vision problems, contextual information integration, joint distribution, label transition learning, local level, locally implausible label configuration avoidance, machine learning tool, object classes, object detection, occluded handwritten Chinese character reconstruction, pedestrian detection, performance improvement, random forests, randomized decision tree ensembles, semantic image labelling, split function evaluation criterion, structural information, structured label information, structured label space, structured low-level predictions, structured output prediction integration, structured output space, Random forests, object detection, semantic image labelling, structured prediction, Computer vision, Context, Labeling, Semantics, Standards, Training, Vegetation

ランダムフォレストとして知られるランダマイズされた決定木の集合は、多くのコンピュータビジョン問題を扱う上で、重要な機械学習ツールになってきている。しかし、その認知度に反して、それらの性能を改善するための、ランダムフォレストにおける文脈上や構造上の情報への活用は、ほとんど試みられてこなかった。本稿では、ランダムフォレストにおける文脈上の情報を統合する、単純で効果的な手法を提案する。この手法は典型的には、意味的画像ラベリングのような、複雑な問題の構造化された出力空間に適用される。ここでは、どのようにして、ランダムフォレストが構造化ラベル情報により拡張されるか、また、どのようにして、構造化された低レベル予測の導出に利用されるのかを示す。学習タスクは、構造化ラベル空間で観測される結合分布を利用した、新しい分離関数の評価基準を採用することで実施される。これは、フォレストに、典型的なオブジェクトクラス間のラベル遷移を学習することと、局所的に妥当ではなさそうなラベル構成を回避することを可能とする。本稿では、フォレストから局所レベルで取得された構造化出力予測を、簡潔で大域的な意味的ラベルに、統合するための2つのアプローチを提供する。我々は、この新しいアイデアを、オブジェクト検出タスク上での性能を改善するための、分類レベルでの文脈情報を採用する観点で、ハフ フォレスト フレームワークにも統合した。最後に、困難なMSRCv2 (the challenge MSRC v2)とCamVid データベース上での意味的画像ラベル付けや、Kaistデータベース上の手書き漢字の欠損画像復元、TU Darmstadt データベース上の歩行者検出などの、様々なタスク上で、提案アプローチの妥当性の実験による証明を示す。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


構造化ブースト: 構造化された出力変数予測のためのブースト手法
StructBoost: Boosting Methods for Predicting Structured Output Variables

Chunhua Shen , Sch. of Comput. Sci., Univ. of Adelaide, Adelaide, SA, Australia Guosheng Lin van den Hengel, A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 10, pp. 2089-2103 , October 2014

Keywords: computer vision, learning (artificial intelligence), support vector machines, AdaBoost, LPBoost, Pascal overlap criterion, SSVM, StructBoost, accurate predictor, boosting algorithm, boosting methods, column generation, computer vision, cutting plane method, exponential number, hierarchical multiclass classification, image segmentation, learning conditional random field parameters, nonlinear structured learning, robust visual tracking, structured output variables, structured support vector machines, versatility, weak structured learners, AdaBoost, Boosting, conditional random field, ensemble learning, structured learning, Algorithm design and analysis, Boosting, Kernel, Optimization, Support vector machines, Training, Vectors

ブースティングは、比較的精度の低い弱学習器の集合を線形結合することで、単一の正確な予測値を学習するための手法である。近年、構造学習(structured learning)では、コンピュータビジョンにおける多くの応用が発見されている。本稿では、構造化SVM(structured support vector machines : SSVM)に触発された、構造化された出力予測のための新しいブースティングアルゴリズムを提案する。構造化ブーストは、弱構造学習器の集合を結合することで非線形な構造学習をサポートする。SSVMがSVMの一般化であるように、構造化ブーストは、Ada BoostやLP Boostのような、標準的なブースティングのアプローチを一般化したものである。その結果得られた構造化ブーストの最適化問題は、指数関数的に多くの変数と制約を含み得るという意味において、SSVMよりさらに困難な課題となる。これに対してSSVMでは、通常、指数的な数の制約条件を持つため、切断面手法が使用される。本研究では、構造化ブーストを効率よく解くために、1-スラック定式化と等価な定式化を行い、切断面とカラム生成の組み合わせによって、その解を求めた。本稿では、階層的多クラス分類に対するツリー損失の最適化や、頑健な視覚追跡のためのパスカル・オーバーラップ基準の最適化、画像セグメンテーションのための条件付きランダム・フィールド・パラメータの学習、のような様々な課題上で、構造化ブーストの汎用性と有用性を示した。

Jam

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.36, No.11

画像や高次元データの分類用途を目的とする最大最小化フレームワーク
A Minimax Framework for Classification with Applications to Images and High Dimensional Data

Cheng, Q. , Computer Science Department, Southern Illinois University Carbondale (SIUC), Faner Hall, Room 2140, MC 4511, 1000 Faner Drive, Carbondale, IL Zhou, H. Cheng, J. Li, H.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 11, pp. 2117-2130 , November 2014

Keywords: Bayesian optimal decision, Multiclass classification, generalized multiplicative distortion, high dimensional data, kernel, minimax optimization, Face recognition, Kernel, Manifolds, Nonlinear distortion, Support vector machines, Training, Uncertainty

本稿では、画像や他の高次元データを始めとするデータ一般に適用可能な、多クラス分類を目的とする最大最小化(minimax)フレームワークを紹介する。本フレームワークは、特定用途で重視されるある種の歪みの下での当てはめ誤差を最小化する代表モデルの推定と、推定されたモデルに基づくカテゴリ情報の導出とから構成される。ラッソや弾性網(elastic net)、稜線回帰(ridge regression)を含む一般的に利用される様々な回帰モデルは、特定の歪みクラスに対応する特殊な事例と見做すことができる。このフレームワークから最適な判定基準が導出される。カーネル法を利用することで、本フレームワークは入力空間における非線形性にも対処することができる。本フレームワークの力量を示すために、信号依存の歪みの一種を取り上げ、新規の特殊な事例として新しい分類器の一群を構築する。一般化乗算性歪み(generalized multiplicative distortion)を用いた最大最小化分類器と呼ぶこの新しい分類器の一群は、サポートベクトルマシンを始めとする最先端の分類手法の性能を、精度の面において凌駕する。画像、遺伝子発現(gene expression)、並びに他の種類のデータを用いた詳細な実験結果により、提案フレームワークの効果が実証される。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


静止画における人物姿勢推定のための人体部位依存の同時回帰器
Body Parts Dependent Joint Regressors for Human Pose Estimation in Still Images

Dantone, M. , Computer Vision Laboratory, ETH Zurich, Switzerland Gall, J. Leistner, C. Van Gool, L.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 11, pp. 2131-2143 , November 2014

Keywords: Human pose estimation, classification, fashion, random forest, regression, Accuracy, Data models, Estimation, Joints, Predictive models, Training, Vegetation

本研究では、静止画から二次元の人物姿勢を推定する課題に取り組む。多関節の人体姿勢推定は、姿勢や異なる部位の見た目が極めて多様であることから、難易度の高い課題である。画像情報構造(pictorial structure)フレームワークに基づく近年の手法は、この課題を解決する上で非常に有効であることが示されている。これらの手法は、排他的に訓練された独立部位テンプレートと、木モデルを用いた部位間の空間的関連性とを用いて、部位の外観をモデル化する。このようなフレームワークにおいて、本稿では極めて多様な外観に対応するための、より高性能な部位テンプレートを取得する課題に取り組む。この観点から、2つの階層で動作するランダム森である、部位依存の人体同時回帰器(parts dependent body joint regressor)を導入する。第一階層は独立した人体部位分類器として動作し、第二階層は第一階層により推定されたクラス分布を考慮し、部位の相互依存性と共起性とをモデル化することで同時位置を推定する。これにより、足や腕の自己類似性など木構造に生じる典型的な曖昧さを克服する。更に、ファッションポーズと呼ぶ新しいデータセットを導入する。本データセットは、服装の多様性から人体部位の外観的に非常に複雑な変化が存在する、7000枚を超える画像から構成される。実験において、提案する部位依存の同時回帰器が、非依存の分類器や回帰器の性能を上回ることを実証する。また、提案手法は数フレーム枚秒で動作しながら、最先端手法と精度の面で同等以上である。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


深度転写:ノンパラメトリック・サンプリングを用いた動画からの深度抽出
Depth Transfer: Depth Extraction from Video Using Non-Parametric Sampling

Karsch, K. , Department of Computer Science, University ofIllinois, Urbana, IL Liu, C. Kang, S.B.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 11, pp. 2144-2158 , November 2014

Keywords: 2D-to-3D, Depth estimation, data-driven, monocular depth, motion estimation, Cameras, Databases, Estimation, Image reconstruction, Optical imaging, Optimization, Three-dimensional displays

ノンパラメトリック深度サンプリングを用いて動画から良好な深度マップを自動生成する技術を説明する。従来手法が失敗するケース(カメラが移動しない場合や動的なシーン)を用いて提案手法の性能を実証する。提案手法は動画だけでなく1枚の静止画に対しても適用可能である。動画に対しては、推定された深度マップを局所動きキュー(local motion cue)を用いて改善すると共に、オプティカル・フローを用いて時間的な深度の一貫性を担保する。訓練と評価では、Kinectを用いたシステムによって収集した、既知の深度を持つ二眼の動画から構成される大規模なデータセットを用いる。ベンチマーク・データセットに対して提案する深度推定手法が最先端手法の性能を上回ることを示す。提案手法は、三次元可視化のために単眼カメラで撮影された動画を両眼用に自動変換できる。このことを、長編映画シャレードを含む様々な屋内外のシーンに対して適用して得られた、視覚的に良好な結果に基づいて実証する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高速で厳密なユークリッド距離(FEED):適応的距離変換の新しいクラス
Fast Exact Euclidean Distance (FEED): A New Class of Adaptable Distance Transforms

Schouten, T.E. , Institute for Computing and Information Science (ICIS), Radboud University, PO Box 9010, 6500 GL, Nijmegen, The Netherlands Broek, E.L.v.d.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 11, pp. 2159-2172 , November 2014

Keywords: Algorithm design and analysis, Approximation algorithms, Computational Geometry and Object Modeling, Computer Graphics, Computing Methodologies, Euclidean distance, Fast exact euclidean distance (FEED), Feeds, Geometric algorithms, Image Processing and Computer Vision, Image Representation, Morphological, Region growing, Search problems, Segmentation, Transforms, Voronoi, adaptive, and systems, benchmark, computational complexity, distance transform, distance transformation, languages, partitioning, Algorithm design and analysis, Approximation algorithms, Euclidean distance, Feeds, Search problems, Transforms

高速高精度ユークリッド距離(Fast Exact Euclidean Distance, FEED)変換と呼ぶ、デジタル画像の畳み込み可能な(foldable)距離変換(Distance Transform, DT)の新しくユニークなクラスを紹介する。FEEDクラス・アルゴリズムはDTをその定義、より正確にはその逆、から直接的に計算する。FEEDクラス・アルゴリズムの原理と、その効率的な実装のための戦略を紹介する。FEEDクラス・アルゴリズムは順序伝播(ordered propagation)、ラスタースキャン、そして独立スキャンDTの特性を統合する。更に、FEEDクラス・アルゴリズムは、処理対象の画像に適合させることができるという独特な特性を持つ。ファッブリらのデータセットと新しく構築したデータセットとを用いて性能測定を行う。性能測定には3つの基本DTアルゴリズム、3つの近似DTアルゴリズム、そして3つの最先端DTアルゴリズムに加え、FEEDクラス・アルゴリズムの2つの実装形態を用いる。この結果からFEEDクラス・アルゴリズムは、i) 厳密に正しいユークリッドDTを与え、ii) 非並列の高速DTでは特徴的である、不連結のヴォロノイ・タイルによる影響を受ないという特性を持ち、iii) 時間複雑度がO(N)であることにより、全ての近似ユークリッドDTや厳密ユークリッドDTをその最適化後であっても凌駕し、iv) 手軽に画像クラスの特徴に適合できるという他にない特性を持つ。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像分類のための情報理論的辞書学習
Information-Theoretic Dictionary Learning for Image Classification

Qiu, Q. , Department of Electrical and Computer Engineering, Duke University, Durham, NC Patel, V.M. Chellappa, R.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 11, pp. 2173-2184 , November 2014

Keywords: Dictionary learning, entropy, image classification, information theory, mutual information, Atomic measurements, Dictionaries, Entropy, Government, Image reconstruction, Kernel, Mutual information

物体分類を対象とする、情報最大化原理に基づく二段階の辞書学習手法を提示する。提案手法は小規模で、判別的で、尚且つ生成的な辞書を追及する。第一段階では、辞書のコンパクトさ、判別性、そして再構成に対する相互情報尺度(mutual information measure)を最大化することで、辞書要素(dictionary atom)を初期辞書から選択する。第二段階では、再構築性や判別性を向上させるために、相互情報に対する単純な勾配降下法を用いて、選択された辞書要素を更新する。実データセットを用いた実験の結果から、画像分類の課題に対する提案手法の効果が実証される。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


トーンマッピングされたカラー画像を用いたビジョンシステムを対象とする放射輝度の不確実性のモデル化
Modeling Radiometric Uncertainty for Vision with Tone-Mapped Color Images

Chakrabarti, A. , , Harvard School of Engineering and Applied Sciences, Cambridge, MA Xiong, Y. Sun, B. Darrell, T. Scharstein, D. Zickler, T. Saenko, K.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 11, pp. 2185-2198 , November 2014

Keywords: HDR imaging, Radiometric calibration, camera response functions, deblurring, depth estimation, image fusion, image restoration, photometric stereo, signal-dependent noise, statistical models, tone-mapping, Calibration, Cameras, Image color analysis, Polynomials, Radiometry, Transform coding, Uncertainty

デジタルカメラでは、表示に適した画像を生成する目的でトーンマッピングが広く利用されている。トーンマッピングは線形の測色値を限定されたダイナミックレンジを持つ狭いガマットに変換する。この過程で非線形の歪みが生じることから、コンピュータビジョン・システムが画像を放射輝度に基づいて分析する前に、放射輝度校正(radiometric calibration process)により補正する必要がある。本稿ではトーンマッピングによる影響を補正する上で生じる、固有の不確実性を取り上げる。観察結果からこの不確実性は色空間によって大きく異なり、画素間で信頼性にばらつきが生じる。本研究ではこの不確実性に対するモデルと、このモデルをカメラや画像処理パイプラインに組み込む手法を紹介する。組み込みが完了すると、このモデルはトーンマッピングされたデジタル画像の各画素に対し、その元となったシーン中の線形の測色値に対する確率分布を与える。これらの確率分布を代表的な視覚的課題の推定アルゴリズムに導入することで、提案手法が視覚的推論において如何に有用であるかを実証する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


対ごとの回転不変共起局所二値パターン
Pairwise Rotation Invariant Co-Occurrence Local Binary Pattern

Qi, X. , School of Information and Communication Engineering, Beijing University of Posts and Telecommunications, Beijing, P.R., China Xiao, R. Li, C. Qiao, Y. Guo, J. Tang, X.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 11, pp. 2199-2213 , November 2014

Keywords: Co-occurrence LBPs, flower recognition, food recognition, leaf recognition, material recognition, rotation invariance, scene recognition, texture classification, Encoding, Feature extraction, Histograms, Image color analysis, Lighting, Robustness, Transforms

コンピュータビジョンの分野において、効果的な特徴を設計することは基礎的な課題である。しかし、判別性能と頑健性との大いなるトレードオフを両立することは困難である。従来研究において、空間的共起関係を用いると特徴の判別性能を劇的に向上できることが示されている。しかし、既存の共起特徴(co-occurrence feature)は頑健性を余り考慮していないことから、幾何学的変動や測光的変動に対して敏感である。本研究では、共起特徴の変形不変性(Transform Invariance, TI)を取り上げる。具体的には、対ごとの変形不変性(Pairwise Transform Invariance, PTI)原理を形式的に導入し、新しい対ごとの回転不変共起局所二値パターン(Pairwise Rotation Invariant Co-occurrence Local Binary Pattern, PRICoLBP)特徴を提案する。そして、更にこの特徴にマルチ・スケール、マルチ・オリエンテーション、マルチ・チャンネル情報を組み込んで拡張する。LBPの他の拡張手法とは異なり、PRICoLBPは空間的状況の共起情報を効果的に捉えられるだけでなく、回転不変性も有する。PRICoLBPを5つの観点から集めた9個のベンチマーク・データセットを用いて包括的に評価する。これらの観点は、他のLBPの拡張手法と比較した際の符号化戦略、回転不変性、テンプレート数、速度、判別性能、である。更に関連性を持つ6つの異なる用途に対してPRICoLBPを適用する。これらはテクスチャ、素材、花、葉、食品、そしてシーンの分類である。この結果からPRICoLBPが効率的、効果的で、尚且つ判別性能と頑健性とのトレードオフのバランスを良好に取っていることを示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ガウス過程のための擬似周辺ベイズ推定
Pseudo-Marginal Bayesian Inference for Gaussian Processes

Filippone, M. , School of Computing Science, University of Glasgow, United Kingdom Girolami, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 11, pp. 2214-2226 , November 2014

Keywords: Gaussian processes, Hierarchic Bayesian models, Kernel methods, Markov chain Monte Carlo, approximate Bayesian inference, pseudo-marginal Monte Carlo, Approximation methods, Bayes methods, Data models, Gaussian processes, Monte Carlo methods, Predictive models, Uncertainty

確率的モデル化にガウス過程の事前知識を適応する上で生じる大きな課題は、モデルに基づく推定を行う際に未知のデータに対し、如何にして正確なベイズ推定を行うか、更には如何にしてモデルパラメータの不確実性を説明するか、にある。プロビット回帰(probit regression)を実例として、本稿ではマルコフ連鎖モンテカルロに対する擬似周辺化(pseudo-marginal approach)に基づく汎用的で効果的な方法論を紹介し、先述の二つの課題に効果的に対処する。本稿で紹介する実験結果から、既存のサンプリング手法に対する性能向上が示される。既存手法では、ガウス過程事前分布の共分散関数を定義するパラメータに対する事後分布からシミュレートされる。このことは、一般的な階層化統計モデルに基づくガウス過程の完全なベイズ推定を行う上での強力な武器として利用可能となることから、極めて重要である。実験結果はまた、全てのモデルパラメータの積分に基づくモンテカルロ法はこの種のモデルに適しており、推定における不確実性の優れた量子化を実現することを実証する。最先端の確率的分類器との詳細な比較から、この主張が裏付けられる。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高次元データのためのスケーラブルな最近傍アルゴリズム
Scalable Nearest Neighbor Algorithms for High Dimensional Data

Muja, M. , , BitLit Media Inc, Vancouver, BC, Canada Lowe, D.G.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 11, pp. 2227-2240 , November 2014

Keywords: Nearest neighbor search, algorithm configuration, approximate search, big data, Approximation algorithms, Approximation methods, Clustering algorithms, Computer vision, Machine learning algorithms, Partitioning algorithms, Vegetation

コンピュータビジョンや機械学習の多くの課題において、高い性能を達成するためには訓練データセットの規模の大きさが鍵となる。しかし、コンピュータビジョンや機械学習の多くのアルゴリズムにおいて最も計算コストの高い部分は、訓練データを代表する高次元ベクトルに対する最近傍探索を行う部分である。本稿では最近傍照合を近似する新しいアルゴリズムを提案し、従来のアルゴリズムと比較評価する。高次元特徴を照合する上で最も効率の良いアルゴリズムは、ランダムk-d森と、本稿で提案する新しいアルゴリズムである優先探索k平均木(priority search k-means tree)である。また、複数の階層分類木を探索することで二値特徴を照合する新しいアルゴリズムを提案し、先行文献において一般に利用される手法の性能を上回ることを示す。最適な最近傍探索アルゴリズムとそのパラメータはデータセットの特徴に依存することを示し、特定のデータセットを探索する上で最適なアルゴリズムを自動的に決定する構成手順を説明する。一台のコンピュータのメモリ上に載りきらない極めて大規模なデータセットを扱えるようにするため、本稿で紹介した全てのアルゴリズムで利用できる分散最近傍照合フレームワークを提案する。本研究の全ての成果は、近似最近傍探索用高速ライブラリ(Fast Library for Approximate Nearest Neighbors, FLANN)としてオープンソース・ライブラリ化されている。このライブラリは最近傍照合において最も利用されているものの一つであり、OpenCVに組み込まれている。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


二眼時空間配向分析を用いた時空間ステレオと三次元フロー
Spacetime Stereo and 3D Flow via Binocular Spatiotemporal Orientation Analysis

Sizintsev, M. , , SRI International Sarnoff, Princeton, NJ Wildes, R.P.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 11, pp. 2241-2254 , November 2014

Keywords: Stereo, motion, multilayer reconstruction, scene flow, spacetime, spatiotemporal oriented energy, specular, transparency, Energy measurement, Estimation, Nonhomogeneous media, Position measurement, Spatiotemporal phenomena, Three-dimensional displays, Vectors

本稿では、二眼ステレオ画像系列から動的シーンの三次元構造と動きを推定する新しい手法を提示する。提案手法は、左視点と右視点の時間画像系列における各々の時空間配向分布(spatiotemporal orientation distribution)を照合することで、視差推定を行う。この時空間配向分布は局所的な空間構造と時間構造とを要約する。時間構造と空間構造とを統合的に獲得することで、双方の情報源が組み合わさり、自然と時間整合性(temporal coherent)を持つ視差推定値が得られる。また、一方の情報源が単独で扱われた際に曖昧となる照合を解消するのにも役立つ。更に、配向の測定結果の一部が異なる視差推定値をサポートできるようにすることで、時空間ステレオから多層の視差を復元する手法が実現される。同様に、一致した分布は密で頑健な三次元シーンフローの復元を可能とする。提案手法は市販のGPU上で実時間処理が可能となるよう、OpenCLを用いて実装されている。実験による評価結果から、提案手法は様々な代替手法と比較して定性的にも定量的にも良好な推定結果を生成する。提案手法は(半)透明な表面や鏡面が存在する条件においても、正確な多層の推定結果が得られる。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


データの球面埋め込みと双曲面埋め込み
Spherical and Hyperbolic Embeddings of Data

Wilson, R.C. , Department of Computer Science, The University of York, Heslington, York, United Kingdom Hancock, E.R. Pekalska, E. Duin, R.P.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 11, pp. 2255-2269 , November 2014

Keywords: Embedding, hyperbolic, non-euclidean, spherical, Eigenvalues and eigenfunctions, Geometry, Kernel, Manifolds, Measurement, Optimization, Vectors

多くのコンピュータビジョンやパターン認識の課題は、物体間の非類似性の集合に対する分析と見做すことができる。多種のデータにおいてこれらの非類似性はユークリッド的ではなく、従ってユークリッド空間に等角的に埋め込むことができない。(ユークリッド的ではないとはつまり、ユークリッド空間における二点間の距離を現さないということである) 例として、形状非類似性、グラフ距離、そしてメッシュ測地距離が挙げられる。本稿では、このような非ユークリッドデータを一定の曲率を持つ表面に埋め込むことの意義を提示する。ここでは曲率半径が非類似性データにより決定される空間に対して、データを埋め込むことを目的とする。この空間は正の曲率を持つもの(球面)であっても良いし、負の曲率を持つもの(双曲面)であっても良い。対称的な非類似性データを球面や双曲面に埋め込む問題を解く、効率的な手法を提示する。提案手法は曲率半径を求め、最適化過程抜きに物体を超球面多様体(hyperspherical manifold)上の一点として近似する手法を与える。厳密には多様体上に属さない物体に対し、超球面多様体への近似埋め込みを行う最適化手法に基づく手順を考案する。多様体とその局所法線空間との間の指数写像(exponential map)を用い、ユークリッド法線空間において最適化問題を局所的に解く。この課題は効率的であり、数千の物体からなるデータセットを埋め込むことができる。提案手法をワーピング関数、形状類似性、グラフ類似性、そしてジェスチャー類似性のデータを含む、様々なデータに対して適用する。いずれのケースにおいても、提案する埋め込みはデータの局所構造を維持しつつ、計量空間に点を配置することができる。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所表面特徴を用いた複雑なシーンにおける三次元物体認識に関するサーベイ
3D Object Recognition in Cluttered Scenes with Local Surface Features: A Survey

Guo, Y. , College of Electronic Science and Engineering, National University of Defense Technology, Changsha, Hunan, China Bennamoun, M. Sohel, F. Lu, M. Wan, J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 11, pp. 2270-2287 , November 2014

Keywords: 3D object recognition, feature description, keypoint detection, local feature, range image, Databases, Feature extraction, Object recognition, Robustness, Shape, Smoothing methods, Three-dimensional displays

複雑なシーンにおける三次元物体認識は、急速に発展している研究分野である。利用する特徴に基づき、三次元物体認識は大まかに、大域特徴に基づく手法と局所特徴に基づく手法とに分類できる。局所表面特徴に基づく手法は、実世界のシーンにおいて頻繁に遭遇する遮蔽や背景の複雑さに対して頑健であることから、集中的に研究が行われている。本稿では、既存の局所表面特徴に基づく三次元物体認識手法に対する包括的な調査結果を紹介する。これらの手法は一般に、三次元キーポイント検出、局所表面特徴の記述、そして表面照合の3つの過程から構成される。本稿は各過程のそれぞれに対して詳細な文献調査を行う。更に、頻繁に利用されるデータベースや最新のデータベースを一覧化し、併せてそれらの特性についても記載する。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


中間データ生成によるドメイン遷移間の教師なし適応
Unsupervised Adaptation Across Domain Shifts by Generating Intermediate Data Representations

Gopalan, R. , Video and Multimedia Technologies Research Department, AT&T Labs-Research, Middletown, NJ Li, R. Chellappa, R.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 11, pp. 2288-2302 , November 2014

Keywords: Domain adaptation, Grassmann manifold, Object recognition, Unsupervised, object recognition, unsupervised, Adaptation models, Data models, Kernel, Manifolds, Object recognition, Training, Vectors

制約のないデータ収集が広く流行していることから、訓練データセットと実験データセットとの間のデータ分布の変化を扱う能力が必要とされてきている。この問題に対する一つの対策は、ドメイン適応(domain adaptation)を通じたものである。本稿では、主にラベル付きソースドメインの訓練データセットがラベルなしターゲットドメインの実験データセットと組み合わされた、教師なしシナリオに焦点を当てる。ドメイン遷移(domain shift)に関する適切な情報を供与する中間データ表現を生成することで、二段階のデータ駆動の手法を提示する。ソースドメインやターゲットドメインと同じ次元の、生成的部分空間(generative subspace)の形式に則るドメインの線形表現から始め、まずこれらの部分空間の背景にある幾何であるグラスマン多様体(Grassmann manifold)を用い、二つのドメイン間の最短測地経路を取得する。次に、測地経路に沿って点群をサンプルすることで、ドメイン間の中間データ表現を取得する。このデータ表現を用いることで、ターゲットデータのラベル推定を行う識別分類器を訓練する。その後、再生核カーネルヒルベルト空間(Reproducing Kernel Hilbert Space)表現を勘案したドメインの非線形表現と、ラプラス固有マップを用いた低次元多様体表現とを導入する。この他に次のドメイン適応条件を吟味する。これらは、(i) ターゲットドメインが部分的にラベル付けされた半教師付き適応、並びに(ii) ソースデータセットとターゲットデータセットとの少なくとも一方に複数のドメインが存在しうるマルチドメイン適応、である。最後に、提案する適応手法に次の手法を追加する。これらは、(i) 実際のドメイン遷移の証拠を部分的に供与する目的でソースデータセットとターゲットデータセットとから抽出したサンプルを混ぜ合わせた、きめ細かい(fine-grained)参照ドメイン、並びに(ii) アルゴリズムのパラメータ選択に対する頑強性を獲得するための多クラス・ブースティング分析、である。物体認識の課題に対する提案手法の性能を評価し、広く利用されているOffice適応データセットとBing適応データセットに対する従来手法よりも優位な結果を示す。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


分散した多様体のノイズ低減のための非線形動的射影
Nonlinear Dynamic Projection for Noise Reduction of Dispersed Manifolds

Kim, K. , Department of Industrial and Management Engineering, POSTECH, Pohang, Kyungbuk, South Korea Lee, J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 11, pp. 2303-2309 , November 2014

Keywords: Manifold learning, dimension reduction, dispersed manifold, dynamical system, Algorithm design and analysis, Dispersion, Kernel, Learning systems, Manifolds, Noise, Noise measurement

高次元のデータから低次元の構造を探索する試みは、機械学習やパターン認識において基礎的な課題である。近年、伝統的な線形次元削減手法の代替として、多様体学習アルゴリズムが浮上している。本稿では、任意の多様体学習手法と組み合わせることで、多くのノイズを含む高次元のデータに対する次元削減効果を高めることのできる、新たな射影手法を提案する。提案手法ではまず、データが属する分散した多様体(dispersed manifold)の分布を表現する分散関数(dispersion function)を構築する。次に、構築した分散関数に付随する動的射影システム(dynamical projection system)を適用することで、ノイズデータを十分に近似する真の多様体(true manifold)を包含する領域へと射影する。実世界のデータセットを用いて提案する射影手法の有効性を検証し、有望な結果が得られる。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


位相性三重マルコフ連鎖
Phasic Triplet Markov Chains

El Yazid Boudaren, M. , Ecole Militaire Polytechnique, BP 17, Bordj El Bahri, Algiers, Algeria Monfrini, E. Pieczynski, W. Aissani, A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 11, pp. 2310-2316 , November 2014

Keywords: Bayesian restoration, Markov processes, Viterbi algorithm, biology and genetics, hidden Markov chains, maximal posterior mode, maximum a posteriori, triplet Markov chains, Bayes methods, Biological system modeling, Computational modeling, DNA, Data models, Hidden Markov models, Markov processes

隠れマルコフ連鎖は、幾つかの複雑な条件においてデータのモデル化に適さないことが示されている。本研究では、二つの異なるシステム状態から成る事象の統計的モデル化の課題に取り組む。このような事象は生物学や通信など他の分野においても生じる。例えば、任意の文字が単独でも存在する全ての観測データから、意味のある言葉の系列を検索するケースが挙げられる。更に、ある単語の検索が、後日継続するために途中で中断される場合がある。このようなデータに対して単純な隠れマルコフ連鎖をその特性を無視して適用すると、満足のいく結果が得られない。本稿で提案する位相性三重マルコフ連鎖(Phasic triplet Markov chain)は、三重マルコフ連鎖理論に準拠する補助の潜在過程(auxiliary underlying process)を用いることにより、この課題を克服する。次に、関連するベイズ復元技術や新しいモデルを用いたパラメータ推定手順を紹介する。最後に、提案モデルの性能を従来の隠れマルコフ連鎖モデルと比較するために、合成データと実データとを用いた実験を行う。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


開集合認識のための確率モデル
Probability Models for Open Set Recognition

Scheirer, W.J. , School of Engineering and Applied Sciences, Department of Molecular and Cellular Biology, and Center for Brain Science, Harvard University, Cambridge, MA Jain, L.P. Boult, T.E.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 11, pp. 2317-2324 , November 2014

Keywords: Machine learning, open set recognition, statistical extreme value theory, support vector machines, Computational modeling, Data models, Kernel, Probabilistic logic, Probability, Support vector machines, Training

コンピュータビジョン分野における実世界の課題は、その多くが何らかの形で開集合認識(open set recognition)と関連する。開集合認識とは、世界に対する知識が不完全で、尚且つ未知の入力が多数存在する多クラス認識のことである。この課題に対する近年の研究では、既知のクラスの守備範囲を超えた空間を説明するための、開空間リスク項(open space risk term)を導入したモデルを提案している。本稿では開空間リスク限定分類(open space risk limiting classification)の基本概念を拡張し、非線形分類器を多クラス条件に対して適応させる。本稿では、密削減確率(Compact Abating Probability, CAP)と呼ぶ新しい開集合認識モデルを紹介する。CAPでは点群が既知のデータから開空間へと移動するに従い、クラス所属確率の値(abates)が低下する。CAPモデルが開集合認識の複数のアルゴリズムにおいて性能向上に寄与することを示す。CAP形式を活用し、最新のワイブル・キャリブレーションSVM(Weibull-calibrated SVM, W-SVM)アルゴリズムを説明する。W-SVMではスコア・キャリブレーションのための統計的極値理論(statistical extreme value theory)の有用な特性と1クラスSVMや二値SVMとを組み合わせる。実験結果から、W-SVMは物体認識とOCRの課題において、最先端技術よりも著しく高性能であることが示される。

SN

Copyright (c) 2014 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.36, No.12

Fisherの線形判別分析の漸近的汎化境界
Asymptotic Generalization Bound of Fisher’s Linear Discriminant Analysis

Wei Bian , Centre for Quantum Comput. & Intell. Syst., Univ. of Technol. Sydney, Sydney, NSW, Australia Dacheng Tao

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 12, pp. 2325-2337 , December 2014

Keywords: Bayes methods, Gaussian processes, matrix algebra, pattern recognition, FLDA asymptotic generalization analysis, Fisher linear discriminant analysis, asymptotic Bayes optimality, asymptotic generalization bound, binary-classification generalization error, dimension reduction method, generalization discrimination power, homoscedastic Gaussian assumption, population discrimination power, random matrix theory, statistical pattern recognition, Fisher???s linear discriminant analysis, asymptotic generalization analysis, random matrix theory, Asymptotic stability, Covariance matrices, Eigenvalues and eigenfunctions, Gaussian distribution, Linear discriminant analysis, Statistical analysis, Upper bound

Fisherの線形判別分析(Fisher's Linear Discriminant Analysis: FLDA)は、統計的パターン認識において重要な次元削減法である。FLDAは、等分散正規分布という仮定のもとで、漸近的にBayes最適であることが示されてきた。しかしこの結果を得るには2つの制限がある:1)固定された次元数Dに対してのみ成り立つため、Dと訓練サンプルサイズNが比例して大きい場合には適用できない。2)FLDAの汎化能力がどれだけDとNに影響されるかの定量分析が得られない。本論文では、DとNの両方が増加し、かつD/N -> γ ε [0,1)であるという設定のもとでの、ランダム行列理論に基づくFLDAの漸近的な定量分析について説明する。得られた汎化弁別能力の下界は、既存研究の2つの制限を克服する。つまり、これはDとNが比例して大きい場合にも適用することができ、比率γ=D/Nを用いてFLDAの汎化能力の量的記述を与え、かつFLDAの母集団識別能力の量的記述を与える。さらに、識別能力の範囲から、FLDAを用いた二項分類の汎化誤差の上界も得ることができる。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビン比ヒストグラム距離とその画像分類への応用
Bin Ratio-Based Histogram Distances and Their Application to Image Classification

Weiming Hu , Nat. Lab. of Pattern Recognition, Inst. of Autom., Beijing, China Nianhua Xie Ruiguang Hu Haibin Ling Qiang Chen Shuicheng Yan Maybank, S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 12, pp. 2338-2352 , December 2014

Keywords: image classification, image matching, statistical analysis, BRD, bin ratio-based histogram distance, bin-to-bin distance, cross-bin distance, histogram bin value, histogram normalization, histogram-based representation, image background, image classification, intra-cross-bin distance, linear computational complexity, normalization problem, partial matching, Histogram bin ratio, histogram distance, image classification, Computational complexity, Distance measurement, Histograms, Image classification, Logistics, Pattern recognition

画像の背景は非常に多様であり、ヒストグラム表現では部分マッチングと正規化問題の原因となりうる、つまり、同じ分類に属するヒストグラムが大きく異なるビン構成を持つ可能性があり、それぞれのヒストグラムに対応するビンのその差異が正規化によって大きく変化する可能性がある。本稿ではこの問題を、既存のヒストグラム距離で用いられるビンの差でなく、ヒストグラムのビンの比を使うことによって扱う。提案するのは、ビン比ヒストグラム距離(Bin Ratio-Based Histogram Distances : BRD)である。BRDは、既存のbin-to-bin距離やcross-bin距離とは異なる、intra-cross-bin距離である。BRDは部分マッチング、ヒストグラム正規化に対して頑健であり、また、ビン間の相関を捉える計算複雑性も、線形にすぎない。本稿では?1BRDを一般化するために、BRDを?1ヒストグラム距離と組み合わせ、χ2 BRDを一般化するためにBRDをχ2ヒストグラム距離と組み合わせる。これらの組み合わせにより、部分マッチングに対するBRDの頑健性と、小規模のノイズに対する?1およびX2距離の頑健性の両方を利用することができる。本稿では、部分マッチングに対するヒストグラム距離の頑健性を評価する手法を提案する。これらのBRDと、ロジスティック回帰ベースのヒストグラムのフュージョンは、画像分類に応用される。合成データ上での実験結果より、部分マッチングに対するBRDの頑健性が示された。また、7つのベンチマークデータを用いた実験により、BRDが画像分類に有用である可能性が示された。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


映像識別のための離散非線形定常部分空間解析
Discriminative Non-Linear Stationary Subspace Analysis for Video Classification

Baktashmotlagh, M. , Coll. of Inf. Technol. & Electr. Eng., Univ. of Queensland, Brisbane, QLD, Australia Harandi, M. Lovell, B.C. Salzmann, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 12, pp. 2353-2366 , December 2014

Keywords: gesture recognition, image classification, image texture, video signal processing, action recognition, classification problem, classification process, commonly-used dimensionality reduction techniques, discriminative nonlinear stationary subspace analysis, dynamic texture recognition, instance-specific information, low-dimensional representation, nonstationary parts, scene classification, video classification algorithm, video signal, Video classification, kernel methods, stationarity, subspace analysis, Algorithm design and analysis, Eigenvalues and eigenfunctions, Image classification, Image reconstruction, Linear programming, Principal component analysis

低次元表現は、多くの映像分類アルゴリズムで重要である。しかし、一般的に用いられる次元削減法は、ある1つのクラスに属する全ての映像が共通で持っているのは信号の一部分にすぎないという事実を説明できていない。そのため、結果として得られる表現は、分類のプロセスにノイズを引き起こすような、インスタンス固有の情報を含む。本論文では、非線形定常部分空間解析を導入する。これは、映像の信号の静的な部分(つまりあるクラスの全ての映像間で共有されている部分)を、非静的な部分(つまり、個々の映像固有の部分)から厳密に分離することによって上記の問題を克服する手法である。この手法は、新しい表現が離散的であることを推奨しているため、これまでの分類問題に説明を与えることができる。本論文では、テクスチャ認識、シーン分類、動作認識に対するこのアプローチの有用性を示す。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


変形可能なパートベースモデルのドメイン適応
Domain Adaptation of Deformable Part-Based Models

Jiaolong Xu , Comput. Sci. Dept., Univ. Autonoma de Barcelona, Barcelona, Spain Ramos, S. Vazquez, D. Lopez, A.M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 12, pp. 2367-2380 , December 2014

Keywords: Gaussian processes, image classification, learning (artificial intelligence), object detection, pedestrians, regression analysis, support vector machines, DA methods, GPR, Gaussian process regression, PASCAL VOC, SA-SSVM, SPL strategy, adaptation tasks, adaptive structural SVM, application scenario, deformable part-based models, domain adaptation methods, general persons, object classifiers, object detection, on-board camera, pedestrian detection, prelearned classifier, self-adaptive DPM, self-paced learning strategy, source-domain training data, structure-aware A-SSVM, synthetic pedestrians, target-domain training examples, Domain adaptation, deformable part-based model, pedestrian detection, Adaptation models, Data models, Deformable models, Detectors, Object recognition, Support vector machines, Training

オブジェクト識別の精度は、訓練データ(ソースドメイン)と応用シナリオ(ターゲットドメイン)の間に本質的な違いがある場合に大きく低下することがある。よって、識別器を、作用する際のシナリオに適合させることが最も重要である。本論文では、物体検知に対する新しいドメイン適合(Domain Adaptation :DA)法を提案する。この概念の証明として、最新の変形可能なパートベースモデル(deformable part-based model : DPM)を、歩行者検知向けに適合させることに着目する。本論文では、異なるドメイン間で事前学習済み識別器を適合させるような、適応的な構造的SVM(adaptive structural SVM : A-SSVM)を導入する。特徴空間における内在構造(たとえばDPMの一部分)を考慮することによって、構造を考慮したA-SSVM(a structure-aware A-SSVM : SA-SSVM)を提案する。A-SSVMもSA-SSVMも、適合を行うためにソースドメイン訓練データを再考する必要がない。さらに、ターゲットドメインの訓練に使われる例(例えば歩行者)の数も少ない。ターゲットドメイン注釈付きサンプルがないようなシナリオを扱うために、自己調学習(a self-adaptive DPM based on a self-paced learning : SPL)戦略とガウス過程回帰(a Gaussian Process Regression : GPR)に基づいた自己適応的なDPMを提案する。2種類の適合タスクについて評価する:人工的にデータ合成した歩行者と一般人(PASCAL VOC)から、オンボードカメラに映った歩行者への適合である。評価結果として、提案手法によって、適応済み検出器と未適応の検出器を比較したときに15ポイント程度、精度の低下が抑えられた。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


反復構造をもつ都市風景のためのエピポーラ幾何推定
Epipolar Geometry Estimation for Urban Scenes with Repetitive Structures

Kushnir, M. , Dept. of Inf. Syst., Univ. of Haifa, Haifa, Israel Shimshoni, I.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 12, pp. 2381-2395 , December 2014

Keywords: feature extraction, image matching, matrix algebra, ZuBuD database, baseline images, epipolar geometry estimation, fundamental matrix, image matching, planar surface, repetitive structure, urban scene, Fundamental matrix, SIFT, repeated structures, Algorithm design and analysis, Approximation algorithms, Benchmark testing, Clustering algorithms, Feature extraction, Geometry, Image processing

画像のペアからのエピポーラ幾何推定のためのアルゴリズムは、幅広く難度の高いベースライン画像を扱うことに長けている。本論文では、反復構造をもつ風景画像の問題を考える。画像の重複が主にビルの外見によって起こるという、頻繁に起こりうる問題の扱いについても考える。ビルの外見は、局所的なマッチのできない反復構造を持ち、最新のアルゴリズムでも失敗する原因となっている。反復構造が整った平面表面上にあると仮定すると、目標はそれらにマッチすることとなる。提案アルゴリズムはまず、反復構造を含む画像を、外見が前額平行になるように調整する。その後、画像の各ペアでの相似している特徴をまとめ、クラスタのマッチングを行う。そのクラスタから、特徴の局所的なグループを用いて、仮想ホモグラフィが生成される。各々のホモグラフィに対して、基本行列を与えるためのエピポールが復元される。エピポールは、基本行列が信頼性高く復元されているかどうかを決定し、もしそうでなければ、単にホモグラフィそのものを返す。このアルゴリズムを、ベンチマークZuBuDデータベースにある、難しいビルの画像のペアでテストした結果、いくつかの最新のアルゴリズムを上回る結果を得た。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


集合圧縮木を用いた極低ビットレートの最近傍探索
Extremely Low Bit-Rate Nearest Neighbor Search Using a Set Compression Tree

Arandjelovic, R. , Dept. of Eng. Sci., Univ. of Oxford, Oxford, UK Zisserman, A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 12, pp. 2396-2406 , December 2014

Keywords: pattern classification, search problems, set theory, approximate nearest neighbor search, data structure, encoding method, iterative quantization, locality sensitive hashing, low bit-rate nearest neighbor search, product quantization, set compression tree, spectral hashing, standard benchmarks, vector descriptors, very large scale sets, Approximate search, image indexing, large-scale image search, quantization, very large databases, Approximation methods, Benchmark testing, Encoding, Image coding, Iterative decoding, Nearest neighbor searches, Quantization (signal)

本研究の目的は、ベクトル記述子の非常に大きなスケールの集合上の近似的な最近傍探索を助けるためのデータ構造である。効率的に活用したいのは、以下の判断基準である: (i) その表現のメモリフットプリントが(メインメモリにぴったり収まる程度に)非常に小さいものである必要があることと、(ii) 元のベクトルの近似が正確である必要があるということである。本論文では集合圧縮木(a Set Compression Tree : SCT)という、上の基準を満たす新しい符号化法を導入する。SCTを用いると、記述子1個あたりに非常に少ないビット数で100万個の記述子を圧縮することが可能である。記述子ごとの基底上で圧縮するのではなく、記述子の集合を併せて圧縮することによって、非常に高い圧縮率を達成している。本論文では符号化、復元、最近傍探索のための使い方について説明する。これらは全て、容易に実行できる。この手法は、標準的なベンチマーク(SIFTIM及び8000万個の小さな画像)上でテストが行われたが、直積量子化、局所鋭敏型ハッシュ、スペクトラルハッシュ、反復量子化などの、画像に対するいくつかの最新のアプローチに比べて優れた能力を示している。例えばSCTは、記述子あたりのビット数が5のときが、16ビットやそれ以上のビット数を用いるよりも誤差が少ない。本論文では、標準的なベンチマークにおける、上記のすべての手法の比較も行う。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


アフィン関数変換モデルを用いた特徴マッチング
Feature Matching with Affine-Function Transformation Models

Hongsheng Li , Dept. of Inf. Eng., Univ. of Electron. Sci. & Technol. of China, Chengdu, China Xiaolei Huang Junzhou Huang Shaoting Zhang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 12, pp. 2407-2422 , December 2014

Keywords: affine transforms, convex programming, feature extraction, image matching, affine-function transformation models, computer vision, convex dissimilarity function, convex optimization, feature matching, optimal matching positions, pairwise feature dissimilarity values, Feature matching, convex composition, convex optimization, object matching, Computational modeling, Computer vision, Convex functions, Dynamic programming, Feature extraction, Pattern matching

特徴マッチングはコンピュータビジョンにおいて重要な問題であり、幅広い利用法がある。しかし、既存の特徴マッチングは変換モデルの特定の、もしくは小さな集合にしか対応していない。本論文では、大きな変換モデル族に対応可能な統合的な特徴マッチングのフレームワークを提案する。この変換モデルをアフィン関数族と呼び、この中では全ての変換が、凸制約のあるアフィン関数で表現される。このフレームワークでは、入力イメージにおける最適マッチ位置を計算するために、テンプレート点集合の各々の特徴点に対する変換パラメータを復元することが目的である。テンプレート集合・入力イメージの全ての点の間の、点ごとの特徴非類似値に対し、本論文では各々のテンプレート点に対して凸非類似関数を作成する。このような凸関数と、アフィン関数族の任意の変換モデルとの合成は、効率的に最適化された同等な凸最適形を持つことが示される。提案フレームワークの柔軟性を示すために、アフィン関数族の変換モデルを4例紹介する。提案フレームワークは、CMU Hotel と、[6]の実験的セットアップに従ったHouse sequencesのいずれにおいても、 0.0%のマッチング誤差を達成している。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


類似パッチの統計量を用いた画像補完へのアプローチ
Image Completion Approaches Using the Statistics of Similar Patches

Kaiming He , Visual Comput. Group, Microsoft Res. Asia, Beijing, China Jian Sun

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 12, pp. 2423-2435 , December 2014

Keywords: graph theory, image matching, image segmentation, statistical analysis, graph-based method, image completion approach, matching-based method, similar patches, statistics, Image completion, image inpainting, natural image statistics, Cost function, Histograms, Image color analysis, Semantics, Statistical analysis

画像補完は、画像中の欠けた部分を埋めることが必要である。本論文では、類似パッチという新しい統計量を用いてこの問題を処理する。類似パッチを画像にマッチングさせてこれらのオフセット(相対位置)を得るとき、これらのオフセットのその統計量がまばらに分布することが分かった。さらに、少数の支配的なオフセットが、画像を補間するのに信頼性の高い情報を与えることも分かった。このような統計量は、画像補間の、マッチングベースの手法にも、グラフベースの手法にも組み入れることが可能である。難易度の高い様々な例を用いた実験では、提案手法は既存の手法に対しより良い結果となり、より高速であることが示された。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


情報理論的形状マッチング
Information Theoretic Shape Matching

Hasanbelliu, E. , Dept. of Electr. & Comput. Eng., Univ. of Florida, Gainesville, FL, USA Sanchez Giraldo, L. Principe, J.C.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 12, pp. 2436-2451 , December 2014

Keywords: computational complexity, decision making, entropy, image matching, image registration, impulse noise, probability, shape recognition, Cauchy-Schwarz divergence, PDF, computational complexity, correntropy, decision statistics, distribution alignment, impulsive noise, information theoretic descriptors, information theoretic shape matching, nonlinear similarity measure, nonrigid point set registration, probability density functions, registration problem, spatial transformation function, surprise metric, Cauchy-Schwarz divergence, Information theoretic learning, annealing, correntropy, non-rigid registration, shape matching, surprise, Accuracy, Algorithm design and analysis, Computational complexity, Cost function, Noise measurement, Probability density function, Set registration

本稿では、2つの関連するアルゴリズムについて述べる。これらは、さまざまな計算上の複雑さや精度要求を伴う剛体/非剛体、双方の点集合の位置決めを提供する。第1のアルゴリズムは、相関エントロピー(correntropy)として知られる非線形の類似尺度を利用する。この決定統計における2次および高次モーメントを結びつけた計量により、特にインパルスノイズがある場合の特性が改善される。このアルゴリズムでは、予期しない計量(surprise metric)により決定される点集合間の関連性を既知とする。第2のアルゴリズムは、確率密度関数(probability density function : PDF)として点集合を表現することにより、関連性構築の必要性を緩和するアルゴリズムである。これにより、位置決め問題は分布配置の問題として扱われる。この方法では、コーシーシュワルツ発散(Cauchy-Schwarz divergence)を用いて点集合間の類似性/距離を計測し、それらの位置決めに必要とされる空間変換関数を復元する。両アルゴリズムは、ともに情報理論的な記述子を使用する。しかしながら、相関エントロピーは具現化レベルで動作するのに対して、コーシーシュワルツ発散はPDFレベルで動作する。このことから、相関エントロピーの計算コストはより小さく、通信訂正に対してより正確になる。これら2つのアルゴリズムは、ノイズや外れ値に対して頑健であり、さまざまなレベルの歪みの下で上手く動作する。また、これらの性能は点集合位置決めのための、幾つかの良く知られた最新手法よりも優れている。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


潜在指紋認証: 標本指紋からのフィードバックによる性能改善
Latent Fingerprint Matching: Performance Gain via Feedback from Exemplar Prints

Arora, S.S. , Dept. of Comput. Sci. & Eng., Michigan State Univ., East Lansing, MI, USA Eryun Liu Kai Cao Jain, A.K.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 12, pp. 2452-2465 , December 2014

Keywords: digital forensics, feature extraction, fingerprint identification, image matching, automatic matching, baseline matcher, court of law, exemplar prints, features extraction, feedback paradigm, forensic evidence, latent feature refinement, latent fingerprint matching, latent impressions, latent matching accuracy, matching performance, performance gain, plain fingerprints, rolled fingerprints, Fingerprint, candidate list, exemplar feedback, feature refinement, latent fingerprint matching, Data mining, Databases, Feature extraction, Fingerprint recognition, Legal aspects, NIST, Pattern matching

潜在指紋は、法廷における法医学的証明の重要な情報源を提供する。潜在指紋とロールまたはプレーン(rolled/plain)の(標本)指紋との高精度な自動照合は、それらの応用にとって非常に本質的である。しかし潜在指紋の痕跡は、典型的には複雑な背景ノイズを伴う低品質なものであるため、潜在指紋の特徴抽出と照合は非常に困難な課題になっている。本稿では、照合精度を向上するために、トップダウン情報や標本からのフィードバックを、潜在指紋から抽出された特徴の洗練に組み入れることを提案する。フィードバック後に洗練された潜在特徴(例えば、稜線方向と周波数)は、ベースライン照合器と再整列された候補リストから返される上位K個の標本候補と、潜在指紋の再照合に用いられる。本稿では以下を扱う。(i)潜在特徴を洗練するための、標本内情報を体系的に利用する方法の考案、(ii)照合性能向上のための、全ての潜在指紋照合器を包含することのできるフィードバックパラダイムの開発、および、(iii)潜在指紋照合の精度向上が実際に必要となるタイミングを決定すること。実験結果を用いて、提案したフィードバックパラダイムと最新の潜在指紋照合器の統合により、10万個の標本からなる背景データベースに対する NOIST SD27 と、WVU 潜在指紋データセットに対して、0.5から3.5% 精度が向上することを示す。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大域力学と局所外見の協調による人間行動の学習
Learning Human Actions by Combining Global Dynamics and Local Appearance

Guan Luo , Nat. Lab. of Pattern Recognition, Inst. of Autom., Beijing, China Shuang Yang Guodong Tian Chunfeng Yuan Weiming Hu Maybank, S.J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 12, pp. 2466-2482 , December 2014

Keywords: image classification, image sequences, learning (artificial intelligence), motion estimation, spatiotemporal phenomena, ADL data set, CRIM13 data set, Chi-Squared histogram distance, HOG, Hollywood2 data set, KTH data set, LDS, UCF sports data set, UCF50 data set, VIRAT data set, Weizmann data set, bag-of-words framework, classification, curved spatio-temporal cuboids, densely-sampled feature point trajectories, global dynamic distances, global temporal dimension, global temporal dynamics, histogram-of-oriented gradients, human action learning, human action recognition, local visual dimension, local visual distances, local visual spatio-temporal appearance features, long-continuous data sets, maximum margin distance learning method, model parameters, motion descriptors, motion dynamics, motion sequences, nonEuclidean space, nonvector descriptors, robust linear dynamical systems, shift invariant subspace angle-based distance, short-clip data sets, similarity measurement, Action recognition, distance learning, linear dynamical system, local spatio-temporal feature, non-vector descriptor, Behavioral science, Computer aided instruction, Feature extraction, Hidden Markov models, Histograms, Human factors

本稿では、大域的で時系列的な力学と、局所的で時空間的な外見特徴の結合による人間行動認識の課題を扱う。この目的のために、大域的な時間軸において頑健な線形力学系(linear dynamical systems : LDS)を用いて運動力学をモデル化し、動き記述子としてモデルパラメータを用いることを提案する。LDS は、非ユークリッド空間上にあり、記述子は非ベクトル形式であるため、ここでは、LDS間の類似性を計るための距離に基づくシフト不変な部分空間の角度を提案する。局所的な視覚空間軸では、密に収集された特徴点の軌跡に沿った"曲がった"時空立方体を構築し、HOG(histograms of oriented gradients)によりそれらを記述する。動き系列の間の距離は、bug-of-words フレームワークにおけるχ二乗ヒストグラム距離により算出する。最後に大域的な動的距離と、局所的な視覚距離の結合によるマージン最大化学習法により、クラス分類を実行する。行動認識に対する本アプローチを、5本のショートクリップ・データセット ( Weizmann、KTH、UCFスポーツ、ハリウッド2、UCF50 ) と、3本の長尺の連続データセット ( VIRAT、ADL、CRIM13 ) 上で評価した。これらの結果が、現状最新の手法と比して優位であることを示す。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔からの人種学習: 調査報告
Learning Race from Face: A Survey

Siyao Fu , Dept. of Electr., Comput., & Biomed. Eng., Univ. of Rhode Island, Kingston, RI, USA Haibo He Zeng-Guang Hou

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 12, pp. 2483-2509 , December 2014

Keywords: computer vision, face recognition, learning (artificial intelligence), prejudicial factors, HCI, biometric-based identification, computational intelligence, computer graphics, computer science, computer vision, cross-cutting theme, face-race perception, feature representational model, human computer interface, learning scenario, machine learning, multidisciplinary research, neuroscience, psychology, race categorization, race classification, race detection, racial category, racial databases, racial face analysis, racial face processing, security and defense, social signals, surveillance, systematic discussion, Race classification, computer vision, data clustering, face database, face recognition, image categorization, machine learning, Computational modeling, Computer vision, Cultural differences, Face recognition, Feature extraction, Image classification, Image color analysis, Psychology

顔は、人種、表情、認識、年齢、性別を含めた社会的シグナルを伝える。これらの全ては、多くの研究分野からの関心を呼び起こしてきた。その幾つかの例としては、心理学、神経科学、コンピュータサイエンスが上げられる。コンピュータビジョン、コンピュータグラフィクス、機械学習、における最近の研究の発展から拾い集めると、人種顔分析に基づく計算知能は、広範な実応用において、その目覚ましい潜在能力と幅広い影響により特に目覚ましく普及してきている。これらの研究から「どのようにすれば、潜在的で非宣言的な人種カテゴリを概念的にモデル化し、顔から定量的に推定することが可能となるのか?」という一つの重要な疑問を生じる。ただし人種分類は、そのコンテキストと基準に依存する曖昧さと複雑さの困難がある。この課題を扱うために、近年、人種検出と群衆内での分類に向けた多くの取り組みが報告されている。本調査報告では、顔による人種の認識、その原理、アルゴリズム、応用に関する最新の進展について包括的で批判的な論評を行う。最初に、人種的顔処理の概念的な可能性に焦点をあてつつ、人種認識問題の定式化と動機について論ずる。次いで、特徴表現モデル、アルゴリズム、性能、および、人種データベース分類について、統合された学習シナリオの中で体系的な議論を展開する。最後に、この分野の将来を予測するために、主要な選択肢と課題、および、重要な可能性のある横断テーマと、顔からの人種学習課題の研究方向にも焦点をあてる。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


教師あり多クラス特異点検出
Multi-Class Supervised Novelty Detection

Jumutc, V. , Dept. of Electr. Eng., Katholieke Univ. Leuven, Leuven, Belgium Suykens, J.A.K.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 12, pp. 2510-2523 , December 2014

Keywords: pattern classification, statistical distributions, support vector machines, Pegasos-based formulation, SVM, decision boundary, dual QP formulation, high-dimensional distributions, kernel-based technique, labeling information, least-squares formulation, linear system, multiclass classification, multiclass supervised novelty detection, one-class support vector machine, optimization objective, Novelty detection, classification, labeling information, one-class SVM, pattern recognition, Algorithm design and analysis, Classification algorithms, Computational efficiency, Labeling, Linear systems, Optimization, Supervisory control, Support vector machines

本稿では、教師付未知データ検出(Supervised Novelty Detection: SND)と呼ばれる、ラベリング情報がある場合の、未知の高次元分布に対するサポートを見つける問題を扱う。1-クラスのサポートベクタマシン(SVM)は、この問題を扱うカーネルに基づく方法として広く用いられている。しかし、SVMによるアプローチの場合、どのサポートが選択されたかということから混合分布をモデル化することが困難である。ここでは、この問題をSVMに似た新しい一連のアルゴリズムを提示することにより解決する。これらのアルゴリズムは新たな視点から、多クラス分類アプローチと未知データ検出を支援する。また、クラス間に新しい2項関係(a new coupling term between classes)を導入する。これは、L2ノルムペナルティによるサポートのコンパクト性を保存しつつ良好な決定境界を見つける問題に利用される。本稿では、最初に基礎となる最適化問題を提示し、その双対QP定式化を導出する。次いで、計算コストを劇的に低減する線形システムが得られる最小二乗定式化を提案する。そして、 Pegasos に基づく定式化を導出する。これは、多くの既存のQPソルバで扱えないような効果的に大規模データセットを処理することができる。最後に、クラス分類と未知データ検出の双方に関する提案手法の有用性と実用上の重要性を検証する実験により本稿を括る。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高次テンソルデータ分類のための多重線判別別分析
Multilinear Discriminant Analysis for Higher-Order Tensor Data Classification

Qun Li , PARC, Xerox Corp., Webster, MA, USA Schonfeld, D.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 12, pp. 2524-2537 , December 2014

Keywords: approximation theory, iterative methods, pattern classification, tensors, CMDA, DATER, DGTDA, classification performance, constrained multilinear discriminant analysis, direct GTDA, discriminant analysis with tensor representation, general tensor discriminant analysis, higher-order tensor data classification, iterative approximation, optimal tensor subspace, parameter tuning, scatter difference criterion, scatter ratio criterion, tensor mode dependency, Linear discriminant analysis (LDA), constrained multilinear discriminant analysis (CMDA), direct general tensor discriminant analysis (DGTDA), higher-order tensor, multilinear discriminant analysis (MDA), pattern classification, Approximation methods, Classification, Closed-form solutions, Higher order statistics, Iterative methods, Linear discriminant analysis, Linear programming, Tensile stress

去10年間、一般に多重線形判別分析(multilinear discriminant analysis : MDA)として参照される高次データ分類のための線形判別分析の拡張に、多大な努力が支払われてきた。既存の例は、一般テンソル判別分析(general tensor discriminant analysis : GTDA)と、テンソル表現による判別分析(discriminant analysis with tensor representation: DATER)を含んでいるが、これらの手法は共に反復近似により、テンソルモード依存性の問題を解こうとするものである。GTDAは、反復により収束する最初のMDA手法として知られているが、その性能は散布状態の違いの基準に関するパラメータの最適化に強く依存する。通常、DATERでは、より良好な分類性能が得られるものの、収束することがなく、反復実行回数が直接的にDATERの性能に影響する。本稿では、GTDAにおける分布の違いの評価値に対する閉形式解、即ち、ダイレクトGTDA (DGTDA)を提案する。これは、パラメータ最適化も不要とする。効率と精度双方の意味で、DGTDAがGTDAを凌駕することを示す。加えて、散布率基準を反復的に最大化することにより、最適部分テンソル空間を学習する制約付き多重線形判別分析(constrained MDA : CMDA)を提案する。CMDAアプローチにおける散布率基準の値が、拘束エラーに伴う極値※が存在する場合に、DATERとの比較において、より優位で安定な性能を示すことを、理論と実験により証明した。 ※訳注) おそらく散布率基準を満たさない外れ値の意味での極値

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所特徴のオーバーサンプリングによるオブジェクトトラッキング
Object Tracking by Oversampling Local Features

Pernici, F. , Media Integration & Commun. Center (MICC), Univ. of Florence, Florence, Italy del Bimbo, A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 12, pp. 2538-2551 , December 2014

Keywords: image classification, image matching, image sequences, object tracking, video signal processing, 3D shape deviations, ALIEN tracking method, local invariant representations, nonparametric learning algorithm, object template, object tracking, occlusions, robust object/context discriminative classifier, scale invariant local features, sensor quantization, transitive matching, video sequences, Computer vision, Feature representation, Invariants, Motion, Tracking, Visual real-time tracking, learning from video, local feature invariance, long-term tracking, template update, Context modeling, Detectors, Feature extraction, Object recognition, Search problems, Target tracking, Tracking

本稿では、頑健なオブジェクト/コンテキスト分類識別器を構築するための、局所不変表現のオーバーサンプリングを用いたトラッキング手法ALIENを提示する。この目的のために、ここでは、オブジェクトテンプレートに沿って、ゆるやかに並べられた複数のスケール不変な局所特徴のインスタンスを使用する。このことは、3D形状の平面からの偏差と、不変性のある表現が定義不能な、影、遮蔽、センサ量子化との相互作用を考慮に入れることを可能にする。過渡的な属性に基づく非パラメトリックな学習アルゴリズムは、コンテキストからオブジェクトを識別し、遮蔽されている間の不適切なオブジェクトテンプレートの更新を防止する。本研究では、本学習ルールが、穏やかな条件の下で漸近安定することを明らかにし、長期トラッキングにおいてドリフトのない手法であることを確認した。この ALIEN トラッカーのリアルタイム処理実装においては、広範な公開動画シーケンスセット上で、最新のトラッキングシステムとの比較評価を行ってきた。これは、実トラッキング環境で生じるクリティカルな条件のほとんどを代表する。このほとんどの場合で、(最新システムと)同等かそれを超える性能が得られることと、非常に長い動画シーケンス上で、トラッキングにドリフトが生じない検証結果について報告する。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


埋め込み属性を用いたワードスポッティングと認識
Word Spotting and Recognition with Embedded Attributes

Almazan, J. , Comput. Vision Center, Univ. Autonoma de Barcelona, Barcelona, Spain Gordo, A. Fornes, A. Valveny, E.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 12, pp. 2552-2566 , December 2014

Keywords: document image processing, handwritten character recognition, query processing, text analysis, attributes learning, cast recognition, common subspace regression, dictionary, embedded attributes, handwritten documents, label embedding, lexicon, natural images, nearest neighbor problem, public datasets, query word, retrieval tasks, text strings, vectorial subspace, word image, word recognition, word spotting, Word image representation, attribute-based representation, handwritten text, scene text, word recognition, word spotting, Character recognition, Handwriting recognition, Hidden Markov models, Histograms, Image recognition, Nearest neighbor searches, Text recognition

本稿では、画像上のワードスポッティングとワード認識の問題を扱う。ワードスポッティングでは、画像データセットから検索語の全ての実例を見つけることを目的とする。また、認識では、ワード画像の内容を認識することを目的とする。通常、辞書や用語集を使用する。ここでは、共通の部分ベクトル空間に埋め込まれたワード画像と文字列双方についてのアプローチについて述べる。これは、ラベル埋め込みと属性の学習、および、共通部分空間回帰の連携により達成される。この部分空間において、同じワードを表現する画像と文字は互いに近くにあり、最近傍探索問題として認識と検索作業をキャストすることを可能としている。殆どの既存手法とは異なって、本手法の表現は固定長で低次元のため、計算が(特に比較において)非常に高速である。本アプローチの評価を、手書き文書と自然画像双方の公的な4つのデータセット上で実施した。これにより、スポッティングと認識に関する最新手法に匹敵あるいは超える結果を示す。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


「テンソル投票に対する閉形式解: 理論と応用」に対する批評
Comments on “A Closed-Form Solution to Tensor Voting: Theory and Applications”

Maggiori, E. , AYIN & STARS, Inria Sophia Antipoli, Sophia Antipolis, France Lotito, P. Manterola, H.L. del Fresno, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 12, pp. 2567-2568 , December 2014

Keywords: feature extraction, tensors, theorem proving, closed-form solution, image features, proof system flaws, tensor voting, Tensor Voting, feature inference, perceptual grouping, Closed-form solutions, Eigenvalues and eigenfunctions, Electronic mail, Robustness, Symmetric matrices, Tensile stress

本稿では、テンソル投票の閉じた定式化について述べた論文を批評する。テンソル投票は、ポイントクラウドを知覚的にグループ化する手法であり、通常、画像特徴推定に応用される。著者らが証明するのは、オリジナルの定式化が要求する数値積分に関連が深いと考えられる技術であり、時間を消費するタスクである本手法(テンソル投票)に関する解析的な解である。その論文は、テンソル投票フレームワークのための最初の閉形式表現を構成する。本稿では最初に、この提案された定式化がテンソル投票出力に対する制約を満たさないという望ましくない結果を導出し、それゆえ解釈することができないということを確認する。閉形式表現が与えられたということは、証明に欠陥が無い限り、予期されない出力の生じない解析的に等価な解ということである。ここでは、これらの予期されない結果が生じる数学的背景の分析も行った。本解説では、実際にはそれらの提案が、テンソル投票に対する真の解析解を提供してはいないことを示し、証明の欠陥を示す。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


[前の年]