[前の年]

IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.37, No.1

多クラス予測と構造化予測のためのハイブリッド損失
A Hybrid Loss for Multiclass and Structured Prediction

Shi, Q. , Australian Centre for Visual Technologies and The Computer Vision group of The University of Adelaide, Australia Reid, M. Caetano, T. van den hengel, A. Wang, Z.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 1, pp. 2-12 , January 2015

Keywords: Conditional random fields, fisher consistency, hybrid loss, structured learning, support vector machines, FCC, Fasteners, Hafnium, Pattern analysis, Predictive models, Probabilistic logic, Vectors

多クラス予測と構造化予測(structured prediction)の問題を対象とする、新たなハイブリッド損失を提案する。この損失は、条件付き確率場(Conditional Random Fields, CRFs)の対数損失とサポートベクトルマシンのマルチクラス・ヒンジ損失との凸結合(convex combination)である。分類用途において、ハイブリッド損失がフィッシャー一致(Fisher consistent)となるための条件を提示する。この条件はラベル間の支配性尺度(measure of dominance)に依存する。具体的には、最適なラベルの確率と次点のラベルの確率との間のギャップである。また、CRFsなどのモデルを学習する際に、パラメータの一貫性にはフィッシャー一致が必要であることを証明する。ハイブリッド損失は人物動作認識を始めとする多様な課題において、構成する二つの損失を個々に利用した場合と比較して最低でも同等で、概ね優位であることを実験的に実証する。このために、確率的手法と周辺化手法を多クラス予測や構造化予測に適用した際の効果を実験的に比較した結果を示す。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


物体認識と物体分類とのコンテキスト化
Contextualizing Object Detection and Classification

Chen, Q. , , IBM Research, Australia Song, Z. Dong, J. Huang, Z. Hua, Y. Yan, S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 1, pp. 13-27 , January 2015

Keywords: Object classification, context modeling, object detection, Computational modeling, Context, Context modeling, Data models, Feature extraction, Object detection, Support vector machines

本研究では、物体分類と物体検出とにおいて、一方の結果を他方のコンテキストとして用いることで、如何にして反復的、相互的に性能向上させるかを探求する。コンテキストモデルは比較的に広く使われているが、従来研究は主にクラス内における関連性の共起性に注力されており、トップ・ダウンの観点でのコンテキスト化、つまり高レベルのタスク・コンテキスト、には余り目が向けられていない。本稿では、適応的コンテキストモデル化と反復的ブースティングの新しい手法を導入する。まず、コンテキスト化サポートベクトルマシン(Contextualized Support Vector Machine, Context-SVM)を提案する。ここではコンテキストが、分類スコアをサンプルの曖昧性に基づいて動的に補正する役割を担う。これにより、コンテキスト適応な分類器が実現される。次に、反復的訓練手順を提示する。各過程において、Context-SVMを一方のタスク(物体分類または物体検出)の出力コンテキストと関連付けることで、他方のタスクの性能を底上げするために実体化(instantiate)する。後者の拡張された出力は、Context-SVMによる前者のタスクを改善させるために更に利用される。PASCAL VOC 2007、2010、並びにSUN09データセットを用いた物体分類と物体検出の課題に対し、提案手法を評価する。この結果から提案手法は最高水準の性能を達成する。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


凸な判別的マルチタスク分類
Convex Discriminative Multitask Clustering

Zhang, X. , Department of Electronic Engineering, Tsinghua University, Beijing, China

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 1, pp. 28-40 , January 2015

Keywords: Convex optimization, cutting-plane algorithm, discriminative clustering, unsupervised multitask learning, Bismuth, Clustering algorithms, Convex functions, Covariance matrices, Linear programming, Optimization, Support vector machines

マルチタスク分類は、複数のタスクの分類性能を、それらの関係性を考慮することで同時に向上させることを目的とする。既存のマルチタスク分類アルゴリズムの多くは、生成的分類(generative clustering)の一種であり、凸最適化問題として定式化されているものは存在しない。本稿では、この問題に対処するために、2つの凸な判別的マルチタスク分類(Discriminative MultiTask Clustering, DMTC)目的関数を提案する。第一のものは、共通する特徴表現の学習を目的とするものである。これは、凸なマルチタスク特徴学習と凸なマルチクラス・マージン最大化分類(Multiclass Maximum Margin Clustering, M3C)との組み合わせと見做すことができる。第二のものは、タスク間の関係性の学習を目的とするものである。これは、凸なマルチタスク関係性学習とM3Cとの組み合わせと見做すことができる。2つのアルゴリズムの目的関数は、効率的な切除平面アルゴリズム(cutting-plane algorithm)により一様な手順で解かれ、ベイズ・フレームワークにおいて統合される。簡単な問題(toy problem)と2つのベンチマーク・データセットを用いた実験結果から、提案アルゴリズムの有効性が実証される。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


行列因子分解によるデータ融合
Data Fusion by Matrix Factorization

Zitnik, M. , Faculty of Computer and Information Science, University of Ljubljana, Tržaška 25, SI-1000 Ljubljana, Slovenia Zupan, B.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 1, pp. 41-53 , January 2015

Keywords: Data fusion, bioinformatics, cheminformatics, data mining, intermediate data integration, matrix factorization, Approximation methods, Convergence, Data integration, Data models, Diseases, Linear programming, Predictive models

科学や技術における課題の大部分は、観測対象システムを様々な観点から表現し、個々の要素の挙動を記録するデータセットを獲得することができる。データ融合により異種のデータセットを一体化して発掘することができる。融合は特定の対象の関連性に注目し、直接的に対応付けられたデータを意味的データやシステム制約に関するデータと共に活用することができる。本稿では、隠れた関連性を見つけ出すために複数のデータ計量を同時に因子分解する、ペナルティ付き行列三重因子分解(penalized matrix tri-factorization)を用いるデータ融合手法を説明する。提案手法は、行列形式で表現できる如何なるデータにも直接的に適用可能である。このようなデータには、特徴に基づく表現、オントロジー、関連性やネットワークなどが含まれる。提案手法の遺伝子機能(gene function)の推定に対する有用性を、11の異なるデータ・ソースを用いて実証する。また、薬理学的反応(pharmacologic action)の推定に対しては、6つのデータ・ソースを融合する。提案するデータ融合アルゴリズムは他のデータ統合手法と比較して優位であり、単一のデータ・ソースのみを用いた場合よりも高い精度を達成する。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カーネル照合による特徴空間に非依存な半教師付きドメイン適応
Feature Space Independent Semi-Supervised Domain Adaptation via Kernel Matching

Xiao, M. , Department of Computer and Information Sciences, Temple University, Philadelphia, PA Guo, Y.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 1, pp. 54-66 , January 2015

Keywords: Domain adaptation, heterogeneous feature spaces, kernel matching, Adaptation models, Kernel, Laplace equations, Manifolds, Minimization, Optimization, Training

ドメイン適応手法は、ラベルの少ないターゲット・ドメインに対する良好な推定モデルを学習することを目的としている。これは、大規模なラベル付きデータが存在する、関連したソース・ドメインのラベル付きパターンを活用することで実現される。しかし、実際のドメイン適応学習シナリオの多くでは、ソース・ドメインとターゲット・ドメインとで特徴分布が異なる。極論を言えば、ソース・ドメインの特徴表現がターゲット・ドメインのものと全く異なれば、2つの分布は完全に異なる。ドメイン間の特徴分布の大きなばらつきと、異なるドメインにおける異種の特徴表現の問題に対応するために、本稿では新しい特徴空間に非依存な半教師付きカーネル照合法を提案する。提案手法はラベル付きのソース・データから推定関数を学習すると共に、ヒルベルト・シュミット独立性検定(Hilbert Schmidt Independence Criterion)に基づき、ターゲット・カーネル行列をソース・カーネル行列の部分行列と照合することで、ターゲット・データ点を類似のソース・データ点に対応付ける。学習と対応付けの同時過程を非凸整数最適化問題(non-convex integer optimization problem)として定式化し、その緩和連続形式(relaxed continuous form)に対する局所最小化手順を示す。提案するカーネル照合手法を、Amazonの製品評価におけるドメインを跨ぐ感情分類課題と、Reuterの多言語ニュース記事における言語を跨ぐ文章分類課題を用いて評価する。実験結果から、同種の特徴空間を持つクロスドメイン分類問題と、異種の特徴空間を持つクロスドメイン分類問題との双方において、提案するカーネル照合手法は比較対象手法の性能を安定かつ大幅に上回ることが実証される。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


陰影からの局所形状推定
From Shading to Local Shape

Xiong, Y. , Harvard School of Engineering and Applied Sciences, Cambridge, MA 02138 Chakrabarti, A. Basri, R. Gortler, S.J. Jacobs, D.W. Zickler, T.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 1, pp. 67-79 , January 2015

Keywords: 3D reconstruction, Shape from shading, local shape descriptors, statistical models, Eigenvalues and eigenfunctions, Image reconstruction, Lighting, Noise, Shape, Surface reconstruction, Transmission line matrix methods

本研究では、小さな画像パッチに存在する拡散陰影(diffuse shading)から形状情報の簡潔な表現を抽出するフレームワークを実現する。これにより、複数のスケールに跨り全ての画像パッチで個別に推定された局所形状分布から構成される、中レベルのシーン記述子が生成される。本フレームワークは局所形状の二次表現(quadratic representation)に基づいており、ノイズが存在しない条件で局所形状と光源とを正確に再現できることが保証されている。そして、ノイズが存在する条件では、推定された局所形状分布は、特定の画像解釈(image explanation)に過度に依存することなく、有用な形状情報を提供する。これらの局所形状分布は、滑らかな拡散領域は他の領域よりも情報量が多いという事実を自然に符号化する。そして、これらは実物大の物体形状の効率的で頑健な再構成を可能とする。合成画像と実画像とを用いた実験結果から、表面再構成に対する本アプローチは両者に対して最先端手法の性能を上回ることを示す。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


妥当性評価規則に関する緩最近傍ブースティング
Gentle Nearest Neighbors Boosting over Proper Scoring Rules

Nock, R. , Department of Scientifique Interfacultaire, Ceregmia-Universit? Antilles-Guyane, France Ali, W.B.H. DAmbrosio, R. Nielsen, F. Barlaud, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 1, pp. 80-93 , January 2015

Keywords: Boosting, nearest neighbors, proper scoring rules, Boosting, Convergence, Estimation, Logistics, Minimization, Optimization, Vectors

最近傍アルゴリズムをブースティングに適合させることは重要な課題である。近年の文献では、弱い仮定の下で特定の凸関数(convex surrogate)を理論的に最小化するunn(Unsupervised Nearest Neighbor)という手法が取り上げられている。しかし、数値計算上の問題から、アルゴリズムの収束性と性能の代償として、unnアルゴリズムの一部を実験的に微調整(tweak)する必要がある。本稿では、広範なデータセットから妥当性評価規則(proper scoring rule)を最適化するニュートン・ラフソン法の高速な代替手法を提案する。また、unn向けに知られている手法に対抗するために、ブースティング・フレームワークの下での形式的な収束率(convergence rate)を構築する。筆者らが知る限りでは、緩アダブーストの系統に対する、このようなブースティング互換の収束率は過去に例がない。Caltech やSUNコンピュータビジョン・データベースを含む、10数個のドメインに対する実験結果を提示する。この実験において、サポートベクトルマシン、ブースティング(アダブースト)、そして確率的勾配降下法を含む、主要な手法と提案手法を比較する。この結果から主に3つの結論が支持される。(i) 収束率と結果の品質の観点で、gnnb(Gentle Nearest-Neighbor Boosting)はunnの性能を大幅に上回る。(ii) gnnbは計算コストの極めて高い大きなマージンを持つ手法と同等以上の性能を持つ。(iii) 計算速度の問題から比較対象手法が適用できない多くのドメインにおいて、gnnbは確率的勾配降下法に対する単純でより良好な代替候補となる。実験結果には、妥当性評価規則最適化との関連性を利用した、gnnbの分割統治(divide-and-conquer)による改良も含まれる。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


分離可能なフィルタの学習
Learning Separable Filters

Sironi, A. , Computer Vision Laboratory, IC Faculty, École Polytechnique Fédérale de Lausanne (EPFL), Lausanne CH-1015, Switzerland Tekin, B. Rigamonti, R. Lepetit, V. Fua, P.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 1, pp. 94-106 , January 2015

Keywords: Convolutional sparse coding, convolutional neural networks, features extraction, filter learning, image denoising, segmentation of linear structures, separable convolution, tensor decomposition, Approximation methods, Convolution, Convolutional codes, Feature extraction, Linear programming, Tensile stress, Three-dimensional displays

過完備辞書の観点で疎な画像表現を生み出すフィルタを学習することは、多様な目的に対する画像特徴を生成する有効な方法として知られるようになってきた。しかしながら、これらのフィルタは一般に、数が膨大であるだけでなく分離可能でない(non-separable)ことから、利用するには計算コストが高くなる。本稿では、このようなフィルタが少数の分離可能な(separable)ものの線形和として計算できることを示し、性能を犠牲にすることなく計算複雑度を劇的に低減する。これによりフィルタ学習手法は大規模な画像群や三次元立体に対しても実用的となる。また、曲線構造の抽出課題において、精度と速度の両観点から提案手法が最先端手法を大きく上回ることを示す。更に、提案手法は汎用的であり、一般的な畳み込みフィルタバンク(generic convolutional filter bank)に適用することで、特徴抽出過程の複雑度を低減できる。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Lift:ラベル固有特徴を用いたマルチラベル学習
Lift: Multi-Label Learning with Label-Specific Features

Zhang, M. , School of Computer Science and Engineering, Southeast University, Nanjing, China Wu, L.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 1, pp. 107-120 , January 2015

Keywords: Machine learning, label correlations, label-specific features, multi-label learning, Algorithm design and analysis, Clustering algorithms, Correlation, Measurement, Text categorization, Training, Vectors

マルチラベル学習では、各訓練データが唯一のインスタンス(特徴ベクトル)として表現されながら、複数のクラスラベルに対応付けられている問題に対処する必要がある。既存手法は同一の特徴群を操作しながらマルチラベル・データから学習する。つまり、各訓練データのインスタンス表現そのものが、全クラスラベルの判別過程に利用される。しかし、各ラベルはそれ特有の特徴を持つはずであるため、この一般的な戦略は準最適である。本稿では、マルチラベル・データを学習する新たな戦略について深掘りする。この戦略では、異なるクラスラベルの判別に際してラベル固有特徴(label-specific feature)を活用する。それに伴い、Lift(multi-label learning with Label specIfic FeaTures)と呼ぶ直感的で効果的なアルゴリズムを提案する。Liftはまず、正のインスタンスと負のインスタンスに対してクラスタ分析を行うことで各ラベルに特有の特徴を構築する。次に、クラスタリング結果に対して訓練や実験を行う。総計17のベンチマーク・データセットに対する包括的な実験から、既に確立された他のマルチラベル学習アルゴリズムに対するLiftの優位性と、ラベル固有特徴の有効性が明らかとなる。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


弱教師付きマルチラベル画像分類のための行列補完
Matrix Completion for Weakly-Supervised Multi-Label Image Classification

Cabral, R. , ECE Department, Carnegie Mellon University, Pittsburgh, PA Torre, F.D.l. Costeira, J.P. Bernardino, A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 1, pp. 121-135 , January 2015

Keywords: Weakly-supervised learning, multi-label image classification, nuclear norm, rank minimization, segmentation, Histograms, Image segmentation, Minimization, Pattern analysis, Semantics, Training, Vectors

ここ数年で、画像分類は広範な用途を持つ極めて活発な研究分野となった。視覚的認識手法の多くは教師付き学習に基づくもので、注目物体を特定するために外接矩形や画素単位の分割を用いる。しかし、この種の手動ラベル付けは時間を要し、誤りを含みやすく(error prone)、また手動分割結果は物体分類器にとって必ずしも最適な囲み(spatial enclosure)でないことが示されている。本稿では、マルチラベル画像分類のための弱教師付きシステムを提案する。この設定では、訓練画像はそのコンテンツを説明するキーワード群によりアノテーションされる一方で、その被写体(visual concept)は明示的には分割されない。本研究では、弱教師付き画像分類を低ランクの行列補完問題として定式化する。従来研究と比較して、提案フレームワークには次の3つの利点がある。(1) 多事例学習手法(multiple-instance learning method)に基づく既存手法と異なり、提案モデルは凸である。本研究では視覚データに特化した行列補完の代替アルゴリズムを提案し、その収束性を証明する。(2) 既存の判別手法と異なり、提案アルゴリズムはラベル誤りや背景ノイズ、局所遮蔽に頑健である。(3) 提案手法は意味的分割にも利用できる可能性がある。幾つかのデータセットを用いた実験的検証から、提案手法は最先端の分類アルゴリズムの性能を凌駕すると共に、各クラスの外観を効果的に捉えられることが示される。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ランクベースの類似性検索:次元依存性の緩和
Rank-Based Similarity Search: Reducing the Dimensional Dependence

Houle, M.E. , National Institute of Informatics, 2-1-2 Hitotsubashi, Chiyoda-ku, Tokyo, Japan Nett, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 1, pp. 136-150 , January 2015

Keywords: Nearest neighbor search, intrinsic dimensionality, rank-based search, Approximation methods, Complexity theory, Data mining, Indexes, Measurement, Navigation, Search problems

本稿では、ランク被覆木(Rank Cover Tree, RCT)と呼ぶk最近棒探索におけるデータ構造を紹介する。提案手法の枝切り(pruning test)は類似度の比較のみに依存し、三角不等式(triangle inequality)など潜在空間の他の特性は除外されている。物体はクエリー物体に対する順位に基づいて選択され、全体の処理コストに対してより厳密な制御が可能となる。形式的な理論的解析から、極めて高い確率で、RCTはデータセットの固有次元の程度に依存する時間で、クエリーに対する正しい結果を与えることが示される。RCTに実験結果から、データの代表次元が極めて高い条件下であっても、類似性検索に対する非計量(non-metric)枝切り戦略が実用的であることが示される。この結果からはまた、RCTの性能が、距離に対する数値的制約を課す計量枝きりや他の選択手法を用いる最先端手法と同等かそれ以上であることが示される。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチスケール積分不変量を用いた形状照合
Shape Matching Using Multiscale Integral Invariants

Hong, B. , Computer Science Department, Chung-Ang University, Seoul 156-756, Korea Soatto, S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 1, pp. 151-160 , January 2015

Keywords: Shape matching, Wasserstein distance, integral invariant, scale invariant, shape descriptor, Indexes, Kernel, Noise, Pattern recognition, Robustness, Shape, Shape measurement

積分カーネルに基づく形状記述子を紹介する。形状は陰形式(implicit form)で表現され、目的とする不変的特性を与える等方性カーネル(isotropic kernel)の一群により特徴付けられる。形状特徴は複数のスケールで特徴付けられ、スケールのある範囲において形状をコンパクトに記述するシグネチャを構成する。形状シグネチャは、平行移動、回転、変倍、そして反転を含む変換群に不変となるよう設計されている。これに加え、局所形状幾何を特徴付ける積分カーネルにより、形状シグネチャは判別性能を維持しながら意図しない外乱(perturbation)に対して頑健となる。提案する形状シグネチャの効果を、多数の合成データと実データとに対する形状照合を通じて実証する。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


接ベクトル束弾性組織とコンピュータビジョン
Tangent Bundle Elastica and Computer Vision

Ben-Shahar, O. , Department of Computer Science, Ben-Gurion University of the Negev, Beer-Sheva 84105, Israel Ben-Yosef, G.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 1, pp. 161-174 , January 2015

Keywords: Visual completion, curve completion, elastica, tangent bundle, Abstracts, Biology, Organizations, Shape, Three-dimensional displays, Vectors, Visualization

視覚的曲線補完は、観察された(誘導因子として知られる)境界断片の遮蔽部分を補完する、視覚の初期過程である。この過程は知覚器官における重大な課題であり、生物学とマシンビジョンの双方においても高レベルの視覚タスクを実現する上での重要なステップである。この問題の解決を目指す大多数の計算機科学の成果は、補完された輪郭は画像平面上に収まるべきとの知覚的特性を主張し、それを実現する数学的曲線を探索する。逆に、(筆者によるものを含む)少数の研究は、この課題を画像平面上ではなく、単位接ベクトル束(tangent bundle)内で議論すべきであると主張している。この接ベクトル束は、曲線補完が発生すると言われる一次視覚野(primary visual cortex)を抽象化した空間である。両者を組み合わせ、接ベクトル束内の弾性組織(elastica)に関する生物学的に妥当な理論を提案し、実現する。知覚的に良好な補完結果だけでなく、誘導因子の曲率が補完された曲線の形状に大きな影響を与えるという正確な推定結果をも提供する。これは人間の知覚によって示されたものそのものである。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ラベルなしデータが障害とならないために
Towards Making Unlabeled Data Never Hurt

Li, Y.-F. , National Key Laboratory for Novel Software Technology, Nanjing University and Collaborative Innovation Center of Novel Software Technology and Industrialization, Nanjing, China Zhou, Z.-H.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 1, pp. 175-188 , January 2015

Keywords: S3VMs, S4VMs, Unlabeled data, safe, semi-supervised learning, Data models, Optimization, Particle separators, Prediction algorithms, Reliability, Semisupervised learning, Support vector machines

特にラベル付きデータの数が限られている場合に、ラベルなしデータを活用することで学習能力が向上することが通常期待される。しかし、既存の半教師付き学習手法は一部のケースにおいて、ラベル付きデータのみを用いる教師付き学習手法の後塵を拝することが報告されている。このため、ラベルなしデータを利用しても性能が劇的に低下しない、安全な半教師付き学習手法を実現することが望ましい。本稿では半教師付きサポートベクトルマシン(Semi-Supervised Support Vector Machine, S3Vs)の安全性を向上することに主眼を置く。まずS3VM-us法を提案する。本手法では保守的な戦略を取り、有用である可能性の高いラベルなしデータのみを用い、リスクの高いものを避ける。この手法により安全性は向上するが、S3VMと比較してラベルなしデータを利用することで得られる性能向上は、多くの場合に限定される。安全で高性能な手法を実現するために、S3VMの根本的な仮定である低密度分離(low-density separation)を再考する。良好な低密度分離器の候補は訓練データから特定できるという観察結果から、安全半教師付きサポートベクトルマシン(Safe Semi-Supervised Support Vector Machine, S4VM)を提案する。S3VMに導入された仮定の下で、S4VMが安全であることを立証し、ラベルなしデータを用いた性能向上が最大化できることを示す。加えて、S4VMの標本外拡張(out-of-sample extension)を提示する。本拡張によりS4VMは未知のデータに対する予測が可能となる。広範なデータを用いた実験的研究から、S4VMの全体性能はS3VMを大きく上回ることが示される。またS4VMは、頻繁に性能低下が生じるS3VMとは異なり、帰納的(inductive)SVMの性能を下回ることは稀である。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


データ駆動の「物体らしさ」
Data-Driven Objectness

Kang, H. , School of Computer Science, Carnegie Mellon University, 5000 Forbes Avenue, Smith Hall, Pittsburgh, PA Hebert, M. Efros, A.A. Kanade, T.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 1, pp. 189-195 , January 2015

Keywords: Objectness, activity of daily living (ADL), data-driven, object discovery, product images, segment selection, Databases, Estimation, Image color analysis, Image segmentation, Portable computers, Shape, Vectors

本研究では、大規模な物体領域の事例と比較することで、画像断片がシーン物体である尤度("物体らしさ(objectness)")を推定するデータ駆動型のアプローチを提案する。適用するドメインが既知であれば、物体領域の何百万もの事例を用いることでドメイン特有の物体の規則性を捉えられることを実証する。尚、本研究では日常生活の活動を対象ドメインとする。提案手法は二つのステップにより画像領域の物体らしさを推定する。1) 入力画像断片に最も類似する事例領域を見つける。2) 断片の特性、最近傍の事例領域間の相互一貫性、そして各事例領域の事前確率を組み合わせることで、物体らしさを算出する。従来研究では、手動でアノテーションが付けられた小規模な物体領域からパラメトリックな物体らしさのモデルが構築されていた。これに対し提案するデータ駆動型の手法は500万の物体領域をそのメタデータ情報と共に利用する。複数のデータセットを用いた実験結果により、提案するデータ駆動型のアプローチを既存のモデルベースの手法と比較する。また、提案手法を適用することで物体発見アルゴリズムの性能向上できることを示す。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


期待単体歪度からの低バイアス固有次元推定
Low Bias Local Intrinsic Dimension Estimation from Expected Simplex Skewness

Johnsson, K. , Centre for Mathematical Sciences, Faculty of Engineering, Lund University, Sweden Soneson, C. Fontes, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 1, pp. 196-202 , January 2015

Keywords: Intrinsic dimension estimation, manifold learning, Calibration, Distributed databases, Eigenvalues and eigenfunctions, Estimation, Manifolds, Noise, Vectors

探索的な高次元データ分析において、局所的固有次元推定(local intrinsic dimension estimation)は異なる低次元構造から抽出されたデータセット間の判別に用いられることがある。多くの場合、大域的固有次元推定器(global intrinsic dimension estimator)を局所推定に適応させることができるが、これは大きな負のバイアスや大きなばらつきなどの問題に繋がる。本研究では、次元の呪い(curse of dimensionality)、または次元の福音(blessing of dimensionality)を活用し、局所的固有次元推定器を生成する手法を紹介する。この推定器は、固有次元がデータ数よりも高い場合であってもバイアスが非常に低く、更に比較的ばらつきが少ない。提案する推定器は他の局所的固有次元推定器と比較して、次元に基づいて局所データセットを分類する性能が高いことを示す。これに加え、実データセットの階層化(stratification)における、一般的な局所的固有次元推定と提案手法の有用性を示す実例を提供する。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.37, No.3

離散形式と連続形式との混合データの分類を対象とするベイズ予測モデル
A Bayesian Predictive Model for Clustering Data of Mixed Discrete and Continuous Type

Blomstedt, P. , Department of Information and Computer Science, Helsinki Institute for Information Technology HIIT Tang, J. Xiong, J. Granlund, C. Corander, J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 3, pp. 489-498 , March 2015

Keywords: Bayes methods, mixed distributions, predictive models, unsupervised learning, Bayes methods, Clustering methods, Computational modeling, Data models, Educational institutions, Mathematical model, Predictive models

モデル・ベースの分類手法の発見的モデルに対する利点は、先行文献において広く実証されている。大半のモデル・ベースの分類アルゴリズムは、データが離散的か連続的かの何れかであることを仮定しているが、これは各々の形式が別々の特徴に存在することを許容するためと考えられる。本稿では、混合形式の特徴ベクトルを分類するモデル・ベースの手法を紹介する。各特徴はカテゴリ値と実際の値との両方を同時に扱うことができる。このようなデータは、化学や生物学の分析、アンケート調査のデータの分析、そして画像解析において出現する場合がある。提案モデルは、分類の解がデータのランダムな区画と対応する、ベイズ予測フレームワークの範疇において定式化される。共役解析 (conjugate analysis) を用い、候補となる各区画の事後確率を解析的に求めることができる。これにより、事後確率を最適化する区画 (posterior optimal partition) の検出に、計算効率の高い探索戦略を利用することができる。導出されたモデルを、幾つかの合成データセットと実データセットとを用いて説明する。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


二次元点整合の不整合検出
A Contrario 2D Point Alignment Detection

Lezama, J. , CMLA, ENS Cachan, Cachan, France Morel, J. Randall, G. Gioi, R.G.v.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 3, pp. 499-512 , March 2015

Keywords: Point alignment detection, Poisson point process, a contrario methods, clustering, Detectors, Estimation, Mathematical model, Noise, Shape, Strips, Transforms

多くの興味深い試みがなされているにも拘らず、二次元の点群の位置整合を自動的に行う課題は、依然として未解決である。本稿において、この課題の困難さを非常に単純な事例を用いて説明する。次に、この課題に対する巧妙な解法を提案する。我々は、正しい整合位置を検出するためには、少なくとも4つの織り交ざった基準を満たす必要があることを示す。これらの基準とは、テクスチャがマスクされている度合い、整合の相対的な左右の局所密度 (relative bilateral local density)、その内的規則性 (internal regularity)、そして最後に冗長性削減ステップである。不整合検出理論 (contrario detection theory,) の拡張方法として、これらの検出基準は全て、単一の確率的不整合モデルに、唯一のユーザ・パラメータである誤検出数を用いて、無理なく埋め込むことができることを示す。不整合理論に対する本研究の貢献は、簡単な境界の発見を目的とした、ランダムな点群に対する適切な条件付きイベントの利用にある。この境界により、提案する検出モデルの数学的整合性が簡単に証明できる。提案する最後のアルゴリズムは、重複する検出の回避を目的とする、ゲシュタルト理論 (Gestalt theory) の排他原理 (exclusion principle) に対する新たな定式化を含む。再現性確保を目的とし、ソースコードと、任意のデータ点群に対するオンラインのデモとが提供される。提案手法を3つの最先端アルゴリズムと詳細に比較すると共に、実データに対する応用が議論される。また、提案する最後の手法の限界について、実例を挙げると共に説明をする。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IrisCodeの統計的分析とセキュリティ的意味
A Statistical Analysis of IrisCode and Its Security Implications

Kong, A.W.K. , School of Computer Engineering, Nanyang Technological University, Singapore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 3, pp. 513-528 , March 2015

Keywords: Biometrics, Daugman algorithm, iris recognition, statistical dependence, template protection, Databases, Gabor filters, Iris, Iris recognition, Probability, Security, Vectors

IrisCodeを用いて430万人の虹彩データが収集された。IrisCodeは大きな影響力を持つことから、これを完全に理解することが必要である。本稿ではまず、ビット確率と平均虹彩画像 (個別の虹彩画像の平均を取ったもの) との関係性を調査する。次に、カイ二乗統計の相関係数と再標本化アルゴリズムとを用い、ビット間の統計的依存関係 (statistical dependence) を検出する。この結果から、統計的依存関係が、疎で構造的な隣接行列を形成することが示される。このグラフと、端部がIrisCodeを生成するガボール・フィルタ間の内積により定義されるグラフとの比較から、部分的な統計的依存関係はフィルタにより誘発され、グラフ内を伝播することが示される。この統計的情報を用い、2つの特許化されたテンプレート保護手法に関連するセキュリティ・リスクを分析する。これらのテンプレート保護手法は、商用システムに導入され、特定用途に特化したIrisCodeを生成するために利用される。高い認証速度を維持するために、これらの手法はデータベース内の全てのIrisCodeを、同一の鍵を用いて暗号化している。これは、鍵が流出しなければIrisCodeは安全である、という信念に基づいている。本研究から、鍵がなくとも特定用途に特化したIrisCodeを復号化でき、また検出された統計的依存関係を通じて鍵を推測することができることを示される。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


軌道再構成のための畳み込みスパースコーディング
Convolutional Sparse Coding for Trajectory Reconstruction

Zhu, Y. , Commonwealth Scientific and Industrial Research Organization, 1 Technology Court, Pullenvale, Brisbane, Australia Lucey, S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 3, pp. 529-540 , March 2015

Keywords: norm, norm, Nonrigid structure from motion, convolutional sparse coding, reconstructability, Convolution, Convolutional codes, Encoding, Equations, Shape, Three-dimensional displays, Trajectory

軌道基底 (trajectory basis) を用いた運動からの非剛体構造復元 (Non-Rigid Structure from Motion, NRSfM) とは、非剛体物体の各点の三次元軌道を、それらを射影した二次元軌道から再構成する過程のことである。再構成は2つの要素から成る。これらは、(i) カメラと軌道との結合基底行列の条件、そして(ii) 軌道基底が三次元点軌道をモデル化するのに十分な自由度を持っているか否か、である。これら2つの要素は、本質的に背反する。小規模な軌道基底を導入することで、再構成過程において (カメラと結合された場合の) 不良条件 (ill-conditioned) 系が生じる可能性を低減するという、正の側面がある。しかし、これには負の側面もあり、基底は物体の真の三次元点軌道を完全にはモデル化できない。本稿では、スパース信号再構成における準等方性特性 (Reduced Isometry Property, RIP) 条件を中心とする、よく知られた結果を利用する。RIPにより、カメラ行列で構成される完全な軌道基底が良条件 (well-conditioned) でなければならない、という要件を緩和することができる。更に、畳み込みスパースコーディングを用いて、自然発生する点軌道コーパスから過完備な基底を学習する戦略を提案する。このコーパスを利用することで、RIP条件が広範なクラスの点軌道やカメラ動作において満たされる可能性が向上する。最後に、L1に着想を得、過完備の軌道基底から(i)と(ii)とを両立させる最小の部分行列を"適応的に"選択する、軌道再構成の目的関数を提案する。軌道基底NRSfMの分野における最先端手法と比較した、より実用的な三次元再校正結果を示す。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


正のハイパーグラフの密なサブグラフ分割
Dense Subgraph Partition of Positive Hypergraphs

Liu, H. , Department of Mechanical Engineering, Purdue University, West Lafayette, IN Latecki, L.J. Yan, S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 3, pp. 541-554 , March 2015

Keywords: Graph partition, dense subgraph, densest k-subgraph, image matching, mode seeking, Clustering algorithms, Digital signal processing, Image segmentation, Materials, Partitioning algorithms, Radio frequency, Transmission line matrix methods

本稿では、密なサブグラフ分割 (Dense Subgraph Partition, DSP) と呼ぶ新たな分割フレームワークを提示し、自動的で、正確、且つ効率的に、正のハイパーグラフ (positive hypergraph) を密なサブグラフへと分解する。正のハイパーグラフとは、自己ループ (self-loop) を除く全ての端部が正の重みを持つグラフまたはハイパーグラフのことである。まず、核サブグラフ (core subgraph)、条件付き核サブグラフ、並びに条件付き核サブグラフの不連結分割を定義し、これらに基づいてDSPを定義する。最終的に得られるDSPは、密度が徐々に減少するように順序付けされた密なサブグラフのリストである。これにより、潜在的なクラスタや外れ値が洗い出される。分割処理を効率的に計算するために、小分割成長 (min-partition evolution) と呼ぶ分割統治アルゴリズム (divide-and-conquer algorithm) を提案する。DSPは多くの魅力的な特性を持つ。第一に、DSPはノンパラメトリック分割であり、ボトムアップにより全ての意味あるクラスタを抽出する。第二に、DSPは小分割成長アルゴリズムと呼ぶ正確で効率的な解法を持つ。小分割成長アルゴリズムは分割統治アルゴリズムであり、したがって時間効率が高く、メモリ使用量が少ない上に、並列処理に適している。第三に、DSPは広範なグラフやハイパーグラフに対応する、統合分割フレームワークである。更に、NP困難であるもののグラフ問題の根本的な問題である最密kサブグラフ (Densest k-subgraph, DkS) 問題とDSPとの関連性を構築する。また、DSPが極限kセット (critical k-set) と呼ばれるグラフ依存のセットにおける全てのk に対して、DkSの厳密解を与えることを照明する。筆者らが知る限りにおいて、このような優れた結果は過去に報告例がない。これに加えて、実験の結果から、特にウェブグラフなど疎なグラフにおいて、極限kセットのサイズはグラフの頂点数とほぼ一致することが示される。提案する分割フレームワークを様々な課題を通じて実験し、その結果から提案手法の利点が明確に示される。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


歪んだ指紋の検出と認識
Detection and Rectification of Distorted Fingerprints

Si, X. , Department of Automation, Tsinghua University, Beijing, China Feng, J. Zhou, J. Luo, Y.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 3, pp. 555-568 , March 2015

Keywords: Fingerprint, PCA, distortion, nearest neighbor regression, registration, Databases, Feature extraction, Fingerprint recognition, Force, Skin, Training, Vectors

指紋の弾性歪みは、本人拒否 (false non-match) の主要因の一つである。この問題は全ての指紋認識用途に影響を与えるが、警戒リストや重複排除 (deduplication) 目的など、棄却対象者を特定する用途 (negative recognition application) において特に危険をはらんでいる。この様な用途では、悪意のあるユーザは自身の指紋を意図的に歪ませることで、特定を避けようとする恐れがある。本稿では、1枚の指紋画像に基づいて肌の歪みを検出し補正する、新たなアルゴリズムを提案する。歪み検出は、2クラス分類問題とみなすことができる。この2クラス分類では、位置を合わせた指紋の稜線方位マップと周期マップとが特徴ベクトルとして利用され、この分類課題に対応するようSVM分類器が訓練される。歪み補正 (又は、歪み場推定) は、歪んだ指紋を入力とし、歪み場を出力とする、回帰問題とみなすことができる。この問題を解くために、まずオフライン段階で、様々な歪んだ参照指紋と対応する歪み場の (参照データベースと呼ぶ) データベースを構築する。次に、オンライン段階で、参照データベースから入力指紋の最近傍を検出し、それに対応する歪み場を用いて入力指紋を歪みのない指紋に変換する。多数の歪んだ指紋を格納した3つのデータベースを用いた実験から、有望な結果が得られる。これらのデータベースは、FVC2004 DB1、Tsinghua Distorted Fingerprintデータベース、そしてNIST SD27潜在指紋データベースである。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大域的コントラストに基づく顕著領域検出
Global Contrast Based Salient Region Detection

Cheng, M. , Department of Computer Science, Nankai University, Tianjin, China Mitra, N.J. Huang, X. Torr, P.H.S. Hu, S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 3, pp. 569-582 , March 2015

Keywords: Salient object detection, image retrieval, saliency map, unsupervised segmentation, visual attention, Histograms, Image color analysis, Image segmentation, Object detection, Quantization (signal), Smoothing methods, Visualization

対応するシーンのコンテンツに関する事前の過程や知識を前提としない、様々な種類の画像に適用可能な顕著な物体領域の自動推定は、多くのコンピュータ・ビジョンやコンピュータ・グラフィックスのアプリケーションの改善につながる。筆者らは、大域的コントラスト差と空間的重み付けを持つ一貫性スコアを同時評価する、領域的制約に基づく顕著物体検出 (salient object detection) アルゴリズムを紹介する。提案アルゴリズムはシンプルで、効率的で、元から多スケール (naturally multi-scale) で、尚且つ元画像と同じ解像度の高品質な顕著性マップを生成する。このような顕著性マップは更に、高品質の教師なし顕著性物体分割を目的として、GrabCutの反復的な拡張であるSaliencyCutを初期化するために利用される。従来の顕著物体検出データセットと、より高難易度のインターネット画像データセットとを用いて、提案アルゴリズムを詳細に評価する。実験結果から、提案アルゴリズムは、既存の15種類の顕著物体検出手法や顕著物体分割手法の性能を上回り、高い確信度と信頼度とをもたらすことが実証される。これに加え、提案アルゴリズムが、インターネット画像から顕著物体のマスクを効率的に抽出する目的に利用できることを示す。これにより、スケッチに基づく画像検索 (Sketch-Based Image Retrieval, SBIR) が単純な形状比較を通じて可能となる。インターネット画像は多くのノイズを含み、顕著領域が曖昧であるにも拘らず、提案する顕著性ガイド付き画像検索は、最先端のSBIR手法よりも良好な検索率 (retrieval rate) を達成する。更に提案手法は、検索結果に加えて重要なターゲット物体領域の情報をも提供する。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カーネル化相関フィルタを用いた高速追跡
High-Speed Tracking with Kernelized Correlation Filters

Henriques, J.F. , Institute of Systems and Robotics, University of Coimbra, Coimbra, Portugal Caseiro, R. Martins, P. Batista, J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 3, pp. 583-596 , March 2015

Keywords: Visual tracking, circulant matrices, correlation filters, discrete Fourier transform, kernel methods, ridge regression, Complexity theory, Correlation, Discrete Fourier transforms, Kernel, Target tracking, Training, Vectors

近年の多くの追跡器において核となる要素は、ターゲットと周辺環境との区別を担う判別的な分類器である。自然画像における変化に対応するため、この分類器は一般に、変位や変倍を施された事例パッチを用いて訓練される。このような事例は冗長性に溢れていることから、重複する画素は同一であるという制約が課される。この単純な観察事実に基づき、変位を伴う数千のパッチから成るデータセットに対する解析的なモデルを提案する。最終的なデータ行列が循環行列 (circulant) であることを証明することで、これを離散フーリエ変換により対角化することができ、記憶容量や計算コストの桁を幾つか削減することができる。興味深いことに、提案する定式化の線形緩和は、最も高速な追跡器やカーネル緩和などの一部で利用されている相関フィルタと等価となる。しかし、筆者らは新たなカーネル化相関フィルタ (Kernelized Correlation Filter, KCF) を導出する。このフィルタは、他のカーネル・アルゴリズムとは異なり、線形な競合手法と同一の計算複雑度を持つ。この手法を基礎に、線形カーネルを用いた、線形相関フィルタの高速な多チャンネルへの拡張である、二重相関フィルタ (Dual Correlation Filter, DCF) と呼ぶ手法を提案する。KCFとDCFは両方とも、50本の動画からなるベンチマーク・データセットに対して、StruckやTLDなどの最高水準の追跡器の性能を凌駕するたけでなく、数百フレーム毎秒で動作し、数行のコードで実装できる (Algorithm 1)。更なる開発を支援するために、提案する追跡フレームワークはオープンソース化されている。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ブースティングによる画像記述子の学習
Learning Image Descriptors with Boosting

Trzcinski, T. , Computer Vision Laboratory, I&C Faculty, Ecole Polytechnique Fédérale de Lausanne, Lausanne CH-1015, Vaud, Switzerland Christoudias, M. Lepetit, V.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 3, pp. 597-610 , March 2015

Keywords: Learning feature descriptors, binary embedding, boosting, Boosting, Equations, Kernel, Mathematical model, Optimization, Shape, Vectors

コンパクトでありながら高い判別性を持つ、浮動小数点および二値の局所特徴記述子を学習する、新たな汎用フレームワークを提案する。ブースティング技術を活用することで、まず、照明変動や視点変更に非常に頑強な、コンパクトな浮動小数点記述子 (floating-point descriptor) を効率的に訓練する方法を示す。次に、本稿の主要な成果である、本フレームワークの二値への拡張を提示する。この拡張は、提案手法の真の利点を実証し、記述子の更なる圧縮を可能とする。BinBoostと呼ぶ最終的な二値記述子の各ビットは、ブースト二値ハッシュ関数により計算される。また、このハッシュ関数同士が相補的となるように効率的に最適化する方法を示す。この相補性がコンパクトさと頑強さとを実現する鍵である。各ハッシュ関数の根底にある弱学習器設定 (weak learner configuration) に如何なる制約も課さないことから、我々の汎用フレームワークは、近年提案された手動生成された記述子 (hand-crafted descriptor) の標本化パターンを最適化し、その性能を顕著に向上することができる。これに加えて、提案するブースティング手法は、新たな用途に容易に適応することができ、顔など他の種類の画像データに一般化できる。更に、提案手法は、僅かな照合時間とメモリ使用量で最高水準の結果を提供する。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


相互作用を行う物体の複数ターゲット追跡を目的とする最小コスト多方向データ結合
Minimum Cost Multi-Way Data Association for Optimizing Multitarget Tracking of Interacting Objects

Park, C. , Department of Industrial and Manufacturing Engineering, Florida State University, Tallahassee, FL Woehl, T.J. Evans, J.E. Browning, N.D.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 3, pp. 611-624 , March 2015

Keywords: Data association, binary integer programming, decomposition, lagrange dual relaxation, Linear programming, Radar tracking, Target tracking, Time measurement, Trajectory, Video sequences, Visualization

本稿では、リンクの総コストを最小化する1対1、m対1、そして1対nのリンクを用いてデータ特徴を関連付ける、最小コストのデータ結合問題 (minimum cost data association problem) を対象とする、一般化フレームワークを提示する。本研究の動機となった事例として、動画フレームに記録された相互作用を行う複数のナノ粒子を追跡する課題が挙げられる。この課題では、複数の粒子が1つの粒子に集約されたり、1つの粒子が複数の粒子に分割されたりする。既存の複数ターゲット追跡手法の多くは、相互作用を伴わないターゲットの追跡や、限定された範囲の相互作用を伴うターゲットの追跡に対応している。提案する定式化により、物体間の一般的な相互作用を伴う環境における複数ターゲット追跡問題を解決することができる。この定式化は二値整数計画問題 (binary integer programming problem) の形式をとる。本稿では、二値整数計画問題の良好な緩和解 (relaxation solution) を得られる、多項式時間解法 (polynomial time solution approach) を提案する。これにより、提案手法は手ごろな規模 (数十フレームに跨る数百のターゲット) の複数ターゲット追跡問題に適用することができる。最終的な解は常に積分可能で、関連する問題の単純な線形緩和解と比較して、より良い双対性のギャップ (duality gap) を達成することができる。提案手法を、仮想的な複数ターゲット追跡問題と現実の複数ターゲット追跡問題とに適用し、妥当性を検証した。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


能動的試行探索を用いた非剛体グラフ整合
Non-Rigid Graph Registration Using Active Testing Search

Serradell, E. , Institut de Robòtica i Informàtica Industrial, CSIC-UPC, Barcelona, Spain Pinheiro, M.A. Sznitman, R. Kybic, J. Moreno-Noguer, F. Fua, P.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 3, pp. 625-638 , March 2015

Keywords: Graph matching, active testing search, non-rigid registration, Gaussian processes, Image resolution, Microscopy, Noise, Retina, Search problems, Testing

R^2またはR^3に埋め込まれたグラフを形成し、変形が生じている可能性のある、枝分かれした曲線構造同士を照合する、新たな手法を提示する。従来手法と異なり、提案手法は局所外観類似度に依存しないだけでなく、良好な初期整合を必要としない。更に、提案手法は、非線形歪み、トポロジー的な相違、そして部分グラフにも対応できる。任意の非線形歪みを扱うため、ガウス過程回帰を用い、2つのグラフを関連付ける幾何学的写像を表現する。外観情報が欠落していた際には、点の間の対応関係を反復的に構築し、同様に写像を更新し、それを次のステップで利用する最も尤もらしい対応関係を見つけるべき場所を推定するために利用する。大規模なグラフにおいて計算を容易にするために各反復において考慮される新しい潜在的な照合位置は、多くのRANSACベースのアルゴリズムとは異なりランダムには選択しない。その代わりに、能動的試行探索 (Active Testing Search) と呼ばれる戦略を導入する。能動的試行探索は、ヒープ探索 (priority search) を行うことで最も尤もらしい照合結果を優遇すると共に、処理を高速化する。合成データ、血管造影データ、眼底画像、そして大きく異なる解像度で撮影された顕微鏡画像集を用い、提案手法の有効性を実証する。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多チャネルEEG分析のための確率的共通空間パターン
Probabilistic Common Spatial Patterns for Multichannel EEG Analysis

Wu, W. , School of Automation Science and Engineering, South China University of Technology, Guangzhou, China Chen, Z. Gao, X. Li, Y. Brown, E.N. Gao, S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 3, pp. 639-653 , March 2015

Keywords: Common spatial patterns, Fukunaga-Koontz transform, brain-computer interface, electroencephalogram, sparse Bayesian learning, variational Bayes, Algorithm design and analysis, Bayes methods, Brain models, Electroencephalography, Inference algorithms, Probabilistic logic

共通空間パターン (Common Spatial Pattern, CSP) は、多チャンネル脳波図 (electroencephalogram, EEG) 分析のための、広く知られた空間フィルタ・アルゴリズムである。本稿では、確率的モデル化の条件にCSPアルゴリズムを導入する。具体的には、CSPアルゴリズムと正則化CSPアルゴリズムを包含する一般化EEG時空間モデル化フレームワークとして、確率的CSP (Probabilistic CSP, P-CSP) を提案する。提案フレームワークにより、CSPの過剰適合問題を原理的に解決することができる。また、局所最適化問題を緩和する、統計的推論アルゴリズムを導出する。特に、等方性ノイズが生じた際の最大事後確率 (Maximum A Posteriori, MAP) 推定のための、固有値分解に基づく効率的なアルゴリズムを開発する。より一般的なケースを対象とし、P-CSPモデルのグループごとのスパース・ベイズ学習と、モデルサイズの自動決定のための、変分型アルゴリズムを開発する。2つの提案アルゴリズムを、シミュレーションにより作成したデータセットを用いて検証する。3つの運動イメージEEGデータセットの単一試行分類 (single-trial classification) への成功裏の適用と、Stroop色応答課題において記録されたEEGデータセットの1つに対する時空間パターン分析の結果から、提案手法の実用上の有効性が実証される。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


離散モース理論を用いたデジタル画像の骨格化と分割
Skeletonization and Partitioning of Digital Images Using Discrete Morse Theory

Delgado-Friedrichs, O. , Department of Applied Mathematics, Research School of Physics and Engineering, the Australian National University, Canberra, ACT, Australia Robins, V. Sheppard, A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 3, pp. 654-666 , March 2015

Keywords: Curve skeleton, discrete Morse theory, medial axis transform, persistent homology, surface skeleton, watershed transform, Digital images, Face, Shape, Skeleton, Topology, Transforms, Vectors

本稿では、離散モース理論がどのようにして、グレースケールのデジタル画像の骨格や区画を定義する、精密且つ統合的基盤を提供するか、を示す。グレースケール画像を、頂点 (ボクセル値) に実数値関数 (real-valued function) が定義された立方体的複体 (cubical complex) としてモデル化する。この関数は、Robins、Wood、並びにSheppardによってTPAMI 33:1646 (2011)において提案されたアルゴリズムを用いることで、離散勾配ベクトル場へと拡張される。本稿では、盆地 (basin) (区画の構成要素) と骨格の断片とを、クリティカルセル (critical cell) と対応する安定または不安定なセットを用いて定義する。モース理論とホモロジーとの間の自然な関連性により、これらの構築に対するトポロジー的妥当性の証明が可能となる。例えば、骨格は初期物体と同位置に存在する (homotopic)。持続性ホモロジー (persistent homology) に着想を得た戦略を用い、離散勾配ベクトル場におけるクリティカルセルのモース理論に基づく打ち消し (Morse-theoretic cancellation) を通じて、盆地や骨格を単純化する。提案アルゴリズムの効率的なベクトル場の走査に用いることのできる、容易に動作可能なPythonコードを付属した。事例データは多孔質物質のマイクロCT画像を撮影して得た。多孔質物体の流体モデリングには、穴の連結性に対する正確なトポロジー・モデルが必須であることから、提案手法の応用分野となる。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


署名の合成:生体認証を目的とする神経運動に着想を得た手法
Static Signature Synthesis: A Neuromotor Inspired Approach for Biometrics

Ferrer, M.A. , Instituto Universitario para el Desarrollo Tecnológico y la Innovación en Comunicaciones, Universidad de Las Palmas de Gran Canaria, Las Palmas, Spain Diaz-Cabrera, M. Morales, A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 3, pp. 667-680 , March 2015

Keywords: Biometric recognition, ink deposition model, kinematic theory of human movements, motor equivalence theory, off-line signature verification, synthetic generation, Biometrics (access control), Finite impulse response filters, Kinematics, Thumb, Trajectory, Writing

本稿では、生体認証用途を目的とし、手書き署名の合成画像を生成する新たな手法を提案する。提案手法は運動の等価性 (motor equivalence) 機構を模擬することで、人間による手書きを2つのステップに分割する。これらは、エフェクタ非依存の行動計画の立案と、対応する神経筋経路 (neuromuscular path) を通じた実行である。行動計画は空間的な格子上の軌道として表現され、署名の文字列と、存在するようであれば飾り書き (flourish) とを包含する。神経筋経路は、運動学的カイザー・フィルタを軌道計画に適用することでシミュレーションされる。フィルタ長は、シグマ正規対数モデル (sigma lognormal model) のスカラ版を用いて生成された、ペン速度に依存する。合成署名の語彙的特性や形態学的特性と、合成パラメータの範囲は、MCYTオフライン・コーパスやGPDS960GraySignatureコーパスなど現実の署名で構成される実際のデータベースを用いて推定された。性能評価実験から、僅か4つのパラメータをチューニングするだけで、様々な安定性や様々な技術を持った偽造者 (forger) の人工的な個性 (synthetic identity) を生成することが可能であることが示される。したがって、現実の署名から成るデータベースと同等の性能を持つ、合成署名のデータセットを作成することが可能である。更に、研究者の要求に応じて、高度な偽造や、より容易に検出可能な単純な偽造など、作成するデータセットをカスタマイズできる。知覚評価から、現実の署名と合成署名との間の混同率は平均44.06%であることが示される。このことから、合成署名の本物らしさが証明される。ペンの種別や自動サイン検証器のユーザ数による影響の調査を通じて、合成署名の有用性を実証する。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非接触、低コスト、且つ正確な三次元指紋認証に向けて
Towards Contactless, Low-Cost and Accurate 3D Fingerprint Identification

Kumar, A. , Department of Computing, The Hong Kong Polytechnic University, Kowloon, Hong Kong Kwong, C.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 3, pp. 681-696 , March 2015

Keywords: 3d fingerprint individuality, 3d fingerprint matching, 3d minutiae, Biometrics, contactless fingerprint identification, photometric stereo, Cameras, Fingerprint recognition, Image matching, Image reconstruction, Lighting, Surface reconstruction, Three-dimensional displays

指紋圧痕 (fingerprint impression) を用いた人物認証は広く研究され、2000年以上に渡って利用されてきた。近年の三次元画像技術の進歩にも拘らず、三次元指紋特徴やその照合の方法論は、依然広く受け入れられているとは言い難い。本稿では、広く利用されている二次元細部特徴 (minutiae feature) の三次元表現を探求する。このために、(i) 細部高さzと、(ii) その三次元方向φ との情報を復元し導入する。また本稿では、定評のある細部特徴を三次元空間に拡張した特徴の、効果的な照合戦略を説明する。発展途上の三次元指紋認証システムが従来の二次元のシステムを置き換える上で障害となっているものの一つに、その大きさとコストの高さがある。この主要因は、構造化照明システムや複数台のカメラの利用にある。本稿では、現在の三次元指紋認証技術において鍵となるこれらの制約に対処するために、一台のカメラに基づく三次元指紋認証システムを開発する。一般化三次元細部照合モデルを開発し、再構成された三次元の指紋から拡張三次元指紋特徴を復元する。三次元指紋再構成により得られた二次元の指紋画像は、それ自体を性能向上に利用することができ、その詳細は本稿において説明する。本稿では更に、三次元指紋に固有の判別的情報が存在するか否か、という最も根本的な疑問の一つに対して回答することを試みる。240人の被験者の三次元指紋から構成されるデータベースを用いた実験結果を示すと共に、性能向上を実現する三次元細部表現とその照合の判別能力を実証する。実験に用いたデータベースは、本研究分野における更なる研究活動のために公開されている。

SN

Copyright (c) 2015 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.37, No.5

ブロックから安定性までの三次元推論
3D Reasoning from Blocks to Stability

Jia, Z. , School of Electrical and Computer Engineering, Cornell University, Ithaca, NY Gallagher, A.C. Saxena, A. Chen, T.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 5, pp. 905-918 , May 2015

Keywords: Segmentation, computer vision, scene understanding, Cognition, Color, Feature extraction, Image color analysis, Image segmentation, Stability analysis, Three-dimensional displays

物体は物理空間を占有し、物理法則に従う。シーンを完全に理解するには、物体が占有する空間、並びに物体同士がどのように安定して支え合っているか、について推論しなければならない。換言すれば、どの物体を移動させると他の物体が落下するか、について理解を試みる。この三次元立体推論は、物体の分割から、豊かな三次元の知覚、十分な物理的根拠に基づく解釈まで、多くのシーン理解の課題において重要である。本稿では、三次元ブロック・ユニットを撮影した1枚のRGB-D画像を解析すると共に、断片、立体、支持関係、そして物体の安定性に関して同時に推論をする、新たなアルゴリズムを提案する。提案アルゴリズムは、シーンの良い三次元表現とは深度データに良好に整合すると共に、安定で、物体が自己支持されている (つまり、倒れない) ものである、という直感に基づいている。ブロック表現を表すエネルギー関数をそれらの特性に基づいて設計する。本アルゴリズムは、三次元ブロックを画像断片に対応する距離情報に整合させ、エネルギー関数を反復的に最適化する。提案アルゴリズムは、シーンの根底にある構造に関する推論に際して、複雑な配置における物体の安定性を考慮する最初のものである。実験結果から、提案する安定性推論フレームワークによってRGB-D分割とシーン立体表現が改善することが実証される。

SN

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


再重み付きメッセージ伝送に対する新しい見解
A New Look at Reweighted Message Passing

Kolmogorov, V. , Institute of Science and Technology (IST), Klosterneuburg, Austria

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 5, pp. 919-930 , May 2015

Keywords: Graphical models, MAP estimation, graphical models, message passing algorithms, Convergence, Graphical models, Labeling, Linear programming, Message passing, Probability distribution, Vectors

本稿では、グラフィカル・モデルにおけるMAP推定を対象とする、メッセージ伝送 (message passing) 技術の新たな一群を提案する。この技術は逐次的再重み付きメッセージ伝送 (Sequential Reweighted Message Passing: SRMP) と呼ぶ。本技術の特殊な例は、最小和拡散 (Min-Sum Diffusion: MSD)と高速化逐次ツリー再重み付きメッセージ伝送 (Sequential Tree-Reweighted Message Passing ,TRW-S) とを含む。特筆すべきは、本稿による導出はTRW-Sの元の導出よりも単純であり、ツリーへの分解を伴わない。このことは一般化を容易にする。提案するアルゴリズムの新たな一群は、対毎から高次グラフィカル・モデルまでのTRW-Sの一般化と捉えることができる。SRMPを幾つかの実世界の課題を用いて実験し、有望な結果を得る。

SN

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


境界を維持する密な局所領域
Boundary Preserving Dense Local Regions

Kim, J. , Amazon Grauman, K.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 5, pp. 931-943 , May 2015

Keywords: Distance transform, Feature matching, Local feature, Object recognition, Segmentation, Shapes, distance transform, feature matching, object recognition, segmentation, shapes, Detectors, Feature extraction, Image segmentation, Joining processes, Reliability, Shape, Transforms

本稿では、画像照合と物体認識の課題に適した特徴を抽出する、密な局所領域検出器を提案する。従来の局所特徴演算子 (local interest operators) が物体境界を跨ぐ繰り返し構造 (例えば、角、尺度空間ブロブ) に依存するのに対し、提案するサンプリング戦略は分割により駆動され、従って物体境界や形状を維持する。同時に、既存の領域ベースの表現は分割パラメータや物体の変形に敏感であるのに対し、提案する新たな手法は密な場所を頑強にサンプルし、それらの連結性を特定するため、再現性が高い。大規模な実験から、本稿で提案する領域検出器は既存の特徴抽出器の一群と比較して、再現性と位置特定精度の観点で明らかに優れていることが確認される。これに加え、提案手法で抽出された領域は、良好な特徴照合を必要とする2つのベンチマーク課題において、素晴らしい結果をもたらす。これらの課題は、弱教師あり前景抽出 (foreground discovery) と最近傍ベースの物体認識である。

SN

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔動作ユニットの強度推定を目的とする文脈に敏感な動的順序回帰
Context-Sensitive Dynamic Ordinal Regression for Intensity Estimation of Facial Action Units

Rudovic, O. , Department of Computing, Imperial College London, London, 180 Queen's Gate, UK Pavlovic, V. Pantic, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 5, pp. 944-958 , May 2015

Keywords: FACS, action unit intensity, conditional random fields, context modeling, facial expression analysis, ordinal regression, spontaneous facial behavior, Context, Context modeling, Data models, Estimation, Gold, Noise, Support vector machines

自然発生的に提示される顔表情から顔動作ユニット (facial action units) の強度をモデル化することは困難を伴う。この主要因は、被写体特有の顔表現能力 (subject-specific facial expressiveness) や頭部の移動、照明の変動などの大きなばらつきである。これらの要因は、対象とする課題を極めて文脈に敏感なもの (context-sensitive) にする。しかし、既存手法は一般的に、対象とする課題の持つこの文脈に対する敏感さを無視する。本稿では、顔動作ユニット強度の文脈に敏感なモデル化を目的とする、新たな条件付き順序確率場 (Conditional Ordinal Random Field: CORF) モデルを提案する。このモデルでは、文脈のW5+ (誰が(who)、いつ(when)、何を(what)、どこで(where)、なぜ(why)、どのように(how)) の定義を利用する。提案モデルは6つの文脈的質問 (context questions) を扱う上で十分に一般的であるが、本稿では3つの文脈的質問に焦点を当てる。それらは、「誰が」(観察対象)、「どのように」(顔表情の変化)、そして「いつ」(顔表情のタイミングとその強度) である。文脈的質問の「誰が」と「どのように」は新たに導入する文脈依存の共変量効果 (covariate effects) によりモデル化する。また、文脈的質問の「いつ」は順序出力間の時間相関 (即ち、動作ユニットの強度レベル) に基づいてモデル化する。本稿では更に、強度レベルが偏った分布を持つデータからの、CRFの重み付きソフトマックス・マージン学習を導入する。この様な偏りは、自然な顔データにおいてよく見られるものである。提案モデルを、痛みと顔動作ユニットの強度推定に対して評価する。評価には近年公開された自然発生的に提示される顔表情を記録した2つのデータセット (UNBC Shoulder PainとDISFA) を用いる。実験から、提案モデルは最先端手法と比較して、対象課題に対して明らかに高性能であることが示される。更に、従来のCRF学習と比較し、提案する重み付き学習は、アンバランスな強度データから、より頑強なパラメータ推定を実現することを実証する。

SN

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


物体形状検出を目的とする判別的に訓練されたAnd-Orグラフモデル
Discriminatively Trained And-Or Graph Models for Object Shape Detection

Lin, L. , , Sun Yat-sen University, Guangzhou, P. R., China Wang, X. Yang, W. Lai, J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 5, pp. 959-972 , May 2015

Keywords: And-Or Graph, Object detection, grammar model, structural optimization, Collaboration, Context, Image edge detection, Layout, Optimization, Shape, Vectors

本稿では、画像中の物体形状の認識を目的とし、And-Orグラフモデルと呼ぶ新たな再調整可能なパーツベースモデルを検証する。提案モデルは、葉ノード、orノード、andノード、そしてルートノードの4レイヤで構成される。葉ノードは底部に位置し、輪郭片を検出する局所分類器である。orノードは葉ノードの上部に位置し、従属する葉ノードを有効化するスイッチとして機能することで、推定過程におけるモデルの再調整を可能とする。andノードは更に上位レイヤに属し、全体的な形状変形を捉える。ルートノードは最上位レイヤに1つだけ存在するorノードであり、従属するandノードのうち1つを有効化することで、大域的なばらつき (例えば、異なる姿勢や視点) に対処する。本稿では新たな構造的最適化アルゴリズムを提案することで、部分的にアノテーションされたデータ (weakly annotated data) からAnd-Orモデルを判別的に訓練する。本アルゴリズムは、パラメータ学習と共にモデル構造 (例えば、ノードやそのレイアウト) を反復的に決定する。幾つかの高難易度のデータセットにおいて、提案モデルは、乱雑な背景に対する頑強な形状ベースの物体認識の実現における有効性を実証すると共に、他の最先端手法の性能を凌駕する。本稿ではまた、1500以上の高難易度の形状要素を含む、認識や検出を目的とするアノテーション付きの新しい形状データベースを公開する。

SN

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


判別的関係トピックモデル
Discriminative Relational Topic Models

Chen, N. , MOE Key lab of Bioinformatics, Bioinformatics Division and Center for Synthetic & Systems Biology, Center for Brain Inspired Computing Research (CBICR), TNLIST, Department of Computer Science and Technology, State Key Lab of Intelligent Technology and Systems, Tsinghua University, Beijing, China Zhu, J. Xia, F. Zhang, B.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 5, pp. 973-986 , May 2015

Keywords: Statistical network analysis, data augmentation, regularized Bayesian inference, relational topic models, statistical network analysis, Analytical models, Bayes methods, Data models, Fasteners, Logistics, Predictive models, Training

関係トピックモデル (Relational Topic Model: RTMs) は、文書ネットワークにおいてリンク構造と文書内容とを表現する確率的生成過程を提供する。また、RTMsはネットワーク構造を予測し、潜在トピック表現を発見する将来性を示している。しかし、既存のRTMsは、モデル表現力の制限やアンバランスなネットワークデータを扱えないという制約がある。RTMsの適用範囲を拡張すると共に推定精度を向上させるために、本稿では3つの拡張を提示する。1) 一般的なリンク尤度は同一トピック間の相互作用のみを許容する対角重み行列であるのに対し、これを一般化することで重み行列全体を利用する。これにより、全てのペア間のトピック相互作用を捉え、非対称のネットワークにも適用可能となる。2) 標準のベイズ推定を行うのではなく、正則化ベイズ推定 (regularized Bayesian inference: RegBayes) を行う。正則化パラメータを持つことで、現実のネットワークで生じるアンバランスなリンク構造問題に対処し、学習した潜在表現の判別能力を向上させる。3) 厳密な平均場仮定 (mean-field assumptions) を置く変分近似を行うのではなく、一般化関連トピックモデルを対象とする崩壊型ギブスサンプリング (collapsed Gibbs sampling) アルゴリズムを提示する。これは制約を伴う仮定を置くことなくデータ拡張を模索することで実現される。一般的なRegBayesフレームワークの下で、本稿では定評のある2つの判別的損失関数を慎重に調査する。具体的には、物流対数損失 (logistic log-loss) とマージン最大化ヒンジ損失 (max-margin hinge loss) である。幾つかの実ネットワーク・データセットを用いた実験結果から、推定精度の向上に対するこれらの拡張の有効性が実証される。

SN

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチモーダル・プッシュブルームカメラを用いた観測衛星の高度推定
Estimation of an Observation Satellite’s Attitude Using Multimodal Pushbroom Cameras

Perrier, R. , CEA Leti, Grenoble, France Arnaud, E. Sturm, P. Ortner, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 5, pp. 987-1000 , May 2015

Keywords: Maximum A Posteriori estimator, Multimodal image registration, hyperparameter learning, maximum a posteriori estimator, multimodal image registration, pushbroom cameras, satellite attitude, Cameras, Equations, Geometry, Image registration, Radiometry, Satellite broadcasting, Satellites

プッシュブルームカメラ (Pushbroom camera) は地球観測用途で広く用いられている。このセンサは長時間に渡って1次元の画像を取得し、衛星の直線運動を利用して空間のある領域を掃き出すことで2次元画像を構築する。(訳者注:押し箒 (=プッシュブルーム、1次元のセンサ) を床 (被写体、この場合は地表) に沿って滑らせることで、掃かれた領域 (2次元画像) が得られる) プッシュブルーム獲得過程において衛星の安定性は極めて重要である。したがって、衛星の高度に経時変化がないものと仮定される。しかし近年、打ち上げ費用の削減を目的とし、より小型で軽量な衛星が製造されており、この仮定が成り立たなくなりつつある。衛星軌道の僅かな振動は、画像における明確な変形につながり、取得すべき情報が得られないことで位置情報が失われる。現状の対策は内部センサを用いて高度制御や画像補正を行うが、これらは高価であるだけでなく精度に限界がある。変形した画像は高度変化の情報を保持していることから、本稿では画像の位置合わせを用いることで、高度変化を推定することを提案する。焦点平面の幾何学的形状と、外乱の静的特性を活用することで、歪のない画像を復元する。この推定処理をベイジアン・フレームワークに埋め込むことで、画像の位置合わせ、高度変化の事前知識、そして放射輝度補正モデルを統合し、衛星の運動を復元する。4つの衛星データセットを用い、提案アルゴリズムの性能を実証する。

SN

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


実時間多クラス物体認識を目的とする一般化スパースレット・モデル
Generalized Sparselet Models for Real-Time Multiclass Object Recognition

Song, H.O. , Department of Electrical Engineering and Computer Science, University of California at Berkeley, Berkeley, CA Girshick, R. Zickler, S. Geyer, C. Felzenszwalb, P. Darrell, T.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 5, pp. 1001-1012 , May 2015

Keywords: Object detection, deformable part models, real-time vision, sparse coding, Computational modeling, Deformable models, Dictionaries, Image reconstruction, Object detection, Sparse matrices, Vectors

物体認識の分野において、実時間での多クラス物体認識は、実用面で非常に重要な課題である。本稿では、共通表現、再構成スパース性、そして並列性 (parallelism) を同時に活用することで、変形可能なパーツモデル (deformable parts models) を用いた実時間での多クラス物体認識を可能とするフレームワークを説明する。これにより、処理性能をほぼ低下させることなく、ノートパソコン上で5Hzで動作させることができる。提案フレームワークは、標準の構造化出力推定形式 (standard structured output prediction formulation) で訓練され、多クラス、多畳み込み推論 (multi-convolutional inference) が計算ボトルネックとなる物体認識システムの高速化に広く適用可能である。PASCAL VOC、ImageNetの一部、Caltech101、そしてCaltech256データセットを用い、提案手法の効率性と処理性能を実験的に証明する。

SN

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


物体認識を目的とする準最適なコスト考慮型決定指針の学習
Learning Near-Optimal Cost-Sensitive Decision Policy for Object Detection

Wu, T. , Department of Statistics, University of California at Los Angeles, Los Angeles, CA Zhu, S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 5, pp. 1013-1027 , May 2015

Keywords: Decision policy, cost-sensitive computing, dynamic programming, object detection, risk minimization, Accuracy, Additives, Detectors, Object detection, Probability, Support vector machines, Training

AdaBoost、SVM、変形可能なパーツベースモデル (deformable parts-based models) を初めとする多くの有名な物体検出器は、ある画像ピラミッドにおいて多数の窓内で加算性のスコア関数 (additive scoring function) を計算する。このためリアルタイム用途では、精度を除けば計算効率が重要な問題である。本稿において決定指針 (decision policy) とは、各ステップにいて累積スコアに基づく早期棄却 (early reject) と早期採用 (early accept) を実施する、両側閾値 (two-sided thresholds) の系列を表す。本稿では実験的リスク関数を、計算コストと誤検出や未検出に伴う損失の加重和として定式化する。次に、決定指針はコストに敏感であり、リスク関数を最小化する場合に最適であると考える。両側閾値間の高次相関に起因してリスク関数は複雑であるが、上界が動的計画法により効率的に最適化できることを発見する。本稿では、上界が経験的に極めて厳密であることを示す。このため、最終的に得られる指針は準最適であると考えられる。提案する決定方針が最先端のカスケード手法と同等の検出精度を維持しつつ、高い計算効率を実現しており、性能面で明らかに優位であることを実証する。

SN

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


衣類解析を目的とする類似スタイル検索
Retrieving Similar Styles to Parse Clothing

Yamaguchi, K. , Graduate School of Information Sciences, Tohoku University, Sendai, Miyagi, Japan Kiapour, M.H. Ortiz, L.E. Berg, T.L.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 5, pp. 1028-1040 , May 2015

Keywords: Clothing parsing, clothing recognition, image parsing, pose estimation, semantic segmentation, Estimation, Footwear, Image color analysis, Predictive models, Semantics, Training

衣類認識は、社会的、経済的に重要な課題であるものの、衣類の外観や重ね合わせ、スタイル、そして身体形状や姿勢の大きなばらつきに起因する極めて困難な課題でもある。本稿では、衣類解析の問題に対し、画像検索ベースの手法を用いて取り組む。1つのクエリ画像に対し、タグ付けされたファッション画像の大規模なデータベースから類似するスタイルを探索し、これらの事例を用いてクエリ画像に存在する服飾品を認識する。提案手法は、事前学習した大域衣類モデル、検索により得た画像群を逐次学習した局所衣類モデル、並びに同画像群から移植したパースマスク (紙人形アイテム転写 (Paper Doll item transfer)) の解析結果を組み合わせる。提案手法を詳細に評価し、既存の最先端技術よりも定位 (タグ形式の弱教師あり衣類解析) と検出 (一般化衣類解析) の両側面において、顕著な性能向上が得られることを実証する。

SN

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


インスタンスレベルの弱い制約を用いた半教師付き親和性伝播法
Semi-Supervised Affinity Propagation with Soft Instance-Level Constraints

Arzeno, N.M. , Department of Electrical and Computer Engineering, the University of Texas at Austin, Austin, TX Vikalo, H.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 5, pp. 1041-1052 , May 2015

Keywords: Clustering algorithms, affinity propagation, graph algorithms, noisy pairwise constraints, semi-supervised learning, Availability, Clustering algorithms, Damping, Euclidean distance, Noise measurement, Softening

弱い制約を伴う半教師付き親和性伝播法 (Soft-Constraint Semi-Supervised Affinity Propagation: SCSSAP) は、インスタンスレベルの制約を厳密に課すことなく、親和性伝播 (Affinity Propagation: AP) 分類アルゴリズムを監視することができる。提案アルゴリズムの各反復において、制約への違反に伴いAP類似度行列が更新されると共に、目的関数にペナルティが追加される。この定式化は雑音の多いラベル、または雑音の多い制約が存在する条件において特に有用である。これは、SCSSAPのペナルティ・パラメータを、インスタンスレベル制約に対する設計者の確信度を反映するようチューニングできるためである。制約にノイズが存在しない場合、SCSSAPは教師なしAPを凌駕すると共に、少なくとも従来提案されている半教師付きAPや制約付き期待値最大化法と同水準の性能を示す。ラベルや制約のノイズが存在する場合、SCSSAPは前記既存アルゴリズムよりも高精度な分類に繋がる。最後に、この手法は最適化の目的関数に計量学習を導入する、SCSSAPの拡張を提示する。この拡張により、分類性能を更に向上させることができる。

SN

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


粗密戦略を用いた領域ベースのソボレフ降下による遮蔽を伴う形状追跡
Shape Tracking with Occlusions via Coarse-to-Fine Region-Based Sobolev Descent

Yang, Y. , Department of Electrical Engineering, King Abdullah University of Science and Technology (KAUST), Thuwal, Saudi Arabia Sundaramoorthi, G.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 5, pp. 1053-1066 , May 2015

Keywords: Object segmentation from video, deformable templates, object tracking, occlusions, optical flow, shape metrics, Joints, Manifolds, Optical imaging, Optimization, Shape, Tracking

本稿では動画から物体の形状を追跡する手法を提示する。本手法は物体の形状と外観との結合モデル (joint shape and appearance model) を用いる。このモデルを伝播させることで、連続するフレーム間での形状と輝度とを照合し、物体形状を測定する。物体のカメラに対する自己遮蔽 (self-occlusion) や遮蔽の解消 (dis-occlusion) 、並びに物体の運動は、形状と外観との結合モデルによる追跡にとって課題となる。これらのモデルは新たな形状や外観の情報に適合することができず、不正確な形状検出へと繋がる。本稿では、形状と外観との結合追跡フレームワークにおける、自己遮蔽と遮蔽の解消とをモデル化する。自己遮蔽とモデルの伝播に用いるワープとを組み合わせ、結合最適化問題として定式化する。本稿では、追跡において有効な粗密最適化手法を導出する。この手法では、まず粗い摂動 (perturbation) によりモデルを変動させ、続いて細かい摂動へとシームレスに遷移する。この粗密運動は、本稿において紹介する新たな無限次元リーマン多様体に対する勾配降下により、自動的に誘発される。この多様体はパラメータ化された平面領域で構成され、導入するその計量は新たなソボレフ軽量である。遮蔽や遮蔽の解消、複雑な輝度や背景を持つ動画を用いた実験から、遮蔽と遮蔽の解消のモデル化は、高精度な形状測定に繋がることが示される。

SN

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔認識を目的とする辞書分割による疎と密のハイブリッド表現
Sparse and Dense Hybrid Representation via Dictionary Decomposition for Face Recognition

Jiang, X. , School of Electrical and Electronics Engineering, Nanyang Technological University, Nanyang Link, Singapore Lai, J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 5, pp. 1067-1079 , May 2015

Keywords: Sparse representation, classification, dictionary learning, face recognition, low-rank matrix recovery, Dictionaries, Face, Face recognition, Sparse matrices, Training, Training data, Vectors

疎な表現は、全てのクラスについて適切な数の訓練サンプルが存在し、訓練データに偏りがない条件で、分類課題に対する有効なツールを提供する。しかし、多くの実用途ではこの様な条件は成り立たない。顔認識はこのような事例の一つであり、多数の識別対象が存在する一方で、全ての識別対象に対する十分に代表的で偏りのない訓練画像を担保することはできない。2つの条件が満たされないことは、疎な表現に基づく分類手法 (Sparse Representation-based Classification: SRC) の性能低下につながる。本稿では、SRCの利点や制限を分析することで、この重大な問題に取り組む。SRCの課題を緩和する目的で、本稿において疎と密のハイブリッド表現 (Sparse- and Dense-hybrid Representation: SDR) フレームワークを提案する。更に、教師付き低ランク (Supervised Low-Rank: SLR) 辞書分割の手続きを提案し、SDRフレームワークの効果を高める。これに加えて、提案するSLR辞書分割により、訓練データの偏り問題が緩和される。提案するSDR-SLR法を顔認識へ適用することで、提案手法のこの分野における有効性と先進性が確認される。ベンチマーク顔データベースを用いた詳細な実験から、提案手法が最先端の疎な表現に基づく手法を安定的に凌駕すると共に、多くのケースにおいて顕著な性能向上が見られることが実証される。

SN

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多者ランク付けと順序回帰における統計的最適性
Statistical Optimality in Multipartite Ranking and Ordinal Regression

Uematsu, K. , Yamanashi Testing Center, Chemitox, Inc., Hokuto, Yamanashi, Japan Lee, Y.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 5, pp. 1080-1094 , May 2015

Keywords: Bayes optimality, consistency, convex risk, multipartite ranking, ordinal regression, Measurement, Minimization, Ranking (statistics), Sociology, Support vector machines, Training data

多者ランク付け(multipartite ranking)における統計的最適性を、二者ランク付け(bipartite ranking)の拡張として調査する。順序カテゴリの対ごとのランク付け誤りと微分ランク付けコストとを組み合わせた理論的リスクの最小化を通じ、ランク付けアルゴリズムの最適性を検討する。この拡張により、最適なランク付け関数は、指数損失を含む凸な損失関数のあるクラスにおいて、上位カテゴリと下位カテゴリとの重み付き条件付き確率の比として表現できることが示される。ここで、重みはランク付け誤りコストにより与えられる。この結果はまた、統計分野における比例オッズモデル(proportional odds model)などの伝統的なランク付け手法と機械学習における様々なランク付けアルゴリズムとを橋渡しする。更に、異なるコストを用いた多者ランク付けを分析することで、減損累積利得(discounted cumulative gain)や順序学習(preference learning)などの非平滑リスト毎ランク付け尺度(non-smooth listwise ranking measures)に対する新たな視点を提供する。シミュレーションによる研究と実データの分析を用いて、得られた知見を説明する。

SN

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


姿勢の事前知識と対象に適した識別的特徴を用いたカメラネットワークにおける視点に非依存の人物再特定
Viewpoint Invariant Human Re-Identification in Camera Networks Using Pose Priors and Subject-Discriminative Features

Wu, Z. , Department of Electrical, Computer, and Systems Engineering, Rensselaer Polytechnic Institute, Troy, NY Li, Y. Radke, R.J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 5, pp. 1095-1108 , May 2015

Keywords: Camera Networks, Human Re-Identification, Human re-identification, Viewpoint invariance, camera networks, viewpoint invariance, Cameras, Feature extraction, Histograms, Image color analysis, Measurement, Strips, Surveillance

視野の重なりを持たないカメラ間での人物再特定は、ビデオ監視と分析における最も重要で困難な課題の1つである。しかし、既存のアルゴリズムは幾つかの理由から実世界のシナリオにおいて適切に動作しないことが多い。例を挙げれば、監視カメラは一般に地面よりも高い位置に設置されており、深刻な視点変化が生じる。また、大半のアルゴリズムは、カメラの視点や人物の姿勢に依らず、同一の記述子を用いて画像間での照合を行う。本稿では、これら両方の課題に対処する再特定アルゴリズムを照会する。まず、校正済みのカメラを用いて収集した訓練データを用い、人物の外観を姿勢の関数としてモデル化する。次に、この姿勢の事前知識をオンライン再特定に適用することで、視点に対する照合と特定の頑強性を向上させる。更に、追跡過程において学習した個人に特有の特徴を統合することで、提案アルゴリズムの性能を向上させる。提案アルゴリズムの性能を評価すると共に、幾つかの最先端アルゴリズムと比較する。この結果から、標準ベンチマーク・データセットと、より高難易度の空港での監視シナリオにおける、提案アルゴリズムの有効性を実証する。

SN

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


何故クラス不均衡なデータを再調整することで線形判別分析のAUCが改善するのか?
Why Does Rebalancing Class-Unbalanced Data Improve AUC for Linear Discriminant Analysis?

Xue, J. , Department of Statistical Science, University College London, London, WC1E 6BT, United Kingdom Hall, P.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 5, pp. 1109-1112 , May 2015

Keywords: AUC, ROC, class imbalance, class rebalancing, linear discriminant analysis, oversampling, undersampling, Covariance matrices, Data mining, Educational institutions, Linear discriminant analysis, Training, Training data, Vectors

既に確立された分類器の多くは、多数派のクラスよりも極めて小さい少数派のクラスを識別することができない。この問題に対処するため、研究者らは多くの場合、まず少数派クラスのオーバーサンプリングや多数派クラスのアンダーサンプリングにより訓練データセットのクラスサイズを再調整し、続いて再調整されたデータを用いて分類器を訓練する。この手続きは興味深い実験的なパターンを誘発する。特に、再調整された訓練データを用いることで多くの場合、元の未調整のテストデータに対する受信者操作特性 (Receiver Operating Characteristic: ROC) 曲線の曲線下面積 (Area Under the Curve: AUC) を改善することができる。AUCは広く利用されている分類性能の定量評価尺度であるが、再調整により値が増加するその特性は、依然として理論的に説明されていない。本稿では、ガウス分布に基づく線形判別分析 (Linear Discriminant Analysis: LDA) を識別器として用いることで、少なくともLDAにおいて、クラスサイズの再調整とAUCの改善との間に、固有の正の関係が存在することを実証する。AUCの最大の改善は、2つのクラスが同一のサイズとなるよう完全に再調整された場合に、漸近的に達成されることを示す。

SN

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.37, No.6

顔感情の自動分析:登録、表現、認識の調査
Automatic Analysis of Facial Affect: A Survey of Registration, Representation, and Recognition

Sariyanidi, E. , Centre for Intelligent Sensing, School of Electronic Engineering and Computer Science, Queen Mary University of London, London E1 4NS, United Kingdom Gunes, H. Cavallaro, A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 6, pp. 1113-1133 , June 2015

Keywords: Affect Sensing and Analysis, Affect sensing and analysis, Facial Expressions, Facial Representations, Registration, Survey, facial expressions, facial representations, registration, survey, Emotion recognition, Face, Face recognition, Histograms, Lighting, Shape, Training

自動感情解析は、アクションユニットや基本的感情もしくは基本的感情以外の認識を含む様々な場面において、大きな関心を引いてきた。これまでに多くの研究が行われてきたにも関わらず、顔感情を解釈するのに重要な手がかりは何なのか、またそれをどのように符号化するかという疑問に関して、いくつか未解決な点がある。本論文では、これらの基礎的な疑問を明確にするために、感情認識の幅広い分野にわたっての応用法の発展について論じる。本論文では最新の問題解決手法に着目し、そのパイプラインを基本的な構成要素に分解することによって分析する。その構成要素とは、顔画像登録、顔表現、次元削減、顔認識である。本論文では、これらの構成要素の役割について議論し、その設計から従うモデルと新しい傾向に着目する。さらに、顔表現に対し、利点と制限事項を明らかにすることで、包括的な分析を行う ; 本論文では、それらが符号化する情報のタイプの詳細を述べ、それらがどのように、主要課題である照明変化、顔登録エラー、頭部姿勢変化、オクルージョン、識別バイアスを取り扱うかを議論する。この調査によって、未解決の課題を明らかにし、実世界に影響を及ぼす認識システムの設計に関する将来の方向性を定めることが可能となる。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


The Sum of Partsを越えて:従属エンティティのグループを用いた投票
Beyond the Sum of Parts: Voting with Groups of Dependent Entities

Yarlagadda, P. , Department of Mathematics and Computer Science, and the Heidelberg Collaboratory for Image Processing (HCI), University of Heidelberg, Speyerer Str. 6,, Heidelberg, Germany Ommer, B.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 6, pp. 1134-1147 , June 2015

Keywords: Grouping, Hough Voting, Object detection, Recognition, Visual learning, grouping, hough voting, recognition, visual learning, Computational modeling, Feature extraction, Joints, Object detection, Training, Transforms, Vectors

散らかった風景に対してのマルチスケールの、カテゴリーレベルの物体検知の複雑性は、Hough投票法によって効率的に取り扱うことができる。しかしこのアプローチの主な欠点は、相互に依存した局所的な観測が、物体スケールのように、本質は大域的であるような物体の特性に対して独立に投票を行う点である。物体の仮説は、それゆえに、単なるそれらの部分の投票の合計にすぎないと考えられる。しかし、一般的な表現体系は、半局所画像の特徴の密なサンプリング(Dense sampling)に基づいており、それらは従って相互に依存している。本論文では、部分の依存性を利用し、次の3つの密接に関係した問題を結びつける目的関数を得ることによって、それらをHough投票法に組み入れる:i)互いに依存した部分をグループとしてまとめること、ii)依存した部分に対して、一体化して対応問題を解くこと、iii)局所的な観測にのみ基づいたものでなく拡張されたグループを用いて、協調する物体の仮説を見つけること。部分を、局所的に最良な対応関係に対する単一の投票のみに制限しないことによって、早期に関係付けを行わないようにし、また、本論文では、部分の一つの物体に対する異なる妥当性を反映するように、訓練中に部分に重み付けできるようにする。実験では、Hough投票法に、グルーピングを通じた部分の依存関係を組み入れることの利益を示すことができた。グルーピングの同時最適化、対応付け、投票は、Hough投票法や移動窓ベースラインに比べて検出精度を向上させるだけでなく、候補となる仮説の数を大幅に減らすことによって計算複雑性も軽減する。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔画像からのデモグラフィック情報推定 : 人間対機械の性能
Demographic Estimation from Face Images: Human vs. Machine Performance

Han, H. , Department of Computer Science and Engineering, Michigan State University, East Lansing, MI Otto, C. Liu, X. Jain, A.K.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 6, pp. 1148-1161 , June 2015

Keywords: Demographic estimation, crowdsourcing, demographic informative feature, hierarchical approach, human vs. machine, quality assessment, Active appearance model, Databases, Estimation, Face, Feature extraction, Image color analysis, Shape

デモグラフィック情報推定には、人物の顔画像からの、その人の年齢、性別、民族の自動的な推定が必要である。これには、法医学からソーシャルメディアまで、幅広い応用の可能性がある。自動デモグラフィック情報推定、特に年齢の推定には、同じデモグラフィックグループ属する人の中でも、内的あるいは外的要因によって顔の外観が大きく異なりうるために、難しい問題が残っている。本論文では、自動デモグラフィック情報(年齢、性別、民族)推定のための包括的なフレームワークを紹介する。与えられた顔画像に対し、まずブースティングアルゴリズムを経て、デモグラフィック情報の特徴を取り出し、グループ間分類、グループ内回帰から構成される階層的アプローチを用いる。信頼可能なデモグラフィック推定を得ることが難しい低品質な顔画像を識別するために、質的評価も開発されている。FG-NET ( 1,000画像), FERET ( 3,000画像), MORPH II ( 75,000画像), PCSO ( 100,000画像), and a subset of LFW ( 4,000画像)など、顔画像データベースの多様な集合上での実験結果は、提案手法が、最新の手法よりも優れた性能であることを示している。最後に、顔画像からのデモグラフィック推定の人間の知覚力を調査するために、クラウドソーシングを用いる。クラウドソースデータからのデモグラフィック推定と、提案アルゴリズムを並べての比較により、この難しい問題に対して多くの洞察が得られた。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


有向連結演算子:画像フィルタリング、分割のための非対称な階層
Directed Connected Operators: Asymmetric Hierarchies for Image Filtering and Segmentation

Perret, B. , ESIEE-Paris, Université Paris-Est Marne-la-Vallée, LIGM, Paris, France Cousty, J. Tankyevych, O. Talbot, H. Passat, N.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 6, pp. 1162-1176 , June 2015

Keywords: Mathematical morphology, antiextensive filtering, connected operators, hierarchical image representation, segmentation, Filtering, Image edge detection, Image segmentation, Level set, Standards, Vegetation

連結演算子は、デジタル画像処理の、主として階層的なスキームを用いた結合に対して確立された解決策を与える。グラフベースのフレームワークでは、このような演算子は基本的には、ピクセル間の対称的な隣接関係に依拠している。本論文では、非対称な隣接関係も考慮することによって、階層的画像処理のための有向連結演算子の概念を導入する。導出される画像表現モデルはもはや部分的な階層(つまり木)ではなく、コンポーネントツリー、バイナリ分割木、階層的分水嶺のような標準的な形態の木構造を一般化する有向非巡回グラフである。これらのリッチなデータ構造を効率的に構築し取り扱う方法について記述し、提案のフレームワークが画像フィルタリング、画像分割において汎用性を持つことを示す。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


二次プーリングを用いた自由形式の領域記述
Free-Form Region Description with Second-Order Pooling

Carreira, J. , Department of Electrical Engineering and Computer Science, University of California at Berkeley, Berkeley, CA Caseiro, R. Batista, J. Sminchisescu, C.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 6, pp. 1177-1189 , June 2015

Keywords: Recognition, differential geometry, image descriptors, pooling, regression, second-order statistics, segmentation, Encoding, Feature extraction, Image color analysis, Image segmentation, Manifolds, Shape, Symmetric matrices

意味的なセグメンテーションと物体検知は、今日、ボトムアップのグルーピング処理(セグメンテーション)の結果として得られる領域に対して行われる手法が優勢であるが、これらの手法は、画像全体をその特別な場合として扱う、定型のパッチ上の認識向けに開発された特徴抽出を用いており、これは多くの場合、最適ではない。本論文では、自由形式な領域上の特徴抽出及び記述に着目し、それらと対となる定型の概念との関係性に関する調査を行う。本論文の主な貢献は、このような自由形式の領域中にある局所的な記述子の二次統計量を捉える新しいプーリング技術である。本論文では、適切な非線形性と合わせてそれらの埋め込み空間の数学的構造から派生した平均とmax-poolingの二次の一般化を導入し、どのような局所的な特徴の符号化も用いず、意味的なセグメンテーションの実験において最新の認識性能に到達する。逆に、画像分類の設定のように、前景と、背景の大きな部分を含む領域をまたいで特徴抽出を取り扱わざるを得ない場合には、コードブックに基づく局所特徴の符号化がより重要である一方で、高精度な局所化の設定、自由形式の領域上の二次プーリングは、現在の意味的セグメンテーション問題における優れたシステムのものに比べ、訓練もテストも高速なモデルを用いて優れた結果を出すことを示す。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


量子幾何と外観空間による3次元オブジェクトのテンプレートの学習
Learning 3D Object Templates by Quantizing Geometry and Appearance Spaces

Hu, W. , Department of Statistics, University of California, Los Angeles, CA Zhu, S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 6, pp. 1190-1205 , June 2015

Keywords: 3D Object Models, 3D object models, And-Or Tree, Hierarchical Models, Hierarchical models, Object Detection, Pose Estimation, Structure Learning, object detection, pose estimation, structure learning, Dynamic programming, Geometry, Object detection, Semantics, Shape, Solid modeling, Three-dimensional displays

3Dオブジェクト中心の形状ベースモデルは、2Dビューに基づくの外観ベースモデルに比べ、モデルの複雑性が少なく、表示の汎化能力に長けているため好ましいが、一方で、3Dモデルの学習と推論に関しては、2つの要因のため、最近の研究においても十分な調査が行われてきていない:i) 3次元形状の、幾何学的空間における複雑性、ii)3次元形状と、その画像での表示との隔たりである。本論文はこの2つの問題に、2つの構成要素からなるAND/OR木(And-Or Tree : AoT)表現を検討することによって取り組むことを目標とする:i) 幾何学的空間を量子化する幾何的なAoT、つまり3Dの体積測定の部分の考えられうる構成要素と、その体積での2Dの表面、ii) 外観空間を量子化する外観AoT、つまり、異なる視点からの形状の外観の変分である。このAoTでは、And木は実物を連続部分へ分解し、Or木は代わりの分解方法を表す。よってこれは、3D形状のプリミティブと2D画像のプリミティブの小さな辞書を通して、組み合わせの数だけの幾何と外観の形状を表現することができる。量子化された空間では、3Dオブジェクトのテンプレートの学習の問題は、動的プログラミングアルゴリズムの中で、情報獲得の最大化によって効率的に解決されうる構造探索問題に変換される。本論文では、AoTからの3Dの車のテンプレートの学習に着目し、より多様な見方を特徴づける新しい車のデータセットをまとめる。学習した車のテンプレートは、形状ベースモデルと外観ベースのモデルを、双方の利点が組み合わさるように統合している。実験では、3つの側面を示す:1) AoTは空間表現においてよく用いられる8分木法よりも効率的であること、2) 学習した3Dの車のテンプレートは、公開されている多視点の車のデータセットにおける車検知とポーズの推定で最高水準の性能に匹敵すること、3) 我々のデータセットである、学習した3Dのテンプレートは、同時物体検知、姿勢ポーズ/視点の推定、部分局所化という統合的なタスクを解決すること。それは、見られていない視点を一般化することができ、物体検知と意味的部分局所化に関してDPMモデルのver.5よりも良い性能を示す。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオ情報に基づく外科訓練の動作スキル評価の相対的隠れマルコフモデル
Relative Hidden Markov Models for Video-Based Evaluation of Motion Skills in Surgical Training

Zhang, Q. , Computer Science and Engineering, Arizona State University, Tempe Li, B.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 6, pp. 1206-1218 , June 2015

Keywords: Emotion Recognition, Relative Hidden Markov Model, Relative Learning, Relative hidden markov model, Surgical Skill, Temporal Model, emotion recognition, relative learning, surgical skill, temporal model, Analytical models, Computational modeling, Data models, Hidden Markov models, Surgery, Training, Training data

連続的なデータを含むタスクを解析するには、適切なテンポラルモデルが重要である。本研究において着目するコンピュータ利用の外科訓練では、精確なテンポラルモデルを得ることは自動スキル訓練に向けた重要なステップである。この分野では正解ラベル付きデータが不十分なため、従来の学習アプローチは、得られる成果が限定される。本論文では、相対的隠れマルコフモデルという新しい形式化を提案し、この形式化で解を得るためのアルゴリズムを開発する。この手法は、ターゲットとするアプリケーションにおける訓練セッションから容易に得られる、入力のペアの相対的なランキングさえあれば良く、そのため、データへのラベリングの負担を軽減する。提案のアルゴリズムは、訓練データから、考慮している条件下での特性が入力の尤度と関連付けられるようにモデルを学習するため、新しい系列の比較を扱うことが出来る。評価には、本手法の性能を評価するためにまず人工データを用い、次に広く採用されている外科訓練プラットフォームから得られる実際の映像を用いた実験を行う。実験結果は、提案手法がビデオベースの動作スキルの評価に対して有望な解決策を提供することを示唆している。時間解析の他の応用方法の一般化能力をさらに記述するために、スピーチベースの感情認識において提案モデルを使用する実験についても報告する。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


次元最小化による頑健なハイダイナミックレンジ合成
Robust High Dynamic Range Imaging by Rank Minimization

Oh, T. , Department of Electrical Engineering, Korea Advanced Institute of Science and Technology (KAIST), Daejeon, Republic of Korea Lee, J. Tai, Y. Kweon, I.S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 6, pp. 1219-1232 , June 2015

Keywords: Alignment, High Dynamic Range Image, High dynamic range image, Matrix Completion, Multi-exposure fusion, RPCA, Rank minimization, alignment, matrix completion, multi-exposure fusion, rank minimization, Cameras, Dynamic range, Heuristic algorithms, Image reconstruction, Minimization, Robustness

本論文では、次元最小化を利用した新しいハイダイナミックレンジ(high dynamic range ;HDR)合成アルゴリズムを導入する。カメラがシーン内の輝度に対して線形に反応すると仮定すれば、様々な露出時間で撮影された入力のローダイナミックレンジ(low dynamic range ;LDR)画像は線形の依存性を示し、それぞれの対応するピクセルの強度を積み重ねるときにrank-1の行列を形成する。実際には、カメラの動きにより引き起こされる誤整列、動く物体が存在すること、飽和、画像のノイズなどが、LDR画像のrank-1の構造を壊す。これらの問題を扱うためには、LDR画像を同時に配置する次元最小化アルゴリズムを提案し、頑健なHDRの生成のための異常値を検知する。人工的な例を用いて提案アルゴリズムの性能を体系的に評価し、実世界の難易度の高い例を用いた結果を最先端のHDRアルゴリズムから得られる結果と量的に比較する。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


投影スクリーンの自動検出と分析による講義ビデオの構造化
Structuring Lecture Videos by Automatic Projection Screen Localization and Analysis

Li, K. , Department of Automation, Tsinghua National Laboratory for Information Science and Technology (TNList), Tsinghua University, Beijing, China Wang, J. Wang, H. Dai, Q.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 6, pp. 1233-1246 , June 2015

Keywords: Lecture video, presentation video, projection screen localization, video structuring, video summarization, Cameras, Educational institutions, Feature extraction, Semantics, Trajectory, Videos, Visualization

本稿では、パン、チルト、ズームといった、豊富なカメラ動作を伴う全講義映像を納めた典型的な大学講義映像の意味構造を抽出するための全自動システムを提案する。 このシステムでは、映像上に現れるすべての場合おいて、投影スクリーンと講演者の双方を自動的に検出して追跡する。本システムは、追跡されるスクリーン領域の映像コンテンツを分析することで、スライドの進行を検出し、高品質で隠蔽のない幾何学的に補償された画像を、各スライドについて展開する。その結果は、主要なプレゼンテーション構造を再構築した代表画像のリストとしてまとめられる。こうした後、スライドからテキストコンテンツを認識して、キーワードに基づく動画の検索と閲覧に使用されるキーワードを抽出する。 本システムにより、一般的に使用される物体追跡手法よりも、安定で正確なスクリーン検知結果が得られることを実験結果により示す。また、このような分野に特化した映像に対しては、本システムが、一般的な映像要約手法よりも正確なプレゼンテーション構造を抽出できることも示す。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


反転マルチインデックス
The Inverted Multi-Index

Babenko, A. , Yandex, Moscow, Russia Lempitsky, V.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 6, pp. 1247-1260 , June 2015

Keywords: Image retrieval, Index, Nearest neighbor search, nearest neighbor search, product quantization, Accuracy, Computer vision, Indexes, Nearest neighbor searches, Quantization (signal), Standards, Vectors

高次元ベクトルの非常に大きなデータセットにおける、効率の良い類似性検索のための新たなデータ構造を提案する。 反転マルチインデックスと呼ぶこの構造は、反転されたインデックス内の標準的な量子化を積の量子化に置き換えることにより、反転インデックスを一般化する。非常に良く似た検索の複雑性と前処理時間の問題に対応するために、反転マルチインデックスは、反転インデックスに比べてずっと密度の高い探索空間の細分を、メモリ効率を維持しつつ実行する。 SIFTとGISTベクタの大規模データセットを用いた実験により、高密度に分割をすることで、反転マルチインデックスが、より高い回収率で短い候補を返せることを示す。適切な再順位付け手続きを用いて増やすことにより、マルチインデックスは、10億個のSIFTベクタのデータセット上における近似最近傍探索の速度を、これまで刊行されたシステムの最高記録と比べて大きく向上させる。一方で、ほんの数パーセントのメモリ消費率の増加と引き換えに、より高い再現率も達成される。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オートエンコーダのポテンシャルエネルギー
The Potential Energy of an Autoencoder

Kamyshanska, H. , Department of Computational Neuroscience, Frankfurt Institute for Advanced Studies, Ruth-Moufang-Str. 1, Frankfurt am Main, Germany Memisevic, R.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 6, pp. 1261-1273 , June 2015

Keywords: Autoencoders, generative classification, representation learning, unsupervised learning, Analytical models, Data models, Potential energy, Principal component analysis, Probabilistic logic, Training, Vectors

オートエンコーダは、良く知られた特徴学習モデルである。それらは概念的にシンプルであり、学習が容易で効率の良い推論を可能とする。 これまでの研究では、ある種のオートエンコーダが、確率モデルの負の対数分布に似たエネルギー配置と、どのように関連付けられるのかが示されたている。このエネルギー配置は、オートエンコーダが入力空間の領域をどの程度適切に表現できるかを評価するもので、オートエンコーダをRBM (Restricted Boltzmann Machine)のような、確率モデルに関連するトレーニング条件を用いた実験的な方法により、共通性をもって推定されている。 本稿では、最も一般的なオートエンコーダが、どのようにして自然にエネルギー関数と関連付けられるのかと、学習手続きの独立性、および、エネルギー配置がオートエンコーダの復元関数を統合することで解析的に推定できることを示す。 隠れシグモイドユニットを用いたオートエンコーダに対して、エネルギー関数は、これら二種類のモデルの関係を明らかにすることを助けるRBMの自由エネルギーに等しくなる。また、オートエンコーダのエネルギー関数により、力学系の観点からの縮小訓練(contractive training)のような、共通の正規化手続きが説明できることを示す。エネルギー関数の実践的な応用として、クラスに特化したオートエンコーダに基づく生成的分類器を紹介する。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ウェブページについて画像が何を語りかけるか? 画像による文書検察の改善
What Can Pictures Tell Us About Web Pages? Improving Document Search Using Images

Rodriguez-Vaamonde, S. , , Tecnalia, Zamudio, Bizkaia, Spain Torresani, L. Fitzgibbon, A.W.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 6, pp. 1274-1285 , June 2015

Keywords: Image Content, Multimedia Search, Ranking, Web Pages, Web Search, document ranking, multimedia search, search engines, Accuracy, Image recognition, Search engines, Training, Vectors, Visualization, Web pages

従来のウェブ検索エンジンは、与えられたクエリに対応する適切な文書を検索するためにHTMLページの画像を利用しない。代わりに大抵の場合は、ユーザが提供するキーワードと、各ページのテキスト領域のみを用いた一致指標を評価することにより動作する。 本稿では、ウェブページに現れる画像コンテンツが、HTML文書の意味記述を、より豊かな物にすることができるかどうかを検討し、その結果に基づいて、キーワードに基づく検索エンジンの性能の強化を行う。ここでは、与えられたクエリに対する文書候補の初期集合を見つけるために、純粋にテキストベースの検索エンジンを利用するウェブ・スケーラブルなシステムを用いる。その後、ページ内の画像コンテンツから展開された視覚情報を用いて、候補集合を再ランク付けする。その結果得られるシステムでは、伝統的なテキストベースの検索エンジンの計算効率が、そのまま引き継がれる。それに伴うコストは、視覚情報をコード化するために必要となる僅かな追加ストレージのみである。 我々は本アプローチを、TRECの100万クエリ・トラック・ベンチマークの一つで評価した。そこでは、画像コンテンツの採用によって、2つの異なるテキストベースの検索エンジンに対して、精度改善が達成されることを、当該ベンチマークで最高性能記録を得たシステムとともに示した。さらに、本アプローチの妥当性を、Amazonメカニカルターク(ウェブサービスの一つ)を用いた検索結果での、収集文書の妥当性判定により検証した。これらの実験結果により、本提案の画像に基づく再ランク付け機能により、純テキストベースのシステムを超える精度改善が達成されることが確認される。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


なぜ相互情報が画像位置決めに上手く働くのか? 決定論的解釈
Why Does Mutual-Information Work for Image Registration? A Deterministic Explanation

Tagare, H.D. , Department of Diagnostic Radiology, the Department of Biomedical Engineering, and the Department of Electrical Engineering, Yale University, New Haven, CT Rao, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 6, pp. 1286-1296 , June 2015

Keywords: Convexity, Image Registration, Image Rregistration, Medical Image Registration, Mutual Information, convexity, medical image registration, mutual information, Biomedical measurement, Entropy, Equations, Image registration, Indexes, Linear programming, Tin

本稿では、相互情報量に基づく画像位置決め(mutual-information-based image registration : MI 位置決め)についての決定論的解釈を試みる。 この解釈は、「MI位置決めが上手く動作するのは、それがある種の区分画像を整列することによる」というものである。この区分画像整列の概念は新しく、Schur-凸性および、準凸性に関係することが示される。本稿における区分整列理論(partition-alignment theory)は、相互情報量による解釈を超えるものである。そこでは、画像位置決めのために、幾つかの相互情報量とは異なる評価関数を提案している。これらの評価関数のあるものは、エントロピーに基づかないものである。 ノイズのある画像を用いたシミュレーションにより、これらの新規評価関数が位置決めに対して適切に動作し、理論を裏付けることを示す。ここに提案する理論は、画像位置決めのより深い研究のための多くの方向性を開拓するものである。本稿では、これらの方向性についても論じる。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非常にシンプルで安全なベイズランダムフォレスト
A Very Simple Safe-Bayesian Random Forest

Quadrianto, N. , SMiLe CLiNiC, Department of Informatics, University of Sussex, United Kingdom Ghahramani, Z.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 6, pp. 1297-1303 , June 2015

Keywords: Bayesian methods, decision trees, random forest, Bayes methods, Decision trees, Equations, Mathematical model, Monte Carlo methods, Training, Vegetation

ランダムフォレストは、幾つかの無相関化されたツリーによる予測を平均することで動作する。本稿では、ランダムフォレストを生成するための画期的なアイデアに基づくアプローチを示す。これは、事前分布からの多くのツリーのランダムサンプリングと、それに続く予測可能な確率の加重平均によるものである。 本アプローチでは、データを観測する前でも決定木のサンプリングが可能な事前分布と、決定木の結合により張られる空間を探索する指数尤度を用いる。各々のツリーは、それらの予測値の算出にベイズ推定を用いるが、これらを統合した手続きでは、尤度よりもむしろ指数尤度を使用する。従って、厳密な意味ではベイズ推定とは異なっているが、ここでは、これもベイズランダムフォレストと呼ぶことにする。ただしこれは、組み込み安全性を備えている。この安全性は、背景にある統計モデルが正しくないにも関わらず、良好な予測性能を備えていることによる。 本稿では、安全なベイズランダムフォレストが、速度と性能の点でベイズ決定木に基づくMCMCやSMCを凌ぐ性能を有していることを実験により示す。また、依然、構築が極めてシンプルであるにも関わらず、エントロピー最適化あるいはGini最適化されたランダムフォレストに匹敵する性能を達成していることも示す。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効率的で頑健な正反射除去
Efficient and Robust Specular Highlight Removal

Yang, Q. , Department of Computer Science, City University of Hong Kong, Hong Kong Special Administrative Region, China Tang, J. Ahuja, N.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 6, pp. 1304-1311 , June 2015

Keywords: Specular reflection separation, bilateral filter, highlight, Approximation methods, Image color analysis, Joints, Lighting, PSNR, Smoothing methods

本稿では、頑健で効果的な鏡面ハイライト除去手法を提案する。この手法は、鍵となる観測値である「滑らかに変化するカラー画像中の、局所的なパッチからの拡散光における拡散カラー成分の最大比」に基づいている。この場合、鏡面反射画素は、ノイズとして扱うことができる。この特性は、画像のノイズ除去のやり方で、鏡面ハイライトを除去することを可能とする。即ち、エッジ保存ローパスフィルタ(例えばバイラテラルフィルタ)を利用して、原画像の最大色成分比を平滑化することで、鏡面反射画素によるノイズを除去することができる。 近年の高速バイラテラル・フィルタリング技術の発達により、提案手法は標準的なCPU上で、最新手法の200倍高速に動作し、従来手法を引き離している。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画素から応答へのマップ: 荒くアライメントされた顔画像に対する識別的画像フィルタリング
From Pixels to Response Maps: Discriminative Image Filtering for Face Alignment in the Wild

Asthana, A. , Department of Computing, Imperial College London, London, United Kingdom Zafeiriou, S. Tzimiropoulos, G. Cheng, S. Pantic, M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 6, pp. 1312-1320 , June 2015

Keywords: Face alignment, active appearance models, constrained local models, facial landmark detection, Active appearance model, Computational modeling, Face, Image reconstruction, Principal component analysis, Shape, Training

本稿では、顔位置決めフレームワークを提案する。これは、識別的に訓練されたパーツフィルタ群(part-based filters)の応答から生成されるテクスチャモデルを拠り所とする。画素輝度や、一般的なフィルタ群(例えばガボールフィルタ)の応答から構築される標準的なテクスチャモデルと異なり、本フレームワークは以下の二つの重要な利点を有する。第一は、識別的訓練の長所から、同一性(identity)、姿勢(pose)、照明(illumination)、表情(expression)といった外的変化に対する不変性が得られること。第二は、識別的に訓練したフィルタ(即ちパッチエキスパート)によって生成される応答は、スパースで非常に少数のパラメータによってモデル化することができることである。 結果として、提案したテクスチャモデルに基づく最適化手法は、未知の変化をより上手く処理することが可能となる。この点に関して、一般的な顔位置決めに用いられる部分に基づく定式化と、全体に基づく定式化の双方のアプローチから概説するとともに、本提案のフレームワークが複数の荒くアライメントされたデータベース上で最新の成果を凌ぐことを示す。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.37, No.8

相互情報量を用いた特徴選択の探索法に基づく半定値プログラミング
A Semidefinite Programming Based Search Strategy for Feature Selection with Mutual Information Measure

Naghibi, T. , Comput. Eng. & Networks Lab., ETH Zurich, Zurich, Switzerland Hoffmann, S. Pfister, B.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 8, pp. 1529-1541 , null 0

Keywords: approximation theory, computational complexity, data mining, feature selection, graph theory, mathematical programming, pattern classification, search problems, set theory, NP-hard problem, approximation ratio, backward elimination method, classification accuracy, data-mining applications, feature subset selection problem, graph theory, high-dimensional data, maximum-cut problem, mutual information measure, parallel search strategy, polynomial time, semidefinite programming based search strategy, subset space, truncated approximations, Approximation ratio, Convex objective, Feature Selection, Feature selection, Mutual information, approximation ratio, convex objective, mutual information, Approximation algorithms, Approximation methods, Feature extraction, Measurement uncertainty, Mutual information, Search problems, Vectors

特徴部分集合選択は、一般的な部分集合選択問題の特殊な場合であるが、データマイニングへの応用の重要性が増してきたことで、これまでの多くの研究で課題として取り上げられてきた。特徴部分集合選択問題には、主要な問題が2つある: (i) 多次元データに対して十分に測度と頑健性を持つ、適切な測度関数を見つけること、(ii)部分集合空間上の尺度を適当な時間内で最適化する探索戦略である。本論文では、特徴とクラスラベルとの間の相互情報を、測度関数と見なす。相互情報量への2種類の拡張を提案し、既存研究において提案されているほとんどの発見的手法が、これらの拡張を途中で打ち切った近似であることを示す。部分集合の空間内の探索はNP困難な問題であることが知られている。ここで、従来の探索アルゴリズムの代わりに、多項式時間で部分集合空間内を探索することができる半定値プログラミング(semidefinite programming ; SDP)に基づく並行探索法を提案する。提案アルゴリズムと、グラフ理論における最大カット問題の一例の間の類似性を利用することによって、このアルゴリズムの近似比率を計算し、これを後進選択法の近似比率と比較する。本研究の実験により、非最適な探索法の効果を考慮することなく分類の精度のみに基づいて尺度の質を判断することは誤解を招くということが示される。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


部分空間クラスタリングのための教師なし・教師あり制約の活用
Exploiting Unsupervised and Supervised Constraints for Subspace Clustering

Han Hu , Dept. of Autom., Tsinghua Univ. & Baidu Res., Beijing, China Jianjiang Feng Jie Zhou

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 8, pp. 1542-1557 , null 0

Keywords: face recognition, pattern clustering, tree searching, unsupervised learning, video signal processing, BB method, branch-and-bound method, constrained subspace assumption, face images, image analysis tasks, low-dimensional subspaces, spatial regularity constraint, subspace clustering, unified integer linear programming optimization framework, unsupervised constraints, video analysis tasks, video scene, Subspace clustering, branch and bound, constrained clustering, face clustering, linear programming, motion segmentation, subspace clustering, Cameras, Computer vision, Data models, Face, Manifolds, Motion segmentation, Trajectory

大量の画像、映像の解析タスクにおけるデータは、その各々が一つのカテゴリもしくはクラスに対応しているような複数の低次元部分空間から導出された点と見ることができる。このような種類のデータを処理するための基本的なタスクの一つに、導出元の部分空間に従った点の分割があり、これは部分空間クラスタリングと呼ばれる。このテーマに関して広範囲にわたる研究が行われてきており、それらのほぼ全てが、条件なしの部分空間モデル、つまり、そのデータを表現するために部分空間のどの場所からも点を取り出すモデルを用いている。本論文では、データがさらに対応する部分空間内に制限される、つまり部分多様体に属するか空間の正規性の条件を満たす、条件つき部分空間という仮定に基づく部分空間クラスタリングを試みる。この仮定によって常に、映像の中で異なる動きをする物体や、変化する照明条件下の様々な被写体の顔画像のような実データをよりよく記述することができる。統合された整数線形計画法の最適化フレームワークを、部分空間クラスタリングへのアプローチに用いる。部分空間クラスタリングは、分枝限定(a branch-and-bound :BB)法により効率的に解決することができる。本論文では、部分空間の番号、異常値の比率、対制約、サイズの事前分布など様々な教師付き情報を、提案フレームワークに簡便に組み入れることができることも示す。実データでの実験は、提案手法が最高水準の既存アルゴリズムに比べ、クラスタリングの精度において非常に優れた性能であることを示している。提案手法の、教師つき情報の利用における有効性も示される。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


構造木のforestsを用いた高速なエッジ検出
Fast Edge Detection Using Structured Forests

Dollar, P. , Interactive Visual Media, Microsoft Res., Redmond, WA, USA Zitnick, C.L.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 8, pp. 1558-1570 , null 0

Keywords: decision trees, edge detection, image segmentation, learning (artificial intelligence), object detection, BSDS500 Segmentation dataset, NYU depth dataset, decision trees, fast edge detection, image segmentation algorithms, local image patches, object detectors, random decision forests, structured forests, structured learning framework, Edge detection, segmentation, structured random forests, real-time systems, visual features, Detectors, Image color analysis, Image edge detection, Image segmentation, Standards, Training, Vegetation

エッジ検出は、物体検知、画像分割アルゴリズムを含む、多くのビジョンシステムの重要な要素である。エッジのパッチは、直線やT字路のように、よく知られている局所構造の形をしている。本論文では、局所画像パッチの中に含まれる構造を利用して、正確かつ計算的に効率の良いエッジ検出器を学習する。ランダムフォレストに適用される構造化された学習フレームワークにおいて、局所的なエッジマスクの予測という問題を形式化する。本論文の、決定木の頑健な学習に対する新しいアプローチでは、構造付きラベルを、標準的な情報獲得量が評価される離散空間にマップする。これらの結果として得られる手法は、BSDS SegmentationデータセットとNYU Depthデータセットにおいて最高性能のエッジ検出の結果を達成しながらも、他の最新の手法と比較して非常に高速なリアルタイムの性能を持つ。最後に、本稿で提案する学習モデルが、複数のデータセットを良く一般化することを示し、これにより汎用的なエッジ検出器としての提案アプローチの可能性を示す。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


物体認識のための部分検出器の識別性能の高い組み合わせの学習
Learning Discriminative Collections of Part Detectors for Object Recognition

Shih, K.J. , Dept. of Comput. Sci., Univ. of Illinois at Urbana-Champaign, Champaign, IL, USA Endres, I. Hoiem, D.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 8, pp. 1571-1584 , null 0

Keywords: image classification, learning (artificial intelligence), object detection, object recognition, PASCAL, VOC2010, boosted classifier, bottom-up proposed regions, discriminative part collection learning, object bounding box annotations, object category detection, object recognition, pooling part detections, sigmoid weak learners, Object recognition, discriminative parts, part sharing, Boosting, Computational modeling, Detectors, Feature extraction, Object detection, Support vector machines, Training

本論文では、物体のbounding box アノテーションから、識別性能の高い部分の多様な組み合わせを学習する手法を提案する。部分検出器は個々に学習、適用が行われ、このことによって、新しい特徴の学習や新しいカテゴリへの拡張が単純にできる。本論文では、これらの過程で導出された識別性能の高い部分の集合を、物体カテゴリ検知、ボトムアップで提案される領域内での部分検知のプーリング、スコアリングのために提案されたシグモイド弱学習器を用いてブーストされた分類器の利用に応用する。この部分識別器の製の評価のために、PASCAL VOC2010データセットを用いて、アノテーションされたkeypointの識別・位置決め性能、オブジェクト検出能力を評価する。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単一のレベルセット関数を用いた多領域動的輪郭
Multi-Region Active Contours with a Single Level Set Function

Dubrovina-Karni, A. , Dept. of Comput. Sci., Technion - Israel Inst. of Technol., Haifa, Israel Rosman, G. Kimmel, R.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 8, pp. 1585-1601 , null 0

Keywords: computational geometry, image representation, image segmentation, set theory, variational techniques, Voronoi implicit interface method, axiomatic variational approach, image segmentation problem, image understanding, multiphase interface evolution, multiregion active contours, single level set function, single nonnegative level set function, Segmentation, active contours, level sets, multi-region, Active contours, Computational modeling, Equations, Image segmentation, Level set, Mathematical model, Minimization

画像を任意の数の一貫性のある領域に分割することは画像理解の中心的課題であり、長年にわたり多くの定式化が提案されてきた。これらの定式化には特に、実装や解析の難しい公理的な汎関数や、幾何学的でないメトリクスをこの課題に導入する、グラフベースの代替手法が含まれる。本論文では公理的な変分型のアプローチを用いて、画像を任意の数の領域に分割するための新しい手法を提案する。提案手法は各種の一般的な領域の外観モデルを取り入れることができ、メトリクスの誤りも起こらない。提案のフレームワークでは、セグメンテーションはレベルセット展開によって行われる。しかし、既存の手法とは異なり、複数の領域が単一の非負のレベルセット関数によって表現される。レベルセット関数の展開は、多重フェーズの境界面の進化のためのVoronoi Implicit Interface Methodによって効率的に行われる。提案のアプローチは様々な自然の2D・3D画像について、他の最高水準の画像分割アルゴリズムと伍する正確な分割結果を与えることを示す。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多重集合の正規化圧縮距離とその応用
Normalized Compression Distance of Multisets with Applications

Cohen, A.R. , Dept. of Electr. & Comput. Eng., Drexel Univ., Philadelphia, PA, USA Vitanyi, P.M.B.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 8, pp. 1602-1614 , null 0

Keywords: bioinformatics, computational complexity, image classification, optical character recognition, Kolmogorov complexity, NCD, OCR classification, biological task, multisets, normalized compression distance, organelle transport, pairwise NCD, pairwise normalized compression distance, parameter-free-feature-free-alignment-free similarity metric, stem cell, Kolmogorov complexity, Normalized compression distance, classification, data mining, handwritten character recognition, multisets or multiples, organelle transport, pattern recognition, retinal progenitor cells, similarity, synthetic data, Accuracy, Additives, Complexity theory, Educational institutions, Measurement, Pattern recognition, Retina

対の正規化圧縮距離(normalized compression distance ; NCD)はパラメータ、特徴、配置に依存しない、圧縮をもとにした類似尺度である。本論文では、多重集合のNCDを提案する。これもまた尺度である。以前、このようなNCDを得る試みは失敗していた。分類目的では、精度と実装の複雑さに関して、対のNCDよりも優位である。本論文では、理論的な土台から実現性の高い実用までの全体をカバーする。提案手法を、生物学(幹細胞、オルガネラ輸送)とOCRの分類の問題に適用する。これらの問題を取り扱うのに、以前は対のNCDが用いられていた。新しい手法によって、非常に良い結果を得た。理論的な基礎は、コルモゴロフ複雑性である。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


順序を保つスパースコーディング
Order Preserving Sparse Coding

Bingbing Ni , Adv. Digital Sci. Center, Singapore, Singapore Moulin, P. Shuicheng Yan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 8, pp. 1615-1628 , null 0

Keywords: approximation theory, image classification, image coding, image reconstruction, learning (artificial intelligence), sparse matrices, time series, Nesterov-type smooth approximation method, RGB-D human activity dataset, atomic features, benchmark image dataset, encoded representation, error bound, heuristic approach, input data, machine learning benchmarks, order preserving regularizer, order preserving sparse coding, ordering relationships, reconstruction coefficients, regularization criterion, scene classification, spatially ordered still images, structured data classification, suboptimal discriminative capability, synthetic dataset, temporally ordered frame-wise features, time sequences, time series classification, Sparse coding, order preserving, scene classification, sparse coding, time sequence classification, Dictionaries, Encoding, Feature extraction, Image coding, Image reconstruction, Image segmentation, Vectors

本論文では、アトミックな特徴が順序関係を持つような構造のデータの分類を行うための順序を保つスパースコーディングを検討する。このような構造のデータの例としては、異なる領域が空間順序を持つ静止画像(風景、ストリートビューなど)や、個々のフレームごとの特徴が時間順序を持つ時系列がある。これらの構造をもつデータの分類はしばしば、最初に入力データを個々のアトミックな特徴に分解し、次に各々の特徴ベクトルに独立にスパースコーディングまたはその他の処理を適用し、最後に個々の反応を集約して入力データを分類するというように処理される。しかし、この発見的なアプローチは、入力データ中の個々のアトミックな特徴の根本にある順序を無視しており、結果として最適な識別性能には達しない。本研究では、スパースコーディングのフレームワーク内の再構成係数の順序構造を保つことを目的とする、順序を保つ正規化項を導入する。効率的なNesterov型の近似法を、新しい正規化法の最適化のために開発した。この手法の誤り限界は理論的に保証されている。本論文では、人工的なデータセット、いくつかの機械学習のベンチマーク、RGB-Dの人間の行動のデータセット上での時系列分類の広範囲な実験を行う。また、ベンチマークの画像データセットにおけるシーン分類の実験についても報告する。エンコードされた表現は判別可能かつ頑健であり、提案の分類器はこれらのタスクにおいて、他の最高水準の手法の性能を上回った。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


反復的な再重み付けスパースランキングを用いた人物の再識別
Person Re-Identification by Iterative Re-Weighted Sparse Ranking

Lisanti, G. , Media Integration & Commun. Center (MICC), Univ. di Firenze, Florence, Italy Masi, I. Bagdanov, A.D. Del Bimbo, A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 8, pp. 1629-1642 , null 0

Keywords: iterative methods, object recognition, video surveillance, CAVIAR4REID, CAVIAR4REID datasets, ETHZ datasets, VIPeR datasets, gallery image, hard-reweighting, i-LIDS datasets, illumination variations, iterative extension, iterative reweighted sparse ranking, iterative sparse basis expansion, labeled gallery, person reidentification scenarios, probe images, rank-1 performance, single-shot person reidentification, soft-reweighting, sparse basis expansions, sparse discriminative classifiers, visual descriptor, Person re-identification, person re-identification, sparse methods, video surveillance, Cameras, Histograms, Image color analysis, Measurement, Probes, Robustness, Vectors

本論文では、既知の個人のラベル付き集合に関する判別可能かつスパースな基底拡張に基づいた人物の再識別のための手法を導入する。多数のターゲット候補へのランク付けが可能な、スパースで判別可能な識別器への反復的な拡張を提案する。本アプローチは、最も適切な寄与因子にエネルギーを再配分し、各々の反復において最も良い候補が上位となるように、弱い再重み付けと強い再重み付けを用いる。提案のアプローチは、姿勢や照明条件の変化に対しても頑健性を保つことができる新しい画像の記述子の利用性を大きく拡大する。大規模な比較評価を行い、提案のアプローチが、VIPeR, i-LIDS, ETHZ, CAVIAR4REIDデータセットにおいて、単一もしくは複数ショットの人物の再識別に対して最高水準の性能を達成することを示す。提案の識別器と反復的なスパース基底の拡張の組み合わせは、人物一人あたりに単一の集合を持つほかの手法と比較して、最高水準のランク1の性能を、パーセンテージにして、VIPeRで6ポイント、CAVIAR4REID で20ポイント上回る。各人物に対して複数の集合とprobe imagesをもつことで、提案手法は最高水準の手法を上回っており、上回る程度はパーセンテージにして、i-LIDSにおいて17ポイント、ランク1のCAVIAR4REIDにおいて72ポイントである。このアプローチにはもう一つ優れた点があり、何百人もの人物からなる集合上で、単一ショットの人物の再識別を、1秒間に30回再識別する性能を持つ。

HY

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ステレオ動画における複数人物の姿勢推定と分類
Pose Estimation and Segmentation of Multiple People in Stereoscopic Movies

Seguin, G. , Dept. d'Inf., Ecole Normale Super., Paris, France Alahari, K. Sivic, J. Laptev, I.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 8, pp. 1643-1655 , null 0

Keywords: cameras, entertainment, feature extraction, image segmentation, motion estimation, pose estimation, stereo image processing, video signal processing, H2view dataset, Pina, StreetDance 3D, annotated human poses, articulated pose segmentation mask, bounding box annotations, colour cue, complex indoor dynamic scenes, complex outdoor dynamic scenes, cost function, depth ordering, discrete labelling task, explicit analysis, feature-length movies, frame extraction, motion cue, multiple person labels, nonstationary cameras, occlusion, person detections, pixel-wise segmentation, pixel-wise segmentations, pose estimation, stereo disparity cue, stereoscopic movies, unconstrained stereoscopic video, 3D data, Person detection, Pose estimation, Segmentation, Stereo movies, pose estimation, segmentation, stereo movies, Estimation, Feature extraction, Image color analysis, Motion pictures, Motion segmentation, Stereo image processing, Videos

本稿では、ステレオ動画における複数人物の画素単位セグメンテーションと、姿勢推定の手法について述べる。このタスクには、制約の無いステレオ動画、非固定のカメラ、複数の人がいる複雑な室内や屋外の動的シーン、などの扱いに関する困難な課題が含まれる。ここでは、これらの課題を、複数の人物ラベル、適切なコスト関数の考案、およびその効率の良い最適化を含む離散的にラベル付けられたタスクとして扱う。本研究は以下の2つの要素で構成される。第一は、セグメンテーションモデルの開発である。これには、色、動き、視差手掛かりとともに、人物検出と学習済み関節体の姿勢セグメンテーションマスクが組み込まれている。このモデルは、深さの順序および遮蔽も明示的に表現する。第二は、立体視データセットの導入である。これは、長編映画である "StereoDance 3D" と "Pina" から抽出された映像フレームからなる。このデータセットは、587個のアノテーション付けられた人物姿勢、1,158個の領域矩形(bounding box)アノテーション、および686個の画素毎の人物セグメンテーションを含んでいる。また、このデータセットは、頻繁な遮蔽を伴う複数人数を描写した屋内および屋外シーンで構成される。本稿では、新しい課題データセットと、H2viewデータセット(Sheas他 ACCV 2012)上での評価結果を示す。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


特徴ゆがみの関数空間における再識別
Re-Identification in the Function Space of Feature Warps

Martinel, N. , Dept. of Math. & Comput. Sci., Univ. of Udine, Udine, Italy Das, A. Micheloni, C. Roy-Chowdhury, A.K.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 8, pp. 1656-1669 , null 0

Keywords: cameras, computer vision, image classification, learning (artificial intelligence), object detection, RF classifier, WFS, background clutter, computer vision, feasible warp functions, feature transformation, illumination variations, infeasible warp functions, lighting, nonlinear function space, nonlinearly warped feature space, nonoverlapping multicamera scenario, occlusion, person re-identification, random forest classifier, surface learning, test warp function, viewing angle, warp function space, Feature transformation, Person re-identification, Warp function space, warp function space, Cameras, Feature extraction, Gray-scale, Histograms, Image color analysis, Lighting, Measurement

重なりの無い複数カメラシナリオにおける個人再識別は、コンピュータビジョンにおける未解決課題の一つである。これは、視野角、照明、背景の外乱、複数カメラでの遮蔽、といったもののバリエーションによって見かけが大きく変化するためである。これらのバリエーションにより、同一人物を記述する特徴もカメラ間で変換を受けることになる。このカメラ間の特徴変換をモデル化するために、特徴空間を"ワープ関数"の取得を目的として非線形に歪める。同一ターゲットの2つのインスタンス間のワープ関数は、実現可能なワープ関数集合を成し、同じように、異なるターゲットのインスタンス間のワープ関数は、実現不能なワープ関数集合を形成する。本研究では、全ての可能な変換からなる非線形関数空間の背景にあるカメラ間の特徴変換を、観測に基づいて構築する。この全ての実現可能なワープ関数と実現不能なワープ関数からなる空間を、ワープ関数空間と呼ぶ(Warp Function Space : WFS)。ここでは、WFSにおけるこれら2つのワープ関数の集合を分離する識別面を学習し、テストワープ関数を実現可能または実現不能なものとして分類することにより、個人を再識別することを提案する。また、この目的のために、ランダムフォレスト(Random Forest : RF)識別器を採用した。これは、WFSにおいてワープ関数を実現可能か不能かに分離することへの重要性に従って、ワープ関数要素を効果的に選択する。 5つのデータセット上の広範な実験により、この提案アプローチが、最新の個人再識別手法を凌ぐことを示した。また、多大な照明のバリエーションを考慮した場合には、本アプローチが他の全ての手法を凌駕することも示す。これらとともに、本手法が複数のデータセットの組合せ上での、最良の平均特性に達していることも示した。これにより、本手法が特定のデータットがもたらす課題のみ扱うために設計されたものではないことが示される。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


陰影からの形状、照明、反射推定
Shape, Illumination, and Reflectance from Shading

Barron, J.T. , Dept. of Electr. Eng. & Comput. Sci., Univ. of California at Berkeley, Berkeley, CA, USA Malik, J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 8, pp. 1670-1687 , null 0

Keywords: computer vision, image colour analysis, 2D images, 3D structure, color constancy, computer vision, illumination estimation, image explanation, intrinsic images, paint, reflectance, scene properties, shape-from-shading, Color Constancy, Computer Vision, Computer vision, Intrinsic Images, Machine Learning, Shape Estimation, Shape from Shading, color constancy, intrinsic images, machine learning, shape estimation, shape from shading, Computer vision, GSM, Image color analysis, Lighting, Optimization, Paints, Shape

コンピュータビジョンの基本的な問題は、平坦な2次元画像から、本来の3D空間構造を推定することである。形状、反射、照明といったシーン属性復元のための伝統的手法は、問題を過剰に拘束するための、同一シーンに対する複数の観測値に頼っている。単一画像から、これらの同一属性を復元することは、厳密に再現される形状、塗装、照明が無限に存在するということを鑑みると、ほとんど不可能に思われる。しかしながら幾つかの解釈には、他のものよりも、より尤もらしさがある。例えば、表面形状は滑らかで、塗装は一様、照明は自然、といった傾向がある。それゆえ我々は、この問題を一つの統計的推定問題として設定するとともに、単一画像の最も尤もらしい解釈を探索する最適化問題として規定した。このテクニックは、陰影からの形状推定(shape-from-shading)、内在画像(intrinsic image)、光源推定といった、幾つかの古典的なコンピュータビジョン問題のスーパーセットとみなせるものであり、それら構成要素となる問題に対する全ての既存の解を凌ぐものである。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ツリートポロジー推定
Tree Topology Estimation

Estrada, R. , Department of Ophthalmology, Duke University, Durham, NC 27707 Tomasi, C. Schmidler, S.C. Farsiu, S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 8, pp. 1688-1701 , null 0

Keywords: Computer vision, graph theory, image analysis, stochastic processes, tree topology, Estimation, Heuristic algorithms, Image edge detection, Image reconstruction, Image segmentation, Space exploration, Topology

ツリー状の構造は自然界では基本的であり、その2次元的な画像から、「何が何へ接続されているのか」というツリーのトポロジーを再構築することは、しばしば有効である。しかしながら、投影されたブランチは画像上で往々にして交差するため、平面グラフへのツリー投影と、そのようなグラフからツリーのトポロジーを再構築するような逆問題は、不良設定問題となる。我々はこの問題を、生成的でパラメトリックなツリーの成長モデルにより正則化した。このモデルの下では、グラフの各エッジの方向、即ち、「どのエッジの端点が、ツリーのルートにより近いか」が既知であれば、再構築が線形時間で実行可能となる。しかし、方向が未知の場合には、NP困難な問題となる。後者に対して本稿では、ルート付けられた3次元ツリーに対して、最も確からしいトポロジーを2次元画像だけから推定する発見的な探索アルゴリズムを提供する。網膜血管、植物根、および合成ツリーデータのデータセット上での実験により、本手法が高精度で効果的であることを示す。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


物体認識のためのゼロ・エイリアシング相関フィルタ
Zero-Aliasing Correlation Filters for Object Recognition

Fernandez, J.A. , Dept. of Electr. & Comput. Eng., Carnegie Mellon Univ., Pittsburgh, PA, USA Boddeti, V.N. Rodriguez, A. Vijaya Kumar, B.V.K.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 8, pp. 1702-1715 , null 0

Keywords: discrete Fourier transforms, image filtering, object detection, object recognition, object tracking, optimisation, CF design approach, DFT, circular correlation, classifiers, discrete Fourier transform, frequency domain corresponds, object localization applications, object recognition, object tracking applications, optimization criteria, zero-aliasing correlation filters, Correlation Filters, Correlation filters, Object Detection, Object Localization, Object Recognition, discrete Fourier transform, object detection, object localization, object recognition, Correlation, Discrete Fourier transforms, Frequency-domain analysis, Noise measurement, Optimization, Training, Videos

相関フィルタ(Correlation Filter : CF)は、オブジェクトの位置決めとトラッキングへの応用に訴求力がある。伝統的にCFは、離散フーリエ変換(DFT)により効率的に相関が実装された周波数領域で設計されてきた。しかしながら既存のCF設計は、時間/空間領域での巡回相関に対応する周波数領域における、2つのDFTの積が扱えない事実を説明できなかった。このことが、これまで不明であったため、それらの最適基準が、その最適化意図を正確に定量化することができないという意味において、従来CF設計は、真の最適解とはならなかった。本稿では、新たなゼロ・エイリアシング制約を導入する。これは与えられたCFを、巡回相関よりもむしろ線形相関に関係づけるための最適化基準を明確にする。これによって、エイリアシング問題が完全に排除される。このことは、本再定式化によって、従来のCF設計を著しく改善できることを意味する。本稿では、幾つかの重要なCFを用いて、この新たなCF設計アプローチの利点を示す。また、多様なデータセット上での実験結果と、これらのCF計算に関連する計算課題の解を示す。本稿で述べたCFデザインと、その各々に関するゼロ・エイリアシング版のソースコードは、 http://vishnu.boddeti.net/projects/correlation-filters.html で取得できる。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


メタパラメータ不要の教師無しスパース特徴学習
Meta-Parameter Free Unsupervised Sparse Feature Learning

Romero, A. , Department of MAIA, Universitat de Barcelona, Barcelona, Spain Radeva, P. Gatta, C.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 8, pp. 1716-1722 , null 0

Keywords: Representation learning, pre-training of deep networks, representation learning, sparse visual features, unsupervised feature learning, Encoding, Niobium, Optimization, Sociology, Statistics, Training, Vectors

本稿では、スパース性を最適化する新しい手法を活用した、メタパラメータ不要で、そのまま使え(off-the-shelf)、シンプルで高速な教師無し特徴学習アルゴリズムを提案する。CIFAR-10、STL-10および、uCMerced上での実験により、一般化が良好な弁別特徴が与えられた場合には、本手法により最新性能が達成されることを示す。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


位相生成グラフ上のスケッチマッチング
Sketch Matching on Topology Product Graph

Shuang Liang , Sch. of Software Eng., Tongji Univ., Shanghai, China Jun Luo Wenyin Liu Yichen Wei

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 8, pp. 1723-1729 , null 0

Keywords: computer graphics, graph theory, graph matching, graph representations, partial matching, sketch matching method, topology product graph, Similarity Metrics, Sketch Matching, Sketch matching, Topology Relations, similarity metrics, topology relations, Complexity theory, Geometry, Shape, Topology, Vectors, Weight measurement

スケッチマッチングは、スケッチに基づくインタフェースにおける基本課題である。しかし、長年の研究にもかかわらず、手書によるスケッチ形状に大きな不規則性と変化がある場合には、大きな課題が依然残されたままになっている。これまでの手法のほとんどは、この課題に対して位相関係とグラフ表現を採用するが、通常、それらは荒い位相表現と経験的な(それゆえ、必ずしも最善とは言えない)グラフ間の類似性尺度によって制約される。本稿では、2つの斬新な特性を持つ新たなスケッチマッチングを提案する。ここでは、位相関係として、密で情報豊かなスケッチのグラフ表現をもたらす包括的な定義を導入する。また、グラフマッチングについては、2つのグラフをマッチングするための、完全な対応を保持する位相積グラフを提案し、これに基づいて、厳密な解が計算容易な直感的スケッチ類似性尺度を導出する。加えて、このグラフ表現と新たな尺度は、文献では、あまり注視されない重要な応用課題である部分マッチングを自然にサポートする。挑戦的な実データセット上での広範な実験における本手法の優位性により、本手法が最新結果を凌駕することを示す。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ブロック毎特徴と協調表現を用いた3D掌紋照合
3D Palmprint Identification Using Block-Wise Features and Collaborative Representation

Lin Zhang , Sch. of Software Eng., Tongji Univ., Shanghai, China Ying Shen Hongyu Li Jianwei Lu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 8, pp. 1730-1736 , null 0

Keywords: feature extraction, image classification, image matching, image representation, minimisation, palmprint recognition, statistical analysis, 3D palmprint ROI, 3D palmprint identification, 3D palmprint matching methods, 3D palmprint recognition systems, CR-based classification framework, block-wise features, block-wise statistics, collaborative representation based framework, computational complexity, feature vector, feature vector extraction, histogram concatenation, l, l, large-scale identification application, one-to-many identification, one-to-one verification, recognition accuracy, surface-type histogram extraction, uniform blocks, 3D palmprint, collaborative representation, l 1-minimization, l1-minimization, sparse representation, surface type, Collaboration, Educational institutions, Feature extraction, Support vector machine classification, Three-dimensional displays, Training, Vectors

近年、3D掌紋認識システムの開発が研究者に注目され始めている。この3D掌紋には、対応する2Dの場合と比較して幾つか固有の優位性がある。しかし、既存のほとんどの3D掌紋照合手法は、1対1照合のために設計されているため、1対多照合の場合には、効率良く処理できない課題があった。本稿では、この課題の隙間を、3D掌紋照合のためのL1ノルムとL2ノルムの正則化を用いたフレームワークに基づく協調表現(Collaborative Representation : CR)によって埋める。さまざまな正則化項の効果の評価は、実験により行った。CRに基づく分類のフレームワークを用いるためには、特徴ベクトルの展開方法が一つの鍵となる。この方法として、我々はブロック毎の統計に基づく特徴展開スキームを提案する。ここでは、3D掌紋ROIを、一様なブロックに分割するとともに、表面タイプのヒストグラムを各ブロックから展開する。これにより、全プロックからのヒストグラムは、一つの特徴ベクトルとして結合される。このような特徴ベクトルは識別性が高く、多少の位置決め誤差に対して頑健である。本提案の、L2ノルム正則化項を備えた、CRに基づくフレームワークは、他の手法よりも良好な認識精度を達成する。さらに重要なこととして、本手法の計算負荷は非常に低いため、大規模な照合応用に対して極めて安定となる。ソースコードは、http://sse.tongji.edu.cn/linzhang/cr3dpalm/cr3dpalm.htm から入手可能である。

Jam

Copyright (c) 0 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


[前の年]