[前の年]

IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No .1

連続する空撮画像を利用した、統合化位置推定システム
Integrated Position Estimation Using Aerial Image Sequencesy

Dong-Gyu Sim, Rae-Hong Park, Rin-Chul Kim, Sang Uk Lee, Ihn-Cheol Kim

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.1-18, January 2002

Keywords: Navigation, aerial image, image matching, digital elevation model (DEM), recovered elevation map (REM), relative position estimation, absolute position estimation, robust-oriented Hausdorff measure

本論文は、航空機自動操縦のための位置情報と速度情報をナビゲーションパラメータから取得・表現する場合において、連続する空撮画像を用いてナビゲーションパラメータの推定を行うための統合ナビゲーションシステムについて述べる。ここに提案する統合システムは2つの部分から構成されている:相対的位置推定部分および絶対的位置推定部分。相対的位置推定には、2枚の連続する空撮画像から推定される相対的差分を、多数の画像に渡って累積して現在位置を計算する。単純な相対的差分の累積では、航空機が進むにしたがって外挿パラメータの推定信頼度が低下し、その結果大きな位置誤差となる。従って、相対的位置推定には、位置誤差を補償するための絶対的位置推定手段が不可欠である。画像マッチングとディジタル高度モデル(DEM)マッチングによる絶対的位置推定アルゴリズムを紹介する。画像マッチングにおいてはロバストなHausdorff距離(ROHM)を利用したが、DEMマッチングでは、多数の画像ペアを利用するアルゴリズムを利用した。連続する4枚の空撮画像による実験では、提案した累積位置推定アルゴリズムの有効性が実証された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多数画像の放射測定
The Radiometry of Multiple Images

Q-Tuan Luong, Pascal Fua, Yvan G. Leclerc

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.19-33, January 2002

Keywords: Reconstruction, multiple views, linear models, radiometric recovery, Lambertian reflection, point light sources, ambient illumination, surface albedo

ここで、放射特性の復元法を紹介しよう。すなわち、対象物とカメラの幾何学的位置関係が既知であるとき、多数の物体を多方位から撮影した画像を使って、多数光源と多数の反射特性を同時に復元する。多数光源の理論を線形で定式化し、これが多方位画像の幾何学的配置の復元と類似していることを示す。線形の場合と、非線形の両方の場合について実装化を提案し、このシミュレーション結果を論じ、最後に実画像を示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔の検出:論文調査
Detecting Faces in Images: A Survey

Ming-Hsuan Yang, David J. Kriegman, Narendra Ahuja

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.34-58, January 2002

Keywords: Face detection, face recognition, object recognition, view-based recognition, statistical pattern recognition, machine learning

顔を含む画像は、人とコンピュータの知的な画像に基づくコミュニケーションの基本的なものであり、このための顔画像処理として、顔認識、顔追跡、姿勢推定、感情認識に関する研究がなされている。しかし、これら多くの研究報告では、1つの画像や画像系列中における顔が既に同定されていたり、場所が特定されていることを前提としている。顔画像に含まれる情報を完全自動で解析するシステムを構築するには、ロバストで効果的な顔認識アルゴリズムが必要となる。1枚の画像が与えられたとき、顔認識の最終目標は、顔の3次元的な位置、方位、照明条件に依存せず、すべての画像を認識することである。顔が非剛体で、大きさ、形状、色、およびテクスチャーなどの変化に富むことを考えると、顔認識は困難な課題である。1枚の画像中の顔検出には様々な手法が開発されてきたが、本論文の目的はこれらアルゴリズムを分類し、評価することである。我々は同時に、これに関連する課題であるデータ収集、評価手法、ベンチマークについても考察する。これらのアルゴリズムを解析し、その限界を見極めた後、将来の研究に関するいくつかの有望な方向性を提案する。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


主曲線を利用した逐次線形スケルトン化法
Piecewise Linear Skeletonization Using Principal Curves

Balas Kegl, Adam Krzyzak

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.59-74, January 2002

Keywords: Skeletonization, principal curves, feature extraction, image processing

主曲線(principal curve)を利用した手書き文字の逐次線形スケルトン化アルゴリズムを紹介する。このアルゴリズム開発のきっかけになったのは、主曲線(principal curve:点群の中心を通過する滑らかな曲線)と中央曲線(medial curve:文字画像輪郭線から等距離点を通る滑らかな曲線) の定義が類似していることから思いついた。このアルゴリズムの中心的なフィッティング・スムージングステップは多角形線分アルゴリズムの拡張版であり、これは逐次、線形曲線でデータ集合の主曲線を近似する方法である。多角形線分アルゴリズムを拡張すると、主グラフを見つけられ、スケルトン化の課題のための2ステップ:すなわち、文字概形の把握と、初期化で形成されたスケルトンの品質改善のために、複数の再構成演算法が寄せ集められられた。既存システムに比べて、本提案スケルトン化法は、直感的で明示的目的関数を最小化することでスケルトングラフの最適化ができることである。この目的関数は、スケルトンのスムージングと、文字画像の画素に出来るだけ近づけたフィッティングをするという2つの相反する基準を表す。このアルゴリズムは孤立手書き数字画像と、連続した手書き画像の両方でテストされた。その結果、本提案アルゴリズムは変化に富む文字画像テンプレートの大多数の滑らかな中央線を見つけ出し、従来法の画素ベースの細線化によるスケルトンを遥かにしのいだ。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動的レイヤー表現のベイズ推定によるオブジェクト追跡
Object Tracking with Bayesian Estimation of Dynamic Layer Representations

Hai Tao, Harpreet S. Sawhney, Rakesh Kumar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.75-89, January 2002

Keywords: Motion analysis, dynamic layer representation, tracking, aerial video surveillance

ビデオフレーム画像を、連続する2次元の動きレイヤー(motion layer)に分解する手法はビデオ表現にとって強力な方法である。このような表現をするための過程で利用される中間表現は、ビデオ追跡とか、ビデオの要約や、可視化、ビデオ挿入、スプライトによるビデオ圧縮などの応用に利用可能である。動きレイヤーの解析を対象にした以前の研究では、2フレームとか、複数フレームのバッチ処理に注力しており、動きレイヤーの時間的整合性や、形状に対するドメインの制約条件は考慮されていなかった。本論文では、完全な動的動きレイヤー表現法を紹介し、この表現法と一般化期待値最大法(EM)を利用して、事後確率最大化(MAP)の枠組みの中で、形状や動き、および見かけレイヤーに関する空間・時間的制約がモデル化・推定できることを示す。任意形状のレイヤー追跡を主導するために必要な計算量を押さえるために、形状をパラメータ表現する事前確率を提案し、動きレイヤーが任意形状へと進化(変形)することを防止する。本研究では、ガウス分布を利用した、形状の事前確率が選択され、空撮ビデオ画像中の車の追跡をほぼ実時間で行う。しかし、追跡装置の一部として、パラメータ化された形状表現を利用するという一般的考え方は、他のドメインにも拡張可能な有力な手法である。この動的レイヤー表現法に基づいて、連続的オブジェクト追跡のための反復アルゴリズムが開発された。この提案手法は、空中からの車追跡システムとして首尾良く応用された。このシステムを、相関に基づく追跡装置や、動き変動に基づく追跡装置と比較した結果、本システムの優秀性が示された。複雑な背景の画像や、車の追い越し、方向転換、停止・発進などのいろいろな剛体的動きを含む画像の追跡を行う場合、この完全動的レイヤー表現法の強みが実証された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


不変特徴量を利用した反復最近接位置合わせ法
ICP Registration Using Invariant Features

Gregory C. Sharp, Sang W. Lee, David K. Wehe

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.90-102, January 2002

Keywords: Registration, range images, feature detection, invariance

本論文は距離画像の位置合わせのための反復最近接マッチング法の一般化における、ユークリッド不変特徴量の利用について研究する。点ごとに、位置と特徴量の距離を、重み付き線形項で対応させ、これを最近接点として選択する。ノイズの無い理想的条件では、この距離関数を用いて対応付けした結果は、位置のみによる距離を用いたものより、優れた結果を示すことが示された。さらに、この方法では、少なくとも極小値に単調収束する。ノイズが存在する場合、最適特徴量と位置の相対的寄与率を求める方法について述べる。この方法は、ノイズに起因する特徴量の誤差と、位置合わせずれに伴う誤差とのトレードオフとなる。実験結果から、不変特徴量を利用することで局所領域にトラップされる可能性が減少することが推察されることから、モデルに比べて情景画像が非常に小さい場合の位置合わせ問題のような困難な課題では、本手法は有効と思われる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多層階層のグラフ探索
Multihierarchical Graph Search

Juan-Antonio Fernandez-Madrigal, Javier Gonzalez

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.103-113, January 2002

Keywords: Graph theory, search, hierarchical graphs, path planning

グラフ中の経路探索に階層的グラフ探索を用いることは多くの文献に紹介されており、これによって単なる単純探索よりは、一般的に良い結果を得ることができる。本論文では、グラフに基づくモデルに多重階層を含めることによって、もう一歩進んだ結果を示す。このような多層階層モデルには次のような利点がある。第1に、各探索課題に対して、最適階層を選択できること、第2に、いくつかの探索問題が解けたとき、多層階層法によって部分課題を同時に解くことができる、第3に、探索課題の解は多層階層のどの階層でも表現でき、課題の目的に応じて最も適した情報表現をとることができる。一般的には、多層階層法は、1つの階層モデルや階層を持たないモデルに比べて適応性が高いと言える。本論文では、階層的経路探索問題において、その利点を生かした多層階層法を定式化する手法について述べ、これら手法の適用実験とその性能を報告する。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


部品マッチングによる3次元オブジェクトの再構成
Reconstruction of Three-Dimensional Objects through Matching of Their Parts

Georgios Papaioannou, Evaggelia-Aggeliki Karabassi, Theoharis Theoharis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.114-124, January 2002

Keywords: Image analysis, mathematical morphology, rank filters, directional filters, periodic line, discrete geometry, granulometry, orientation field, radial decomposition

オブジェクトをその部品や断片から、用途別の特定特徴量に頼らず、純粋に幾何学的形状のみから再構成するという課題は、1つの統合的コンピュータシステムとして報告されたことはなかった。我々は部品の幾何形状に基づく自動再構成手法を提案する。この形状は、コンピュータで形成されたモデルであっても、実測距離画像であっても構わない。マッチング処理は、特定アプリケーションによるその他の外的制約条件があれば更に良くなる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


対数写像画像からのオプティカルフロー:新手法
Optical Flow in Log-Mapped Image Plane-A New Approach

Mohammed Yeasin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.125-131, January 2002

Keywords: Foveated vision, logarithmic mapping, nonuniform sampling, optical flow

foveating画像センサー(foveating vision sensor)は、マシンビジョンにおいても、生物的画像においても重要である。ここで空間的変化のある、あるいは、foveating vision とは空間的に解像度が滑らかに変化するセンサーの構造を表しており、人間の視覚でも同様の構造がある。従来の画像処理手法では、並進普遍性、空間領域での近傍均一性を前提にしているから、このようなセンサーの信号を直接用いることはできない。このようなfoveatic visionを前提にした画像処理ツールの統合的開発は今までなされてこなかった。本論文では、logスケールで写像された画像から直接オプティカルフローを計算する新規な手法を提案する。ここでのオプティカルフローの計算には、従来の輝度一定モデル(BCM:直行座標系における勾配を利用)とは異なり、一般化されたダイナミックイメージモデル(GDIM)に基づく手法を採用する。log写像された画像を、より高精度で局所近傍が保存されることを保証するに当たり、可変窓(variable window)という新規な概念を導入し、勾配演算子の空間不変形状を利用する。ここに提案される手法は数値的に精度が高く、解釈の整合性が保たれ、重要でない些細な動きも算出できることを強調したい。人工的データと自然画像の両方に適用した結果からは、提案手法の有効性が示されている。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手書き数字文字認識のためのBスプラインPBDテンプレートの抽出と最適化
Extraction and Optimization of B-Spline PBD Templates for Recognition of Connected Handwritten Digit Strings

Zhongkang Lu, Zheru Chi, Wan-Chi Siu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.132-139, January 2002

Keywords: Connected handwritten digit recognition, pixel-to-boundary distance map, B-spline fitting, digit templates, template optimization, nearest neighbor classifier, multilayer perceptron classifier, evolutionary algorithm

連結した手書き数字画像の認識は挑戦に値する困難な課題であるがその主な理由は以下の2つである:文字分離と分離文字の認識率の低さ。本論文では、注目画素から境界までの距離(PBD)写像を利用した、数字の有理数Bスプライン表現によるテンプレート表現を示す。次に、BスプラインPBDテンプレートをニューラルネットワークによって抽出し、これらを進化(遺伝的)アルゴリズムによって最適化する。NIST Special Database 3の10,426個の学習サンプルから、全体を通して、各10クラスのそれぞれに100個のテンプレートが選択され、全体で1000個のテンプレートが抽出された。これらのテンプレートを利用して、最近傍識別器は90.7%の非数字パターンを正しく拒絶し、独立したテストサンプルについて96.4%の精度で正しく識別した。この識別器を、数字同士が接触している4958個の手書き数字画像(NIST Special Database 3)に動的計画法を使って適用したところ(2桁数字が4555、3桁数字が355、4桁数字が48)、正解識別が82.4%、拒絶率は0.85%となった。識別精度の観点からは、我々の識別器は好ましい識別をしていることがわかるし、ロバスト性の観点からは、他の識別器との比較結果から、良好であることがわかる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ParkとChinのアルゴリズムについて
A Note on Park and Chin's Algorithm

Ronaldo Fumio Hashirnoto, Junior Barrera

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.139-144, January 2002

Keywords: Simply connected set, structuring element, decomposition, Minkowski addition

Z2 の有限部分集合は構造要素と呼ばれている。構造要素Aを分解すると、要素の平方の部分集合系列となるが(すなわち、原点を中心とする3×3平方)、これにMinkowski加算するとAに等しくなる。ParkとChenは、単連結構造要素(すなわち、ホールを含まないような8連結構造要素)の分解部分集合は単連結であるという制約条件をつけて、最適分解アルゴリズムを開発した。本論文では、単連結構造要素の無限系列族が存在し、その要素は分解可能であるがParkとChenの定義による分解は不可能であることを示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.1

大きなデータ集合から回帰クラスを見つけ出す新規な方法
A New Method for Mining Regression Classes in Large Data Sets

Yee Leung, Jiang-Hong Ma, Wen-Xiu Zhang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 1, pp.5-21, January 2001

Keywords: Data mining, genetic algorithm, maximum likelihood method, mixture modeling, RCMD method, regression class, robustness

大きなデータ集合から興味あるパターンやモデルを抽出することは色々な訓練の場において大きな注目を浴びている。機械学習、パターン認識、統計学、人工知能、高効率計算法の研究者にとってデータベースからの知識発見とか、データ発掘は共通の興味を引く領域である。回帰クラス混合分解法(RCMD)と命名する新しい効率的でロバストな方法を大きなデータベース中の回帰クラス発掘のために、ここに提案する。この方法は特にノイズが含まれるデータ集合に有効である。ここで述べる「回帰クラス」とは、回帰モデルに従うデータ集合の部分集合のことであるが、これを構成要素としてデータ発掘のプロセスが進行する。大きなデータ集合は、沢山のこのような回帰クラスと、回帰モデルで表現できないクラスが混合した集合とみなす。このRCMDに基づく、反復法と遺伝的手法を利用して目的関数を最適化する方法も構築した。またRCMD 法はノイズデータが非常に大きな割合で存在している場合にも有効であり、個々の回帰クラスを認識し、認識された個々の回帰クラスを支持する内部データ点の集合を指定する。モデルは逐次抽出されるのであるが、最終結果は、この抽出される順序とはほとんど無関係となる。そうなるために、オーバーラップした回帰クラスを動的に識別する新規な戦略を採用した。シミュレーションと現実への応用によって、色々な場面での線形回帰クラスや非線形構造が混合したデータにフィットさせ、このRCMD法の有効性とロバスト性は確固としたものになった。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率的主曲面のための統一モデル
A Unified Model for Probabilistic Principal Surfaces

Kui-yu Chang, Joydeep Ghosh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 1, pp.22-41, January 2001

Keywords: Principal curve, principal surface, probabilistic, dimensionality reduction, nonlinear manifold, generative topographic mapping

主曲線とか、主曲面とは、それぞれ主成分や部分空間を非線形に一般化した概念である。この概念によって、古典的手法では達成できないような、高次元から見たデータの概観を得ることができる。存在性とか収束性の証明のようないくつかの問題の解に関して、元来、主曲線定式化の問題が提案されてきた。それにもかかわらず、これらの解は、主曲線として拡張することができなかった。単なる計算上の障害が大きかった。その結果、主曲面に関する論文はほんの少ししか発表されてない。最近、我々は、現状の主曲面アルゴリズムに伴う様々な事柄を述べるために、確率的主曲面(PPS)法を提案した。PPSは、生成トポグラフィ写像(generative topographical mapping (GTM))に基づく、多方位共分散ノイズモデルを使う。これはKohonenの自己組織化写像のパラメータによる定式化と見ることが出来る。PPSに加えて、クランプパラメータαを変化させた PPS (0 <α<1), GTM (α=1), および 多方位(manifold-aligned) GTM (α> 0)法の統一的共分散モデルを導入した。それから包括的に、PPS, GTMおよび多方位GTMについて3つの良く知られたベンチマークデータ集合について実験的評価を行った。2つの異なる比較において、パラメータ同一条件で、PPSはGTMの性能を凌駕することを示す。PPSの収束はGTMと同値であることがわかり、PPSに必要な余計な計算コストはもっと複雑な多様体を対象とする場合は、40%以下に減少することがわかった。このことから、一般化PPSは、主曲面を得るための柔軟で効果的な手法であることを示している。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ニューラルネットワークによる高速・高精度な顔認識
A Fast and Accurate Face Detector Based on Neural Networks

Raphael Feraud, Olivier J. Bernier, Jean-Emmanuel Viallet, Michel Cotlobert

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 1, pp.42-53, January 2001

Keywords: Combination of models, face detection, generative models, machine learning, neural networks, projection

複雑な背景を有する画像中から顔を検出することは困難な課題である。最高技術水準を示す我々の手法は新規なニューラルネットワーク手法に基づいており、制約付き生成モデル(Constrained Generative Model (CGM))と呼ばれる。学習プロセスの最終目的はモデルが生成する入力データの確率を評価することであるから本方式は生成的であり、モデルによって推測される品質を向上させるために反例を利用しているので制約的でもある。横向きの顔を検出し、誤識別を減少させるために、条件付混合ネットワークを利用した。演算時間を減少させるための高速探索アルゴリズムを提案する。到達した性能レベルは検出精度と処理時間からみると、画像や動画のインデックス化にこの検出器を現実問題へ応用することが可能であることを示している。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


稠密な移動点の対応付け課題を解く
Resolving Motion Correspondence for Densely Moving Points

Cor J. Veenman, Marcel J.T. Reinders, Eric Backer

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 1, pp.54-73, January 2001

Keywords: Motion correspondence, feature point tracking, target tracking, algorithms

本論文では定性的かつ統計的な解が存在するような動作対応付け問題を研究する。ここでは定性的モデル化が目的であり、特に1つの検出点に複数の特徴量が対応して条件が矛盾する場合とか、1つの特徴点に複数の検出点が合致して条件矛盾が生じる場合を対象とする。この場合、一時的に隠蔽点を許す方針と矛盾するので、点追跡の開始と終了を保留しておく。我々は、個々の、結合モデル、あるいは、全体的な動きモデルを導入し、この枠組みの中で得られる定性的解を示す。さらに、検出誤りや隠蔽を効率的に処理できる、貪欲マッチングアルゴリズムの意味において多分に制限付きの、新規な効率的な追跡アルゴリズムを紹介する。性能評価の結果、本提案アルゴリズムは、既存の貪欲マッチングアルゴリズムを凌駕した。最後に、点追跡を自動的に開始することが出来る、追跡器の拡張について述べる。いくつかの実験によれば、この拡張アルゴリズムは効率的で、小数のパラメータには敏感でなく、定性的には、複数仮定最適統計追跡器を含む他のアルゴリズムより優れている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


基礎行列を紡ぐ
Threading Fundamental Matrices

Shai Avidan, Amnon Shashua

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 1, pp.73-77, January 2001

Keywords: Structure-form-motion, multiview geometry

我々は連続する情景画像に渡って基礎行列に演算する新規な関数を紹介する。我々が「紡ぐ」(threading)と称する演算は、3焦点テンソルを連結糸として使って隣接行列を結びつける。この紡ぐ演算は、隣接するカメラ行列は、3Dモデルを復元しなくてもユニークな3Dモデルと整合性があることを保証している。この技術の応用として、連続する情景画像からカメラの自己動作を復元すること、連続画像の安定化(画面の安定化)、複数画像の画像に基づく透視図作成などがある。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


回転によってはずれ点を除外する
ROR: Rejection of Outliers by Rotations

Amit Adam, Ehud Rivlin, Ilan Shimshoni

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 1, pp.78-84, January 2001

Keywords: Correspondence problem, feature matching, false matches, outliers, outlier rejection, robust estimation

ここでは2つの透視画像の点対応の間違いを取り除く問題について述べる。2つの画像は任意の、未知の位置、未知の方位から撮影されるとする。最良の画像マチングアルゴリズムを使ったとしても時には間違え、誤った対応付けをすることがある。マッチングアルゴリズムとしては、相対的に回転している可能性も考える必要がある。このような変動によるマッチングがマッチング誤りとなる。我々はマッチング特徴量として画像特徴を利用しない。特に、マッチング誤りを生じる問題をまず最初に避ける。このアルゴリズムは、マッチング誤りが85%に達するような場合にでも有効に働く。このアルゴリズムは、どんな点マッチングアルゴリズムからの出力の後処理ステップとしても有効と思われる。これを使うと、マッチングの誤りが顕著に改善される。後で述べるロバストな推定アルゴリズムとして、このアルゴリズムは演算コストを激減させるという非常に望ましい性質を持っている。ここにアルゴリズムを示し、これが有効である条件をはっきりさせ、人工的・実画像の両方に適用した結果を示す。このアルゴリズムのプログラムコードはウェブから得ることができる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


深さが浅い画像の、教師なし多解像画像のセグメンテーション
Unsupervised Multiresolution Segmentation for Images with Low Depth of Field

James Z. Wang, Jia Li, Robert M. Gray, Gio Wiederhold

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 1, pp.85-90, January 2001

Keywords: Content-based image retrieval, image region segmentation, low depth-of-field, wavelet, multiresolution image analysis

深さが浅い画像の教師なし学習は、ディジタルカメラの画像強調や、目標認識、内容に基づく画像索引、3D顕微鏡画像解析を含む多様な用途に大変有用である。本論文では深さが浅い画像において多解像度画像セグメンテーションの新規な方法について述べる。このアルゴリズムは、シャープに焦点の合った注視オブジェクトから、その他の全景、背景を分離することが目的である。本アルゴリズムは全てのパラメータがコンテキストに依存しない全自動である。高周波数wavelet係数とその統計量に基づく多重スケール法を使って、コンテキストに依存しない画像の個々のブロックを識別する手法が使われている。他のエッジに基づく手法と異なり、我々のアルゴリズムは連結オブジェクトの境界の処理には依存しない。多くの不均一な紛らわしい前景や背景が存在する100以上の低深度画像をテストした結果、高精度の結果が得られた。最新のアルゴリズムに比べ、この新アルゴリズムは高速で高精度であった。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.2

顔の表情分析のための行動単位を認識する
Recognizing Action Units for Facial Expression Analysis

Ying-li Tian, Takeo Kanade, Jeffrey F. Cohn

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.97-115, February 2001

Keywords: Computer vision, multistate face and facial component models, facial expression analysis, facial action units, AU combinations, neural network

最も進んだ表情の自動分析システムは、幸福感、怒り、驚き、恐怖といった原型となる少数の表情を認識しようとする。このような原型となる典型的表情はそれほど頻繁には起きない。人の感情や意志はしばしば1つ以上の個別の表情を変化させることによって互いに交換されることが多い。本論文では自動顔分析システムを開発し、おおよそ正面から撮影された連続画像から、永続的特徴量(眉、目、口)に基づいて顔表情や変化している顔特徴量(深まりつつある顔の皺)を分析するシステムを開発する。この自動顔分析システムは表情の細かい変化を認識し、顔の動きコード化システムの起動ユニットを作動させるのであり、複数の原型表情に対応させるのではない。唇、目、眉、頬、皺などの多様な顔特徴の追跡とモデル化のために、多状態顔要素モデルを提案する。追跡の間、顔特徴量の詳細なパラメータ記述が抽出される。これらのパラメータを入力値として、顔上半分の6個と、顔下半分の10個の動作ユニットのそれぞれを、各々個別のニューラルネットワーク表現によって認識する。このとき、表情は個別の要素毎に与えられても良いし、いっしょであっても構わない。このシステムの平均認識率は上半分顔で96.4%(ニューラルネット表現が使われない場合は95.4%)、下半分顔で96.7%(ニューラルネット表現が使われない場合は95.6%)であった。この方式の一般性を試すために収集された別個の独立した画像データベースを使い、実証の為に異なる研究チームによって顔表情のコード化がなされた。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単一画像からのモデルに基づく3Dオブジェクト認識
Model-Based Recognition of 3D Objects from Single Images

Isaac Weiss, Manjit Ray

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.116-128, February 2001

Keywords: Object recognition, invariance, model-based

本論文では最近ほとんど注目されないオブジェクト認識の主要問題を扱う。その中でも、特に3Dから投影された単一2Dと、これらの画像間の対応関係を見つける複雑さについて扱う。これらの問題の複雑さを減少させるために、我々は幾何学的不変量を使う。3Dから2Dへの投影においては幾何学的不変量は存在しない。しかし、3Dオブジェクトのモデル化にある種の仮定を導入すると、このような不変量が見つかる。モデル化の仮定とは、特定のモデルであるか、あるいは、モデルクラスに関するに関する一般的な仮定のいずれかである。ここでは単一画像による認識にこの仮定を使った。我々は一般的投影状況において、3Dモデルの不変量と、これを投影した2Dの間に代数学的関係式を見つけた。これらの関係式は、3D不変空間における不変モデルである、不変な「光線」として幾何学的に記述でき、与えられた画像の不変画像として投影される。この手法を実画像にも応用した。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


商画像:可変証明下のクラスに基づく描画と認識
The Quotient Image: Class-Based Re-Rendering and Recognition with Varying Illuminations

Amnon Shashua, Tammy Riklin-Raviv

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.129-139, February 2001

Keywords: Visual recognition, image-based rendering, photometric alignment

本論文はクラスに基づく、変化する照明下の画像による認識と描画表現に関する問題について述べる。描画問題は以下の様に定義できる:あるオブジェクトの画像が1枚与えられ、異なる照明下での他のオブジェクトのサンプル画像が与えられているとき、新たな照明条件をシミュレートするように再描画する。クラスに元づく認識問題も同様に定義できる:色々なオブジェクトの画像データベース中から、1つのオブジェクトが撮影された単一画像が与えられている。色々なオブジェクトの中には異なる照明下で複数回撮影されているものもある。このとき新規なオブジェクトが変化する照明下で撮影されているとき、そのオブジェクトを画像データベース中から探し出せ。我々はここで、表面はLambertian であると仮定する、特に、人間の顔表面については。この手法の重要な結論には、照明不変の特徴的画像(signature image)を利用しており、そのため変化する照明下において解析的に画像空間を合成することができる。我々は、この変化する照明下で任意の新規オブジェクトを合成するには、たった2つのオブジェクトからなる小さなデータベースで十分であることを実験によって示す。多くの場合において、この認識結果は従来手法を遥かに上回る性能を示し、標本画像データベースが少ないにも係わらず、少しの前処理の後このアルゴリズムを働かせることで、ス晴らし品質の再描画画像が得られる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効率的な被写体方位線形解
Efficient Linear Solutioin of Exterior Orientation

Paul D. Fiore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.140-148, February 2001

Keywords: Exterior orientation, pose estimation, absolute orientation, efficient linear method

本論文では被写体の方位に関する解を求める効率的アルゴリズムについて述べる。直行分解を使って、カメラ参照フレーム中における特徴点の未知の深さをまず分離し、スケール付き絶対方位問題として簡易化できる。これはSVD(特異値分解)によって解くことができる。この手法の顕著な特徴は、他の方法に比べて計算コストが小さいことである。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手書き単語認識における全体論的パラダイムの役割
The Role of Holistic Paradigms in Handwritten Word Recognition

Sriganesh Madhvanath, Venu Govindaraju

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.149-164, February 2001

Keywords: Handwriting recognition, holistic paradigms, analytical methods, reading theory, pattern recognition

手書き単語認識における全体論的パラダイムにおいては、文字を単位とする文字認識と異なり、単語を単位として、その全体形状から認識することを心がける。本概観論文において、手書き単語認識に於ける全体論的パラダイムの潜在的役割について、新鮮な視点から概観から始める。調査は、経験豊かな読者のみならず、初学者にも並列全体論的読み取りプロセスについての資料を与えてくれる文献の概観から始める。認識手法として、対象パターンの視覚的複雑度に基づく連続スペクトルを利用し、この枠組みの中で、よく知られた単語認識パラダイムへの翻訳を試みることで、従来にない新鮮な展望をしてみよう。この全体論的手法に利用されている特徴量、方法論、表現、マッチング技法について概括が述べられている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2次元、3次元画像の対応付けに応用されるロバストな点対応付け法
Robust Point Correspondence Applied to Two- and Three-Dimensional Image Registration

Elizabeth Guest, Elizabeth Berry, Richard A. Baldock, Marta Fidrich, and Mike A. Smith

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.165-179, February 2001

Keywords: Image registration, iterative closest point, surface .matching, point correspondence, image warping, image matching, serial sections, reconstruction

多くの医学用・生物学的応用においては、正確で頑健な対応付けの計算が大変重要である。しばしば、対応付け計算では剛体の対応付けアルゴリズムの一部分を使っているが、 弾性体の対応付けアルゴリズムとか、経時的な変化を定量化するためには正確な対応付けが特に重要である。本論文では、CSM (Correspondence by Sensitivity to Movement)と呼ばれる新規な計算アルゴリズムが紹介される。頑健な対応点は、対応付けされようとしている点の動きに対する影響の受け易さを決定してから計算される。対応付けの信頼性が高ければ、この点の位置の摂動は大きな動きにはならないはずである。信頼性尺度も同時に計算される。この対応付け計算法は対応付け変換には独立であり、連続断面を曲げるための2D弾性対応付けアルゴリズムにも、顔の距離画像走査画像の3D剛体の対応付けアルゴリズムにも取り込まれてきた。これらの用途においては対応付け変換にはそれぞれ異なった手法が用いられており、正確な弾性体対応付け画像はCSM法によって得られた。もし、対応付け変換の他の計算法にこの手法が使われるとすれば、この手法は沢山の異なる用途に応用可能であろうと期待されている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パルス同期の振動子の自己組織化とクラスタリングへの応用
Self-Organization of Pulse-Coupled Oscillators with Application to Clustering

Mohamed Ben Hadj Rhouma, Hichem Frigui

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.180-195, February 2001

Keywords: Oscillators, synchronization, phase-locking, unsupervised learning, clustering, hierarchical clustering

集積・発火振動子集団を、安定で構造化したグループに組織化する、効率的な同期モデルを紹介する。各振動子は、同一グループの他の振動子と同期して発火するが、グループそのものは一定の位相差があったときに発火する。同期グループの構造がどうなるかはカップリング関数の選択に依存する。振動子間の相互作用をその相対距離に基づいて定義すると、我々のモデルが一般的クラスタリングアルゴリズムとして利用できることを示す。従来法と異なり、我々のモデルは関係的(リレーショナル)でプロトタイプに基づくクラスタリング法を合体するもので、その結果、簡潔で、効率的で、頑健で、クラスターサイズによる偏りのない、従って任意のクラスタリング数を見つけることが出来るクラスタリングアルゴリズムとなる。クラスタリングと自己組織化の間の相乗作用によって、モデルが自己組織化して安定化するだけでなく、計算複雑度が顕著に減少する。その結果得られるクラスタリングアルゴリズムは、従来にくらべいくつかの利点を持っている。特に、入れ子状の分割化手続きを発生することができ、その結果、効果的に最適クラスター数を決定することができる。我々の手法は目標関数を最適化することは出来ないから、初期値の影響を受けにくく、距離尺度を持たない(non metric)類似度を統合する。我々のアルゴリズムの効率を、合成データ、実データについて示す。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率的概念をもつ、一般化に基づく概念的クラスタリング
Generality-Based Conceptual Clustering with Probabilistic Concepts

Luis Talavera, Javier Bejar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.196-206, February 2001

Keywords: Conceptual clustering, hierarchical clustering, probabilistic concepts, user interaction

クラスタリングに関する統計的研究は、通例、連続的特徴量のデータ集合を対象にしており、その手法はシンボリックな特徴量を有する課題に適用することは困難である。さらに、これらの手法は、得られた結果をユーザーに解釈してくれることはほとんどなかった。機械学習の研究者たちは、これらの問題を解くことを目的とした概念的クラスタリング手法を開発してきた。AIにおける長年の伝統に従い、概念表現のメカニズムとして、初期の概念的クラスタリング法として論理を実装化した。しかし、論理的表現はクラスター構造を束縛するものとして必要十分な条件表現ではないとして批判されてきた。これに代わるものとして、概念を定義する各特性の確率とか重みに関連する確率的概念である。本論文では、従来機械学習で用いられた確率的表現、「特殊性-一般性」、のアイデアを拡張するシンボリックな階層的クラスタリングモデルを提案する。我々は、ユーサーが各レベルのレベル数や一般化の度合いを指定することが可能な、パラメータ化された尺度を提案する。各レベルにおいて、構築された概念の一般化のバランスをユーザーにフィードバックし、ユーザーパラメータの直感的振る舞いを与えることで、システムはクラスタリングにおけるユーザーの操作性を向上させることができる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


不均質な変換を使った視覚情報の符号化
Encoding Visual Information Using Anisotropic Transformations

Giuseppe Boccignone, Mario Ferraro, Terry Caelli

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.207-211, February 2001

Keywords: Scale space, anisotropic diffusion, entropy production, feature encoding

前回の同一著者の論文では、均質な拡散モデルを利用して、局所エントロピーの変化の割合が異なる部分を境界と定義するセグメンテーション法を紹介した。今回は、不可逆変換の理論に基づく手法を利用して、細密から粗への不均質変換を経る画像情報進化について解析をした。特に、不均質拡散モデルを利用したときには、空間とスケールをまたぐエントロピー生成の局所的変動によって、適切な画像特徴を抽出できる一般的方法を示す。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3枚の非キャリブレーション1D画像から2D投影の再構成における2通りの曖昧さ
Two-Way Ambiguity in 2D Projective Reconstruction from Three Uncalibrated 1D Images

Long Quan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.212-216, February 2001

Keywords: lD camera, vision geometry, ambiguity, reconstruction

一般的に、3枚の非キャリブレーション1D情景画像から、2D投影再構築画像を作る際には、対応点の数には関係なく2通りのあいまいさが存在することを示す。2つの異なる投影再構築には、基本的位置(fundamental points)として3つのカメラ中心があり、これによって定まる2次変換式で正確に記述できる。ユニークな2Dの再構築は、この3つのカメラ中心が並んでいるときのみ可能である。Carsson双対によって、6点対応によって再構成される2Dのあいまいさには、1Dの数には関係なく2通り存在する。数値例によって、理論的結果が示されている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


経験的ベイズ法による動き領域のセグメンテーション
Empirical Bayesian Motion Segmentation

Nuno Vasconcelos, Andrew Lippman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.217-221, February 2001

Keywords: Motion segmentation, layered representations, empirical Bayesian procedures, estimation of hyperparameters, statistical learning, expectation-maximization

動き場の同時セグメンテーションと、マルコフ確率場の事前確率の超パラメータ(hyperparameter)推定について、経験に基づくベイズ手法を紹介する。この新規な手法は、事前確信度(belief)の決定にベイズ理論を利用しているが、事前確率の定性的記述が必要なだけであり、これらパラメータの定量的な仕様は必要としない。これによってこれらパラメータを決定するための試行錯誤戦略を無視することができ、その結果より良いセグメンテーションが得られる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


累積類似度変換による対応付け
Correspondence with Cumulative Similarity Transforms

Trevor Darrell, Michele Covell

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.222-227, February 2001

Keywords: image correspondence, stereo, motion, contour tracking

累積類似尺度を使った局所的画像変換を定義し、これが効率的対応付けを可能にし、隠蔽境界に近い点の追跡を可能にすることを示す。従来法と異なり、本変換法は、隠蔽境界しかコントラストが無いような場合でこの境界に沿ってコントラストが反転しているような場合にも対応付けが可能である。この変換法は累積類似度のアイデアに基づいており、局所的画像均一性の形状を特徴とする。すなわち、画像の特定の点の値だけでなく、局所的に類似しており連結値が把握されている局所形状が把握される(小領域の平均濃度と、その外側との平均2乗誤差)。この表現を使うことによって、隠蔽境界を越える構造に鈍感であるが、境界の形状には敏感であり、これが重要な手がかりとなる。この手法と従来手法の比較結果を示す。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


主成分分析と線形識別分析の比較
PCA versus LDA

Aleix M. Martinez, Avinash C. Kak

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.228-233, February 2001

Keywords: Face recognition, psttern recognition, principal components analysis, linear discriminant analysis, learning from undersampled distributions, small training deta sets

見かけによって認識するオブジェクト認識パラダイムの意味するところは、線形識別分析(LDA; Linear Discriminant Analysis)に基づいている認識アルゴリズムは主成分分析(PCA; Principal Components Analysis)に基づくアルゴリズムより優れていると一般的に信じられている。この論文では、この一般常識が必ずしも成り立たないことを示す。我々は直感的に尤もらしい議論を紹介し、次に、実際の顔データベースに適用した結果を示す。全体的結論は、訓練データ集合が小さいときはPCAはLDAより遥かに優れており、PCAは異なった訓練データ集合にそれほど鋭敏に影響を受けないことである。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


1次木構造型従属性の、変数と識別効率への依存性
First-Order Tree-Type Dependence between Variables and Classification Performance

Sarunas Raudys, Ausra Saudargiene

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.223-239, February 2001

Keywords: First-order tree-type dependence, a priori information, classification, generalization, sample size, dimensionality

共分散行列の構造化によって、訓練データから推定されるべきパラメータ数を減少させるが、次元数と訓練標本数の両方が増加する場合、それによって一般化誤差の増加には影響しない。特徴量ベクトルの要素間の木構造の従属性、つまり、たった1つの上位関連性があるとする近似的に正しい推測から、どうやって利益を得るかについて提案する。我々が共分散行列の構造推定を利用するのは、相関性を持たず、データのスケールを決め、変換特徴量空間において単層パーセプトロンを訓練するためである。パーセプトロンを訓練する場合、不正確な事前情報が与えられると負の効果となることを示す。13個の人工データと、10個の現実データによる実験結果は、1次木構造型従属モデルは、調べた20個余りの共分散行列構造の中で最も好ましいものであることが分かった。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.3

実験による性能評価法とページセグメンテーションへの応用
Empirical Performance Evaluation Methodology and Its Application to Page Segmentation Algorithms

Song Mao, Tapas Kanungo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.242-256, March 2001

Keywords: Document page segmentation, OCR, performance evaluation, performance metric, statistical significance, paired model, direct search, simplex method

多数のページセグメンテーションアルゴリズムが論文などで提案されてはいるが、実験であろうと理論的であろうと、これらアルゴリズムの比較評価はなされてない。既存の性能評価法では次の2つの重要な要素が欠けている:1)自由パラメータによるアルゴリズムの自動的訓練、および、2)実験データの統計的解析と誤差解析。本論文では以下のような5段階の手法を使って定量的にページセグメンテーションアルゴリズムの効率を評価する:1)最初に、互いにオーバーラップしない訓練データ集合とテストデータ集合とそれぞれの正解データを作り、2)次に、意味のある、計算可能な効率尺度w選択し、3)訓練データ集合に対して最適なパラメータ値を自動的に探索する最適化手続きが取られ、4)テストデータ集合に対してセグメンテーションアルゴリズムが実行され、最後に5)実験結果に対する統計解析と誤差解析が行われて統計的評価が求められる。特に、アルゴリズムを訓練するのに従来よる利用されていた個別の、あるいは、手作業による方法に比べ、我々はアルゴリズムの最適化問題として、自動的訓練法を採用し、最適パラメータ値を探索するためにシンプレックスアルゴリズムを利用した。一対モデル(同一データに2つのアルゴリズムを適用した評価に基づく)による統計解析と誤差解析が実行され、アルゴリズムの実験結果の信頼度区間が求まった。この評価法は5つのアルゴリズムに対して行われたが、その内の3つは代表的研究用アルゴリズムであり、他の2つは有名な商用アルゴリズムであった。適用したデータはUniversity of Washington III dataの978個のである。Voronoi, Docstrumおよび Caereアルゴリズムの性能指標(平均の文字行抽出精度)は、あまり差が無かったが、これらは、ScanSoftのセグメンテーションアルゴリズムより遥かに良かったし、また、ScanSoftはX-Y cutよりは遥かに良かった。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


時間的テンプレートを利用した人の動きの認識
The Recognition of Human Movement Using Temporal Templates

Aaron F. Bobick, James W. Davis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.257-267, March 2001

Keywords: Motion recognition, computer vision

視野情報に基づく人の動きの認識法を紹介する。この表現の基礎となるものは時間的テンプレート---静的ベクトル画像であり、各点におけるこのベクトル値は画像系列中の対応する空間位置における動き特性の関数である。テスト領域として航空写真を使い、2成分を有する簡単なテンプレートによる表現能力を探索した:最初の成分は動き有無を示す2値であり、2番目の成分は系列動画像中の時間的新しさを表す関数値である。そして、この時間テンプレートを、蓄積している既知の動作の画像の事例とマッチングさせる認識手段へと発展させる。時間的セグメンテーションは自動的に行われるこの手法は、動き速度が線形である場合には不変であり、標準的プラットフォームでは実時間で作動する。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


定性的情報に基づく空間的制約条件の獲得と伝播
Acquisition and Propagation of Spatial Constraints Based on Qualitative Information

Takushi Sogo, Hiroshi Ishiguro, Toru Ishida

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.268-278, March 2001

Keywords: Qualitative spatial representation, qualitative observation, spatially classified pair, three point constraint, constraint propagation, map building

ロボットナビゲーションにおいて最も重要な基本的事柄の1つは、ロボットの周りに設置してある標識とか視覚センサーを見つけることである。本論文は複数の視覚センサーによって観察された良質のデータから良質の位置情報を再構成する手法について提案する。即ち、動くオブジェクトの動き方向である。点の良質な位置情報を直接得るためには、ここで述べるように以下の段階を繰り返す:1)視覚センサーで動き方向(右とか左とか)を観察する、2)オブジェクトの動き方向に基づいて、視覚センサーを空間的にクラス分けされた組に分類する(動きに合わせてセンサーを分類する)、3)3点束縛条件を獲得し、4)この束縛を伝播させる。画像から抽出した定量的測定と定性的表現から環境構造を再構成する以前の方法に比べ、本論文では低レベルで、単純で、信頼性のある(即ち定量的な)情報から、どうやって定量的に標識の位置データを得るかに焦点を当てている。この手法は、シミュレーションによっても、観察誤差によっても評価された。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


全方位ステレオ:パノラマステレオ画像合成
Omnistereo: Panoramic Stereo Imaging

Shmuel Peleg, Moshe Ben-Ezra, Yael Pritch

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.279-290, March 2001

Keywords: Stereo imaging, panoramic imaging, image mosaicing

全方位パノラマは、一組のパノラマ画像で構成されており、1つは左目用、もう一つは右目用である。このパノラマステレオ対によって、最大360度のフルステレオ画像が生成できる。このような任意方位のパノラマ立体画像は2点からの全方位パノラマカメラで撮影するだけでは合成することはできず、回転しながらステレオ画像対を貼り合わせることで構成できる。もっと簡単な任意方位ステレオパノラマ画像は、1台の回転カメラからの画像貼り合わせによって構成することができる。この方法によってステレオ画像の視差を調整することができ、例えば、遠くの情景は基線を広げて見たり、近くの情景は、基線を短くして見ることができる。回転カメラによるパノラマ立体画像では動きのある情景は撮影できないので、全方位ステレオ画像は静止画像に限られる。ここでは、可動部品を使わないで全方位ステレオパノラマ画像を撮影する、2通りの方法を示す。回転カメラで情景を見たときの注視光路と同じ注視光路をカバーするような特殊なミラーを用意する。全方位ステレオパノラマ用のレンズも用意する。このミラーとレンズの設計は焦線(光線の包絡線:caustic)が円であるような曲線を利用する。全方位ステレオパノラマ画像は、バーチャルな環境を表現するためにコンピュータグラフィックスでも描画できる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


輪郭領域における画像編集
Image Editing in the Contour Domain

James H. Elder, Richard M. Goldberg

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.291-296, March 2001

Keywords: Hlmage editing, edge detection, reconstruction, contour grouping, segmentation

画像編集は、基本的には画素単位で行う。本論文では、作業単位として、画素ではなく、エッジを利用する新規な方法を提案する。この提案が妥当であることは、適当なエッジモデルやスケールの選択が可能な場合は、グレースケール画像をエッジ画像として正確に表現できることから推察できる。特に、このようなエッジ表現した要素画像を高品質で原画に再構成する効率的アルゴリズムが報告されている。これらアルゴリズムをいっしょにして輪郭のグルーピングと直感的に分かりやすいユーザーインターフェースによって画像編集(刈り取り、ペースト、削除)を輪郭領域で直接操作できる。実験結果によると、視覚的アルゴリズムの新規な組み合わせによって、ある種の画像編集操作には効率的であることが示唆される。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


系列画像から層(レイヤー)を抽出するための集積化ベイズ法
An Integrated Bayesian Approach to Layer Extraction from image Sequences

Philip H.S. Torr, Richard Szeliski, P. Anandan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.297-303, March 2001

Keywords: Layer extraction, segmentation, stereo matching, motion estimation

3D情景のモデル化の一方法として、任意の位置と方位に置かれた近似的平面層(レイヤー、スプライト)集合を使って3D情景をベイズ法で記述する方法を提案する。レイヤーを2D画像の動きとして記述し、この動きによってモデル化した過去の多くの研究と異なり、我々の研究では情景を3Dで記述することを可能にする。本論文では2つの点で寄与がある。第1に、レイヤーと情景に関してベイズ決定理論の枠組みで定式化することを仮定し、レイヤーの数と、各レイヤーへの画素の割り当て数を自動的に決定する。第2はアルゴリズムに関する。最適化を達成するために、ベイズ版RANSACが開発され、これによってセグメンテーションが開始される。続いて、一般化された期待値最大化法(MAP)によってMAP 解が見つかる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


幾何学的縮退が存在するときの距離データからのプリミティブのロバストなセグメンテーション
Robust Segmentation of Primitives from Range Data in the Presence of Geometric Degeneracy

David Marshall, Gabor Lukacs, Ralph Martin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.304-314, March 2001

Keywords: Nonlinear least squares, geometric distance, cylinder, cone, sphere, torus, surface fitting, segmentation

本論文は距離画像のセグメンテーションに関する共通問題について述べる。まず、既知の表面が何種類から構成されているとみなすのが適切であるかどうかを見極める。本論文は、球、円筒、錐、トーラスを3Dにフィッティングさせる手法について述べ、セグメンテーションの観点からその応用について述べる。平面で無い表面を、最小2乗フィッティングさせることは、たとえ単純な幾何学的形状であってもあまり研究されたことがない。我々の応用領域は主として深さマップから得られたソリッドモデルからのリバースエンジニアリングとか、自動的3D検査であり、これらの応用においては、高精度の表面形状抽出が不可避である。我々のフィッティング手法の利点は、幾何学的縮退がある場合のロバスト性であり、フィッティングされる表面の主曲率が減少し(あるいは一致し)、その結果、より単純な型にますます近似するようになる。つまり、データに最も近似する平面、円筒、円錐、球などに。他の多くの方法では、このような場合に発散する。多様なパラメータの組み合わせが無限になるからである。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多重解像画像による飾り文字からの構造抽出
Structure Extraction from Decorated Characters Using Multiscale Images

Shin'ichiro Omachi, Masaki Inoue, Hirotomo Aso

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.315-322, March 2001

Keywords: Character recognition, OCR, decorated character, structure extraction

多くの文書で飾り文字が広く利用されている。実用的な工学的文字読取器は普通のフォント以外に複雑なデザインのフォントも認識する必要がある。しかし、飾り文字の見かけは複雑であり、ほとんどの文字認識システムは飾り文字をうまく処理できない。本論文では飾り文字から、文字の基本的構造を抽出する方法を提案する。このアルゴリズムは文字認識の前処理として利用される。提案するアルゴリズムは次の3ステップからなっている:全体的構造抽出、構造の補間、そして平滑化である。多段スケール画像を利用することで、尾根や谷が検出され、構造が抽出される。尾根は全体的な構造抽出に利用され、谷は補間に利用される。実験によると、非常に複雑な飾り文字から文字の構造が抽出できることが示された。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単語認識における傾き・ゆがみ補正のための多様な手法の同値性
Equivalence of Different Methods for Slant and Skew Corrections in Word Recognition Applications

Petr Slavik, Venu Govindaraju

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.323-326, March 2001

Keywords: Image preprocessing, slant normalization, skew normalization, handwriting recognition

傾きや歪みの正規化処理は単語画像を認識する前にしばしば利用される。本論文では、従来提案されている異なる傾きや歪みの補正法が、実は同値であることを理論的に証明する。とくに、歪み補正に回転を施し、次に傾き補正を水平方向に剪断変形させることと、最初に水平方向に剪断変形させ、続いて垂直方向に剪断変形によって歪みを補正することと等しいことを示す。我々の証明法を変形すると、傾きと歪みの補正を行う他の方法と等しいことが容易に示される。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Watershedセグメントの最大事後確率ラベル付けによるビデオ画像のセグメンテーション
Video Segmentation by MAP Labeling of Watershed Segments

Ioannis Patras, E. A. Hendriks, R. L. Lagendijk

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.326-332, March 2001

Keywords: Markov Random Fields, motion-based segmentation, region labeling, watershed segmentation, motion estimation

本論文はビデオ画像の空間時間セグメンテーションに関する問題を提起する。最初、強度によるセグメンテーション法(watershed セグメンテーション)によって多数のセグメントが、続いて、動き情報を利用してラベル付けされる。ここで、watershedアルゴリズムとは、(1)輝度勾配が極小値にマーカを設定;(2)勾配に沿ってマーカを成長;(3)マーカのぶつかった所に境界を生成;と言う手続きで領域を生成する手法である。このラベル付け領域は、最初のセグメンテーションに基づいて、統計的に空間的時間的相互作用がマルコフ場としてモデル化される。ラベル付けの基準は、動き仮説に基づき、前のフレームにラベル場の推測、および、画像強度が与えられたときの推測に基づく、ラベル場の条件付事後確率の最大化である。最適化には、対話的に動き予測-ラベリングのアルゴリズムが提案され、それに基づく実験結果も示した。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.4

処理レベルの低い画像のためのガウス-マルコフ計測場モデル
Gauss-Markov Measure Field Models for Low-Level Vision

Jose L. Marroquin, Fernando A. Velasco, Mariano Rivera, Miguel Nakamura

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 4, pp.337-348, April 2001

Keywords: Bayes methods, estimation theory, Gaussian distributions, image classification, image segmentation, Markov processes, probability, simulated annealing

多くの性質の悪いコンピュータビジョン問題において極めて有用であるのは、先験確率としてマルコフ確率場(MRF)を用いたベイズ推定理論である。ここに、古典的離散マルコフ確率場から導かれた古典的モデルを紹介する。これは、画像処理やコンピュータビジョンにおける性質の悪い問題の解に利用することができるだろう。これによって柔軟で、計算的に効率的であり、生物学的にも尤らしい画像再生アルゴリズムが導ける。この有用性を示すために、優占的方位と方向場の再構成、マルチバンド画像のクラス分け、画像量子化、フィルタリングへのアプリケーションを示す。

Ej,HN

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


構成要素を利用した、画像からの例に基づくオブジェクト検出
Example-Based Object Detection in Images by Components

Anuj Mohan, Constantine Papageorgiou, Tomaso Poggio

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 4, pp.349-361, April 2001

Keywords: Object detection, people detection, pattern recognition, machine learning, components

本論文では静止画像中の構成要素を利用してオブジェクトを認識する、例に基づく認識の一般的枠組みを紹介する。この手法を実証するために、ごちゃごちゃした情景の中から人間の所在を見つけるシステムを開発した。このシステムは4つの別個の、例に基づく検出器で構成されており、その各々は人体の4つの構成要素である頭、足、左腕、右腕を検出するために別々に訓練される。これらの構成要素が、適当な幾何学的制約の範囲内で存在することが確かめられると、例に基づく2番目の識別器が、要素検出器の検出結果を結びつけ、オブジェクトが「人間」であるか「非人間」であるかを識別する。このような階層的構成を、識別器の適応的組合せ(Adaptive Combination of Classifiers (ACC))と呼ぶ。我々はこのシステムの結果が、類似の全身検出器に比べてはるかに良いことを示す。このことから、このシステムの性能が優れているのは構成要素に基づいたACCデータ識別アーキテクチャに拠る事が推察できる。また、本アルゴリズムは人間の全身検出法に比べて、より頑健であり、人間画像が部分的に隠蔽されていたり、身体の部分が背景とほとんどコントラストがつかない場合にも、頑健である。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


視覚標的の分別性のための情報理論的指標
Information Theoretic Measure for Visual Target Distinctness

Jose A. Garcia, Joaqufn Fdez-Valdivia, Xose R. Fdez-Vidal, Rosa Rodriguez-Sanchez

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 4, pp.362-383, April 2001

Keywords: Visual target distinctness, information theoretic measures, information conservation constraint,' significance conservation constraint, psychophysical experiments, bootstrap methods

人間にとって、対象物とか、関連したオブジェクトに関する視覚的な捕捉効率があらかじめ判っているなら非常に有益である。しかし、本来の探索効率は大きく変動するし、認識する情景に対する先験知識に大きく依存する。従って、典型的な探索実験では、統計的に信頼性のあるデータを得るためには多量の観察が必要となる。更に、野外における標的捕捉の効率測定はしばしば非現実的であり、非常に高くついたり危険でさえある。本論文は、標的の特徴をその背景に対してどう取るべきかの新規な方法を紹介する。その結果得られた計算結果を、ディジタル画像中の複雑な自然背景中の標的に対する視覚的分別性を定量化してみる。色々な確率変数のカルバック・ライブラー結合情報量の利得に対する一般化を示し、これが視覚標的の人間による分別性評価と強い相関を持つことを示す。統計的精度の評価には、Bootstrap法を利用した。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グローバルなアフィン変換相関によるグレイスケール文字のアフィン不変認識
Affine-lnvariant Recognition of Gray--Scale Characters Using Global Affine Transformation Correlation

Toru Wakahara, Yoshimasa Kimura, Akira Tomono

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 4, pp.384-395, April 2001

Keywords: Gray-scale character recognition, normalized cross-correlation, global affine transformation, noise-tolerant and affine-invariant image matching, successive iteration method

本論文は、グレースケールの文字画像の新たで有望な認識手法について述べる。その鍵となるアイデアは2つある。第1に正規化された相互相関(cross correlation)によるマッチングを利用しているのでノイズに強いこと、第2にグローバルなアフィン変換を入力画像に適用しているため、目標画像に対してアフィン変換不変性が得られることである。特に、グレースケール画像の地形的特徴をマッチング条件として継続的に繰り返すことによって、最適なグローバルアフィン変換(GAT)が効率的に決定できる。ランダムノイズを有する、多様なアフィン変換を受けた数字のグレースケール画像を使って、このGATが高いマッチング能力を示すことを実証する。また、徹底的な認識実験によって、ノイズの多い30度以下の回転変形、30%以内のスケール変換、文字幅の20%以内の並進変形を受けた画像に対して94.3%の認識率を達成したが、単純な相関法だけの認識率の42.8%に比べ、十分高い値である。

Ej,HN

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


適応混合モデルのための相互情報理論
Mutual Information Theory for Adaptive Mixture Models

Zheng Rong Yang, Zwolinski

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 4, pp.291-296, April 2001

Keywords: Adaptive mixtures, entropy, mutual information, pattern recognition, statistical dependence, uncertainty

多くのパターン認識システムでは、本来の固有な確率密度関数(pdf)を推定する必要がある。そのため、通常は混合モデルがこの目的に利用され、分布の有限混合によって、本来のpdfが推定される。密度混合モデルの基本的演算成分は非線形写像関数を有する要素であり、これが混合に寄与する。効率的で正確なpdfの推定をするために、混合モデルに最適要素集合を選ぶことは重要である。以前の研究では、パターンに含まれる情報を元に真の分布を推測するのが常であった。本論文では、相互情報理論を利用して、2つの成分が独立かどうかを測定する。もしある要素が、少しでも相互情報量を持っていれば、これは、他の要素にも統計的に独立である。従って、この要素はシステムのpdfに大きな寄与をなすから、取り除くべきではない。しかし、もし特定の要素が大きな相互情報量を持っているなら、これは統計的に独立ではないであろうから、推定pdfに大きな損害を与えることなくこの要素を除くことができる。大きくて正の相互情報量を持つ要素を取り除き続けると、真のpdfに極めて近い最適構造の密度混合モデルが得られる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


内挿点距離の解析による嗅覚識別
Olfactory Classification via Interpoint Distance Analysis

Carey E. Priebe

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 4, pp.404-413, April 2001

Keywords: Ensemble classifiers, combining classifiers, nonparametric, nearest-neighbor, interpoint distance, rank statistic, subsample statistic, functional data, artificial nose, electronic nose, analytical chemistry, chemometrics

近年、電子嗅覚システムが開発されるようになってきたが、電子人工鼻の信号処理に新規なノンパラメトリックな手法を提供することが本論文の目的である。化学センサーにとって、複雑な背景信号から、低濃度の特定の単一化学物質を検出することは困難な応用分野である。本論文は、トリクロロエチレン(TCE)の検出のために設計された人工鼻が観測した化学センサーデータベースの分析性能を調査することを目的とする。この応用のために、点間距離に基づく部分サンプル集合を利用した手法を考える。実験結果は、このノンパラメトリックな手法が嗅覚識別の有力な手法であることを示している。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


周辺最大エントロピー分割基準の確率密度関数への漸近的整合性
Marginal Maximum Entropy Partitioning Yields Asymptotically Consistent Probability Density Functions

Tom Chau

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 4, pp.414-417, April 2001

Keywords: Marginal maximum entropy, recursire partitioning, pattern discovery, asymptotic optimal classification

周辺最大エントロピー基準は連続サンプル空間を回帰的に分割するために使われてきた。この基準はある種のパターンを見つける用途にはうまく当てはまってきたが、その理論的妥当性がはっきり述べられることはなかった。本論文では、基本的周辺最大エントロピー分割アルゴリズムは、漸近的に密度推定と整合性があることを示す。この結果から、周辺最大エントロピー基準は、パターンの発見に利用可能であることを支持しており、最適識別器が構成可能であることが示唆される。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


欠落データを含む最少投影再構成法
Minimal Projective Reconstruction Including Missing Data

Fredrik Kahl, Anders Heyden, Long Quan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 4, pp.418-424, April 2001

Keywords: Structure recovery, projectlye reconstruction, structure from motion, projective geometry, missing data

投影画像からの再構成に必要な最少データ数は、すべての画像中で各オブジェクト点が見えている場合には、良く知られている。本論文では、いくつかの画像中に欠落点を含む多数画像からの3D画像再構成問題の新たな解法を定式化しよう。欠落点を許す最少データを扱うことができれば理論的だけでなく実用的にも大変重要である。RANSACやLMSのようなブートストラップ法での頑健な推定とか、バンドル推定のような推定に、これらを利用することは不可欠である。次に3画像中の8点がある最少の場合の解法を示す。おの3つの画像中に、各々異なる欠落点が存在してもかまわない。この最少ケースには、11個もの解が存在することを証明する。さらに、3つか4つの欠落点をもつすべての最少ケースをリストアップする。最後に、合成画像と実画像をつかって、本論文で紹介するアルゴリズムは実用問題にも有用であることを実証する。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自然画像中の雑多なものの確率モデル
Probability Models for Clutter in Natural Images

Ulf Grenander, Anuj Srivastava

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 4, pp.424-429, April 2001

Keywords: Image models, object recognition, clutter, transported model

我々は自然画像中の雑多なものをモデル化する枠組みを提案する。その仮定として、1)実際は3Dであるオブジェクトが投影されて2D画像として見えている、2)ある種の簡単な条件は成り立つ、を考え、自然画像に対する解析的密度関数を導く。この表現は、観測された密度関数(ヒストグラム)によい一致を示す。多次元密度関数を導くとともに、いくつかの拡張も提案する。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.5

二次元形状モデルの自動構築
Automatic Construction of 2D Shape Models

Nicolae Duta, Anii K. Jain, Marie-Pierre Dubuisson-Jolly

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 5, pp.433-446, May 2001

Keywords: Shape models, point correspondence, flexible registration, automatic landmarks, shape clustering

二次元形状モデルの自動生成手順を述べる。輪郭点の座標により定義されたトレーニング用の形状例をモデリングシステムに与え、それらをProcrustes解析を用いて自動的に整列させて、クラスタのプロトタイプ(典型的なオブジェクト)と、クラスタ内の形状の変動に関する統計情報とを得るべくクラスタリングする。以前に報告した方法との違いは、第一にはトレーニングセットがまず自動的にクラスタリングされ、クラスタから外れると判断される形状例については破棄されることである。この方法では、クラスタのプロトタイプはクラスタに属さない形状から擾乱を受けることはない。第二の違いは、形状輪郭から抽出される登録された点の組の扱い方である。オブジェクト対の間の非線形な形状の差異と同じように、ポーズとスケールそれぞれの差異を考慮に入れた柔軟なポイントマッチング方法を提案する。このマッチング方法は、2つのオブジェクトの位置と大きさの初期値に対して独立であり、他のいかなる手動調整されたパラメタも必要としない。MR(磁気共鳴)による脳磁図において手作業でトレースされた輪郭線のうち、11の異なる形状を用いて、モデルに学習させている。学習したモデルを用いて、学習に用いられていない様々なMR脳磁図を分割する作業を行った。我々の形状登録手法を定量的解析した結果、各構造体の主クラスタ内部では、手動登録に比べ非常によい結果を示した。誤登録は平均で約1画素だった。我々の手法は、退屈で時間を浪費する従来の手動の二次元形状登録と解析に対して、完全自動な代替手段となり得る。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


トポロジカルな点群の分割に対する計算論的方法と画像解析への応用
A Computational Method for Segmenting Topological Point-Sets and Application to Image Analysis

Stiliyan N. Kalitzin, Joes Staal, Bart M. ter Haar Romeny, Max A. Viergever

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 5, pp.447-459, May 2001

Keywords: Differential topology, critical point-sets, ridges, image analysis, scale space

任意の空間次元を持つスカラー画像の、トポロジカルな下位次元点群に対する、新しい計算論的分割手法を提案する。本手法は、下位次元画像中の各点の近傍の傾斜ベクトルにより定義される、同一性クラス(homotopy class)を基本とする。またここでいう近傍は与えられた下位次元のベクトルフレームを超えて広がる線形包絡線により定義される。フレームのランクが最大となるような、最も単純なケースでは、極大点や鞍点などの臨界点の位置を絞り込む技法を用いることができる。ヘッセ行列の絶対値主方向による、任意の数の最初の最大値により形成されるフレームの、特に重要なケースについて検討する。他の種類の、次元性間の臨界面(異なる特徴量次元を持つ点群同士の臨界面)と同じように、本手法は正と負の稜線を分割する。主方向と結合した固有値の符号は、臨界面にあるサブセットに自然なラベリングを与える。一般的な結果として、包含関係によりリンクされた異なる次元性の点群の階層構造に対する、構造的な定義が得られる。本手法は明確な計算論的特徴を持ち、様々なアプリケーションで稜線やエッジの高速なセグメンテーションに用いることができる。上で定義されたトポロジカルな点群は多面的に結合しており、それ故に本手法は局所的な測量のみを用いた幾何学的なグルーピングに用いることができるのである。特別な画像座標が導入された場合の2つのケースを例示することで、本手法により得られる構造のグルーピング特性を説明した。その内の一例では、線形スケール空間コンセプトの枠組みの中で、画像解析について検討した。そのコンセプトの下では、トポロジカルな特性が、スケールパラメタに従って次第に簡略化される。このスケールパラメタは付加された座標軸と見なすことができる。第二の例では、局所方位パラメタを、伸張された構造のグルーピングと分割に用いる。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ファジー結合度を用いたマルチシードセグメンテーション
Multiseeded Segmentation Using Fuzzy Connectedness

Gabor T. Herman, Bruno M. Carvalho

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 5, pp.460-474, May 2001

Keywords: Segmentation, fuzzy connectedness, feature extraction, algorithms, clustering

ファジー結合度は、相当崩れた画像中からオブジェクトを切り出すのに用いられてきた。多重オブジェクトの同時セグメンテーションをいつも決定しているように見えるように、定義を与えることにより、ファジー結合度のアプローチを一般化する。いかなるシード点の組み合わせにおいても、この定義により一意にセグメンテーションを決めることができる。セグメンテーションを求めるアルゴリズムを示し、その出力結果を図示した。まずこのアルゴリズムと、現行の他のセグメンテーションアルゴリズムの比較を行う。何人かのユーザに対して、多数の画像での本アルゴリズムのシード点を決定してもらう実験を行った。その実験結果に基づきアルゴリズムの精度と頑健性についても報告する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


可変形状検出およびモデルベース領域グルーピングによる記述
Deformable Shape Detection and Description via Model-Based Region Grouping

Stan Sclaroff, Lifeng Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 5, pp.475-489, May 2001

Keywords: lmage segmentation, region merging, object detection and recognition, deformable templates, nonrigid shape models, statistical shape models

本稿では可変形状検出とその認識方法について述べる。可変形状テンプレートを用いて、画像を大域整合性のある表現に分類する。またその解釈は最小記述長原理により、ある程度決まる。統計的形状モデルは、各オブジェクトクラスの大域的なパラメトリック変形に関する事前確率を向上させる。本システムは一旦教育されると、変形した形状を背景から自動的に切り出し、近傍のオブジェクトや影などと融合させることは無い。このような定式化は、あらゆる領域切り出しアルゴリズム(テクスチャ、カラー、動き)により得られた画像領域群に用いることができる。修復した形状モデルは直接オブジェクト認識に用いることができる。併せてカラー画像に関する実験を報告する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビジュアルサーチ中の注視方向に関する最大尤度戦略
A Maximum-Likelihood Strategy for Directing Attention during Visual Search

Hemant D. Tagare, Kentaro Toyama, Jonathan G. Wang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 5, pp.490-500, May 2001

Keywords: Attention, object recognition, visual search

画像の部分領域に局在するターゲット物体に注目する場合、画像全体を精密に解析する方法は、計算論的に無駄が多い。有用な「注視戦略」とは、高速かつ概算の画像測量を用い、それと目される部分領域を指し示すことで、全体的な計算量を削減することができるものである。本稿では、まさにそれが可能な最大尤度注視機構を提唱する。この注視機構は、物体がいくつかのパーツからなり、そのパーツもまた様々な特徴を持つことを認識する。上記機構は、ターゲットから引き出せる最大尤度の、物体部分と画像特徴との組みを示す。近似と同じように正確な尤度の計算が行われる。またこの注視機構は適応的である。これは即ち画像の特徴量の統計的性質に対して適応的な振る舞いを示すということである。この注視機構が、実際の物体を選択するまでに評価するのは、全ての部分-特徴対のうち平均2%以下であることを実験結果は示しており、これはビジュアルサーチにおいて、かなりの計算量の削減となる。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数の航空写真を用いた建造物の検出とモデル化
Detection and Modeling of Buildings from Multiple Aerial Images

Sanjay Noronha, Ramakant Nevatia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 5, pp.501-518, May 2001

Keywords: Aerial image analysis, building detection, building modeling, perceptual grouping, multiple image analysis

航空写真からの、ビルディングなどの人工物の自動検出および記述は多くの応用分野でますます重要になってきている。シーン切り出しや三次元推量、そして困難な条件下での形状記述などのような、一般的な問題への洗練された研究分野にも踏み込んでいる。複数の航空写真から、直線的かつ平坦もしくは対称な「切り妻」を持つビルを検出し、その三次元モデルを構築するシステムについて説明する。但しそれはステレオグラムになっている必要はない。(それは他の機会に得られるだろう)四角い屋根部分(の形状)に関する仮説は、画像中の線分を階層的にグルーピングすることで得られる。そして予測された壁と影を探すことで、この仮説は確かめられる。この仮説生成処理は、階層的グルーピングと、後続の段におけるマッチング処理を結びつける。三次元構造物同士の重複や相関を解析し、(仮説の)不整合を解消する。このシステムは多数の実画像を用いてテストされ、良好な結果を示している。いくつかの試験画像は、その評価と共に本稿に収録されている。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


領域の投影整列
Projective Alignment with Regions

Ronen Basri, David W. Jacobs

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 5, pp.519-527, May 2001

Keywords: Pose recognition, partial occlusion, projective transformations, object recognition

最近我々は、領域を用いて物体の姿勢を決める方式でありながら、その領域の一部が隠蔽されていてることをも許容する、認識方法に関するアプローチを提唱した。領域を用いた考え方は、現行の大域的、局所的なアプローチに代わる、魅力的な代替手段たりうる。そして大域的特徴と異なり隠蔽と切り出しの誤りを扱うことができ、また局所的特徴と異なり検出器の誤りに(過度に)敏感ではなく、調整も楽である。この領域を基にしたアプローチは、画像情報を直接にも使う。また算術的表現などのように信頼性の高い計算が困難な中間表現形態は構築しない。本稿では更に、この方法を投影変換を受けた平坦な物体に対して適用した場合の特性について解析している。3つの隠蔽の無い領域があれば、上記変換を一意に決定するのに充分であり、また物体の大きなクラスに関しては、2つの領域では本目的に対して充分でないことを証明する。しかし、いくつかの領域を用いることができる場合、その内の何個か、もしくは全ての領域が著しく隠蔽されていても、物体の姿勢は一般的に再現可能であることを示す。我々のこの解析は、投影変換における点群のフローパターンを、固定点と対比した調査に基を置いている。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ノイジーなデータを対象とした、パラメトリックもしくはノンパラメトリックのフィッティングモデルに対するベイズ手法
A Bayesian Method for Fitting Parametric and Nonparametric Models to Noisy Data

Michael Werman, Daniel Keren

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 5, pp.528-534, May 2001

Keywords: Bayesian fitting, parametric models, nonparametric models

ノイジーなデータを対象とした、パラメトリックもしくはノンパラメトリックのフィッティングモデルに対する、シンプルなパラダイムを提唱する。これによって、古典的なMSEアルゴリズムと関連するいくつかの問題を解消できる。これは、モデル上の各点を、各データ点の考えうる母分布と見なすことにより実現される。線分のフィッティングのような、MSEアプローチにおける不良設定性問題を解くのに、本パラダイムを用いることができる。一般的な曲線について、例え大きな不連続があったとしても、ずば抜けて素晴らしい結果を示すことが証明される。ガウスノイズまたは均一ノイズが混入している、線、円、楕円、線分、方形、そして一般的な曲線を含む、数々のフィッティング問題について結果を示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


陰影からの形状復元を用いた物体認識
Object Recognition Using Shape-from-Shading

Philip L. Worthington, Edwin R. Hancock

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 5, pp.535-, May 2001

Keywords: Shape-from-shading, object recognition, shape-index, histogram, constant shape-index maximal patches, graph-matching

近年報告されている、陰影からの形状復元(shape-from-shading:SFS)を用いて、グレーレベルの画像から抽出された物体表面の形状情報が、三次元物体認識に用いることができるかを検証する。このアルゴリズムによる曲率と形状インデックス情報が、表面形状に基づいた物体認識に、どの様に用いることができるかについて考察した。対照的な二つの物体認識方法について調査した。第一の方法は、大まかな低レベルの属性を基礎とし、曲率及び方位の測量のヒストグラムを用いる。第二の方法は、一定の形状インデックス最大パッチの体系的なアレンジと、それに結合する領域の属性を基本とする。領域の湾曲度と、大きさによる領域の順位付けにより、約96%の認識率が得られることを示す。グラフマッチング法を含む多数の認識手法に投票することにより、98〜99%の認識率を達成可能であることを示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.6

動きからの射影型多物体構造復元のための高速かつ正確なアルゴリズム
Fast and Accurate Algorithms for Projective Multi-Image Structure from Motion

John Oliensis, Yacup Genc

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.546-559, Juney 2001

Keywords: Projective multiframe structure from motion, structure from motion, projective geometry, factorization, linear algorithms, Sturm/Triggs factorization, dominant plane, bundle adjustment, shape from X, low level vision

追跡点により構成される複数の画像系列から、射影構造および動きを計算するいくつかのアルゴリズムについて解説する。これらのアルゴリズムは本質的に線形であり、極端なサイズでないならば、いかなる動きに関しても適用可能であり、最大尤度推定と同等の精度である。そしてSturm/Triggsの因子分解手法よりもよい結果を示し、それらと同等に高速で、束調整(bundle adjustment)よりも高速である。(反復型の)Sturm/Triggsの手法は、線形なカメラの動きに関してよく失敗することを我々の実験結果は示している。更に、射影型の我々のアルゴリズムと、射影/ユークリッドの混合型戦略を比較し、共通の条件を実験を通じて検証する。その条件下では校正は固定、かつ大まかには既知である。主平面補償の性質を明らかにし、そしてその補償は、シーンを平面的なものと見なして行う近似よりというよりも、小さな変換の近似と見なせることを示す。我々の投影的アルゴリズムを用いると、射影変換により構造と動きが変換されている可能性があるにもかかわらず、(射影された)実際とは逆方向の奥行きや、ホモグラフィー(実際の三次元形状は異なるが、射影された像は同一の物体の総称:訳者注)を正確に復元できることを示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複雑なビジュアルオブジェクトの追跡のための確率的データ連結法
Probabilistic Data Association Methods for Tracking Complex Visual Objects

Christopher Rasmussen, Gregory D. Hager

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.569-576, Juney 2001

Keywords: Visual tracking, data association, color regions, textured regions, snakes

本稿ではデータ連結を理路整然と論ずることが出来るフレームワークについて述べる。この方法は幾多の困難な視覚環境において、トラッキングの性能を向上させうる。追跡戦略の階層性は、データの「あいまいさ」や欠落の原因が下記の3つであることに由来する。 1)ノイズに似た視物体、2)長期に渡り存在するシーン中の既知の要素(他の追跡物)、もしくは3)長期に渡り存在するシーン中の未知の要素。まず現行の確率的データ連結フィルタ(probabilistic data association filter : PDAF) −これは、入り乱れた動きに対して抵抗となり、またすばやい動きに追従することも出来る−、から派生させた、ランダム化追跡アルゴリズムを導入する。本アルゴリズムは均質領域、テクスチャ領域、スネーク、の3つの異なる追跡モダリティに適用され、他の方法の直接的な包含関係を以って拡張的に定義される。第二に、連結PDAFを適用することにより複数の物体を追跡するための能力を付加した。この連結PDAFは同じモダリティの追跡器と画像特徴量の間の選択が首尾一貫しているかを監視する。これにより、混合追跡器モダリティを許容し、物体のオーバーラップをロバストに扱える技法を導出する。最後に、幾何学的(部分など)にも、質的(属性など)にも多様であるキューの結合として複雑な物体を表す。部分追跡器と、各個の部分の複合記述属性の間の、頑健で相互に関連した拘束条件により、(追跡対象の)物体全体をよりはっきりとさせ、誤追跡への感度を低減させる。人々の姿や、顕微鏡で見た細胞、そしてチェスの駒などの様々な物体に対して実験結果を示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非同時サンプリング地雷センサにおける特徴レベルと決定レベルの融合
Feature-Level and Decision-Level Fusion of Noncoincidently Sampled Sensors for Land Mine Detection

Ajith H. Gunatilaka, Brian A. Baertlein

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.577-589, Juney 2001

Keywords: Land mines, sensor fusion, infrared, ground penetrating radar, metal detectors

複数のセンサからのデータにおいて、特徴レベル(検出前)と決定レベル(検出後)の融合方法を示し、(従来の)方法と比較する。本研究では、非均等なポイントからサンプリングされた、非均等データを扱うのに適した融合方法を用いている。しかしこれは原理的には最適ではない。なぜならば全ての検出器に検出される場合以外では、この融合の恩恵を全て受けることができないからである。本稿では、非均等かつ非同時サンプリングデータの特徴レベルの融合に関する新規のアルゴリズムについて述べる。ここでモデルはセンサからのデータに適応し、またこのときのモデルのパラメタを特徴量として扱う。いくつかの実際上の簡略化を施し、特徴レベルと決定レベル両方での定式化について述べる。閉じた形での表記は正規分布するデータの特徴レベルの融合に用いることができ、複数のセンサから得られたデータの、サンプル点の位置の精度がどの程度求められるかを検証するための合成データと共に用いることもできる。試験場内の擬似地雷に対して、金属探知機、地中探査レーダー、及び赤外線カメラから得られた実験データを用いて、特徴レベルおよび決定レベルの融合アルゴリズムの性能を比較する。二値の決定の融合に関しては、最良のセンサよりも著しく良い性能とは言いがたいことが判った。特徴レベルの融合は、検出信頼性情報が得られる場合(「緩やかな決定」融合)における決定レベルの融合のと同じように、各センサよりも明らかに良い性能を示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


条件付ガウシアンネットワークの教師なし学習における次元性の削減
Dimensionality-Reduction in Unsupervised Learning of Conditional Gaussian Networks

Jose Manuel Pena, Jose Antonio Lozano, Pedro Larranaga, Inaki Inza

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.590-603, Juney 2001

Keywords: Data clustering, conditional Gaussian networks, feature selection, edge exclusion tests

本稿では、特徴選択の研究成果である条件付ガウシアンネットワークの教師なし学習についての新たな性能向上について述べる。データベースの各ケースのクラスタメンバーシップを反映するラベルがない状況下で、それらの特徴(量)と他の特徴(量)の相関は低く、学習過程とは独立であると見なせる、という仮定に我々の提案は基づく。それゆえ関連ある特徴量のみを用いてこの過程を実施することを提案する。その上で、他の全ての関連のない特徴量を、学習済みモデルに加え、オリジナルデータベースを説明するためのモデルを構築する。また簡明かつ効率的な、特徴量と学習過程との関連性の測定について述べる。更にこの測定方法により、自動的に関連する特徴量を特定するための「関連性の閾値」を計算することができる。合成および実世界データベースに対する実験結果により、関連ある特徴と、関連のない特徴を分別する能力があり、学習が加速されることが示される。しかし、オリジナルのデータベースを整合的に説明するためのモデルが未だ構築できていない。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


円形運動のプロファイルからのエピポーラ幾何
Epipolar Geometry from Profiles under Circular Motion

Paulo R.S. Mendonca, Kwan-Yee K. Wong, Roberto Cipolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.604-616, Juney 2001

Keywords: Structure and motion, epipolar geometry,  rofiles, apparent contours, circular motion

単一のカメラの前で、ターンテーブルに乗って回転する物体のプロファイルからの、動きの推測問題について述べる。その主な学術発展への貢献は要するに、プロファイルのみを用い、実用的で、かつ正確な解法の開発である。それは物体の形状を復元できるだけでも充分に重要である。点、もしくは線の一致はまったく必要なく、それらの特徴がそれ以上のいかなる適合も必要としないならば、提案した手法は同様に用いることができる。回転する物体を走査して得られる回転表面の対称プロファイルを利用した、頑健かつエレガントな方法により、回転軸のイメージおよびエピポーラ線と関連するホモグラフィー(実際の形状は異なるが、射影映像が類似すること:訳者注)を得る。それらの対称プロファイルと、回転物体の画像に対する幾何学的な拘束条件と併せ考えることにより、カメラ中心を含む面の投影である水平線についての画像を算出し、その後エピポール、即ち画像系列の完全なエピポーラ幾何情報を得る。連続的な手法により得られたこのエピポーラ幾何情報(回転軸のホモグラフィー像、水平線の像、エピポール)により、プロファイルから動きを復元する通常の手法を用いた場合によく陥る問題の多くを回避することが出来る。特にエピポールの検索は、そのほぼ全てのステップを単純な一次元の最適化問題として扱うことが出来る。パラメタの初期化は簡明であり、アルゴリズムの全ての段階で自動化されている。エピポーラ幾何情報の推定の後に、ユークリッド型の動きが復元される。この復元には校正グリッド若しくは自己校正手法を用いて得られた、固定値のカメラ内部パラメタを用いる。最後に、ここまでの段で推定された動きからプロファイルを用いて回転する物体が再構築される。実画像から得られたデータを示し、提案手法の効率性と有効性を明らかにする。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


繰り返し並進二次式を用いた再構築ベースのシーン認識
Reconstruction-Based Recognition of. Scenes with Translationally Repeated Quadrics

Ragini Choudhury, J.B. Srivastava, Santanu Chaudhury

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.617-632, Juney 2001

Keywords: 3D objects, reconstruction, recognition, projective invariants, translationally repeated objects, quadrics

不変式ベースの単一画像からの二次構成の認識に関する問題について述べる。それらの構成は強固に結合した反復二次曲面によりなる。この問題は再構築というフレームワークで取り扱われてきた。LuongやVievilleの研究の流れをくむ、相対的アフィン構造を用いた新しい数学的フレームワークが提唱されている。この数学的フレームワークを用いると、単一の画像、かつその中の物体を区別するための4つの点、およびその移動、から変遷する物体を投影的に再構築できる。この方法は変遷する二次式の対を再構築するために用いられてきた。我々は既に適当な二次式の結合投影不変量を提案してある。二次構成の認識という目的のために、再構築された二次式の対における、これらの不変量を計算する。合成画像と実画像における実験結果により、今回提案した不変量ベースの認識手法の識別能力と安定性が確かめられた。具体例としては、二次式でモデル化される、並進が繰り返されるドームモデルにより特徴付けられるモニュメントの画像を区別するために、本手法を用いている。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ウェーブレットとスプライン曲線のエリアモメントの正確な計算方法
An Exact Method for Computing the Area Moments of Wavelet and Spline Curves

Mathews Jacob, Thierry Biu, Michael Unser

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.633-643, Juney 2001

Keywords: Area moments, curves, splines, wavelets, Fourier, two-scale relation, box splines, wavelet-Galerkin integrals

スケーリング関数やウェーブレット基底により描かれる曲線による領域境界のモメントの正確な計算方法を示す。グリーンの定理を用いて、エリアモメントの計算が曲線の係数に適当な多次元フィルタを施すことと同値であることを示し、その後スカラー積を計算する。その多次元フィルタの係数は、2つのスケールの相関と同じように、予め正確に計算されている。この新たな方法によるパフォーマンス向上を示すために、ピクセルベースのアプローチやポリゴンによる領域の近似などの、現存する方式との比較を行う。同時にスケーリング関数がsinc(x)である場合の代替関数も提案する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


寡から多へ:様々な照明とポーズでの顔認識に対するイルミネーションコーンモデル
From Few to Many: Illumination Cone Models for Face Recognition under Variable Lighting and Pose

AthinodoroS S. Georghiades, Peter N. Belhumeur, David J. Kriegman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.643-660, Juney 2001

Keywords: Face recognition, image-based rendering, appearance-based vision, face modeling, illumination and pose modeling, lighting, illumination cones, generative models

照明や視点の変動下での人間の顔の認識のための、見え方に基づいた合成手法を示す。本手法は、固定ポーズのあらゆる可能な照明条件で得られた物体の画像集合は、画像空間において凸型錐体(convex cone)をなすということを利用する。それぞれの顔の、照明の方向が異なる少数の訓練画像を用いて、顔の形状とその表面の反射係数(アルベド)を再構築することが出来る。その結果、この再構築は合成モデルとして機能し、未知のポーズや照明条件での、顔の画像を与える--若しくは合成する--ことが出来る。上で述べたポーズ空間はこの段階でサンプリングされ、各ポーズに対して対応するイルミネーションコーンが低次元の線形下位空間により近似される。この線形下位空間の基底ベクトルはこの合成モデルを用いて生成される。この認識アルゴリズムは、各テストイメージに、最も近い近似イルミネーションコーンを割り当てる。(この距離の計算には画像空間内のユークリッド距離を用いる。)この顔認識方法をYale Face Databese B内の4,050の画像について試験した。これらの画像は、10個人の405通りの条件(9つのポーズ×45の照明条件)本手法は、極端な照明方向などの例外を除き、ほぼ全く誤り無く顔を認識し、その性能は、合成モデルを用いない通常の認識手法を遥かに凌ぐ。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


明度変動の物理モデルによるオプティカルフローの計算
Computing Optical Flow with Physical Models of Brightness Variation

Horst W. Haussecker, David J. Fleet

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.661-673, Juney 2001

Keywords: Optical flow, physics-based least squares

殆どのオプティカルフローの手法が、明度の恒常性を前提とするものであるにも関わらず、この拘束条件は度々破られてしまい、結果として画像の動きの予測も貧弱であることが知られている。本稿では一般化されたオプティカルフロー推定の定式化について述べる。この推定は経時変化する物理プロセスによる明度変動のモデルに基づく。これらのモデルは、照明の方向、動き、及び赤外線画像における熱伝導モデルを鑑みた、可変の表面方位を含んでいる。これらのモデルによって、二次元画像の動き、そして明度変化モデルの関連する物理パラメタも同時に推定する。この推測問題は、総合最小二乗法(total least squares: TLS)を用いて、これらのパラメタの信頼度と併せて定式化される。合成画像と自然画像の両方について4つのドメインで実験を行い、この定式化が如何に優れた二次元画像の動き推定であるかを示した。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


クラスタ対称性に基づく距離を用いた、修正版K-平均法アルゴリズム
A Modified Version of the K-Means Algorithm with a Distance Based on Cluster Symmetry

Mu-Chun Su, Chien-Hsing Chou

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.643-660, Juney 2001

Keywords: Data clustering, pattern recognition, k-means algorithm, face detection

本稿ではクラスタ化されたデータに対する修正版K-平均法アルゴリズムを提唱する。このアルゴリズムでは、「点対称」考えに基づく新たなノンメトリック距離法を採用する。この種の「点対称距離」はデータクラスタリングや人間の顔検出などに適用することが出来る。幾多のデータセットを用いて本手法の有効性を示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


見かけ画像への能動的モデル
Active Appearance Models

T. F. Cootes, G. J. Edwards, C. J. Taylor

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.681-685, Juney 2001

Keywords: Appeaance models, deformable templates, model matching

見かけ画像にマッチングさせるための新規な統計モデルについて述べる。訓練集合から学習したモデルパラメータ集合によってモデル形状と中間調の変動を制御する。モデルパラメータと、これによって生じた画像エラーの摂動によって、効率的な反復マッチングアルゴリズムを構成する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


「可変形状検出およびモデルベース領域グルーピングによる記述」の訂正事項
Corrections to "Deformable Shape Detection and Description via Model-Based Region Grouping"

Stan Sclaroff, Lifeng Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.685-685, Juney 2001

Keywords:

上記論稿(2001年5月、vol23, no.5)の475ページ右コラムの第5パラグラフの第二センテンスに編集上の誤りがあった。実際には「残念ながら最適な区分を見つけることはNP困難問題であり、それゆえ実際のシステムでは近似戦略が必要となる。」となるはずであった。更にこれも編集上の誤りで、488ページの謝辞が省略されてしまっていた。本来ならば下記の通りの通知となるはずであった。 「本研究は合衆国におけるNaval Research Young Investigator Award N00014-96-1-0061および同National Science Foundation grants IIS-9624168 and EIA-9623865によるサポートを一部受けている。」

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.7

クラス不確定性と領域均一性による最適閾値処理
Optimum Image Thresholding via Class Uncertainty and Region Homogeneity

Punam K. Saha, Jayaram K. Udupa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 7, pp.689-706, July 2001

Keywords: Image segmentation, thresholding, uncertainty, scale, homogeneity, threshold energy, segmented image information

閾値処理は、濃淡画像を2値画像に変換する画像セグメント化の一般的方法である。しかし、最適な閾値を選択する問題は過去何十年もの挑戦的課題となっている。セグメント化を画像と同じ空間で処理する方法の他に、他の空間で処理する方法も、より進んだ手法となりつつある。今日まで報告されているほとんどの2値化処理法は、情報理論に基づいて、ヒストグラムを解析する方法である。これらの手法は、把握された画像形状を活用してはいなかった。ここでは、新規な2値化手法である画像強度に基づくクラスの不確定性---ヒストグラムに基づく性質---と、領域均一性---画像形状に基づく性質---の両方を利用した方法について紹介する。領域の均一性演算のためにスケールに基づく定式化を利用する。ある任意の閾値において、その閾値でセグメント化された各々の領域における強度分布にガウス関数を当てはめることによって、強度に基づくクラスの不確定性が計算される。最適2値化理論は、どんなデジタル画像入力装置を使ったとしても、対象物はあいまいな境界線を持っているという仮定に立脚している。ここでの中心的考え方は、ある対象物の周りの不確定クラスが最大となる画素レベルを選択する、と言うアイデアに基づいている。これを達成するために、クラス不確定性や領域均一性を使った、新規な閾値エネルギー基準が定式化され、画像の位置によらずクラス不確定性と領域均一性の両方が大きなとき、あるいは、両方とも小さいとき、この閾値エネルギーが大きくなるようにされた。最後に、この手法は全体の閾値ルギーが最小となる閾値が選ばれる。この手法と、最近発表された最大セグメント化画像情報と比較された。この提案手法の優れた点は、治療用画像における定性的結果からでも明らかであるし、治療用画像から2値化された実物オブジェクトに多段階のボケや、ノイズ、背景偏移を加えた250個の模式画像でも確かめられた。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


構造的画像の最大合致検索
Best-Match Retrieval for Structured Images

Alfredo Ferro, Giovanni Gallo, Rosalba Giugno, Alfredo Pulvirenti

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 7, pp.707-718, July 2001

Keywords: Structured data storage and retrieval, distance-based query processing, triangle inequality

本論文は、構造をもった画像の検索のために、高速最大合致検索のための新規な手法を提案する。木構造の距離の性質にも、三角不等式が成り立つことがOflazerによって証明された。この性質は、画像集合を蓄積したデータベースのtrie(トイラ)検索の飽和アルゴリズムに利用できる。この新規な方法は従来のOflazerの手法に比べてずっと最適化されており、どんな均一に階層化されたオブジェクトの検索にも適用可能である。この新手法は、距離に基づく多くの探索戦略の1つであり、多量の歴史的画像データの索引付けや保守にとって興味ある手法である。この手法を例題を使って示し、問い合わせ処理に応用した場合の高速化のデータを示そう。これと代表的なMVP(Multiple Vantage Point)-Treeアルゴリズムと比較する。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ラテン文字文書における文書構造の抽出のための最適化手法
An Optimization Methodology for Document Structure Extraction on Latin Character Documents

Jisheng Liang, Ihsin T. Phillips, Robert M. Haralick

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 7, pp.719-734, July 2001

Keywords: Document image analysis, statistical pattern analysis, text line extraction, performance evaluation

本論文では文書画像の構造表現について形式的定義を与え、文書画像の分割問題としての文書画像構造抽出を定式化する:すなわち、入力文書画像を最適に分割する解を見つけ、これを階層的な木構造に分割し、各階層レベル内の属性は類似した物理特性と意味ラベルを有する。さらに、階層レベル別に文書の構造を構成することが可能な、統一的手法を提案する。緩和法に似た、再帰的手法を使って解を分離し、抽出された構造の確率を最大化する。この分離プロセスに利用された確率は、大量の訓練集合を同一階層内の多様な測度で訓練することから推定された。この訓練集合で推定されたオフラインの確率値が、オンラインでの文書構造抽出での決定に関った。この枠組みを利用して、文字行の抽出アルゴリズムを実装した。このアルゴリズムは、1600ページの文書画像データベースUW-IIIによって評価された。検出された領域は、実際の真の画像と比較され、領域重なり率が評価された。105,020の文字行からなる画像を処理させたところ、104,773行を正しくセグメント化したが、これは99.76%の精度に相当する。このアルゴリズムの詳細も本論文に記述されている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


サポートベクトルマシンによる顔正面画像の認証のための伸縮性グラフマッチング効率向上
Using Support Vector Machines to Enhance the Performance of Elastic Graph Matching for Frontal Face Authentication

Anastasios Tefas, Constantine Kotropoulos, Ioannis Pitas

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 7, pp.735-746, July 2001

Keywords: Face authentication, elastic graph matching, Fisher's discriminant ratio, constrained least-squares optimization, Support Vector Machines

伸縮性グラフマッチングによって正面顔画像認証の効率を向上させる新規な方法を提案する。まず始めに、識別性能から伸縮性グラフのノード点に局所類似値の重み付けをする。その重みの1次結合に対して、強力、かつ、確立した最適化手法を適用する。もっと正確に言えば、統計的パターン認識とサポートベクトルマシンの不等号式集合を制約条件として、フィッシャーの判別率を2次形式問題として再定式化した方法を新たに提案する。線形・非線形のどちらのサポートベクトルマシンも、最適分離超平面と最適多項式決定曲面を形成するよう構築される。この方法がM2VTSデータベースの正面顔画像認証に適用された。この実験結果は、ここに提案する重み付け手法を利用することで、形体的伸縮性グラフマッチングの効率が、大きく向上したことを示している。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


アンチ顔画像検出のための高速手法
Antifaces A Novel, Fast Method for :Image Detection

Daniel Keren, Margarita Osadchy, Craig Gotsman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 7, pp.747-761, July 2001

Keywords: Image detection, smoothness, distribution of natural images, rejectors

本論文は、正面顔画像が多様な線形変換受けたような複雑な画像集合のような場合にもうまく作動する新規な検出手段を提供する。また、異なる視野角から見た3Dオブジェクトの検出にも応用可能である。検出されるはずの画像集合全体をマルチテンプレートと呼ぶ。この場合、検出問題としては、単なる単純フィルター(あるいは検出器)を逐次適用するだけで解くことができる。このフィルターはマルチテンプレートの少数顔画像(ここでは、候補外の画像を「アンチ顔」として抽出)と、大量のランダムな自然画像に対してみのために設計しておけばよい。そのためには自然画像の分布を単純な確立分布に従うものと仮定して達成でき、実際、うまく行く。最初の検出器で閾値をパスした画像だけが、2段目の検出器で吟味される。以下同様。この検出器は独立して作用するよう設計されているから、偽の警報は非相関である。このことから、偽の警報が出る割合は、検出器の増加と共に指数関数的に減少していく。このことから非常に高速な検出アルゴリズムが開発できた。典型的には、N-画素の画像を識別するには(1+5)N個の使ってN画素画像が識別可能となる。このアルゴリズムが有効であるためには訓練ループは不必要である。有名な固有顔画像法、およびサポートベクトルマシンとを比較した結果は、このアルゴリズムの効率が有望であるだけでなく、処理測度はずっと高速であった。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


重み付きフィッシャー基準によるマルチクラス線形次元縮小
Multiclass Linear Dimension Reduction by Weighted Pairwise Fisher Criteria

Marco Loog, R.P.W. Duin, Member, R. Haeb-Umbach

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 7, pp.762-764, July 2001

Keywords: Linear dimension reduction, Fisher criterion, linear discriminant analysis, Bayes error, approximate pairwise accuracy criterion

統計的パターン識別問題では、K-クラス問題を線形に既約する、いわゆる線形判別分析(LDA)、すなわちフィッシャーのK-クラス基準、が利用される。本論文では、このLDAに重みを付けた線形の基準を導入することによって計算負荷が小さい線形判別法を導入する。個々のクラス平均ユークリッド距離によって、クラス対へのLDA重みの寄与が定まることがわかる。異なる重み関数を導入することによって、我々はLDAを一般化する。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


焦点距離未知のカメラによる画像1枚からの線形パラメータ化モデル復元
Reconstruction of Linearly Parameterized Models from Single Images with a Camera of Unknown Focal Length

David Jelinek, Camillo J. Taylor

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 7, pp.767-773, July 2001

Keywords: 3D reconstruction, uncalibratecl imagery, numerical optimization

本論文は、焦点距離が未知のカメラで撮影された1枚の画像から、オブジェクトの次元復元の課題を扱う。いま、対象となっているオブジェクトは、多面体の頂点が次元ベクトルλの関数の線形結合によってモデル化されるとみなせる。この復元プログラムの入力は画像中の特徴量とモデル中の特徴量の対応付けである。この情報を元にして、プログラムはカメラの概略投影モデルを決定し(スケールは直行座標系か、あるいは遠近座標系)、オブジェクトの次元を決定し、そのカメラに対する姿勢と、遠近座標系の場合は、カメラの焦点距離を決定する。本論文は、形状再現モデルが低次元(3次元以下)のコンパクト集合の最適化問題として捕らえることができるかを示している。この最適化問題は、多数始点法による標準的非線形最適化手法を使って効率的に解くことができる。ここに多数始点法とは、標本空間を均一な多数の開始点によって解く方法である。その結果、いかなるパラメータの推定を必要としない、初期推定不要の効率的で高信頼性の解を求めるシステムとなった。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手書き漢字(中国文字)オフライン認識のための離散的文脈依存統計モデル
A Discrete Contextual Stochastic Model for the Offline Recognition of Handwritten Chinese Characters

Yan Xiong, Qiang Huo, Chorkin Chan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 7, pp.774-782, July 2001

Keywords: Offline recognition of handwritten Chinese characters, contextual stochastic model, discriminative training, Markov random field

手書き漢字(中国文字)のような変形しやすく複雑な文字の認識のために、離散的文脈依存統計モデル(CS)を研究した。CSモデルを文字認識に使う上での3つの基本的問題について考察し、これら問題を解決するためのいくつかの手法について調べた。CSモデルパラメータの離散的訓練法の定式化法についても紹介し、その実用的利用法も調査した。多様なアルゴリズムの特徴を図示するために、極めて類似した漢字50組からなるの語彙に対する認識課題の比較実験を行った。その結果、認識効率改善には離散的訓練が有効であることが確認された。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.8

クラスターに基づくハイブリッド進化探索法
Hybrid Evolutionary Search Method Based on Clusters

Ming Li, Hon-Yuen Tam

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.786-799, August 2001

Keywords: Evolutionary computation, ART neural network, prematurity, cluster, optimization

本論文は、クラスターに基づくハイブリッド進化探索(HESC)手法について述べる。この手法は標準的進化探索法(SES)に固有な収束不十分性の問題点を軽減しながら、探索効率を向上させるように設計されている。これは主要な種(species)を同時に進化させながら、種の変異速度を増加させる。ハイブリッド探索手法とは、1つのエージェントの局所的探索を並列化させ、マルチエージェントが主要種に対してグローバルな進化論的探索を実施する。探索中は、ファジーART ニューラルネット(ART NN)のクラスタリングや訓練による履歴を利用して、効果的探索が達成される。このHESCの特長は、1)各世代の個体間分散が保証されていること、2)重要領域を有効利用するための局所探索と、全空間探索調査のためのグローバルな探索が効果的に統合化されていること、3)高速変異種に対する高速探索が可能であることと追加種から主要種への移動が可能であること。これらの特長は、困難な最適化問題を実験的に解くことで確認された。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像やビデオ中の教師なしカラー・テクスチャー領域のセグメンテーション
Unsupervised Segmentation of Color-Texture Regions in Images and Video

Yining Deng, B.S. Manjunath

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.800-810, August 2001

Keywords: Image segmentation, color segmentation, texture segmentation, video segmentation, spatiotemporal segmentation

画像やビデオから、カラーテクスチャー領域の、新規な教師なしセグメンテーション法を紹介する。この方法はJSEGと呼ぶことにするが、2つの独立したステップから構成されている:カラー量子化と空間セグメンテーション。第1のステップにおいて、画像中のカラーは画像分割に利用するためにいくつかの表現クラスに量子化される。次に画素が、対応するカラークラスのラベルに置換される。こうして画像のクラスマップができあがる。この研究の目的は空間セグメンテーションであり、そのための、クラスマップを利用した「良い」セグメンテーション基準を与える。この基準を局所窓に応用するすることによって「J-画像」が出来、値の大小がカラーテクスチャーの境界の可能性を示し、境界の内側か外側かが分かる。この後、マルチスケールJ画像に基づく領域成長法によって画像がセグメント化される。類似の方法がビデオ画像にも適応された。更に領域成長法には領域追跡手法が内蔵されており、これによって、非剛体の動きの場合でも、整合性のあるセグメンテーションと追跡結果が得られる。実画像や実ビデオへの適応実験によりJSEGアルゴリズムのロバスト性が示された。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


トレース変換とその応用
The Trace Transform and Its Applications

Alexander Kadyrov, Maria Petrou

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.811-828, August 2001

Keywords: Radon transform, Trace transform, invariant features, image database search, change detection

直線に沿って十分な情報がある場合は、任意の2D関数は完全に復元することができることが知られている。これが、有名なラドン変換である。ラドン変換の導関数はハフ変換である。一般化ラドン変換であるトレース変換を提案するが、これは画像関数をある種の汎関数によって、直線に沿って計算する手続きから出来ている。異なる汎関数は、画像の異なる変換に対して独立である可能性がある。ここでは、汎関数が3つの異なる応用分野で有用であるための性質を紹介する;すなわち、画像の回転、並進、拡大縮小に対して不変特徴量を構成するため、回転、並進、拡大縮小パラメータに敏感な特徴量を構成するため、我々がモニターしたいと思っている現象に良く関連する特徴量のそれぞれについて。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


N-次元テンソル投票と、エピポーラ幾何推定への応用
N-Dimensional Tensor Voting and A..pplication to Epipolar Geometry Estimation

Chi-Keung Tang, Gerard Medioni, Mi-Suen Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.829-844, August 2001

Keywords: Tensor, hyperplane inference, epipolar geometry, matching, robust estimation

我々はエピポーラ幾何推定の効率と効果について、8D空間の疎でノイズの多い点群集合から超平面の1つを推測する定式化問題について述べる。対応関係のない2つの静的情景画像において、ノイズを含む点対応集合があるとする。動くオブジェクトが存在している場合であっても、我々の手法は良い合致を見付出し、はずれ点を除外する。この手法は新規であり、従来知られているようなある種のスカラーや目的関数を最適化する手法とは異なり、パラメータ空間での初期化や繰り返し探索は行はない。従って、局所最適や、収束が貧弱ということはない。更に、探索を実行しないため、対称画像の探索複雑度を減少させて解析すると言った、単純化仮定をする必要がない(例えば、アフィンカメラであるとか、平面同形性のような)。一般的エピポーラの制約のみであるため、N次元テンソル投票の特殊な場合である新規な8Dテンソル投票によって、マッチングの誤りを検出できる。要約すれば、入力されたマッチング集合は、まず疎な8D点群に変換される。次に密な8Dテンソルカーネルを使って、入力データに含まれる非除外点(inliers)全てを含むような最も顕著な超平面について投票する。このフィルター化されたマッチング集合によって、正規化8点アルゴリズムが基礎行列式の精度推定に利用できる。データ構造と局在性をうまく利用することによって、高い次元にもかかわらず、我々の手法は時間的にも空間的にも高効率となっている。この手法の一般的な有用性を示すために航空撮影画像解析のための大きく離れた画像対の例と、非静的3D情景画像(室内におけるバスケットボールゲーム)を利用した。各画像中には多数のマッチング誤りが含まれている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テクスチャー特徴としてのアソシエーションルールの利用
Using Association Rules as Texture Feature

John A. Rushing, Heggere S. Ranganath, Thomas H. Hinke, and Sara J. Graves

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.845-858, August 2001

Keywords: Texture, segmentation, association rules, data mining

本論文では、アソシエーションルールに基づく、当たらしテキスト特徴量を提案する。アソシエーションルールは、市場におけるバスケット解析のように、提示されたものが大きなデータ集合のとどんな関係があるのかを把握するような応用に利用されてきた。このアソシエーションルールは、画像中に頻繁に生じる局所的構造を把握するために適している。アソシエーションルールは、構造的情報や統計的情報の両方を捕まえることができ、自動的に最も頻繁に生じる構造の同定が可能であり、顕著な分類能力を持った関係を見いだすことができる。アソシエーションルールによるテクスチャー画像の分類とセグメンテーションについて述べる。人工画像や自然画像によるシミュレーション結果からは、他の広く利用されているテクスチャー特徴量に比べて、アソシエーションルールによる特徴量が高い効率を示すことが示される。このアソシエーションルール特徴量によって、1次、2次,3次統計量を有するテクスチャーや、肉眼でははっきり見えないようなテクスチャー対でも検出可能であることが示された。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


離散データの分析と視覚化のための連結された潜在クラスと特徴モデル
A Combined Latent Class and Trait Model for the Analysis and Visualization of Discrete Data

Ata Kaban, Mark Girolami

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.859-872, August 2001

Keywords: Latent trait model, generative model, nonlinear mapping, topographic mapping, independent component analysis, clustering

位相幾何学的組織化やクラスタリングによるデータ解析と視覚化のための枠組みを紹介する。本来有している潜在因子を、空間上の分布として推定することによって、この手法が可視化やクラスタリングに適したモデルとなる。系のノイズは指数関数形式分布を有するパラメトリック形式でモデル化さるとし、その結果、連続的であろうと離散的であろうと、異なる型の観察量を統一的枠組みで扱うことができる。連続的データの場合の自己組織化とは逆に、本論文では離散的な場合に着目し、Bregmanダイバージェンスの変量を、データと参照点の相違度の測度とみなし、さらに、潜在変数と観察変数の間の非線型な関系のマッチングを定義する。従って、モデルの特徴変量はデータ駆動型ノイズのある非線型独立成分分析として観察できる。これによって多変量観察データの意味のある構造を暴くことが可能となり、2次元で可視化可能となる。モデルのクラス変量(これによってクラスタリングを行う)によってデータ駆動型パラメトリック混合モデル化が達成される。付随する推定手続きとともに、(特徴とクラスの)連結モデルによって、位相幾何学的順序の意味において、視覚化された結果の解釈が可能になる。この研究の1つの重要な応用先は、テキスト文書に内在する意味構造の発見である。20-News groupの色々な部分集合とバイナリーコードの数値データへの適用実験の結果が実演風に述べられている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオ画像列からのイベント抽出
Event Detection and Analysis from Video Streams

Gerard Medioni, Isaac Cohen, Francois Bremond, Somboon Hongeng, Ramakant Nevatia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.873-889, August 2001

Keywords: Detection and tracking of moving objects, egomotion estimation, affine stabilization, mosaics, graph representation of objects trajectories, event analysis, geospatial and mission contexts, scenario recognition, finite automaton

空中撮影された、動きのあるオブジェクトを含むビデオ画像を入力し、画像中の動くオブジェクトの振る舞いについての解析結果を出力するシステムについて紹介する。この機能を達成するために、我々のシステムは2つのブロックから構成されている。最初のモジュールは画像系列から動く領域を検出・追跡する。画像系列を安定化させるために、複数スケールの特徴量集合を用い、観測に伴う画像の動きを補償する。その後、残りの動き成分を有する領域を抽出し、その軌跡を推定するために属性グラフ表現を利用する。2番目のモジュールは、これら軌跡を入力データとし、ユーザーが提供する地理空間的内容や目標内容(ゴール)に関する情報と共に、可能性のあるシナリオを例示出力する。このシステムの詳細を紹介し、同時に、実際のビデオ画像に適用した多数の例と、この定量的解析結果を示す。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


信号識別用Wavelet設計のための遺伝子的アルゴリズム
Genetic Algorithm Wavelet Design for Signal Classification

Eric Jones, Paul Runkle, Nilanjan Dasgupta, Luise Couchman, Lawrence Carin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.890-895, August 2001

Keywords: Genetic algorithms, wavelets, classification

双直行ウェーブレット(マザーウェーブレットとこれに双対なウェーブレットの総称)が、多面的で動的な散乱データを解釈する信号識別の目的に適用された。演算を言語で表現した遺伝的アルゴリズムを利用して、識別効率を高くするためのウェーブレットを設計した。この双直交ウェーブレットは、lifting手続きを利用して実装され、最適化は識別に基づくコスト関数を利用して行われた。予め測定された散乱データを利用した目標識別に対する処理結果が示されている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Foveate Wavelet変換を利用した動的カメラ制御とカメラの動き再現
On Active Camera Control and Camera Motion Recovery with Foveate Wavelet Transform

Jie Wei, Ze-Nian Li

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.896-903, August 2001

Keywords: Active vision, wavelet transform, variable resolution techniques, gaze control, object tracking, motion detection

本論文では、ディジタル画像を効率的に視覚データ表現するための、解像力変化可能な、新規なFoveate Wavelet変換(FWT)法を提案する。従来の解像度変換手法に比べて、本方式の長所は、線形表現性、方位選択性、視覚系と類似した柔軟性を保持している点にある。FWTが線形性を保持している理由は、異なる領域の変換においてローパスとハイパスフィルターだけを実施しているからである。方位選択性からは、FWT表現においては水平、垂直、斜め方向が容易に選択できることを示している。表現の柔軟性については、異なる数、形状、場所の視野中心に容易に向けられることで納得していただけるであろう。FWTの高性能を実証するためにアプリケーションを2つ用意した。まず最初に、FWTに基づく能動的カメラ制御体系を開発した。これによって動的オブジェクトを追ってコンピュータがカメラを動かす。第2に、FWTに基づいて、ビデオ画像の一部から、パン/チルト/ズームを再現できるビデオカメラを開発した。これら2つのアプリケーションから、心強い性能を持っていることが分かる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最良センサーよりもっと高性能の融合器について
On Fusers that Perform Better than Best Sensor

Nageswara S.V. Rao

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.904-909, August 2001

Keywords: Sensor fusion, multiple sensor system, information fusion, fusion

複数センサー系において、個々のセンサーSi =1,2,,,,Nは、入力X∈[0,1]に応じて、ある未知の確率分布関数PY|X に従う、Yi ∈[0,1]を出力する。ここで、複数のセンサー出力を融合する融合器は、関数クラスF={f:[0,1]N →[0,1]}から、実験誤差を最小化するように選ばれるものとする。もし、Fが孤立性(isolation property)を保持しているなら、確率近似の意味において、融合器は、少なくとも最良センサーと同じ性能を持つことを示す。線形混合、特別ポテンシャル関数、ある種のフィードフォワードネットワークのようなよく知られた融合器は、この孤立性を満足する。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


可逆ジャンプマルコフチェインモンテカルロ法による最小エントロピーデータ分割
Minimum-Entropy Data Partitioning Using Reversible Jump Markov Chain Monte Carlo

Stephen J. Roberts, Chris Holmes, Dave Denison

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.909-914, August 2001

Keywords: Unsupervised data analysis, mixture models, Bayesian analysis, reversible-jump Markov Chain Monte Carlo, number of clusters

データ解析の問題においては、しばしば教師なし分割によってデータ集合をクラス分けする必要性が生じる。このような分割にはいくつかの方法が存在するが、多くの場合、パラメトリックモデル(各クラスが、1つのガウス分布でモデル化されている)によって定式化されているか、あるいは、高次元データ空間での計算コストの高い方法に頼るという弱点を持っている。このようなクラスター分析を情報理論的用語で再考し、効率的クラス分けは、分配エントロピー最小化原理によって可能であると思われることを示す。逆ジャンプサンプリングを紹介し、分割モデルの変数次元空間を探索してみる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数照明方向検出と画像合成への応用
Multiple Illuminant Direction Detection with Application to Image Synthesis

Yufei Zhang, Yee-Hong Yang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.915-920, August 2001

Keywords: Computer vision, critical point, illuminant direction detection, image synthesis

1980年代の初め、Pentlandは、ヒトの視覚は光の強度変化に敏感であることに気づいた。滑らかな表面をもつ物体の画像は、照明方向が、表面に垂直である場合に、その強度変化が最大になる。これがきっかけとなり、表面に垂直な光源方向を臨界点とみなす考え方が導入された。明らかに照明方向と、対応する臨界点とは簡単な幾何学的関係を持っている。本論文では簡単のため、既知の半径を有するLambertian球を遠方の複数の光源で照明しているシェーディングモデルに限定する。このグローバルな強度関数表現を新たに導いた。この強度特性に基づいて、臨界点を最小二乗法、反復計算法を使って求め、従って、ある条件下での光源とその強度を決定した。この新規な手法の性能は、合成画像と実画像を使って評価された。この応用として、実画像の光源を決定し、その中に合成画像を埋め込むツールとして利用した。この実験によれば、実画像への合成画像埋め込みは利用可能である。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Q-Warping:2次参照面の直接計算
Q-Warping: Direct Computation of Quadratic Reference Surfaces

Amnon Shashua, Yonatan Wexler

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.920-925, August 2001

Keywords: Direct estimation, quadratic reconstruction, multiview geometry

我々は、オブジェクトの周りのワーピングについて考察する。その場合、2つの画像を利用して、参照表面と、これを復元するパラメータのオプティカルフローを時空微分によって直接計算する。よく知られている従来モデルはアフィンフローモデルと、8パラメータのフローモデルであり、両者とも平面状参照面を記述する。我々はこの従来法を拡張し、2次参照面を対象として、フロー場の厳密なパラメータ形式を陽に求めた。その結果、2つの情景画像間の写像を行う簡単なワーピングアルゴリズムと、残差のフロー成分を仮想的2次表面の3Dによる変動分とした。このアプリケーションとしては、画像モーフィングによるモデル構築、画像安定化、および、異なる視野画像の対応付けなどがある。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.9

ノイズの多い部分系列木のパターン認識
On the Pattern Recognition of Noisy Subsequence Trees

B.J. Oommen, R.K.S. Loke

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.929-946, September 2001

Keywords: Syntactic pattern recognition, tree and subtree recognition, noisy subsequence trees

本稿では順位付けされたラベル付加木の認識について検討する。この認識は、ノイズの多い断片を「張り合わせる」ノイズの多い部分系列木を処理することでなされる。有限な順位付けされたラベル付加木の辞書Hが与えられると仮定する。$¥rm X^*$はHの未知の要素であり、Uは$¥rm X^*$の任意の部分系列木である。Yを処理することで、$¥rm X^*$を推定する問題について検討する。我々の示す解は、少なくとも我々の知る限りにおいては、この問題に対する初めての解答である。我々は、Hの全ての要素XとYを順次比較することで、この問題を解いた。この比較の基本概念が2つの木の相違度の尺度となっているが、これによってノイズの多いUを変造構造(「チャネル」)の特性を暗黙のうちに取り込んでしまう。この拘束を内包するアルゴリズムを、我々のパターン認識の試験に用いたところ、顕著な精度を示した。25ないし35のノードからなる手動構築された木を含み、平均して木1本あたり21.8のエラーを含む試験の結果、本スキームは約92.8%の精度を持つことが示された。ランダムに生成された木に対する、同じ形式の試験では86.4%の精度が得られた。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


SIMPLIcity:意味感覚を持つ写真ライブラリのための統合マッチング
SIMPLIcity: Semantics-Sensitive Integrated Matching for Picture Libraries

J.Z. Wang, J. Li, G. Wiederhold

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.947-963, September 2001

Keywords: Content-based image retrieval, image classification, image segmentation, integrated region matching, clustering, robustness

生体医学、軍事、商業、教育、そしてインターネット環境における画像識別と検索など、多くの分野で効率的なコンテンツベースの画像検索への要望が顕著に高まってきている。我々はここにSIMPLIcity(Semantics-Sensitive Integrated Matching for Picture LIbraries)という画像検索システムを提唱する。このシステムでは、意味論における識別手法、特徴抽出のためのウェーブレットベースのアプローチ、そして画像分割を基にした統合領域マッチングを用いる。他の領域ベースの検索システムと同様に、画像は領域のセットとして表される。この領域は、画像内のオブジェクトと大まかに一致し、色、テクスチャ、形、そして位置により特徴付けられる。このシステムにより各画像は、テクスチャ−非テクスチャ、グラフ−写真などのような意味カテゴリに分類される。また意味論に則った検索手法を用いることができるようになり、データベースの被検索領域を絞り込めるという意味において、このカテゴリ化は潜在的に画像検索を強化するものである。画像中の全ての特性を統合する、領域マッチングスキームを用いることにより、画像間の総合的な類似度の尺度を開発した。各個の領域に基づいた画像検索と比べて、総合的類似度というアプローチは、1)不正確な画像分割によるマイナス要因を低減し、2)各領域の意味を明確にする助けとなり、そして3)領域ベースの画像検索システムで、簡明な質問インターフェースを用いることを可能とした。200,000の汎用画像からなるデータベースを含む、多数のデータベースに対する、SIMPLIcityアプローチは、我々のシステムが、現存の他のシステムよりも遥かに高速で高い性能であることを示した。このシステムはデータベースの画像の入れ替えに対して相当ロバストになっている。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


主軸検索木に基づいた高速な最近傍アルゴリズム
A Fast Nearest-Neighbor Algorithm Based on a Principal Axis Search Tree

J. McNames

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.964-976, September 2001

Keywords: Nearest neighbor, vector quantization encoding, principal components analysis, closest point, intrinsic dimension, post office problem

主成分解析を用いて効率的な検索木を構築する、新しい最近傍ルゴリズムについて述べる。この木の各ノードでは、データ集合は分散が最大となる方向に沿って区分される。この検索アルゴリズムは深さ優先検索と新しいノード削除基準を効率的に用いている。時系列予測や画像ベクトル量子化などの問題を含む、3種の良く知られたベンチマークデータセットを用いて、この新アルゴリズムを他の16種の高速最近傍ルゴリズムと比較した。この比較検討により、以前のアルゴリズムの強さと弱さが明らかされた。新アルゴリズムは全てのデータ集合において素晴らしい性能を示し、常に上位3位までに入っていた。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パターン表現と識別のための多重次元KL変換
Multispace KL for Pattern Representation and Classification

R. Cappelli, D. Maio, D. Maltoni

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.977-996, September 2001

Keywords: KL transform, PCA, multispace KL, clustering, piecewise-Iinear approximation, face representation, face recognition

本研究では、パターン表現と識別のための教師なし次元縮退に対する新しいアプローチとしての、マルチスペースKL変換(Multispace-Karhunen-Loeve:MKL)導入する。トレーニング用のデータ集合は、最適な基準に沿って、自動的に重複のないサブセットに分割される。その後各サブセットは異なるKL部分空間を決定する。この部分空間は特定のパターンのグループを表すために特殊化されたものである。古典的なKLオペレータの拡張と、アドホックな距離の定義により、通常KL変換が用いられる環境でMKLを効率的に用いることができるようになる。通常のKL変換の限界を指摘し、特にデータの分布が多次元からかけ離れている場合にMKLは通常のKLを遥かに上回る性能を発揮し、また通常のKL変換ではパフォーマンスの低下が激しい、多数のパターン集合も扱いやすいことを示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


二値ベクトル系列の学習のためのパターン付き隠れマルコフモデルと、集積回路の組み込みセルフテストへの応用
Hidden Markov Models with Patterns to Learn Boolean Vector Sequences and Application to the Built-In Self-Test for Integrated Circuits

L. Brehelin, O. Gascuel, G. Caraux

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.997-1008, September 2001

Keywords: Boolean vector sequence modeling, hidden Markov models, hybrid approach, structure (and parameters) learning, built-in self-test for integrated circuits

隠れマルコフモデル(Hidden Markov Model: HMM)から派生した、二値ベクトル系列の学習のための新しいモデルを示す。このパターン付き隠れマルコフモデル(Hidden Markov Model with Patterns : HMMP)は、単純かつハイブリッド、そして解釈可能なモデルであり、状態に付随した二値パターンを用いて発現確率分布を定義する。与えられたパターンと一致するベクトルは等確率である。なぜならば一致しないベクトルでは、発現確率はゼロとなるからである。我々はこのモデルのために、効率的な学習アルゴリズムを定義した。そのアルゴリズムは最大尤度定理を基にして、構造の単純化を繰り返し、学習系列を表す特定初期HMMPのパラメタを更新する。各段の単純化は、尤度をなるべく高く保ちつつ、現在のHMMPの2つの状態をマージする。このアルゴリズムはHMMPが充分小さな構造になったときに終了する。HMMP及び学習アルゴリズムを、集積回路の組み込みセルフテスト(Built-in Self-Test: BIST)に適用した。このテストは、マイクロエレクトロニクスにおける重要な問題である。HMMPはテスト系列セットを用いて学習がなされる。(このセットは特別なツールを使って計算される。)このテストは、ICの殆どの潜在的な欠陥を即座にカバー出来るため、HMMPはテスト系列生成器として用いることが出来る。古典的なマイクロエレクトロニクスのベンチマーク回路を用いて行われた実験によると、学習済みのHMMPは、欠陥カバレッジがとても広いことが判った。更にHMMPは、小規模性と簡明さを併せ持つので、回路にセルフテストとして実装しやすいといえる。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


近似BEAMマッチングアルゴリズムを用いたオフラインの一般手書き単語認識
Offline General Handwritten Word Recognition Using an Approximate BEAM Matching Algorithm

J.T. Favata

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.1009-1021, September 2001

Keywords: Handwriting recognition, OCR, BEAM search, word segmentation, machine reading, pattern recognition

本稿では近似型の断片記号列マッチングアルゴリズムを用いた、一般化されたオフラインの手書き単語認識について述べる。ここで用いた基本的なパラダイムは、文字ベースの分割後に認識/照合を行う戦略である。単語辞書の形でユーザから与えられる、内容に関する付加情報により、グラフ検索をガイドし、最も似ている単語の画像アイデンティティを推測する。本システムは、ドキュメントのノイズや、文字の拙劣さ、そして単語辞書の間違いなどに対して頑健に設計されているため、上で述べた基本戦略は顕著に拡張され、また強められている。前処理によりノイズを除去し、手書きを正規化する。また過分割アプローチにより単語の中の個々の文字を取り出す可能性を向上させている。この課題のゴールは即ち、単語画像の正しい分割を含む、いくつかの分割点の組を得ることである。これは多数の独立な検出ルールを用いる分割モジュールによりなされる。この検出ルールは特定のキーとなる特徴に基づいており、各単語に対して、最も正解である可能性の高い分割点を見つける。次に、文字以外の棄却率が良いスライディングウィンドウアルゴリズムを用いて、最も正答確率の高い文字の区切りとアイデンティティを見つける。有向グラフは多くの単語画像の解釈、不正確さを含んで構成されるものである。この時点でコンテキスト情報が用いられ、適当な距離尺度のもとで幅優先検索方式により単語辞書とグラフのマッチングが行われる。このマッチングアルゴリズムには、BEAM検索アルゴリズムが用いられ、解釈グラフに含まれる可能性が最も高いエラーを補償するために、いくつかのヒューリスティックな情報も付加されている。このエラーとしては、分割の誤りや、セグメントの誤認識、そして単語辞書の間違いによりセグメントが失われることを含む。単語辞書内の各単語について、最終的なランクをつけるため、最も正答の可能性の高いグラフパスと、それに関連した信頼度が計算される。この信頼度は正確なものであり、後段で閾値処理することにより、トータルの誤認識を低減することができる。このアルゴリズムの特徴を明らかにするための実験について述べる。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


光源位置情報校正のための簡明な戦略
A Simple Strategy for Calibrating the Geometry of Light Sources

M.W. Powell, S. Sarkar, D. Goldgof

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.1022-1027, September 2001

Keywords: Light source calibration, constancy, color correction

複数の画像から複数の光源の三次元位置を校正するための方法論を示す。この手法では、相対位置が既知の3つの球面からなる新しい校正用物体を使用し、また画像処理にはグレースケール画像を用いる。研究室の設備で51の異なる位置の光源の位置を特定する実験を行った。ここから得られるデータによると、シーン内の各点から光源を指すベクトルは、経験的に得られた真の光源方向と、α=0.05において2.7±0.4°(相対値で6%)以内、大きさではα=0.05において、0.13m±0.02(相対値で9%)以内の誤差で求まる。最後に光源情報が色補正にどの様に用いることが出来るかを述べる。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


区画分けされたスネーク:学習したエネルギーによる画像分割の評価
Sectored Snakes: Evaluating Learned-Energy Segmentations

S.D. Fenster, J.R. Kender

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.1028-1034, September 2001

Keywords: Learning, trained deformable models, energy-minimizing shapes, snakes, segmentation evaluation, performance characterization

ユーザに特化された基準に基づいて、画像分割の正確さを最大にする、変形可能モデルの学習方法について述べる。またどの基準が最良かを評価する方法も示す。伝統的な変形可能モデル(二次元「スネーク」)は、その視野内に、その近辺で最大の画像エッジを捉えられない場合、オブジェクトの境界を検出できない。しかし画像特徴の確率分布を学習することで、その特徴に反応するようにトレーニングすることが出来る。そこで実装者は多くの画質の中からどれを用いてモデルに学習をさせるかを決めなければならない。最終的には、あらゆる変形可能モデルの効率、与えられた真の正解、最適化の過程で現れる形状範囲のモデル、そして形状の閉合度の測定、これらの評価方法を示す。腹腔のCTスキャン画像において、上で述べたような単純なスネークの「区画分け」の評価を示す。この評価においてはグレーレベルと垂直勾配が、等長切片により測定される。この特別な特性の組み合わせは、形状で均一の目的関数において、明らかな向上を示す。そしてこれは、臓器の境界部分における画像の変動により、後者が失敗することを示す実験から、自然に判るものである。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


勾配ベクトル場に曲線モデルを適用することによる、傾いたパターンの曲率推定
Curvature Estimation in Oriented Patterns Using Curvilinear Models Applied to Gradient Vector Fields

J. van de Weijer, L.J. van Vliet, P.W. Verbeek, M. van Ginkel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.1035-1042, September 2001

Keywords: Oriented patterns, anisotropy, curvature, confidence measures, curvilinear models, gradient vector fields

湾曲傾斜パターンは高周波が支配的であり、稜線や谷ではゼロ勾配を示す。現存する曲率推定法はこういった場合に失敗する。並進不変量に基づいた、湾曲傾斜パターンの特徴付けは局所的な曲率推定を失わせ、バイアスされた曲率依存の信頼度をもたらす。パラメタ化された曲線モデルを用いることにより、モデル曲率の関数としてのモデル勾配に沿った、局所勾配エネルギー量を測定する。残留エネルギーを最小にすることで局所勾配推定の閉じた形式の解法と、それに対応する信頼度の測定法が得られる。シンプルな曲線モデルが、多様な湾曲傾斜パターンの解析に適用可能であることを示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


薄板ベースの特徴認識
Laminae-Based Feature Recognition

T. Lim, J. Corney, D.E.R. Clark

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.1043-1048, September 2001

Keywords: Geometric feature recognition, CAD, CAM

鋳造や金型の工業的なニーズを鑑みて、単純もしくは複雑な表面形成ルールによる幾何モデルにおける、形状特徴の認識に対する新たなアプローチを示す。ここで示したアルゴリズムでは、各コンポーネントのCADモデルから導き出された、隣接する二次元薄板(境界面など)のネットワークを用いて、一般的な特徴量の突起やくぼみの配置と生成を行う。本アプローチによると、予め定義された如何なる特徴ラベルも必要とせずに、代替特徴記述を自動生成することが出来る。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.10

ビジョンにおける自己組織化:イメージセグメンテーション、知覚的グループ化、および、イメージデータベース組織化のための確率論的クラスタリング
Self-Organization in Vision: Stochastic Clustering for Image Segmentation,Perceptua Grouping, and Image Database Organization

Yoram Gdalyahu, Daphna Weinshall, Michael Werman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1053-1074, October 2001

Keywords: Clustering, segmentetion, 3erceptual grouping, image retrieval

構成要素を2つずつ類似度比較しながら進める確率論的クラスタリング法を提案し、この手法は、低レベルのイメージセグメンテーション、中レベルの知覚量のグループ化、および、高レベルのイメージデータベースの組織化など、コンピュータビジョンの色々な課題に利用できることを示そう。クラスタリング問題はグラフ分割問題と見なすことが出来るが、この場合、ノードがデータ要素を表し、エッジは両側のノード類似度の重みと見なせる。Kargerの構成アルゴリズムを利用してこのグラフの切断サンプル(複数)を作ることが出来るが、「平均的」切断と、切断サンプルを比較し、平均よりクラスター内部の類似度が向上するかどうかを計算することによってクラスタリング問題の解の基準が得られる。我々のこの方法はノイズに対してロバストであり、たまたま生じた(accidental)エッジや偽(spurious)クラスターにも対処できる。計算複雑度は非常に小さく、N個のオブジェクト、類似度|E|、精度固定の場合についてO(|E|log2 N)である。更に、計算複雑度をこのままにして、入れ子状の分割階層ができる。我々の手法の優秀さを実証するために、白黒およびカラーの人工画像と自然画像のセグメンテーション処理を実行した。他の実例として、複雑な背景中の連鎖状エッジ(知覚的グループ化)とか、多視点3Dオブジェクト認識にのための画像データベース組織化も行った。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最小比重みサイクルとしての大局的最適な領域と境界
Globally Optimal Regions and Boundaries as Minimum Ratio Weight Cycles

lan H. Jermyn, Hiroshi Ishikawa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1075-1089, October 2001

Keywords: Region identification, ratio, energy minimization, global optimum, active contour, snake, segmentation

画像中の領域をモデル化し、見つけるための新規なエネルギー汎関数について述べる。このエネルギーは画像ドメイン中の境界空間上で定義されるが、境界(強度勾配など)や境界内部(テクスチャーや均一性など)からのモデル化情報の両方を、一般的組合せをしたものにも組み込める。このグローバルエネルギー最小を見つけるための、多項式時間が必要な2つのアルゴリズムを示す。その内の1つは完全に一般性があり、どのような情報モデルであっても汎関数を最小化する。256×256画像の場合、本アルゴリズムの計算時間は数秒である。もう一方のアルゴリズムは汎関数のサブクラスに適用でき、極めて並列化が容易である。どちらのアルゴリズムも初期化は不要である。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


コンテキストに基づく検索におけるグラフモデルの効率的マッチングとインデックス化
Efficient Matching and Indexing of Graph Models in Content-Based Retrieval

Stefano Berretti, Alberto Del Bimbo, Enrico Vicario

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1089-1105, October 2001

Keywords: Image databases, content-based image retrieval, spatial arrangement, Attributed Relational Graphs, indexing, metric indexing, error correcting subgraph isomorphism, pairwise weighted assignment

画像データベースからの情報検索において、見かけ、および、空間的属性と相互関連性の両方に基づく類似度の評価は、属性関係グラフに基づくコンテキスト表現に依存している。このようなモデル化では、複雑なマッチングとインデックス化の処理が不可避であるため、広範な応用を妨げている原因にもなっている。本論文では、個々の属性と相互の関連の共起性に基づく検索課題をグラフ理論に基づく定式化法を示し、その意味するところをインデックス化やマッチング面から解釈する。特に、大量のグラフモデルを整理するために測度付きインデックス化の利用を提案し、また、我々独自の先読み法を提案する。この先読み法はオブジェクト距離の計算には不可欠な、部分グラフエラー訂正同型写像問題の効率的解法となる。解析的比較と、実験結果から、この先読み法は、最新の状態―空間探索法を更に改良することが分かる。また、提案したマッチングとインデックス化法の組み合わせによって、典型的な空間配置による複雑な検索課題であっても、取り組み可能になる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフ理論に基づいた単線描画からの多面体面の同定法
A Graph-Based Method for Face Identification from a Single 2D Line Drawing

Jianzhuang Liu, Yong Tsui Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1106-1119, October 2001

Keywords: 3D object reconstruction, depth-first search, face identification, graph algorithms, line drawing interpretation, maximum weight clique problem

多面体オブジェクトを2次元の単線で描画した面は、3D形状を再現するための重要な情報を有している。本論文では、描画された多面体の面を同定するためのグラフ理論に基づく最適手法を提案する。この面同定問題は、最大重みクリーク(徒党)問題(maximum weight clique problem)として定式化される。ここでクリーク問題とは、「グラフGと整数kがあるとき、Gに属する集合Kのすべての2つの頂点が互いに隣接するような集合Kが存在するか?」と言うものである。この定式化がShpitalni と Lipsonによって提案された定式化と同等であることはすでに証明されている。我々の定式化の利点は、これによって更に高速に図面中の面を見つけるアルゴリズムが開発可能なことである。本論文に示される2つのアルゴリズムによって顕著な高速化が可能になった。すなわち、手書き図面から高速に可能な面を生成するための深さ優先グラフ探索と、図面の最適な面構成を得るための最大重みクリーク問題である。実験から、我々の手法は面同定において、Shpitalni-Lipson法と同じ結果を得た。しかし、20個以上の面を持つオブジェクトを対象とする場合は、我々の手法の方がずっと高速であった。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


期待値最大法を使ったグラフ構造マッチングと特異値分解
Structural Graph Matching Using the EM Algorithm and Singular Value Decomposition

Bin Luo, Edwin R. Hancock

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1120- 1136, October 2001

Keywords: Inexact graph matching, EM algorithm, matrix factorization, mixture models Delaunay triangulations

本論文は不正確さを含むグラフのマッチングにおける効率的アルゴリズムについて述べる。この方法は純粋に構造的である。つまり、グラフの辺や接続性のみを利用するのであり、ノードや辺の属性は利用しない。本論文では2つの新規なアイデアを紹介する。第1に、マッチング誤りの確率分布から始め、グラフマッチング問題が最尤推定法とみなせる理由について、期待値最大(EM = Expectation Maximum)法を使って示そう。第2に、行列表現を利用したデータグラフとモデルグラフの両グラフノード間の対応関係マッチング復元問題と見なせることである。こうすることで、特異値分解を利用して、対応付けマッチングを効率的に復元する事が可能になる。我々は人工データと実データの両方を使って、この方法の実験をした。本手法は、もっと計算コストの高い手法に匹敵する効率を示すことがわかる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


領域隣接グラフ間の誤りを許容する部分グラフのマッチングによるシンボル認識
Symbol Recognition by Error-Tolerant Subgraph Matching between Region Adjacency Graphs

Josep Llados, Enric Marti, Juan Jose Villanueva

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1137-1143, October 2001

Keywords: Graph isomorphism, subgraph isomorphism, graph matching, inexact graph matching, graph edit distance, symbol recognition

本論文では、領域隣接グラフ(Region Adjacency Graph = RAG)を利用したエラー耐性のある部分グラフ同型写像法を提案する。1つのRAGを、別のもう一つのRAGに写像する編集演算子集合が定義される。領域は多辺形で表現され、これらの間の類似度は辺のマッチングによって計測される。このアルゴリズムはRAG編集演算子に駆動されて分岐と境界線をたどる。この定式化によって、入力データが変形していてもマッチング可能であり、多項式時間で解に到達する。このアルゴリズムは、手書き図面中の記号認識に利用された。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


メディアングラフについて:その性質,アルゴリズム,応用
On Median Graphs: Properties, Algorithms, and Applications

Xiaoyi Jiang, Andreas Munger, Horst Bunke

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1144-1151, October 2001

Keywords: Median graph, graph distance, graph matching, genetic algorithm, learning

オブジェクト形状の学習などの場合、与えられたパターンの基本的情報を捕まえるに、メディアン演算は重要な手法である。本論文ではメディアンの考え方をグラフ領域に拡張する。グラフ距離という概念に関して、集合メディアンという新規な考え方を紹介し、グラフ集合のメディアンを一般化する。この両方の型のメディアングラフの性質を研究する。一般化メディアングラフを計算するというもっと複雑な課題に対して、遺伝的探索アルゴリズムが開発された。ランダムに生成されたグラフに対して行われた実験から、一般化メディアングラフは、集合メディアングラフに対して優れていることを実証したし、われわれの遺伝的アルゴリズムが、妥当な時間内に概略の合成メディアングラフを見つけることができた。このメディアングラフを合成データや非合成データに適用し、メディアングラフの考え方の現実的有効性を示す例として図解され示されている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2次元形状認識のためのDyadicウェーブレットのアフィン不変関数
A Dyadic Wavelet Affine Invariant Function for 2D Shape Recognition

Mahmoud I. Khalil, Mohamed M. Bayoumi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1152-1164, October 2001

Keywords: Affine transformation, dyadic wavelet transform, pattern recognition

Dyadic wavelet変換は、affine変換不変な関数を求めるために利用されてきた。当初、2つのDyadicレベルを利用して不変関数が得られた。次に、この不変関数を利用し、6つのdyadicレベルを利用して、別の不変関数が得られた。ここで、waveletに基づく円錐方程式を紹介する。この不変関数は、dyadic wavelet変換を利用し、オブジェクト境界を解析することに基づいている(たとえば、オブジェクト境界長)。この提案関数を、合成データ、および、自然画像データに適用した結果、識別能力が実証された。従来法とも比較され、この不変関数の安定性が調べられた。さらに、大きな透視変換を受けた場面での安定性が調べられた。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


指紋の組み合わせ識別器
A Combination Fingerprint Classifier

Andrew Senior

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1165-1174, October 2001

Keywords: Henry fingerprint classification, hidden Markov models, decision trees, neural networks, NIST database

大規模な指紋認識システムにとって、指紋のクラス分けは重要な指標化法であるし、あるいは、マッチングされるべき指紋の探索数を減少させる方法としても重要な指標である。指紋は、全体的特長量に基づいて大まかなカテゴリーに分類される。本論文では、特異点を検出することなく、指紋の尾根構造を認識するために、隠れマルコフモデルと決定木を利用した新規な識別方法について述べる。この手法は、標準的指紋認識システムと比較結合され、その結合された効果を大規模標準指紋データベースによって評価した。また、本論文は、識別効率を犠牲にして、任意の高認識率に到達する方法についても述べている。組み合わせ識別器は、現在の最高レベルの2つの認識システムのいずれよりも高いことが示されている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


感性知能に向けて:感情の生理学的状態解析
Toward Machine Emotional Intelligence: Analysis of Affective Physiological State

Rosalind W. Picard, Elias Vyzas, Jennifer Healey

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1175-1191, October 2001

Keywords: Emotion recognition, physiological patterns, feature selection, Fisher Projection, affective computing, emotional intelligence

人間の感情知能の代表例の1つとして、感情理解があるが、これは、数学的知性や言語的知性以上に重要であると言われている。人工知能(Machine Intelligence)には感性知能が含まれる必要があることをここで示すとともに、このゴールに向けての結果を示す:即ち、4つの生理学的信号(怒り、悲しみ、喜び、敬意)が与えらたときの人間の感情状態を認識できる機械を開発すること。毎日、何週間にもわたって感情の8つの状態を経験させ、顕在化させようとする課題を与え、これから信頼性の高い大規模な感情データを得ることに特有な困難さについて述べる。このデータから、特徴量に基づく、多数の感情状態認識アルゴリズムについて紹介する。我々は、問題の多い、日々変化する4つの生理的信号を解析する:同じ日の異なる感情に伴う特徴量は、異なる日の同じ感情を表す特徴量よりも、分布がまとまる傾向にある。この日々の変動を扱うために、我々は新たな特徴量と複数のアルゴリズムを提案し、これらの性能を比較する。我々はFisher Projection法を核にして、逐次フローティング前方探索法(Sequential Floating Forward Search)を組み合わせることによって、Fisher Projection法の性能を改良することができ、生理に基づく感情識別に関する今までの認識の中で最高の性能を得ることができた:中立的感情を含む8個の感情クラス分け課題を81パーセントの精度で達成できた。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グローバルなテクスチャー解析に基づくフォント認識
Font Recognition Based on Global Texture Analysis

Yong Zhu, Tieniu Tan, Yunhong Wang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1192-1200, October 2001

Keywords: Font recognition, texture analysis, content-independent

本論文ではフォント認識のためのテクスチャー分析に基づく新規な手法について述べる。従来の方式は多くの場合、局所的活字形状の特徴に基づいていたが、そのためには連結要素解析が必要であった。我々の方法は、文書は特定のテクスチャーを有する画像とみなし、フォント認識をテクスチャー識別課題に置き換える。この方法はコンテンツ非依存であり、局所的な特徴解析を行う必要がない。常用される24の中国文字フォント(6書体を4種の組み版(style))について14,000のサンプルについて実験した。平均認識率は99.1%であった。この手法のノイズ(ごま塩ノイズ)や画像劣化に対する頑健性の結果も、従来法と比較して得られた。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Watershedに基づくスネーク
Snakes on the Watershed

Jaesang Park James M. Keller

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1201-1205, October 2001

Keywords: Active contour model, snakes, watershed algorithm, dynamic programming, energy minimization, white blood cell detection

ウォータースネーク(watersnake)と呼ばれる、新規なオブジェクト境界抽出法を紹介する。これは2段階のスネークアルゴリズムであり、このエネルギー汎関数は、動的プログラミング法によって最小化される。この手法は、全エネルギー空間を探索して最小値を見つけるため、よりロバストである。最小化処理の複雑さを軽減するため、watershed変換、および、粗から精細への戦略が利用された。人工的データによってこの手法と従来法の精度比較がなされ、骨髄中の白血球画像の分類に応用された。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.11

補正による色表現:色の恒常性のための簡単で統一した枠組み
Color by Correlation: A Simple, Unifying Framework for Color Constancy

Graham D. Finlayson, Steven D. Hordley, Paul M. Hubel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 11, pp.1209-1221, November 2001

Keywords: Color constancy, illuminant estimation, correlation matrix

本論文は照明光推定問題を考察する:未知の照明光下で記録された与えられた情景画像において、その光を再現できるかどうかを扱う。このような推定値を得ることは色の恒常性問題の一部である---すなわち、照明と独立な情景画像の反射状況を表現することである。従ってこの研究は、色に基づくオブジェクト認識、ディジタル写真などが、色の恒常性が求められる重要な応用分野となる。このような研究の中で、単一の照明光を再現する課題はずっと以前から多くの人たちによってなされてきたが、ここで取り上げる課題は、可能な照明集合の各々が情景画像の照明光であるための尤度を確立することである。まず最初に、ある可能な照明光を当てたらどんな画像色が現れるか(色の分布も含めて)を決定することから始めよう。論文中では、カメラが与えられたとき、どうしたらこの知識が得られるかを議論する。次にこの情報と、特定の画像色とを関連させ、可能な照明光の尤度(もっともらしさ)を求めることにする。最後にこの尤度情報を用いて、ある情景画像の単一光源を抽出する。計算は、我々が本論文中で開発する一般的相関を利用する枠組みで表現され、実行される。この相関を使う枠組みについて、新規な確率論的な事例を提案するとともに、合成画像であっても自然画像であっても非常に良い色の恒常性が得られることを示す。更に、ここに提案する枠組みは、既存の多様なアルゴリズムを利用できることを示す:中間調の世界やガマット(Gamut)・マッピング・アルゴリズムもこの枠組みで表現でき、これらアルゴリズムと他の確率的ニューラルネット手法を色の恒常性問題に利用した場合の関係を探索する。

Ej,TK

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフカットによる近似的高速エネルギー最小化法
Fast Approximate Energy Minimization via Graph Cuts

Yuri Boykov, Olga Veksler, Ramin Zabih

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 11, pp.1240-1256, November 2001

Keywords: Energy minimization, early vision, graph algorithms, minimum cut, maximum flow, stereo, motion, image restoration, Markov Random Fields, Potts model, multiway cut

多くのコンピュータビジョンにおいて、各画素の(等しいか否かのような)ラベル付け課題が存在する。共通制約条件として、ラベルの変化が、オブジェクト境界のようなシャープな不連続線がある場合は、この不連続性を保持しながら、連続的であると仮定している。これらの課題は自然な表現で言えば、エネルギー最小化課題とみなせる。本論文では、各種平滑度の制約条件下における多様なエネルギーについて考察する。グローバルなエネルギー最小化問題は、単純な境界保存の場合であってもNP(非多項式)の計算複雑度を有している。従って我々はより効率的な近似アルゴリズムに着目した。領域の「拡大(expansion)的動き」と「入れ替え(swap)的動き」の2種類の大きな動きに対して効率よく局所最小値を見出す、グラフカットを利用した2つのアルゴリズム紹介する。これらの動きの結果、任意の大きさの画素集合ラベルを同時に変えることができる。これに対して従来の標準的方法(焼きなまし法も含む)では、たった1つの画素ラベルが変化しても小さな動き(近傍画素を調べるために視点が動く)が必要となる。我々の拡大アルゴリズムは、グローバルな極小値の既知要因中の1つのラベルを見つけることあができるし、入れ替えアルゴリズムでは、より一般的エネルギー関数を扱う。このどちらのアルゴリズムも重要な非連続の場合を扱うことができる。この手法の有効性を画像復元やステレオや動きへの応用に適用した実験結果をお見せする。実画像での実証実験では98%の精度が得られた。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パラメータを利用しない幾何学的文書レイアウト解析
Parameter-Free Geometric Document Layout Analysis

Seong-Whan Lee, Dae-Seok Ryu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 11, pp.1240-1256, November 2001

Keywords: Geometric document layout analysis, parameter-free method, periodicity estimation, multiscale analysis, page segmentation

印刷された文書画像を自動的に電子文書化するためには、まず最初に幾何学的レイアウト解析が必要となる。しかし、文字フォントの大きさや、テキスト行間隔、文書レイアウト構造などの変動がある中で、文書のレイアウト構造を何年にも渡って汎用的に解析するアルゴリズムを設計することは困難である。そのため以前は、この変動を吸収させるパラメータを利用せざるを得なかった。本論文では、文書画像を最大限均一な領域に分割し、テキスト、画像、表、罫線領域として同定するためのパラメータを使わない方法を提案する。そのため、マルチスケール解析用にピラミッド型4分木を構築し、ページセグメンテーションのためにテキスト領域の周期性を見つけるために周期性測度を提案する。ロバストなページセグメンテーション結果を得るために、あいまいな領域に対してだけテクスチャー解析を利用した確認手続きを採用する。ここに提案する周期性測度、マルチスケール解析および確認手続きによって、文字フォントサイズ、テキスト行間隔、文書レイアウト構造に独立なロバストな文書レイアウト解析手法を開発することができた。ここに提案する方法はワシントン大学の文書データベースと、マルチメディア文書データベースに対して実験された。これらの実験結果は、本提案手法が従来法より高精度であることを示している。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


固有テクスチャー法:3Dモデルに基づく見かけ画像の圧縮と合成
Eigen-Texture Method: Appearance Compression and Synthesis Based on a 3D Model

Ko Nishino, Yoichi Sato, Katsushi Ikeuchi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 11, pp.1257-1265, November 2001

Keywords: Image synthesis, texture, appearance, model-based rendering, image-based rendering, principle component analysis

実画像からバーチャルなオブジェクトを生成させるための2つの代表的描画法に、画像にもとづく方法と,モデルに基づく方法がある。しかし、実画像の背景にバーチャル画像を作り上げるような混合現実(ミックスト・リアリティ)画像に応用する場合には、両方法ともいくつかの問題点を持っている。これらの問題点を克服するために、固有テクスチャー法と称する新しい手法を提案する。この提案手法は、さまざまな照明下、視覚条件下で実オブジェクトの見かけ画像を取得し、これを距離画像系列から生成された3Dモデル表面上の2次元座標上に圧縮表現する。正確な3Dの幾何学的モデルを他の情景画像といっしょに構築する場合、オブジェクト表面の反射解析は必要ない。本論文は、この手法と実装化について報告する。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2Dの人の顔画像を3D表面モデル用に登録するための写真の整合性の利用
Using Photo-Consistency to Register 2D Optical Images of the Human Face to a 3D Surface Model

Matthew J. Clarkson, Daniel Rueckert, Derek L.G. Hill, David J. Hawkes

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 11, pp.1266-1280, November 2001

Keywords: 2D-3D registration, similarity measures, photo-consistency, pose estimation, extrinsic parameter calibration

本論文では3D表面モデル用に2つ以上の光学的画像を登録する新規な方法について提案する。このような登録法の潜在的用途としては、例えば、医療とか、画像を利用した指示、監視と認識、工業用検査、コンピュータ補助による製造、コンピュータ補助による保守、遠隔地や危険な環境での遠隔操作などがある。登録は変換パラメータに関する類似度を最適化することで行われる。我々は写真の整合性に基づく新たな類似尺度を提案する。各表面の場所における光学的情報が、ある照明モデルでの情報に一致しているかどうかによって類似度が求められる。このとき光学画像の相対的姿勢は既知でなければならない。光学的な表面再構成システムと、人間の顔の磁気共鳴(MR)画像から得られた表面のデータを利用して,本システムの有効性を確認した。多くのビデオ画像や、ビデオノイズ、表面位置や面積の誤り、合致した表面の複雑度などに対するシステムの制度や頑健性をテストした。このアルゴリズムを、5人のボランティアから提供された頭部MR画像から、ヒトの頭と皮膚を光学的に10個再構成させてこのアルゴリズムの有効性を実証した。4つの光学的画像を表面モデルに適合させる実験では、3D誤差は1.45mmと1.59mmの間であった。このとき成功率は100%であり、合致位置からのずれの初期値は最大16mmであった。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


色分布を利用したエッジ、分岐、輪郭の検出
Edge, Junction, and Corner Detection Using Color Distributions

Mark A. Ruzon, Carlo Tomasi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 11, pp.1281-1295, November 2001

Keywords: Edge detection, junction detection, corner detection, earth mover's distance, color distributions, perceptual color distance

過去30年以上にわたってコンピュータビジョンの研究者たちは、エッジとか、コーナー、と言った低レベルの視覚課題のための新規な手法を提案し続けてきた。これらほとんどの手法の中で共通な要素の1つが、局所近傍画像の強度や色を一定であると見なし、変化部分をノイズと見なすモデルである。この仮定がなりたつ小近傍を利用するのは計算量の配慮からであるが、今でもこれが主流である。本研究では近傍を色分布でモデル化する。ゴールは、近傍領域が大きくなった場合でも、難しい自然画像において低レベルのビジョンの課題に対して高い品質の結果を得ることである。ここで大きな近傍領域を強調したが、その理由は小領域では十分な情報量を有していないからである。我々は色を強調したが、色は灰色(グレースケール)を含むからであり、また、色はヒトの視覚における主要な形態であるからである。エッジ、コーナー、分岐の検出に関する確率分布を考察し、それらの処理結果を示す。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチスケールスケルトンの階層的分解
Hierarchical Decomposition of Multiscale Skeletons

Gunilla Borgefors, Giuliana Ramella, Gabriella Sanniti di Baja

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 11, pp.1296-1212, November 2001

Keywords: Skeleton, decomposition, multiresolution, binary pyramid

多段階解像度画像から階層的に多段階スケールの離散的骨格(スケルトン)を生成する新たな方法を紹介する。スケルトンとは線状のパターン表現法であり、一般的には優れた形状記述法として認知されている。離散的画像の場合、離散的スケルトンは通常好まれている。多段解像度表現は多くの画像解析課題で便利である。ここに示す我々の多段階スケルトン分解は2つの異なる階層型を示す。最初の階層型は異なるスケールの1つであり、これは原パターンがANDピラミッドに分解され、各レベルでスケルトンが計算される。第2の階層型は、ピラミッドの各レベルでpermanenceに従ってスケルトンを同定し、ランク付けしながら実行される。ここでpermanenceとは局所的パターンの太さに関係する固有な性質である。スケルトン分解を達成するために、解像度ピラミッドを上から降下したり,下から上昇したり、つまりトップダウンだったりボトムアップだったりの両方の解析を実行する。ボトムアップによる分解では、高解像度レベルに連結しているスケルトンの一部が、低解像度レベルにも連結しているかどうかどうかを確認するために利用される。トップダウン解析は、スケルトン成分のpermanence階層ランク付けをするために利用される。我々の手法は、デジタル画像の3×3近傍演算を利用するので高速で実装も容易である。このスケルトン分解手法は、異なった領域で、異なった太さのパターンを処理する場合に最も効力がある。多段スケルトンの実例(ループのあるものも無いものも含め)をたくさんお見せしよう。そのスケルトンはほとんどの場合うまく意味のある部品として分解されていることがわかる。この手続きは一般的であり、特定の応用に限られたものではない。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


方向性を有するモルフォロジカルフィルタリング
Directional Morphological Filtering

Pierre Soille, Hugues Talbot

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 11, pp.1313-1329, November 2001

Keywords: Image analysis, mathematical morphology, rank filters, directional filters, periodic line, discrete geometry, granulometry, orientation field, radial decomposition

勾配の接線方向に沿った並進不変なmin/maxフィルターの実装について紹介する。これは、画素当たり、勾配dy/dxの既約分数として2 + k min/maxの演算コストで達成できる。ここに、k=max(|dx|, |dy|)。従って勾配が求まると計算時間は一定であり、線分の長さとは独立である。次に周期的動きヒストグラムアルゴリズムの概念を示す。この方法では、より一般的なランク付けフィルター法やランクに基づくモルフォロジカルフィルタにおいても、同様の効率を発揮する。細かいネットへの応用や、粒状や方向性を有する場での計算量について詳しく述べる。最後に、2つの拡張がなされた。第1は離散的ディスクと任意方向の離散的矩形の分解であり、第2に中間調を有する周期的線分に沿ってのmin/maxフィルターである。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


対応点無しでの非剛体追跡と、衛星の2D雲画像からの構造抽出
Tracking Nonrigid Motion and Structure from 2D Satellite Cloud Images without Correspondences

Lin Zhou, Chandra Kambhamettu, Dmitry B. Goldgof, K. Palaniappan, A.F. Hasler

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 11, pp.1330-1336, November 2001

Keywords: Nonrigid objects, structure estimation, image motion estimation, fluid models

隠蔽(オクリュージョン)が無くて、非剛体画像の動きから構造を追跡することはビジョン研究における重要な課題である。本論文では、局所解析(微細画像を再生)し、全体的解析も行う(非剛体的動きを適宜制限する)階層的手法を開発し、対応点に関する事前知識無しに、衛星による2D雲画像系列から、深さ方向に密度の高い非剛体運動を再現した。この課題が困難であるのは対応点に関する情報が得られないからばかりでなく、人工衛星から撮影された2D雲画像(スケール付きの正射投影画像)には深さ方向の手がかりが無いからである。我々の方法では、雲画像はいくつかの小領域にセグメンテーションされ、各領域に局所的解析がなされた。局所解析を、適当な全体的流れモデルに整合するように統合するために、回帰アルゴリズムを提案する。これに基づいて、構造的動き解析システム、SMAS、が開発された。流体モデルの制約を利用し、スケール付き正射影情景画像下で、非剛体の動きの高密度構造を推定したのは、我々が初めてであると信じている。気象衛星(GOES-8 および GOES-9)によって撮影された雲の連続画像に対して、我々のシステムによる確認と解析の実験がなされた。構造と3Dの動きは画素以下の精度まで対応付けができた。この結果は大変勇気付けられるもので、地球や宇宙科学、特に気象予報における雲のモデルへの応用に期待が持てる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.12

色不変量
Color Invariance

J.M. Geusebroek, R. van den Boomgaard, A.W.M. Smeulders, H. Geerts

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1338-1350, December 2001

Keywords: Photometric invariance, color constancy, measurement theory, scale-space, differential invariants, differential geometry, multispectral imaging, Kubelka-Munk theory, photometric models, Gaussian color model

本稿では、有色物体の表面反射率の測量法を示す。この測量法では、画像形成の際の条件を考慮した、いくつかの一般的な仮定を元にする。カラー画像からその被写物の表面反射率の頑健な計測のためのフレームワークを定義するために、カラー画像に対してガウス分布尺度空間パラダイムを用いる。被写物の表面反射率は、染料層に対するKubelka-Munk理論に基づいた物理的反射モデルから導き出される。照明と幾何的な不変的属性はこの反射率モデルから導き出される。色不変量の不変性と分離力は実験を通じて調査され、これらの色不変量が影、照明、ハイライト、そしてノイズを減らすことが出来ることが示される。広範な実験により、不変性の属性の調整により、異なった不変量が高度に分離可能であることが示される。ここで示した色測量に関するフレームワークは、測量学と同じように色の物性においても、よく定式化されている。ゆえにここで提案した不変量は、他の方法よりも、不変性色特徴の計測に適しているといえる。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


埋め込まれた信頼度を用いたエッジ検出
Edge Detection with Embedded Confidence

P. Meer, B. Georgescu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1351-1365, December 2001

Keywords: Edge detection, performance assessment, gradient estimation, window operators

ウィンドウ内の画素値の加重平均を計算することは、多くのコンピュータビジョンの演算子における基本モジュールである。その処理は線形ベクトル空間内で再度定式化され、他の下位空間の役割が強調される。このフレームワークを用いると、大きな偽反応などの、勾配を基にしたエッジ検出器のよく知られた出力結果を、定量的に説明することができる。計算に用いられたエッジモデルの信頼度に関して独立した尺度が得られるため、入力データから導出されたテンプレートとのテンプレートマッチングは重要であることも示す。広く用いられている3段階のエッジ検出手順−勾配推定、非極大抑制(訳注:理想的にはエッジは1画素幅であるべきですが,実際にエッジ検出すると,「太い」エッジが得られる。「太い」線から,極大のもの以外を「抑制」して除去することにより,1画素幅のエッジを得る方法)、履歴閾値処理−が、信頼度の測量により得られる情報を含むように一般化される。追加分の計算量はごくわずかである。幾多の標準的なテスト画像を用いた実験により、この新しい方法が、弱いエッジを検出する能力があることを示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


尺度空間に基づいた領域競合の一般スキーム
General Scheme of Region Competition Based on Scale Space

M. Tang, S. Ma

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1366-1378, December 2001

Keywords: Nonparametric probability model, region competition, region growing, scale space-based classification, segmentation

本稿では、尺度空間に基づいた画像分割のための、領域競合の一般スキーム(general scheme of region competition : GSRC)を提唱する。最初に、ある特定の尺度で一般的に定義されたピークに従って画像特徴データを分類する新たな識別アルゴリズムと、尺度空間に基づいた識別スキームを示す。この識別スキームでは、上記識別アルゴリズムの結果として得られる特徴データクラスターを、標準的な識別アルゴリズムを用いて幾つかのクラスにグルーピングする。次に上記分割結果の誤りを削減するために、ノンパラメトリック確率モデルを展開する。このモデルからGSRCのための汎関数を引き出す。三番目に、初期領域を自動決定するための、一般的且つ定式化されたアプローチを設計する。そして最後にGSRCの核となる一連の操作を提唱する。この操作により汎関数が最小となるように画像が分割される。GSRCに採用された戦略は、画像中の各画素を高速にラベル付けする。広い可能性の中で、各画素がどの領域に分類されるかが決定され、その後ノンパラメトリックモデル、境界平滑化、および領域競合の助けを借りて最終的な領域の微調整を行う。GSRCは、尺度空間に基づいた識別スキームにより、領域分割の範囲を定量的に制御する。本稿においては、このスキームの表記はノンパラメトリックであるにもかかわらず、本稿における全てのノンパラメトリック手順がパラメトリックなもので代用される場合、GSRCはパラメトリックにも稼動する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


粗から密への動的計画法
Coarse-to-Fine Dynamic Programming

C. Raphael

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1379-1390, December 2001

Keywords: Dynamic programming, A-star, mine recognition, brachistochrone, iterated complete path, coarse to fine, global optimization

本稿では、我々が「粗から密への動的計画法(Coarse-to-Fine Dynamic Programing : CFDP)」と呼んでいる動的計画法(DP)の拡張方式を紹介する。この方式は広大な状態空間におけるDPの問題に理想的に適する。オリジナルのDP問題の下限境界である粗な近似の系列を解くためにDFDPでは動的計画法を用いる。これらの近似はオリジナルのグラフの状態を併合し、より粗なグラフにおける「超状態(superstates)」を形成する。この粗なグラフでは、超状態間の楽観的なアークコストを用いる。これらの近似は、最適なパスが見つかったときにオリジナル状態グラフを終端させるように設計されている。CFDPは多くのDP問題を解くのに必要とされる計算の総量を顕著に削減し、いくつかの場合においては、他の方式では不可能な計算を可能とする。CFDPは、DP問題を、連続状態空間を用いることで一般化し、この拡張方式に対する収束解をもたらす。この近似における計算では、隣接する超状態の組と関連する、可能な全てのアークに対して,コストの範囲を限定することを必要とする。このように我々が提唱した方法の実現可能性は、これらの下限境界の同一性の検証を必要とする。鉱石認識における関数の最適化と、境界の推測への応用を示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


三次元モデル取得と追跡のためのハイパーパッチ
Hyperpatches for 3D Model Acquisition and Tracking

C.S. Wiles, A. Maki, N. Matsuda

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1391-1403, December 2001

Keywords: Pose estimation, model acquisition, model tracking, face analysis

単一のカメラによる、三次元モデルの自動生成と、動きの中での簡単な物体の三次元追跡は往々にして難しい。その理由はモデルを構築するための情報が粗であるからである。我々が開発した自動スキームでは、まず物体に対して単純な点表現ユークリッドモデルを計算し、次にこのモデルをハイパーパッチにより肉付けしていく。このハイパーパッチは、方位に関する情報と、この物体上の平面性の高いパッチにおける強度パターンの変化に関する情報の両方を含む。この情報を用いることにより、投影されたパッチの空間および強度における歪みを、三次元物体運動においても正確にモデル化することができる。人間の物体追跡を特化されたアプリケーションと見なした場合、ハイパーパッチは単眼画像系列からのモデル取得中に自動的に計算されるものではなく、また視覚における物体追跡に対して極めて適当でもあることを示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


航空機検出:人間の類似度を用いたケーススタディ
Aircraft Detection: A Case Study in Using Human Similarity Measure

B. Kamgar-Parsi, B. Kamgar-Parsi, A.K. Jain, J.E. Dayhoff

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1404-1414, December 2001

Keywords: Aircraft detection, automatic target recognition (ATR), data generation, learning, similarity measure, training set augmentation

空の画像を走査して、航空機があるかどうかを決定する問題は、理論的にも実用的にも興味深い。空の赤外線画像から最も突出した信号を抽出したならば、問題はその信号が航空機と一致するか否かである。一般的なアプローチは、その二次元信号とモデル化された航空機との、形状のユークリッド距離などを用いてなる類似度を計算し、それが(予め決められている)閾値を越えるか否かに基づいて決定を下すものである。計量類似度や閾値の使用を避け、代わりに人間が用いているような類似度を習得することを目指した新たなアプローチを示す。これによると、充分な実際のデータがない場合には、識別境界付近に投影される、任意の多数のトレーニング例を特別に生成することができる。一度このようなトレーニングセットで学習すると、我々のアプローチによるニューラルネットを基にしたシステムの性能は、人間のエキスパートと比肩しうるまでになり、有効な実データのみを用いてトレーニングしたネットワークの性能を遥かに凌いだ。さらに、ユークリッド識別器を用いた場合の性能よりもかなり良い結果であった。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


アクティブビジョンシステムのための、データおよびモデル駆動型注視制御
Data- and Model-Driven Gaze Control for an Active-Vision System

G. Backer, B. Mertsching, M. Bollmann

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1415-1429, December 2001

Keywords: Visual attention, gaze control, visual exploration, active vision

視覚の注意機構のモデルにより、アクティブビジョンシステムの活動を制御するための一般的なアプローチが得られる。問題の重要な側面において、従来の方法とは異なる新たな注意制御モデルを紹介したい。我々は注視という選択機構を2つのステージに分けた。この2つのステージは、早い選択と遅い選択の間の相克のような、自然の視覚的注意機構に見られる、異なった現象として説明するのに適している。ここで提案するモデルは、特に動的シーンへの適用のために設計されている。我々のアプローチは、なるべく多くの一般的なアクティブビジョンシステムのモデル化と、特別な問題を解くための特別な側面の統合のための、簡潔なインターフェースを狙っている。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


空間的サイズ分布:形状およびテクスチャ解析への応用
Spatial Size Distributions: Applications to Shape and Texture Analysis

G. Ayala, J. Domingo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1430-1442, December 2001

Keywords: Texture analysis, shape analysis, size distribution, granulometry, geometric covariogram, spatial size distribution

本稿では、新たに定義された空間的サイズ分布(spatial size distributions : SSD)に基づいて、二値およびグレースケールの画像の新たな記述法を提案する。主なアイディアは、二値画像の幾何学的コバリオグラム(空間的相関を示す尺度:訳者注)、もしくはオリジナル画像のグレースケール画像の自己相関関数と、それぞれの粒状性変換との間の比較と、画像の粒状性解析を組み合わせることにある。この定式化の特別なケースとして、便利な粒状性の分布が得られる。画像の高繊細な記述が求められる場合には、都合の良いことに、SSDにより生成される複雑な記述器を使用できることを、例を用いて示す。またこの新しい記述法は確率分布であり、これらの直感的解釈と特性は、適当な確率統計論的な立場から研究することが出来る。形状解析におけるこの記述法の利便性を、合成画像を用いた例で示し、標準的なテクスチャデータベースにおけるテクスチャ識別の実験を行うことで、テクスチャ解析への適応も研究される。SSDの様々なケースと、いくつかのテクスチャ識別における従来方法を、識別率と誤識別の個数を基に比較する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


三次元B-スプラインウェーブレット変換に基づいた、漢字の基本処理
Basic Processes of Chinese Character Based on Cubic B-Spline Wavelet Transform

Y.Y. Tang, F. Yang, J. Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1443-1448, December 2001

Keywords: Wavelet, cubic B-spline, character processing, compression, type zooming-in, typeface composition

本論文では、三次元B-スプラインウェーブレット変換に基づいた漢字の処理に関する新規アプローチを示す。ここでいう漢字の処理には、文字圧縮、書体ズームイン、文字書体合成が含まれる。基本的なアイディアは、漢字とは三次元B-スプライン関数で表される輪郭により記述され、その輪郭は詳細度に応じて、もしくは異なった解像度レベルでのコントロール点(ウェーブレット係数)に分解される、というものである。文字圧縮には二通りの方法があり、その一つはウェーブレット係数の細部を直接扱う方法であり、他方は異なった解像度レベルで分解された、下位の曲線を考慮する方法である。書体ズームインではウェーブレット再構築を用いて任意のサイズに漢字を変倍し、ウェーブレットフィルタを用いて拡大された書体の品質を向上させている。文字書体合成においては、異なった解像度レベルでの編集・修正により、新たな文字書体を得る。実験結果と具体的なアルゴリズムを本文中で示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


撮影対象となる人に依存しない、複雑な背景においても用いることができるジェスチャー認識システム
A System for Person-Independent Hand Posture Recognition against Complex Backgrounds

J. Triesch, C. von der Malsburg

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1449-1453, December 2001

Keywords: Computer vision, human computer interaction, human robot interaction, hand posture recognition, gesture recognition, object recognition, segmentation, complex backgrounds, elastic graph matching, Gabor wavelets

複雑な背景においても用いることができる、人に依存しないジェスチャー認識のためのコンピュータビジョンシステムを紹介する。このシステムは弾性グラフマッチング(Elastic Graph Matching : EGM)を基にしており、グラフのノードにおける、異なった特徴タイプの組み合わせを許容するように拡張されている。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


二次元形状認識のための、スペクトル特徴を用いた隠れマルコフモデル
Hidden Markov Models with Spectral Features for 2D Shape Recognition

J. Cai, Z.Q. Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1454-1458, December 2001

Keywords: Hidden Markov models, spectral features, 2D shape recognition, outer contours, handwritten numeral recognition

本稿では、二次元形状認識のための、スペクトル特徴を利用するマルコフモデルを用いた技法を示す。二次元の閉じた輪郭から導出された、フーリエスペクトル特徴の特性を解析し、これらの特徴を二次元パターン認識に利用する。隠れマルコフモデルのパラメタを再推定するアルゴリズムを開発した。我々のモデルが如何に効果的かを示すために、2つの画像データベース(工具と非拘束手書き数字)を用いてテストを行った。却下無しに、それぞれについて99.4%、96.7%という高い認識率を達成することができた。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所的アフィン歪の固有ベクトルを用いた、周期的テクスチャからの形状復元
Shape from Periodic Texture Using the Eigenvectors of Local Affine Distortion

E. Ribeiro, E.R. Hancock

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1459-1465, December 2001

Keywords: Shape-from-texture, spectral analysis, affine distortion, eigen-analysis

本稿では、反復による数値的最適化を用いることなく、規則正しいテクスチャを持つ曲面の、局所スラント角とチルト角を直接推定する方法を示す。我々は(空間)周波数次元でこれを検討し、スペクトルピークのパターンのアフィン歪を用いて、テクスチャの歪みを計測する。アフィン歪行列の固有ベクトルの方向は、曲面の接平面の局所スラント角とチルト角の推定に用いることができることを示すことが、本研究の理論面での主な貢献である。特に第一固有ベクトルはチルト方向を示す。幾何学的には判りやすくはないが、第二固有ベクトルの方向はスラント方向の推定に用いることができる。ここで必要とされるアフィン歪行列は、スペクトルのピーク間の適合度を用いて計算される。これらのスペクトルのピークは、エネルギー順序を原則として構築されている。この方法を様々な実画像と合成画像に適用する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No .2

動的なオブジェクト認識と状態推定のための情報理論的センサーデータ選択
Information Theoretic Sensor Data Selection for Active Object Recognition and State Estimation

Joachim Denzler, Christopher M. Brown

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.145-157, January 2002

Keywords: Computer vision, active camera control, state estimation, information theory

我々は静的システムにおいて状態の反復推定をしながら最適なセンサーパラメータを選択する方法を定式化した。我々の最適基準とは、状態推定における冗長度の減少のことであり、推定方法に依存した測度(例えば、平均2乗誤差最小化)を求めるものではない。ここで主張したいことは、推定プロセスの冗長度が減少するに従って状態推定の信頼性はもっと向上すると言うことである。Shannonの情報理論を利用して、相互情報量(mutual information)を最大化するような情報収集行動を選択する。その結果、真のシステムの状態を表すデータの情報が最適化される。この手法では相互情報量の計算を左右する事前確率を明示的に考慮する。従って、それ以前の時間ステップにおける事後確率としてのある決定プロセスにおいて、ある時間ステップで事前確率を扱うための、逐次決定プロセスが形成される。すなわち、状態推測器では記号化されている知識を条件付き確率密度として利用する。不確実性の改良にはこの推測器の知識を変化させるのではなく、逐次決定プロセスの最適化法を適用する。我々の手法の利点を示すために、能動的カメラを使った逐次注視点の制御と視点選択するためのオブジェクト認識の実例を示そう。離散的および連続的濃度表現による実験について述べ、これから、我々の手法の有効性が推察できる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


情報理論を利用したクラスタリング
Information Theoretic Clustering

Erhan Gokcay, C. Principe

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.158-171, January 2002

Keywords: Information theory, clustering, MRI segmentation, entropy, optimization

パターン認識においてクラスタリングは重要なトピックの1つである。データの構造のみによってグループが構成されるから(教師なし学習)、この場合に利用できるクラスタリング・ルールの明白な基準の1つとして情報理論がある。本論文では、新規な谷探索クラスタリング法について紹介する。ここではデータ集合の分割コストを推測するのに情報理論的測度を利用する。ここで開発された情報理論的基準は、最近提案され他の機械学習のアプリケーションで成功を収めているRenyiのエントロピー推定値から発展したものである。ここでは最適化にはk-changeアルゴリズムの改良版が使われているが、その理由はコスト関数が逐次求められるし、局所最小値を持つからである。非線形分離データに応用された場合であってもこの新しいアルゴリズムはうまく働き、クラスター間の非線形境界を見つけることができた。このアルゴリズムは磁気共鳴画像(MRI)データにも、非常にうまく応用することができた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


文章行内の語句の位置検出と認識:街路名の認識への応用
A Statistical Approach for Phrase Location and Recognition within a Text Line: An Application to Street Name Recognition

Mounim A. EI-Yacoubi, Michel Gilloux, Jean-Michel Bertille

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.172-188, January 2002

Keywords: Phrase detection and recognition, handwriting recognition, statistical modeling, hidden Markov models

本論文では手紙の封筒に書かれた街路名を示す文字行において、街路名称の位置を同定・認識する新規な手法について述べる。開発されたシステムは多様な知識源を自然な形で統合し、最終結論を出力する確率的枠組みに基づいている。手書き信号のレベルにおいては、マッチングスコアを求めるために隠れマルコフモデルが広範に利用されている。この処理時間を高速化するためにいくつかの手法が用いられている。フランスの郵便封筒画像から得られた大量の街路名の文字行画像に適用した実験は非常に期待のもてる結果を示した。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


エキスパートの階層的な積を利用した手書き数字の認識
Recognizing Handwritten Digits Using Hierarchical Products of Experts

Guy Mayraz, Geoffrey E. Hinton

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.189-197, January 2002

Keywords: Neural networks, products of experts, handwriting recognition, feature extraction, shape recognition, Boltzmann machines, model-based recognition, generative models

エキスパート学習手続きの積を利用することによって、手書き数字画像の非線形の生成モデルを構成する確率論的バイナリー特徴量集合が発見できるこがある。このようにして学習された生成モデルの性質を評価するには、分離した各数字毎に学習した後、10個の異なるクラス別にテスト画像を適応させた非正規化確率を比較すればよい。この分離性能を改良するためには、階層化された分離モデルを各数字別に学習させる。階層内の各モデルは何層ものバイナリー特徴量(例えば白黒の画素)検出器を学習するが、この検出器は,下層の特徴量検出器のバイナリー特徴量の活性度ベクトルの確率分布をモデル化している。階層構造中のモデルは逐次訓練され,各モデルは層構成のバイナリー特徴検出器を利用し、その前にある層の特徴の活性度パターンモデルを生成する。訓練が終了すると、各特徴量検出器層は,分離した,非正規化対数の確率値を生成する。10個の数字の各々に対する3層の特徴量検出器を利用して,テスト画像を利用して30個のスコアを生成し,各データ別にこれを教師信号として利用し,論理学的識別ネットワークへ入力し、訓練する。MNISTデータベースにおいて、本システムは、現存の最新の識別器と同程度であった。このことから、エキスパート学習の積による方法は高次元のデータに関して効果的な階層的生成モデルを作ることができる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


読唇のための視覚的特長の抽出
Extraction of Visual Features for Lipreading

lain Matthews, Timothy F. Cootes, J. Andrew Bangham, Stephen Cox, Richard Harvey

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.198-213, January 2002

Keywords: Audio-visual speech recognition, statistical methods, active appearance model, sieve, connected-set morphology

人とコンピュータの対話において、音声の多モード的性質(音声に関連する多様な情報)はしばしば無視されている。しかし、唇の変形や、頭のような他の身体の動きから更に付加的情報が得られる。我々は音声への多くの手がかりを統合することで明瞭度を向上させることができ、特に音声信号が劣化しているときには有効である。本論文ではこの付加的で相補的な視覚的音声情報がどのように利用できるかを示す。隠れマルコフモデルによる唇画像系列のパラメータ化する3つの方法を比較検討した。そのうち2つはトップダウン的手法であり、唇の外側と内側の輪郭をフィットさせ、形状、あるいは、形状と見かけの主成分分析から読唇特長量が導かれる。第3のボトムアップ法は、画素強度から、非線形なスケール空間分析を直接利用して特長量が形成される。全ての手法は、個々の文字を発音する課題を複数人が実行する画像について比較検討された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ホモグラフィーの多視点制約
Multiview Constraints on Homographies

Lihi Zelnik-Manor, Michal Irani

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.214-223, January 2002

Keywords: Homographies, homologies, motion estimation, multiview analysis

平面状の画像を2つのカメラで撮影した画像間の動きはホモグラフィー(2D投影変換)によって把握することができる。ホモグラフィーはカメラ内部とカメラ外部のパラメータに依存するだけでなく、3Dの平面パラメータにも依存する。カメラパラメータは視野によっても異なるが、平面の幾何学的関係は一定に保たれる。この事実に注目して、2つ以上の多視点平面画像の相対的ホモグラフィーに関する線形部分空間の制約条件を導いた。この論文では3つの主な知見が得られた:1)多視点画像対間のすべての相対的ホモグラフィー(ホモロジー)の全体は4次元線形部分空間を張る。2)この制約条件が多視点平面画像間にどの程度拡張できるかを示す。3)カメラの動きにある程度の制約がある場合、多視点画像中の1枚の平面のホモグラフィー集合にも線形部分空間の制約は当てはまることを示す。本論文で得られたすべての結論は非校正カメラにも当てはまる。この多視点画像の制約条件によってホモグラフィー推定の改善や非剛体運動を検出できるかどうかについても論じている。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


補正されたCatadioptricステレオセンサー
Rectified Catadioptric Stereo Sensors

Joshua Gluckman, Shree K. Nayar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.224-236, January 2002

Keywords: Stereo imaging, image sensors, stereo rectification

catadioptric stereoと言う名称で知られている1つのカメラとミラーを併用したステレオ画像撮影法について以前の報告で述べた。本論文では、補正されたステレオ画像を形成するためのミラーを利用した、新規なcatadiptricセンサーを紹介する。この手法による2枚の画像の走査線は対応しているため、実時間ステレオ画像が得られ、その結果演算時間が不必要なだけでなく、画像取得後に補正のための再サンプリングで生じる画質劣化がない。第1に、必要となるミラーの数を求め、次に、1つのカメラで補正されたステレオ画像が得られるための制約条件を決定する理論を確立する。次に、ミラーが1つの場合と3つのば場合の両方について詳細に考察する。さらに、基線が与えられたとき、センサーの大きさを最小化するためのミラー配置について示す。センサーを構築するための可能性について、ミラーに対するカメラの相対位置ずれに伴う補正誤差を解析する。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


移動ロボットのためのビジョン:概観
Vision for Mobile Robot Navigation: A Survey

Guilherme N. DeSouza, Avinash C. Kak

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.237-267, January 2002

Keywords: Mobile robotics, navigation, computer vision, indoor navigation, outdoor navigation

本論文は過去20年間の移動するロボットナビゲーションの分野の開発に関する概観である。論文は、室内ナビゲーションと屋外ナビゲーションの2つの主要な部分からなっている。各部分とも、構造を持った環境(structured environment)とそうでない場合の両方について分けて論じている。室内ロボットで構造を持った環境の場合、空間が幾何学的モデルである場合と、位相幾何的なモデルの場合について別個に論じている。構造を持たない環境でのナビゲーションについては、オプティカルフローを利用した場合、見掛けに基づくパラダイムを利用した場合、そして、環境中の特定のオブジェクトの認識に基づく場合のそれぞれについて論じている。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パターン認識のための2つのフィッシャー線形判別式
Two Variations on Fisher's Linear Discriminant for Pattern Recognition

Tristrom Cooke

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.268-273, January 2002

Keywords: Linear discriminant, classification

多次元特徴量空間における点をクラスターに分別するために、判別式はしばしば利用されている。本論文は、2つのクラスに対するフィッシャーの線形判別式が存在する場合の、2つの単純な改良識別法を紹介する。この両方法ともMercer核を利用することで、非線形な判別表面に拡張することが可能である。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


正規分布のための最適一対線形識別器について:2次元の場合
On Optimal Pairwise Linear Classifiers for Normal Distributions: The Two-Dimensional Case

Luis Rueda, B. John Oommen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.274-280, January 2002

Keywords: Pattern classification, statistical pattern recognition, optimal Bayesian classification, linear classifiers

最適ベイズ線形識別器については何十年も研究著作がなされてきた。本論文では、全ての既知手法は2次多項式が一致根(coincident roots)を有する(共分散行列が等しい)場合のみについて考慮している。実際、2つの正規分布するクラスの最適識別器は、一対を単位として線形(pairwise linear)の場合に完全な解析が可能である。我々の知る限り、このような識別器を利用した例はパターン認識の分野では以前には無かった。共分散行列が等しくない正規分布のような特殊な場合に焦点を当ててみる。最適一対線形識別器の適用が満足すべき平均ベクトルと共分散行列の条件を決定した。最新の手法とは異なり、ここに述べるすべての場合は、線形識別器は一対の直線によって可能となる。これは2次の一般化方程式の特殊な場合である。そのような場合の1つとして、2つの重なり合うクラスの平均値が等しい場合があり、このときパーセプトロンにおける一般的ミンスキーパラドックスが解ける。また、ミンスキーパラドックスを満たす人工的データを使った実験結果を示し、この線形識別器が非常に良い結果を示すことを実証する。最後に、UCI機械学習用実世界データベースに対する実験結果を示す。実験結果から、我々の手法が従来のフィッシャーの判別識別器より優れていることが示された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


6識別器の併合戦略に関する理論的研究
A Theoretical Study on Six Classifier Fusion Strategies

I_udmila I. Kuncheva

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.281-287, January 2002

Keywords: Classifier combination, theoretical error, fusion methods, order statistics, majority vote, independent classifiers

複数の識別器があるとき、これをどのように組み合わせるかは重要な問題である。特徴量空間中に1点があり、クラス数が2で、識別器がL個存在する場合、クラスω1の事後確率推定問題を考える。推定は、各々独立で、分布が均一である(正規分布、または、一様分布)とき、次の併合手法に関する識別誤りを推定する公式を与えよう:平均法、最小法、最大法、メディアン法、多数決法、オラクル法。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No .3

教師付き識別問題の複雑度
Complexity Measures of Supervised Classification Problems

Tin Kam Ho, Mitra Basu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.289-300, March 2002

Keywords: Classification, clustering, complexity, linear separability, mixture identifiability

クラス境界の幾何学的複雑度に着目した、識別問題の困難度合いを特徴付ける多数の測度について研究した。我々は実世界の問題と無作為なラベル付け問題とを比較した結果、現実の問題には測度空間に構造を持っており、無作為な集合とは大きく異なっていることを見つけた。この空間における問題の分布状態から、課題の困難さに影響を及ぼす少なくとも2つの独立な因子が存在することが分かった。この空間を利用して、識別器の能力の範囲を記述することを示唆した。この結論は、動的な、あるいは、静的な特定の課題のためにどのような識別器を選択すべきかという利用ガイドとなるだけでなく、特徴量ベクトルの制約条件、投影、変換によって形成される部分問題の利用ガイドとなりうることを示している。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


特徴量の類似度を利用した教師なし特徴量選択法
Unsupervised Feature Selection Using Feature Similarity

Pabitra Mitra, C.A. Murthy, Sankar K. Pal

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.301-312, March 2002

Keywords: Data mining, pattern recognition, dimensionality reduction, feature clustering, multiscale representation, entropy

本論文では、次元もサイズも両方とも大きなデータを対象にした教師なし特徴量選択アルゴリズムについて述べる。この方法は冗長度が除かれた特徴量間の類似度に基づいている。この手法は探索を伴わないので高速である。新しく定義された特徴類似度は最大情報量圧縮指標(maximum information compression index)と呼ばれる方法を紹介する。このアルゴリズムは本質的に一般性があり、データ集合が多段スケールであっても扱うことができる。本アルゴリズムの速度と効率に関して、多様な実世界のデータ集合や多様な次元のデータ集合に適用され、その優秀性が十分証明された。また、特徴選択に関する冗長性や欠落に関してエントロピーによる定量的評価がなされた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ペン・コンピュータのための視覚的情報入力
Visual Input for Pen-Based Computers

Mario E. Munich, Pietro Perona

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.313-328, March 2002

Keywords: Systems and applications, active and real-time vision, pen-based computing, pen-based interface

カメラを使った手書き情報入力のための、人とコンピュータのインターフェースの設計と実装を紹介する。カメラは通常のシート状の紙面に焦点が合っており、ペンの画像を入力・記録する。すなわちペン先の軌跡を追跡し、紙との接触部を検出する。復元された軌跡は十分な空間時間解像度と精度を有しており、手書き文字の認識に十分である。100人以上の被験者がこのシステムを利用した結果、多数で多様な事例が示すように、本システムは使い勝手が良いばかりでなく精度も良いことが示された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オンライン手書き認識のための筆者適応
Writer Adaptation for Online Handwriting Recognition

Scott D. Connell, Anil K. Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.329-346, March 2002

Keywords: Online handwriting, writer-adaptation, writing style modeling, hidden Markov models, lexemes

筆者適応とは、大勢の筆者の特徴をモデル化している筆者非依存の手書き認識システムを、特定の筆者にチューニングした筆者依存型認識システムに変更するプロセスのことである。この適応化は、もし特定の筆者の適正なモデル化が可能であれば、認識率を大幅に向上させる潜在能力を持っている。学習時に筆者は限られた数の手書きデータしか書こうとしないから、このモデルの複雑度も制約がある。適応化には筆者依存モデルを使い過ぎないことがいかに重要であるかを示そう。我々の筆者依存への適応方法は筆者非依存の手書きスタイルのモデル(語彙素、lexeme、と呼ばれる)を利用し、訓練データ中に存在する特定の筆者のスタイルを同定する。そして、実際の筆者が記述したデータによって、このデータベースを更新する。筆者のデータ中に存在する語彙素は、訓練として不十分な数しか存在しないが、筆者非依存性モデルで置換される。この手法の妥当性を評価するために、文字別に切り離された手書き文字の場合と、制約なしの手書き単語認識の両方の課題に適用してみた。その結果、単一モデルによる筆者文字クラスをそれぞれ提示する場合に比べ、小文字の認識において平均、誤認識は16.3%減少した。更に、筆者適応のためにごくわずかのデータを用いた手書き単語認識において、平均9.2%の誤認識の減少が見られた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


湾曲した人の網膜画像対を登録するための、特徴量に基づくロバストな階層的アルゴリズム
A Feature-Based, Robust, Hierarchical Algorithm for Registering Pairs of Images of the Curved Human Retina

All Can, Charles V. Stewart, Badrinath Roysam, Howard L. Tanenbaum

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.347-364, March 2002

Keywords: Robust estimation, registration, transformation estimation, image mosaic, retinal imaging, feature extraction, feature refinement, multiscale methods, ophthalmic image processing, biomedical image processing

本論文は、人の網膜は湾曲しているため1枚の画像として撮影することは困難である。そのため部分的に撮影した眼底顕微鏡写真画像対を全自動で位置合わせするためのロバストな階層的アルゴリズムについて述べる。モザイク画像(画像の貼り合わせ)合成や検出対象の変更や、コンピュータによる装置化の設計には、正確な位置合わせが不可欠である。新規なアルゴリズムの中心課題は12個のパラメータを持つ中間画像変換であり、非校正カメラによる遠近の小さな(weak perspective)網膜画像を利用し、未知パラメータを有する2次表面剛体としてモデル化して導かれた。このモデルのパラメータは再帰的に血管構造を追跡するアルゴリズムによって抽出された血管標識をマッチングさせることで推定した。このパラメータ推定法は、他の用途にも一般化可能であるが、モデルと手法の階層から構成されている:初期マッチング集合は、類似度を重みとするヒストグラムのピークとして推定されるゼロ次変換に基づいて刈り取られる。1次マッチングであるアフィン変換は、マッチング集合と矩形の最小メディアンを利用した簡易化推定によってなされる。最後に、12個のパラメータの1次変換は、1次推定の段階から初期化されたM推定器を利用して推定される。座標変換演算によって特徴点は変形されるが、変形された領域同士の差分マッチングの規格化2乗和をとることで、対応点集合位置がより高精度に決められる。このような階層的手法は、フレーム間の大きな動きによって一部の特徴点がマッチングしないような画像にも、あるいは、マッチングミスのあるような画像にもロバストに適応できる。16個の健康な眼底から得られた、1024×1024画素の3000組の画像に対する実験がなされた。たった20%のオーバーラップ部分を含む画像組から始めて、アルゴリズムは失敗の割合を指数関数的に減少させ、67%以上のオーバーラップでは、誤差は無視できるほどになった。また、モデルの複雑度が向上するに従い、誤差の減少が数値として得られた。最後には定常的に1画素以下の位置合わせ誤差が達成されるようになった。速度、精度、小さなオーバーラップで網膜画像の位置合わせが可能なことなどの特徴を有するこの結果と、過去の文献とが比較され、本手法の優秀性が判明した。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


流体の流れの高密度推定
Dense Estimation of Fluid Flows

Thomas Corpetti, Etienne Memin, Patrick Perez

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.365-380, March 2002

Keywords: Fluid motion, continuity equation, div-curl regularization, nonconvex minimization, trajectories, vorticity, and divergence concentration

本論文では画像系列中の流体の動きを推定する問題を取り上げる。流体画像は空間的時間的な変形量が大きいいため、元来準剛体の安定的で顕著な特徴を対象としたコンピュータビジョンで利用される標準的手法を、このような問題に適用するには無理がある。そのため、我々はこのような問題に適した最小化に基づく動き推定法を研究した。最小化すべきコスト関数には流体力学の統合化連続性保存方程式に依存する新規なデータ項を含んでおり、この項のお陰で大きな変位にも対応できる。この項は元来は2次div-curl正則化に関連しており、この正則化によって特徴点の渦や発散構造の消滅を防いでいる。気象衛星画像を利用してこの方式の性能を実証した。さらに、稠密な動き場の推定結果系列が、高い精度で軌跡を再現し、渦や発散の領域を抽出できたことを示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


有限混合モデルの教師なし学習
Unsupervised Learning of Finite Mixture Models

Mario A.T. Figueiredo, Anil K. Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.381-396, March 2002

Keywords: Finite mixtures, unsupervised learning, model selection, minimum message length criterion, Bayesian methods,expectation-maximization algorithm, clustering

本論文では多変量データから有限混合モデルを学習する教師なしモデルを提案する。ここで使われている「教師なし」という形容詞は、本アルゴリズムの2つの性質から正当化される;1)要素の数を選ぶことができる、2)標準的な期待値最大化法(EM)と異なり、慎重に初期値を選ぶ必要はない。またEMに付きものの混合フィッティングをする必要がない:つまりパラメータ空間で特異推定値に収束する可能性を排除することができる。本手法の新規な点は、予め推定された候補モデルの中から1つを選ぶと言うモデル選択基準を利用しないことである。代わりに推測とモデル選択をシームレスに1つのアルゴリズムに統合する。この手法はEMアルゴリズムを作れるどんなパラメータ混合モデルにも適用できる。本論文では、ガウス混合モデルで例証してみる。この実験によって我々の手法の良さが分かる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


制約付き最小2乗法による基礎行列の推定:凸手法
Estimating the Fundamental Matrix via Constrained Least-Squares: A Convex Approach

Graziano Chesi, Andrea Garulli, Antonio Vicino, Roberto Cipolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.397-401, March 2002

Keywords: Stereo vision, fundamental matrix, convex optimization, linear matrix inequality

本論文は多数の対応点から基礎行列を推定する新規な手法について述べる。代数的な誤差最小化法では基礎行列のランク2の制約条件のみを考慮する。この非凸最適化問題が、局所最小解を避けて解くことが可能であることを示す。このために我々が最近開発した凸化手法を利用した。行列の最小特異値をゼロとするランク制約条件を課すことによって得られた予測基礎行列は、線形性を基準とする方法よりも高精度であった。このことから、本提案手法は、基礎行列の精度を更に高めるため、エピポーラ線までの距離と勾配による評価基準のような非線形基準を使う手法の初期化に利用できることを示唆している。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


FVC2000:指紋照合技術の競技
FVC2000: Fingerprint Verification Competition

Dario Maio, Davide Maltoni, Raffaele Cappelli, J.L. Wayman, Anil K. Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.402-412, March 2002

Keywords: Fingerprint verification, performance evaluation, biometric systems

信頼性の高い高精度の指紋認識法は、多くの指紋に対して頑健であることを要求されるが、これは現在でも困難なパターン認識の課題である。FVC2000コンテストは、会社や研究機関が指紋認識アルゴリズムを共通の土台に立って明確に性能比較するための最初のベンチマーク(基準)となるものである。最新の3つの異なるセンサーによって作れたデータベースと、人工的に作られた4番目のデータベースから構成されたデータベース群に対して、11個のアルゴリズムが詳細にテストされた。我々は、このFVC2000 プロトコルとデータベース、および、認識結果は、すべての指紋認識技術者にとって、手法の改良のためだけでなく、偏りの無いアルゴリズム評価のためにも有用であると信じている。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


特徴量に基づく、高次画像貼り合わせ変換の共・線形推定のための手法:人間の曲面状網膜画像の貼り合わせ
A Feature-Based Technique for Joint, Linear Estimation of High-Order Image-to-Mosaic Transformations: Mosaicing the Curved Human Retina

All Can, Charles V. Stewart, Badrinath Roysam, Howard L. Tanenbaum

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.412-419, March 2002

Keywords: Robust estimation, image mosaic, image montage, transformation estimation, retinal imaging, joint estimation

更正なしで、遠近の少ない人間の網膜画像を貼り合わせて1枚に合成するアルゴリズムを紹介し、解析する。これは、以前紹介された、非可逆で、12パラメーを有する階層的で頑健な推定法を持った2次画像変換モデルの上に構築された2対の網膜画像の位置合わせアルゴリズムである。ここで紹介する主要な改良点は線形で、特徴量に基づき、非反復法であり、これらが同時整合性のある推定変換によって全画像を合成されたアンカー画像上に変換する。この推定の制約条件はアンカー画像対について直接位置合わせと、非アンカー画像対については間接的に位置合わせの両方から得られる。グラフに基づくインクリメンタル(漸進的)な手法によって、同時解として整合的画像対が得られる。同時推定法の適用によって、アンカー画像にオーバーラップしてない画像をうまく貼り合わせ合成できたが、これは周辺網膜画像の貼り合わせには特にありがたい能力である。このアルゴリズムを16個の目の画像に試験的に適用した結果、最終合成画像中の平均メディアン変換誤差は0.76画素であった。全体的に見ると、このアルゴリズムは単純で高精度であり、以前の公知手法に比べて広範囲の応用が可能である。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


選択的注視に基づく視覚パターン認識と手書き数字認識と顔認識への応用
A Selective Attention-Based Method for Visual Pattern Recognition with Application to Handwritten Digit Recognition and Face Recognition

Albert Ali Salah, Ethem Alpaydin, Lale Akarun

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.420-425, March 2002

Keywords: Selective attention, Markov models, feature integration, face recognition, handwritten digit recognition

並列パターン認識には莫大な演算が必要であり一般にNP完全である。工学的立場から言えば、有限の演算量で済むような優れた計算効率が望まれる。このために、霊長類が選択的注視を行うというメカニズムを利用した視覚的パターン認識のための逐次モデルを開発した。選択的注視というアイデアは、画像中のすべての部分に情報が存在するわけではないといいうことを利用している。もし、人間が行うように、ぼんやりした画像から、大体の注目領域を探し、次第に関係する領域だけに注目するプロセスを採用するなら、少ない資源で迅速な認識が可能になる。我々は、人間の視覚系が行う顕著な特長量に基づく単純なボトムアップ型注目レベルと、もっと複雑なトップダウン型の時間順次型関連レベルを可観測マルコフモデルでシミュレートした。この両手法の中間にニューラルネットワーク法があり、画像の部品を解析し、観測値をマルコフモデルで評価することによって先験確率を生成する。我々は先ず手書き数字認識の課題で本アルゴリズムをテストし、次により困難な顔認識課題に応用した。我々の結果によると、複雑なビジョンへの応用に応用出来ることは確実である。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


両眼ステレオヘッドの実時間エピポーラ幾何推定
Real-Time Epipolar Geometry Estimation of Binocular Stereo Heads

Marten Bjorkman, Jan-Olof Eklundh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.425-432, March 2002

Keywords: Epipolar geometry, active vision, real-time stereo, dynamic vergence

視覚によるガイドを利用したロボットにとってステレオ画像は重要な手がかりである。世界を動き回っているとき、画像解像度や視野の限界を克服するためにロボットはダイナミックな注視点設定法を利用することができる。本論文では両眼ステレオ系によるダイナミックな注視点設定法を紹介する。時間的整合性を考慮した、絶えざる外部キャリブレーションを実行する結果、処理が大変簡単になる。実時間で推定される基礎行列は、エピポーラ幾何を記述するために利用される。また、除外すべき例外点を見つけ、計算から取り除く方法についても述べる。動きから構造を推定する一般的手法であるオプティカルフローの差分モデルに基づく反復手法も紹介し、これから基本行列が得られるようにテストされる。この反復法は、輻輳角(vergence angle)が約15度以下のとき、演算速度の点からも頑健さの点からも優れていることが示される。もっと角度が大きいとき、差分モデルでは不充分となるが、このときは基礎行列が用いられる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No .4

計算論的表面平坦化:ボクセルに基づく方法
Computational Surface Flattening: A Voxel-Based Approach

R. Grossmann, N. Kiryati, R. Kimmel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.433-441, April 2002

Keywords: surface flattening, geodesic distance estimation, multidimensional scaling, voxel representation, texture mapping

ボクセル(voxel)を用いて三次元の表面を二次元に平坦化する方法のうち、距離の保存性能が最も良い方法を示す。この方法ではvoxelデータの三角網もしくは多面体近似は必要ない。この問題は2つの主要な部分に分けられる。その一つは、表面上の点間の最小の測地距離をvoxelベースの計算で求めることであり、他の一つは、上記点間距離にできるだけ近いユークリッド距離を持つように、二次元における上記表面上の点の配置を求めることである。この方法が示すのは、平坦化された二次元表面の連続性を考慮に入れた、効率的なvoxelベースの距離推定法と、古典的な多次元スケーリング法(Multidimensional scaling :MDS)との組み合わせにより、二次元点配置を求めることである。提案したアルゴリズムは効率的であり、簡明であり、関数で表されない表面についても適用できる。本稿では実験結果も併せて示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔画像の加齢効果の自動シミュレーションのために
Toward Automatic Simulation of Aging Effects on Face Images

A.Lanitis, C.J. Taylor, T.F. Cootes

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.442-455, April 2002

Keywords: Edge detection, performance assessment, gradient estimation, window operators

加齢過程は人の顔の外観に大きな変化をもたらす。他の顔画像の変化の原因に比べると、加齢による変化はいくつかのユニークな特徴を示す。例えば、加齢による顔の変化は各個人に固有なものであり、その変化はゆっくりとしたものであり、健康状態、性別、そしてライフスタイルなどの他の要因に大きく影響を受ける。加齢による顔の外観の変化は、個人識別のための顔の特徴にも影響を与え、その結果、人間や機械による、歳を取った人の同定能力を低下させる。本稿では、学習済みの年齢変換方法により加齢効果が顔の外観に与える影響がどの様に説明されるかを示し、初見の画像に対してもかなりの精度で年齢推定ができることを示す実験結果を提示する。人はそれぞれの方法で歳をとるということと、各人のライフスタイルが加齢現象に与える影響を考慮に入れることにより、提案手法の性能向上が可能であることも併せて示す。我々の提案したフレームワークは、将来どのような顔になるか、もしくは過去にどのような顔をしていたかを知るための加齢効果シミュレーションに用いることができる。ここで提案された方法論は以前から顔認識システムの設計に用いられてきたものであり、加齢による変動に対して頑健である。このような用途では、学習過程と実験における被験者の認識された年齢は、トレーニング及び識別過程以前に規格化されており、加齢変動は除去されている。年齢規格化が行われると、我々の顔認識システムの性能が向上する事を実験結果は示している。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線画解釈における過拘束を克服する
Overcoming Superstrictness in Line Drawing Interpretation

L. Ros, F. Thomas

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.456-466, April 2002

Keywords: line drawing interpretation, superstrictness, scene understanding, correction algorithms

多面体シーンの誤投影である、正しくない線画を校正するための、新しいアルゴリズムを示す。この正しくない線画が生じる例としては、多面体世界の画像を取るとき、エッジや頂点が抽出され、線画が合成される場合などが挙げられる。量子化誤差と前処理のために、頂点の二次元への投影像は真の位置からの擾乱を受ける。ほとんどの線画解釈のための有効なアルゴリズムは「過拘束」であり、ノイズの混入した入力に対して誤判断してしまい、それを元にした三次元再構成にも失敗する。今回の手法は、全ての頂点の位置を、正しい線画に極めて近いものが得られるまで動かすことで、この問題を克服している。この正しい線画への近さの指標は、入力中の頂点位置と、校正後の位置との距離の自乗和を最小にする事である。この方法を用いると、即ち上記校正後の線画を入力とすると、線画解釈における、あらゆる過拘束な方法が実用的になる。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


信頼度ネットワークとニューラルネットワークとの組み合わせによるシーン分割
Combining Belief Networks and Neural Networks for Scene Segmentation

X. Feng, C.K.I. Williams, S.N. Felderhof

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.467-483, April 2002

Keywords: tree-structured belief network (TSBN), hierarchical modeling, Markov random field (MRF), neural network, scaled-likelihood method, conditional maximum-likelihood training, Gaussian mixture model, expectation-maximization (EM)

我々は、各画素は予め決められた有限の種類のラベルのいずれかに割り当てられるという画像分割の問題を取り扱ってきた。ベイズ画像解析では、局所的なクラスラベル予測と、ラベル画像の先行モデルとを相互に融合させることが必要とされる。今後、我々は木構造の信頼度ネットワーク(Tree-Structured belief networks : TSBNs)を先行モデルとして考える。TSBNにおけるパラメータは、最尤目的関数をEMアルゴリズムと共に用いることで訓練される。最終的なモデルは、どれだけ効率的にラベル画像をコードできるかで評価される。多くの研究者が、ラベル領域と画像とを結合させるために混合ガウス関数モデルを用いてきた。本稿では、この方法と、ニューラルネットワークにより得られた画素識別の局所予測がTSBN先行モデルと融合するところの、尺度付き尤度法とを比較する。ニューラルネットワークを共に用いることにより、高い性能が得られることを示す。得られた識別結果を評価し、事後分割(性能)を最大にするのみならず、画素に基づく事後周辺エントロピーなどから明らかなように、本手法の不確かさも強調する。また、TSBNに制限最尤訓練の有用性について調査し、まさにこれが、ML訓練を施されたTSBNよりも優れた識別性能の原因である事を発見した。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


結合集合のopening及びclosingに関するアルゴリズムの比較
A Comparison of Algorithms for Connected Set Openings and Closings

A. Meijster, M.H.F. Wilkinson

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.484-494, April 2002

Keywords: mathematical morphology, connected set operators, attribute filters, pattern spectra, multiscale analysis, union-find

形態的連結集合オペレータは、多様な画像オペレータを形成しているが、その中で特に形状保存性は重要な性質である。これを、画像フィルタリングとパターン認識へ適用することについて検討する。プライオリティキューと階層化キュー、それぞれに基づいた二種類の先行アルゴリズムを、より最近のunion-find法と比較する。領域内の極値を連続的に処理する先行アルゴリズムと異なり、union-find法は極値の同時処理を可能としている。領域のopening、closingそしてパターンスペクトルの意味において、union-findアルゴリズムは、以前の方法に比べ優れた性能を示す。これは実験した殆どの自然画像、合成画像について言えることである。最終的にパターンスペクトルやより一般的な属性演算子のクラスへの拡張を3つのアルゴリズム全てについて示し、使用メモリの比較も行った。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


稠密データの幾何学的探信
Geometric Probing of Dense Range Data

M. Greenspan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.495-508, April 2002

Keywords: pose determination, object recognition, geometric probing, decision tree, template matching, range image

稠密データにおける三次元物体の姿勢決定に関する効率的で信頼性の高い新しい方法を示す。この方法は穏健な幾何学的探信戦略に基づいている。この戦略はいくつかの選択された画像点による物体の交差を仮定し、その点に応じた位置における付加的な表面データを探索する。この戦略は二分決定木識別器のような、明確に分離される分野において用いられる。上記決定木の葉ノードは、個々のモデルのボクセルテンプレートを表す。異なったモデルポーズには各々一つのテンプレートが与えられる。中間ノードは下位の葉ノードのテンプレート間の結合を表す。全ての葉ノードのテンプレートの結合は、分離された姿勢空間の全域に渡るモデルの、完全なテンプレート集合である。またこれと同時に、各中間ノードは、その子ノードテンプレートに最も共通する要素であるところの単一のボクセルを表す。この決定木を走査することは、選択された画像シード位置における広大なテンプレート集合の効率的なマッチングと等価である。この方法は実際に実装され、孤立、擾乱、隠蔽などのシーン条件において、決定木デザインと走査の様々な組み合わせについて拡大実験が行われた。結果は効率と信頼性のトレードオフの存在を示している。高効率と高信頼性を両立する木のデザインと走査の組み合わせが存在する、と結論する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


形状コンテキストを利用した形状マッチングと物体認識
Shape Matching and Object Recognition Using Shape Contexts

S. Belongie, J. Malik, J. Puzicha

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.509-522, April 2002

Keywords: shape, object recognition, digit recognition, correspondence problem, MPEG7, image registration, deformable templates

本稿では、形状間の類似度測定及びそれを用いた物体認識に関する新しい方法を示す。我々のフレームワークでは、類似度計測に先立って下記の二つの処理を行う。1)二つの形状上の点間の対応を解く。2)その対応を用いて整列変換(aligning transform)を推定する。上記対応問題を解くために、形状上の各点に形状コンテキストと呼ばれる記述子をつけた。代表点における形状コンテキストは、その代表点周辺の分布を取り込むため、大域的に識別可能な特徴となる。類似した二つの形状の対応する点は、類似した形状コンテキストを持つことになり、それゆえ上記対応問題を最適割り当て問題として解くことができる。この点間の対応を得ることにより、二つの形状の最適な整列変換を推定する。この用途では、正則化された薄板スプラインから、変換マップの柔軟なクラスが得られる。二つの形状の非類似性は、対応点のマッチング誤差の和として算出される。このとき同時に整列変換の強度の測定項も計算される。我々は物体認識の問題を、画像中の物体と最も良く類似するプロトタイプ(代表的形状)を、蓄積された物体形状の中から見つけるという、最近傍識別のフレームワークで扱う。シルエット、商標、手書き数字、そしてCOILデータセットについての結果を示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ある期間にわたり統合された動きからの構造復元
Structure from Motion Causally Integrated Over Time

A. Chiuso, P. Favaro, H. Jin, S. Soatto

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.523-535, April 2002

Keywords: structure from motion, real-time vision, shape, geometry

本稿では、実時間の単眼画像系列から三次元の構造と動きを因果関係に基づいて再構築するアルゴリズムについて述べる。任意の長さの画像系列の全長に渡り、推定の誤りが確率的なものであるという意味において、このアルゴリズムが最小でかつ安定したものであることを証明する。隠蔽(点特徴の表出と消滅)とスケール因子のドリフトを扱うための仕組みについて考察する。これらの要因は現実のシーンを実時間で処理するアルゴリズムにとって決定的なものである。本稿で我々は、PC上で稼動し、また本学会で通用するようにアルゴリズム実装の細部も記述した。いくつかの代表的な長い実画像系列および合成画像系列についての実装結果を報告する。このアルゴリズムは過去数年に渡りずっと拡張試験を受けてきた。それゆえ、シーン内に20-40点の高コントラストの点がある場合や、相対運動がフレームサンプリング周波数(30Hz)に比べ遅い場合、そしてレンズの有効口径が充分に大きい場合(典型的には30°以上の視野)は、このアルゴリズムは信頼できる性能を発揮する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テクスチャからの形状復元のためのテクスチャ勾配方程式
The Texture Gradient Equation for Recovering Shape from Texture

M. Clerc, S. Mallat

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp. 536-549, April 2002

Keywords: shape from texture, texture gradient, warplets, wavelets

本稿では、透視投影における、テクスチャからの形状復元についての研究について述べる。我々はテクスチャからの形状復元問題を統計的推定問題と捉えている。本稿で我々はwarpletと呼ばれる、waveletを二次元アフィン群に一般化したものを導入する。細密なスケールでは、入力画像から得られたwarplet画像は、テクスチャ勾配方程式と呼ばれる変換方程式に従う形となる。表面の三次元形状を復元するためには、画像内の尺度の変化を計測する、変形された勾配を推定しなければならない。変形勾配がテクスチャ勾配方程式の速度と同一になるように、オリジナルテクスチャの均一性の概念を取り入れることで、この推定は可能となる。異なるスケールで入力画像のwarplet変換を計測することで、変形勾配推定器を構成している。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非共面性P4P問題の解の個数についての短信
A Note on the Number of Solutions of the Noncoplanar P4P Problem

Z.Y. Hu, F.C. Wu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.550-555, April 2002

Keywords: The Noncoplanar P4P Problem, rigid transformation, upper bound

文献によると、PnP問題は、カメラの光軸と制御点との距離を定義すること、そして対象中心フレームからカメラ中心フレームへの変換行列を定義することの両方と、不可分に定義されている。本稿では、これら2つの定義が、一般的には等価ではないことを示す。特に4つの制御点が共面でない場合、距離に基づいた定義でのP4P問題の上界は5であり、且つこれは実現可能である。これに対して変換に基づいた定義でのP4P問題の上界は4に過ぎない。最後に、距離に基づいた非共面P4P問題が、少なくとも2、3、4、または5個の異なった正の解が存在するための条件について検討する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


特徴量の重み付き学習による類似度に基づいたクラスタリングの性能向上
Improving Performance of Similarity-Based Clustering by Feature Weight Learning

D.S. Yeung, X.Z. Wang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.556-561, April 2002

Keywords: clustering, similarity-based clustering, transitive closure, fuzziness and nonspecificity, gradient-descent technique

類似度に基づいたクラスタリング手法は、簡明且つ強力であり、結果としてユニット間の閾値の分割のための分類木が出力として得られる。類似度に基づいたクラスタリングの処理原理は「類似した物体は同じクラスタに分類される」ことである。2つの物体が似ているかどうかを判定するために、予め類似度を決めておかねばならない。本稿における類似度測度は、各物体の特徴量間の重み付き距離の式で定義される。分類木とその性能(これは本稿ではいくつかの評価指標により記述される。)は特徴に関する重みに依存する。上記重み付き特徴量を学習するために降下法を用いることで、分類性能が飛躍的に向上することを示す。また我々の手法が、類似度行列の不確実性(あいまいさ、非明細性)を減少させることも同時に示す。これは類似度に基づいた決定の品質を向上させるものである。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


POCSによる多重幾何拘束を用いた、インタラクティブな三次元形状と二次元対応付けの最適化
Interactive Optimization of 3D Shape and 2D Correspondence Using Multiple Geometric Constraints via POCS

Z. Sun, A.M. Tekalp, N. Navab, V. Ramesh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.562-569, April 2002

Keywords: geometric constrained shape recovery, structure from motion, interactive optimization, the factorization approach, projections onto convex sets (POCS)

モーション追跡と動きからの形状復元(Structure from motion :SFM)を連続する独立なステップによって扱う従来の方法は、達成可能な精度及びシーンに関する事前の拘束条件同士の統合に基づいた固有の限界が存在する。本稿はよく知られた因子分解法における尺度行列の反復高精度化のための、凸集合への投影フレームワーク(projections onto convex sets: POCS)を提唱する。本フレームワークは、シーンに関する複数の幾何的な拘束条件を統合し、それによって二次元の特徴点追跡と三次元構造推定両方の精度を向上させる。線上もしくは面上に並んだ点や、平行線、平行面などのシーン内部の規則性は、それぞれ独立に同定され、それぞれのPOCS反復回において標識付けされうる。またこれらの規則性により、適当に定義された局所尺度行列に関する、ランクと並列性の拘束条件を強化しうる。これらの拘束条件は互いに拘束し合うものである。POCSフレームワークは、上で述べた複数の局所尺度行列の情報を、最初に得られたFrobenius normの測量行列に最も近い単一の尺度行列に統合することが考慮される。このFrobenius normは、通常の方法で因子分解される。実験結果により、本稿で提案された反復型POCSフレームワークは、二次元の適合と三次元の形状/動き推定の両方を、整合的に性能向上させられることが示される。また後処理もしくは前処理で、ここで用いた拘束条件を強化しても、同様の結果を得ることはできない。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


領域画像における隠蔽下の平面状表面の再構築
Reconstruction of Planar Surfaces Behind Occlusions in Range Images

F. Dell'Acqua, R. Fisher

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.569-575, April 2002

Keywords: image processing, occlusion, range data analysis, range image partition, range data reconstruction

従来、領域画像の解析と再構築は、視野に全体が含まれる複雑な物体にフォーカスを当ててきた。室内の領域画像における家具に隠された壁の小部分のように、単純で且つ広域に渡る形状の再構築には、僅かの感心しか払われなかった。本論の研究はこのような再構築を目的とするものである。第一に、深さの不連続性や重なったエッジに基づいて領域画像を分割する。次に上記分割された領域により構成される各領域に最も良くフィットする平面を定義する。第三段階では潜在的に隣接する表面をつきとめ、最終段で隠蔽された領域を再構築する。本稿は、任意の表面により隠蔽された平面状の表面の再構築に関する解法を示すものである。このシステムは効率的であり、再構築された表面は合理的なものであることが証明された。Bornholm church領域画像集から、いくつか解の例を示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No .5

データ圧縮を利用した新規なパターン認識体系
A New Pattern Representation Scheme Using Data Compression

Toshinori Watanabe, Ken Sugawara, Hiroshi Sugihara

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.579-590, May 2002

Keywords: Multimedia, pattern, analysis, categorization, recognition, feature space, compression ratio, generality, VQ

多量のメディア、例えば、テキスト、音声やイメージを扱うためには、インテリジェントなメディアアナライザー(解析器)が不可欠である。これらアナライザーは、人間がかかわることなく自動的に、蓄積、分類、検索、そして、認識する機能を持っている。特に、カテゴリー生成と認識(クラス分け)は基本的機能である。このメディアアナライザーのための、データ圧縮に基づく新規なパターン認識体系(PRDC)を提案する。PRDCは、入力データをテキストに変換する符号器と、圧縮率ベクトル(CV)を生成するためのテキスト圧縮器の2つの部品から構成されている。このCVは入力データの特徴量として利用される。メディア特有の符号器を用意することによってPRDCは多用途に応用可能となる。このCVを利用して、カテゴリー化(クラス生成)と認識(クラス分け)の解析課題が可能となる。PRDCが実現可能性に関する数学的理論の後、音楽、音声、遺伝子、手書きスケッチ、およびカラー画像の自動的カテゴリー生成と認識を実行して、この手法の多用途への応用を実証する。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線形結合されたクラス識別器の誤り率の上界
Upper Bounds for Error Rates of Linear Combinations of Classifiers

Alejandro Murua

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.591-602, May 2002

Keywords: Exponential bounds, weakly dependent classifiers, classification trees, machine learning

同一訓練データによって構成された多くの識別器間の弱い依存性に関する有用な概念について紹介する。この弱い依存性が低く、期待されるマージンが大きいならば、線形結合に基づく識別器の決定則は、指数関数的に速やかに減少する誤り率が達成できる。無作為化された木と、boostingとbaggingによってできた木とを対象にした実験結果によると、これらの木の間には弱い依存性が存在する。さらに、期待される低マージンを補償するために、線形結合した識別器の間には相互依存性が低くなければならないという意味において、弱い依存性と、期待されるマージンとのトレードオフが存在することが分かる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


平均シフト:特徴量空間解析へのロバストなアプローチ
Mean Shift: A Robust Approach Toward Feature Space Analysis

Dorin Comaniciu, Peter Meer

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.603-619, May 2002

Keywords: Mean shift, clustering, image segmentation, image smoothing, feature space, low-level vision

複雑な多峰性の特徴量空間解析し、その中の任意の形状のクラスターを描き出すためのノンパラメトリックな方法を提案する。この手法の基礎的な計算モジュールは古くから知られているパターン認識手法である平均値シフト法である。我々は離散的データに関して、この平均値シフト法が本来の分布関数の最近接定常点に収束することを証明し、従って分布関数のモード検出の効用を示す。この平均値シフト法の、カーネル回帰によるNadaraya-Watson推定器と、ロバストな位置M推定器に関する関係もまた確立した。2つの低レベルの画像課題を実行するための不連続点を保持してスムージングし、画像セグメンテーションを実行するアルゴリズムについてアプリケーションで示した。これらのアプリケーションでは、ユーザーが設定する必要のあるパラメータは、濃淡画像であろうとカラー画像であろうと、解析のための解像度だけである。入念な実験の結果、すばらしい性能を示すことが実証された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


陰関数表現の曲線と曲面の直行距離によるフィッティング
Orthogonal Distance Fitting of Implicit Curves and Surfaces

Sung Joon Ahn, Wolfgang Rauh, Hyung Suck Cho, Hans-Jurgen Warnecke

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.620-638, May 2002

Keywords: Implicit curve, implicit surface, curve fitting, surface fitting, orthogonal distance fitting, geometric distance, orthogonal contacting, nonlinear least squares, parameter estimation, Gauss-Newton method, parameter constraint, parametric model recovery, object segmentation, object classification, object reconstruction

画像処理やパターン認識、あるいは、コンピュータビジョンや座標計量学の分野では、曲線や曲面などの次元モデルを利用してデータにフィッティングさせることは広く応用されている。本論文では、陰関数表現の曲面や平面曲線を想定した、距離に基づくフィッティング手法と、座標に基づくフィッティング手法の2種類の新規なフィッティング手法を紹介する。これらは、与えられた観測点とモデル上の点の直交誤差距離を最小化させるものである。この各々のアルゴリズムはそれなりの特長を有しており、実装コストやメモリーコストとか、観察の重み付けを考慮し、目的とするフィッティング課題に適した手法を意図的に選択することができる。新規なアルゴリズムでは、モデル特徴パラメータは、形状、位置、回転パラメータを考慮して、全体として同時に推測される。形状パラメータはモデルの形状を決定し、位置/回転パラメータは、モデル特徴量の剛体運動を記述する。この提案手法は、曲面や平面が定義されるどんな課題にも適用できる。本論文では、アルゴリズムの実装についても述べ、、種々の直交距離フィッティング問題例を示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


階層的GTM: 原理に立脚した局在化非線形投影多様体
Hierarchical GTM: Constructing Localized Nonlinear Projection Manifolds in a Principled Way

Peter Tino, lan Nabney

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.639-656, May 2002

Keywords: Hierarchical probabilistic model, generative topographic mapping, data visualization, EM algorithm, density estimation, directional curvature

複雑なデータ集合の興味ある局面を2次元で視覚化するだけでは、理解するには十分でないと議論されてきた。その結果、階層的視覚化が重要になる。本論文では、既存の局所的線形階層化可視化システムPhiVisをいくつかの次元に拡張し、1)非線形投影多様体を可能にする。このときの基本的構成要素は一般化された地形写像(Generative Topographic Mapping;GTM)である。2)我々は、局所的確率モデルの階層化木から成る、階層的確率モデルを一般的に定式化する。モデルが存在する木の場所によらない一般化訓練式を導く。3) 微分幾何学の道具を利用して、投影多様体の局所有向曲率の表現形を導く。我々のシステムは、PhiVisのように統計学に立脚しており、EMアルゴリズムを利用したトップダウンの対話的に構築される。これによってユーザは、子孫モデルが利用した先祖のデータを対話的に強調することが可能である。このシステムに、投影多様体の拡大率とか有向曲率の階層や、局所選択性表現を盛り込むことができる。このような情報は、局所モデルを正規化し、調製するためだけでなく、階層的視覚化を更に洗練するためにも重要である。この原理をトイモデルで実演した後、もっと複雑な12-、18-次元データ集合に適用した。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


データ駆動型マルコフ鎖モンテカルロ法によるイメージセグメンテーション
Image Segmentation by Data-Driven Markov Chain Monte Carlo

Zhuowen Tu, Song-Chun Zhu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.657-673, May 2002

Keywords: Image segmentation, Markov Chain Monte Carlo, region competition, data clustering, edge detection, Markov random field

本論文では、ベイズ統計の枠組みの中での、イメージセグメンテーションのためのデータ駆動型マルコフ鎖モンテカルロ法と呼ばれる計算パラダイムを紹介する。イメージセグメンテーションにおける本論文は次の4点において寄与している。第1に設計が効率的であり、バランスの取れたマルコフ鎖によって複雑な解空間を動的に探索し、その結果、初期セグメンテーションに依存しない、ほとんどグローバル最適な解に達することができる。第2にマルコフ鎖、マルコフ連鎖、から、複数の異なる解を計算する際の数学的原理と、K-adventureアルゴリズムを提供する(ここのKは、K個の異なる解を表す)。そのため、イメージセグメンテーションに内在するあいまいさを組み込むことができる。第3に、決定に際しては重要度確率を計算するためにクラスタリングやエッジ検出のようなボトムアップ型データ駆動手法を用いており、この確率からマルコフ鎖の向かう方向が決定され、伝統的なジャンプ拡散法jump-diffusion methods)に比べ、すばらしく高速処理が達成される。第4に、データ駆動型マルコフ鎖モンテカルロパラダイムは、エッジ検出、クラスタリング、領域成長法、分割併合法、スネーク/バルーン法、領域競合法のような既存の多くのイメージセグメンテーションアルゴリズムを統一した枠組みを与え、マルコフ鎖動力学か、あるいは、決定の際の重要度確率計算か、の2つに分けることができる。このように、データ駆動型マルコフ鎖モンテカルロパラダイムは原理的立場からこれらセグメンテーション法を統一・一般化する。データ駆動型マルコフ鎖モンテカルロパラダイムは、多様な領域における濃度(輝度)やカラーのための7つのパラメトリックおよび非パラメトリックな画像モデルを採用している。我々はデータ駆動型マルコフ鎖モンテカルロ法を、カラーや濃淡画像に広範に適用し、そのうちのいくつかを本論文に示している。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単眼撮影による画像系列中のオブジェクトのモデル化における曲線当てはめ問題とその応用
A Curve Fitting Problem and Its Application in Modeling Objects in Monocular Image Sequences

Kuntal Sengupta, Prabir Burman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.674-686, May 2002

Keywords: Curve fitting, splines, regression, face modeling. Paracatadioptric Camera Calibration

本論文では、特定の曲線や曲面(表面)当てはめ問題を紹介し、単眼撮影画像系列中のオブジェクトのモデル化への応用を実演する。曲線当てはめアルゴリズムは、非パラメトリックな回帰法に基づいており、これがこのような課題の核を形成している。この手法は、最尤推定法などの標準的な推定法に比べはるかに効果的であり、曲線中に存在する非連続点を処理できる。次に、この1D曲線推定の理論的結論は、オブジェクトモデル化問題に、広範な拡張をすることができる。ここで、入力画像は動きのある剛体オブジェクトの単眼撮影の画像系列である。カメラのアフィン投影幾何学と、画像系列中の与えられた2画面を利用して、KvDモデルを採用してオブジェクト各点の奥行きを未知の平面から外れる回転の関数として表現し、いくつかの計測可能な量はオプティカルフローから直接計算する。この手続きは複数の画像対について繰り返される。これら方程式から、変形非パラメトリック回帰解析から、深さマップが次に推定される。我々は多様な画像系列に対して実験し、この手法の有効性を確かめた。動きから構造を抽出する問題において、この曲線当てはめ手法によって得られた結果は、階層的手法だけでなく、非線形最適化手法によって更に洗練された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Paracatadioptric光学系を有するカメラの較正
Paracatadioptric Camera Calibration

Christopher Geyer, Kostas Daniilidis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.687-695, May 2002

Keywords: Omnidirectional vision, panoramic vision, catadioptric camera, vanishing points, calibration

Catadioptric光学系とは、反射系と屈折系の両方を利用した光学系であり、望遠鏡はその代表例であるが、最近はロボティックスにも応用され始めた。これらの系は、半球以上の視野を持ちうるため、全方位を同時に見ることができることから有用である。ユニークで効果的な多様な構成が可能なことが第1の興味ある点であるが、その中でも特に、反射面が放物面鏡で、カメラとしては正射影で撮像するような系をparacatadiotpricと呼んでいる。このようなデバイスを較正するために、空間中の直線だけを利用するアルゴリズムを紹介する。この内部パラメータの較正にはたった3本の直線で十分であること、また、他の測定データが不要であることを示す。焦点距離、画像中心、無歪みカメラのアスペクト比、歪みが存在する場合は多項式の解として得られることを、閉形式の解で示す。また、非較正カメラによる1枚の画像中に2組の平行線が撮影されている場合に、平面の方位を決定する方法を示す。このような方位復元によって、従来の非較正カメラによる1枚の画像の修正が可能になる。我々はシミュレーションによってこのアルゴリズムの効率を評価し、反射鏡の限界円(bounding circle)による実写画像の修正結果と比較する。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カラー画像中の顔検出
Face Detection in Color Images

Rein-Lien Hsu, Mohamed AbdeI-Mottaleb, Anil K. Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp. 696-706, May 2002

Keywords: Face detection, face recognition, lighting compensation, color transformation, skin tone, facial feature map, Hough transform

ビデオによる監視や、ヒトとコンピュータのインターフェース、顔認識、顔画像データベース管理システムなどにとって、顔の認識は重要な役割を果たす。我々は、照明条件が変化したり、背景が複雑な条件におけるカラー画像から、顔を検出するアルゴリズムを提案する。新規な照明条件補償手法とか、非線形カラー変換によって、画像全体から皮膚領域を検出し、この皮膚パッチの空間配列に基づいて顔候補を生成する。このアルゴリズムは、目、口、顔の各要素に対して境界マップを合成し、各候補を照合する。実験結果によると、カラー、位置、大きさ、方位変化、3次元的姿勢、いくつかの写真集(屋外・屋内とも)からの表現について、上手く処理できたことが示された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


サポート顔による性別の学習
Learning Gender with Support Faces

Baback Moghaddam, Ming-Hsuan Yang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.707-711, May 2002

Keywords: Support vector machines, gender classification, linear, quadratic, Fisher linear discriminant, RBF classifiers, face recognition

FERET顔画像データベースの1,755の画像を処理した低解像度サムネイル画像を利用した、外観に基づく性別判定を、非線形サポートベクトルマシン(SVM)で行うことを研究した。その結果、このSVMの効率は3.4%の判定誤りを伴うが、従来のパターン識別法(線形、2次、フィッシャーの線形判別、最近傍法)に比べて優れているだけでなく、最新のRadial Basis Function (RBF)識別器や大集団RBFネットワークに比べても優れていることが分かった。更に、低解像のサムネイル(21×21画素)の識別効率と、対応する高解像画像(48×48画素)の差がたった1%であることが分かった。これから、本システムがスケールと解像に関してロバストで安定であることが分かる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2方向ベイズ統計の枠組みにおける隠蔽と密な動き場の推定
Estimation of Occlusion and Dense Motion Fields in a Bidirectional Bayesian Framework

Keng Pang Lim, Amitabha Das, Man Nang Chong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.712-718, May 2002

Keywords: Occlusion detection, dense motion field estimation, Markov random field

本論文では、正確な動き予測と隠蔽予測のための、2方向ベイズ統計の枠組みによる新規なマルコフ確率場について紹介する。このモデルに必要な5つのパラメータを慎重に選択することによって、良い実験結果が得られた。この高速2方向緩和法による計算速度は、従来の繰り返し条件付モード弛緩法に比べ、5.5倍高速であった。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No.6

部分クラスを作るための自己学習法を利用したn要素走査法のクラスタリング効率の向上
Improving the Clustering Performance of the Scanning n-Tuple Method by Using Self-Supervised Algorithms to Introduce Subclasses

George Tambouratzis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.722-733, June 2002

Keywords: n-tuple pattern recognition method, scanning n-tuple, chain-coding, handwritten character recognition

最近、手書き文字のための大量・実時間認識のシステム開発が盛んであるが、その基本的手法として、n-tuple(n個の小窓から抽出される画像データ)を走査しながら、n個の入力信号から信号を判定する方式が注目を集めている。本論文では、走査型n-tuple方式(LucasとAmiriによって紹介されたように)をパターン認識に適用できるかどうかを研究した。その際、認識率が実用レベルに向上できるどうかに充填を置いて。我々は潜在的なエッジ効果の問題点を取り除き、走査型n-tuple手法のパラメータである、必要メモリ量、処理速度、および、認識精度を、事例研究課題に対して最適化した。次に、このn-tuple走査型認識手法をパターン空間の特徴に焦点を絞ることによって自己学習アルゴリズムの効率を改善したことについて報告する。最も有望なアルゴリズムについては詳細に調べ、効率向上と、それに必要なメモリー量を決定した。小規模の実験、および、実データによる課題実験の結果は、走査型n-tuple識別効率を向上させた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


密度に基づく多重スケールのデータ縮約
Density-Based Multiscale Data Condensation

Pabitra Mitra, C.A. Murthy, Sankar K. Pal

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.734-747, June 2002

Keywords: Data mining, multiscale condensation, scalability, density estimation, convergence in probability, instance learning

パターン認識手法をデータマイニングに応用する課題で注目を集めているのは、大きなデータ集合から、小さな代表集合を選択する問題である。本論文では、非パラメトリクなデータ縮約法を示唆する。これはデータが内蔵している密度を推定する。このアルゴリズムは多重スケールによって代表点を選定するが、この方法は従来の密度に基づく手法とは異なる。縮約集合(condensed set)の表現精度は、オリジナル集合の推測密度と、縮約集合との誤差によって評価する。いくつかの現実世界のデータ集合による実験によれば、この多重スケール法は、縮約率の面からも推定誤差の面からも、従来のいくつかの関連する手法に比べて優れている。得られた縮約集合は、識別、クラスタリング、あるいは、大量データ集合からのルール生成などのデータマイニング課題にも有効であることが実験的に証明された。その上、この手法は複雑な構造を持つサンプルにも有効であることが実験的に示された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


1クラス1サンプルの画像から、提示位置が不正確で、部分的に隠蔽され、表情が変化している顔画像を認識
Recognizing Imprecisely Localized, Partially Occluded, and Expression Variant Faces from a Single Sample per Class

Aleix M. Martinez

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.748-763, June 2002

Keywords: Face recognition, occlusions, expression-variant faces, learning from undersampled distributions, facial asymmetry, localization of faces, principal components analysis, pattern recognition

顔(あるいはオブジェクト)の認識問題を解くための古典的手法は、表現に富む大量のデータ集合を利用する方法である。多くの応用問題においては、多量のデータが得られることはまれであり、1クラスあたり1サンプルしか得られないことが多い。この寄稿においては、クラス当たりたった1つのサンプルしか得られない場合でも、位置合わせが不正確であったり、部分的に隠蔽されていたり、表情が変化する顔画像を補償することが可能な確率的手法について述べる。位置合わせの問題に付いては、訓練集合に対して誤りを与える部分空間表現(特徴空間内部、すなわち、固有空間)を見つけた。隠蔽問題を解決するために、各顔はk個の部分領域に分割され、各々は独立して認識された。他の方法のように、投票空間を1つに限定するのではなく、局所的“合致”がどの程度であるかを解析する確率的手法を紹介する。訓練集合中の顔の表情と、試験サンプル中に顔の表情の違いによる誤差の影響を低減するため、各局所領域における認識結果に重みを付けた。この重みは、現在のテスト用画像による影響を、注目する局所領域がどの程度受けるかに依存している。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


エッジ線分画像による顔認識
Face Recognition Using Line Edge Map

Yongsheng Gao, Maylor K.H. Leung

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.764-779, June 2002

Keywords: Face recognition, line edge map, line segment Hausdorff distance, structural information

パターン認識において人間の顔を自動的に認識するという問題はとてつもなく困難な課題である。典型的には、人の顔は互いに極めてよく似た構造を持っており、人による違いはわずかである。実際、“人の顔”は単一クラスをなしている。さらに、照明条件の変化、表情、姿勢の変化が、顔認識課題を更に複雑なものにし、パターン解析における最も困難な課題の1つとしている。本論文では、“顔をエッジ線分画像によって認識する”という新規なコンセプトを提案する。コンパクトな顔特徴量であるエッジ線分画像(Line Edge Map: LEM)は、顔符号化と認識のために考案された。ここに提案する顔認識のコンセプトについて、徹底的な調査がなされた。これは顔認識に関するすべての局面、1)制御された条件やサイズ変化、2)照明光が変化する条件、3)表情が変化する条件、4)姿勢が変化する条件、についてカバーしている。このシステムの性能は、現在最も優れた顔認識法の1つである固有顔画像法や、他の既知の方法と比較された。探索速度向上のため顔プレフィルタリングを提案する。この提案手法が、殆どの比較実験において、固有顔法よりも優れた結果を示したことは、非常に心強い発見である。この研究から、ここに提案する一般化線分のハウスドルフ距離とLEM法をいっしょにして、新たな顔符号化と認識の手法が示される。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像認識における、主多様体と確率的部分空間
Principal Manifolds and Probabilistic Subspaces for Visual Recognition

Baback Moghaddam

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.780-788, June 2002

Keywords: Subspace techniques, PCA, ICA, Kernel PCA, Probabilistic PCA, learning, density estimation, face recognition

画像認識において、低次元表現を学習するために、線形、および、非線形の主多様体の利用について調査した。この課題のためにFERETデータベースから1800を超える顔画像を利用して、最新の認識手法である主成分分析(PCA)、独立成分分析(ICA) ,非線形カーネルPCA(KPCA)について調べ、認識実験をした。主多様体表現した最近傍法による認識能力と、双対確率部分空間から導かれるベイズ類似度を使った最大事後マッチング則を比較した。画像マッチングに関するこの実験結果は、簡潔さ、計算時間、認識能力の点から、ベイス部分空間法が主多様体法よりも優れていることが示された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単語認識器の評価における語彙密度の利用
Use of Lexicon Density in Evaluating Word Recognizers

Venu Govindaraju, Petr Slavik, Hanhong Xue

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.789-800, June 2002

Keywords: Classifier combination, handwritten word recognizer, lexicon density, performance prediction, edit distances

手書き単語認識器の予測精度を計測するために、語彙密度という概念を開発した。従来、手書き単語認識の課題においては、語彙の大きさによってその困難さを計測してきた。例えば、語彙数が10、100、1000と増加すると、認識課題が困難であることを示唆していた(つまり、認識精度が減少する。あるいは、似た単語が増えてくる)。これに対して、語彙密度という概念はこの代替となる尺度で、認識器に強く依存している。この考え方の中心は、手書き単語の距離の概念である。このような、認識器に依存した尺度が有用であるような用途は多い。我々は2つの異なるタイプの認識器について実験した。セグメンテーションに基づく(文字別に切り出し)認識器と、書記素(記号やテキストを含む表記要素)に基づく認識器の2つが選ばれ、この語彙密度の尺度が任意の認識器に対して一般的に開発できることを示そう。実験から、この語彙密度に基づく尺度は、語彙サイズや単純な文字列編集距離よりも適していることが示される。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


筆記体手書き文字のためのOCR
Optical Character Recognition for Cursive Handwriting

Nafiz Arica, Fatos T. Yarman-Vural

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.801-813, June 2002

Keywords: Handwritten word recognition, preprocessing, segmentation, optical character recognition, cursive handwriting, hidden Markov model, search, graph, lexicon matching

本論文では文字切り出しと認識のアルゴリズムを逐次利用する新規な解析手法による筆記体の手書き文字認識問題を提案する。最初に、傾き角度、基線、ストローク線幅や高さのようなグローバルなパラメータが推測される。第2に、セグメンテーション法によって、グレースケールと2値情報の両方からセグメンテーション経路が見つけられる。第3に、隠れマルコフモデル(HMM)によって形状が認識され、候補文字とその順位(ランク)が与えられる。このため、各セグメントに対応する候補文字のコード列が抽出される。特徴空間パラメータはHMMの訓練段階で、HMMのモデルパラメータと一緒に埋め込まれている。最後に、語彙情報とHMMランクは単語レベル認識のためのグラフ最適化問題として一緒に処理される。このように効率的なグラフ探索アルゴリズムの情報尺度を最大化することによって、セグメンテーションとHMMランク付けの各々の段階で生じる誤差のほとんどが訂正される。この実験によれば、文献にある従来の手法に比べ、高認識率を示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


モデルに基づくオプティカルフロー残差を利用した形状パラメータの調整
Adjusting Shape Parameters Using Model-Based Optical Flow Residuals

Douglas DeCarlo, Dimitris Metaxas

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.814-823, June 2002

Keywords: Nonrigid shape and motion estimation, model-based optical flow, deformable models

モデルに基づくオプティカルフローから、最小2乗残差を使って変形可能モデルの形状を推定するための手法を提案する。この手法は、オプティカルフローと画像特徴量を利用した推定手法の上に作るられるもので、オプティカルフローはモデルの動きパラメータだけに影響を与える。この計算結果を利用して、本新手法ではオプティカルフロー全体の残差が最小になるようすべてのパラメータが調整される。この手法を顔画像追跡実験に利用した結果は、関連する手法よりは優れた結果が得られた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


両眼立体視からのセグメント化されたオーバーラップ表面の推論
Inference of Segmented Overlapping Surfaces from Binocular Stereo

Mi-Suen Lee, Gerard Medioni, Philippos Mordohai

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.824-837, June 2002

Keywords: Binocular stereo, tensor voting, perceptual grouping, surface inference

ステレオ画像対から情景を抽出するための統合手法を紹介する。ここでは特徴量の対応付けと表面の再構成は同じ枠組みの中で述べる。この手法の開発については一般用途への応用と共に、特別に注意して述べることにする。またノイズや、画像特徴量の欠如、表面の不連続性、片画像だけに見える領域などの問題の取り扱いに付いては、データのテンソル表現を導入し、情報伝播にテンソル投票というロバストな計算法を導入した。本論文の主要な寄与は2つある:第1に、マッチング度合いと構造抽出の精度を評価するために、従来の相関スコアではなく、“顕著度合い(saliency)”を導入したことである。第2に、テンソル表現と投票という手段によって、ステレオ問題の定式化に伴う3次元の複雑な計算を、現実的な計算量として可能にしたことである。1例について段階毎に図解し、ランダムドットステレオグラムと実際のステレオ画像の両方について、同一パラメータ集合による結果を示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


OCRを使わない文書画像のテキスト検索
Imaged Document Text Retrieval Without OCR

Chew Lirn Tan, Weihua Huang, Zhaohui Yu, Yi Xu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.838-844, June 2002

Keywords: Document image analysis, document vector, text similarity, text retrieval

OCRを使わないで文書画像からのテキスト検索を提案する。まず、文書画像は、連結成分を利用して、各文字のオブジェクトが切り出される。画像特徴として、垂直交差密度(VTD; 縦方向の走査線による黒領域の交差回数)と、水平交差密度(HTD)が抽出される。これら特徴量について、n-gramに対応する文書ベクトルが構築される。文書間の類似度は、このベクトルの内積で計測される。英語と中国語、およびUW1データベース中の文書画像による試験では、この手法の有効性が確認された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2方向フィルタリング、適応的スムージング、非線形拡散方程式の間の基本的関係
A Fundamental Relationship between Bilateral Filtering, Adaptive Smoothing, and the Nonlinear Diffusion Equation

Danny Barash

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.844-847, June 2002

Keywords: Bilateral filtering, anisotropic diffusion, adaptive smoothing, denoising

多くに応用において、画像のエッジを保ちながら画像のスムージングが必要になる。本論文では、2方向フィルタリングと非等方拡散の関係について吟味した。2方向フィルタリング法は非線形のディジタル画像フィルターの大きな割合を占めている。先ず最初に、非等方拡散と適応的スムージングほ関係を調べる。以前は、適応的スムージングは非線形拡散方程式とは不整合が近似と見なされていた。我々は適応的スムージングを拡張し、これと整合性を持たせ、非線形ディジタル画像フィルターと非線形拡散方程式を統一した視点から取り扱うことを可能にした。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


測光的不変領域とエッジ情報を組み合わせた適応的画像セグメンテーション
Adaptive Image Segmentation by Combining Photometric Invariant Region and Edge Information

Theo Gevers

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.848-852, June 2002

Keywords: Image segmentation, adaptive splitting, integrating region and edge information, photometric color invariance, noise robustness

ドローネの3角形分割法を利用した適応的画像セグメンテーション法が提案されている。このドロ−ネ3角形分割のモザイク格子は、領域やエッジ情報をいっしょに考慮することによって画像の構造に適応させることができる。陰影、影、照明、ハイライトと言った撮像条件にロバストに適応するために、測光不変類似尺度とエッジ演算を提案する。合成画像と実画像に対する実験では、セグメンテーション結果はエッジの方位や、部分的にはっきりしない境界、ノイズのある均一領域に対してもロバスト(頑健)であった。さらに、本手法は変化する撮像条件の大きな変化に対してもロバストであった。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最尤画像マッチング
Maximum-Likelihood Image Matching

Clark F. Olson

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.853-852, June 2002

Keywords: Image matching, tracking, stereo, maximum-likelihood estimation

追跡やステレオの用途には、画像マッチングは通常的に差分2乗和(SSD)が最適マッチの尺度として利用される。しかし、この尺度は、例外データに敏感であり、テンプレートの変動にロバストではない。これよりもっとロバストな代替尺度が提案されている。これを確率論的定式化によって改良し、エッジテンプレートマッチングや中間調画像マッチングの両方に利用できる、最尤推定の意味での画像マッチング法を提案する。この定式化によって、従来のエッジマッチング法が距離変換に基づいて一般化される。この手法をステレオマッチングや特徴追跡に応用する。推定に不確実性を導入することによって、特徴量の局所的不確実性を最小にするような特徴量を選択できるようになる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


曲率強調テンソルの投票によるノイズの多い3Dデータの形状推定
Curvature-Augmented Tensor Voting for Shape Inference from Noisy 3D Data

Chi-Keung Tang, Gerard MedioniChi-Keung Tang, Gerard Medioni

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.853-864, June 2002

Keywords: Tensor, curvature, shape description, surfaces and curves

ノイズのある3Dデータの各入力部分における主曲率の方向と符号を推論するための基底テンソル投票法を改良した。従来のほとんどの手法と異なり、我々の手法では局所的な局面フィッティングや、部分導関数とか、有向垂線ベクトルの復元法などの手法は使わなかった。これらの手法は、しばしば正確な部分導関数が必要であるが、部分導関数は得られないことも多いため、ノイズに敏感であることが知られている。さらに、ガウス関数の曲率の符号を検出する手法と異なり、ガウス曲率が均一にゼロであっても、この部分だけを別の処理に回すことなく扱うことができる。このテンソル投票による曲率推定法は反復演算を必要とせず、初期化も不要で、大量の例外ノイズに対してもロバストである。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No.7

能動的ビジョンを利用した位置同定と地図構築の同時作業
Simultaneous Localization and Map-Building Using Active Vision

Andrew J. Davison, David W. Murray

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.865-880, July 2002

Keywords: Active vision, simultaneous localization and map-building, mobile robots

ロボットナビゲーション用のマップ(地図)は、自分で構築しながら利用する訳だが、ロボット位置の予測と地図化された特徴量相互の関連に関する詳細な知識に頼る必要があることが分かっている。信号検知(センシング)に、能動的手法を採用することによって広い視野にわたって焦点が合った測定が可能になる結果、自己位置同定と同時にマップ構築(Simultaneous Localization and Map-Building(SLAM))を正しく定式化することが可能になる。そして、自動検出可能な自然特徴量のみを使って、継続的長期的な位置同定が可能となる。本論文では能動的映像取得(active vision)を利用して自動的自己位置検出のための最初の汎用的アルゴリズムを紹介し、高能率ステレオヘッドカメラの利用によって不確条件下での測定対象選択、自動的マップ保守、目的地へのナビゲーションのような事柄について述べる。複雑な環境下における変化に富む実時間実験も紹介する。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効率的k-meanクラスタリングアルゴリズム:解析と実装
An Efficient k-Means Clustering Algorithm: Analysis and Implementation

Tapas Kanungo, David M. Mount, Nathan S. Netanyahu, Christine D. Piatko, Ruth Silverman, Angela Y. Wu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.881-892, July 2002

Keywords: Pattern recognition, machine learning, data mining, k-means clustering, nearest-neighbor searching, k-d tree, computational geometry, knowledge discovery

k-meanクラスタリング法ではd次元空間R^d中のn個のデータ集合と整数値kが与えられる。課題はR^d空間中のk個の各中心と、これに最も近いデータ点の平均二乗距離が最小になるようにすることである。最も良く知られているk-meanクラスタリングアルゴリズムの1つにLloydアルゴリズムがある。本論文では、単純で効果的なLloydのk-meanクラスタリングアルゴリズム(我々はフィルタリングアルゴリズムと呼んでいる)を示す。これは実装が簡単であり、kd木を必要とするが、これが唯一の求められるデータ構造である。このフィルタリングアルゴリズムの実用的効率を2つの方法で達成した。1つはアルゴリズムの計算時間をデータ依存型解析によって紹介する。これによれば、クラスタリングの分離が進行するに従って処理速度が向上する。第2に、人工的に作られたデータや、カラー量子化、データ圧縮、画像セグメンテーションなどの目的に現実のデータ集合を適用した多くの実験結果を示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2段階識別の理論と実験の解析
Theoretical and Experimental Analysis of a Two-Stage System for Classification

Nicola Giusti, Francesco Masulli, Alessandro Sperduti

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.893-904, July 2002

Keywords: Multicategory classification, rejection, global and local classification, hierarchical classifier, Bayes classifier

マルチカテゴリー化を実行するために、我々は有名なグローバルクラスタリングを第1に実行し、ここで拒絶されたデータに対して第2の局所的最近傍クラスタリングを行う2段階手法について考察する。第1のクラスタリング処理で拒絶されなかったパターンは、出力された結果によって直ちにクラス分けされる。第1識別処理で拒絶されたパターンは、第2の識別器である最近傍識別器にかけられるが、このとき第1の識別結果が上位h番目までの順位のパターンは、第2識別器の参照パターンとして利用される。最近傍識別器は、上位hの結果を見ながら、第1で拒絶されたパターンを識別する。第2の最近傍識別器は第1の識別器の制御を受けるが、全体の識別効率が最大になるように、最近傍識別器の参照データベースの編集戦略についても考察がなされた。このシステムを解析した結果、第1識別器と最近傍識別器の設定がベイズ理論から見て最適とは言えなくても、全体としては最適らしいことが分かった。更に、第1識別器の拒絶率や、他のパラメータと全体の処理時間の関係を求めた。また、誤識別と演算時間のトレードオフについても考察した。最後に、手書き数字認識における2つの場合について実験した。その1つの場合では第1識別器をファジー関数ネットワークに基づくものとし、第2の場合ではこれをフィードフォワード型ニューラルネットワークとした。この両者についての識別率、レスポンス時間、パラメータによる差、についても報告する。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


有向場の系統的演算法と指紋の特異点
Systematic Methods for the Computation of the Directional Fields and Singular Points of Fingerprints

Asker M. Bazen, Sabih H. Gerez

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.905-919, July 2002

Keywords: Image processing, fingerprint recognition, directional field, orientation estimation, singular point extraction, principal component analysis

本論文の第1の課題は指紋の高解像有向場の推定である。従来法について考察し、主成分分析に基づく新規な方法を提案する。新方法は任意の画素位置において方向成分を算出するだけでなく、そのコヒーレンス性についても計算する。本手法は、既知の「平均化勾配平方法」と等価であることが証明できる。このような、等価であるが全く異なる手法によって問題の本質がより良く見通せるようになる。本論文の第2の課題は特異点の検出である。高解像度の有向場中の特異点を効率的に見つけるアルゴリズムを提案する。このアルゴリズムはポアンカレ指標に基づいており、この手法は、特異点の連続類似尺度を閾値によって判定するような後処理に頼らない2値決定法と整合性がある。さらに、抽出された特異点の方位推定法も紹介する。この手法の精度は実際の指紋に適用した実験によって示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オフライン手書き単語認識への適応的手法
An Adaptive Approach to Offline Handwritten Word Recognition

Jaehwa Park

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.920-931, July 2002

Keywords: Pattern recognition, handwritten word recognition, adaptive word recognition

手書き単語認識の適応的手法を提案する。適応性を持たせるための鍵となるアイデアは、1)正解を得るため最小限の識別精度を要求する画像特徴の部分集合を能動的かつ連続的に選択し、2)多重解像度特徴空間における整合性のある決定尺度を求めると同時に語彙との関係を考慮することにある。このため、柔軟性のある文字識別法と演繹的決定法の関係に基づいた再帰的様式が開発された。まず、最小限の特徴量を利用した初期の荒っぽい認識から始まり、判定器が満足するまで特徴量を再帰的に追加しながら判別能力を適応的に増加させていく。受容可能な解が得られるための演算コストを推定するために、統一的判定尺度、認識確信度、が次の2つの尺度から導かれる:パターン確信度、形状特徴を使った絶対確信度、および、文字列の相対的相違の評価による語彙確信度。これを使ったアメリカ合衆国の手書き住所認識を行う実用的システムが出来た。従来の非適応的システムに比べ、最大4%の認識率向上が達成された。この実験から、従来と同じ数の特徴量を利用しながら、正解を与える本提案手法の妥当性が示された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複雑な構造の実時間画像追跡
Real-Time Visual Tracking of Complex Structures

Tom Drummond, Roberto Cipolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.932-946, July 2002

Keywords: Visual tracking, real-time, 3D, Lie groups, articulated motion

本論文では3次元モデルに基づく追跡法の新規な枠組みを紹介する。グラフに基づく描画手法は、制限付き能動的輪郭追跡法と連携することで、ロバストなワイヤーフレーム追跡システムを構築できる。これは、標準的なハードウエアによるビデオレート(25Hz)の、実時間演算が可能である。これは内部に追跡すべきオブジェクトのCADモデルを有しており、陰線除去のために2値空間分割木を利用してオブジェクトが描画される。従って、各フレームでの可視エッジ特徴量はオンライン同定され、その結果対応付け処理はビデオ画像の供給速度でなされる。動き追跡演算は、リー群の定式化を利用することで簡単な幾何問題に帰着し、その結果、追跡問題は再帰的再重み付け最小2乗によって解ける最適問題となる。この枠組みによって構築される視覚的サーボ制御の結果は、追跡器の精度といっしょに示してある。このシステムは内部のカメラパラメータをオンライン・実時間で較正する。次に、この追跡システムを拡張した、多数カメラへの適用、連結部品からなる構造の追跡、制限付き多数構造などを含む複雑な構成の追跡などの一般化された枠組みについて紹介する。ここで用いた手法はリー群の単純な幾何学的性質(制限条項の線形化、均一化)を利用している。群の随伴表現を利用することで測定値を一般的な座標値に置き換えることができる。制約条件はラグランジェ乗数の形で定式化される。このフレームワークによる多数の実験結果を示し、考察した。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動き計算無しのレベル集合編微分方程式による境界追跡法
Region Tracking via Level Set PDEs without Motion Computation

Abdol-Reza Mansouri

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.947-961, July 2002

Keywords: Region tracking, Bayesian estimation, level set equations, image sequence analysis

画像系列中の領域追跡は、自動ビデオ監視、ビデオデータベース検索、自動ビデオ編集などの画像処理やコンピュータビジョン分野で多くの応用が期待される挑戦に値する困難な問題である。今まで多くの領域追跡法が提案されている。これら多くは、追跡対象の動き領域に過剰な制約がはめられており、その結果、アフィン変換やユークリッド空間条件のような明確な動きモデルを当てはめていた。また、パラメータ化された動きモデルを必要としないモデルでは、高密度の動き場を必要としていた。一般的には、多くの従来法は、ある種の動き情報に頼っている。また、動き情報を必要としない場合には、追跡される領域のモデルが必要であった。代表例を言えば、境界が明瞭であるとか、領域の形状がパラメータの集合で表現できるとかであった。本論文ではベイズ公式から導かれる新規な領域追跡法を提案する。このアルゴリズムの新規性は2つある:第1に、動き場とか動きパラメータを使う必要がない。これによって主要な負荷が取り除かれたことになる。なぜなら、動きを正確に計算することは今でも困難な問題であるし、境界追跡アルゴリズムの品質は計算された動き場とパラメータに依存している。本手法の第2の新規性は、このアルゴリズムでは追跡領域に関する先験知識はほとんど必要ないことである。殊に、多くの追跡あるゴリリズムと異なり、追跡される領域の境界の強さに対する仮定がないことである。領域追跡アルゴリズムはベイズ推定問題として定式化されており、これによる追跡アルゴリズムは編微分方程式として表現されている。この編微分方程式はさらに拡張され、追跡中に強度境界の先験確率を取り込むような、他のパラメータを追加できる。この数値計算の詳細について述べる。自然画像とカメラの動きを伴う沢山の実画像系列の処理結果から、大変有望な実験結果が得られた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3D空間中のディジタル曲線と、時間線形な曲線長推定アルゴリズム
Digital Curves in 3D Space and a Linear-Time Length Estimation Algorithm

Thomas Bulow, Reinhard Klette

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.962-970, July 2002

Keywords: Digital geometry, curve length, space curves, cellular complexes

特殊な多面体で仕切られた、3D直交格子中に存在する単純なディジタル曲線集合を考える。これらディジタル曲線は、曲線や弧を3次元ユークリッド空間中でモデル化する。このような単純なディジタル曲線の長さは、ディジタル曲線のチューブに完全に含まれる完結した多面体曲線の最小長さとして定義することができる。このような多面体最小長曲線(shortest polygonal curve)の算出法は今まで知られてない。本論文は、単純ディジタル空間中における多面体最小長曲線を求める反復計算法を示す。このアルゴリズムの実験結果とともに理論的基礎も示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多重解像度中間調と局所2値パターンに基づく回転不変テクスチャーの識別
Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns

Timo Ojala, Matti Pietikainen, Topi Maenpaa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.971-987, July 2002

Keywords: Nonparametric, texture analysis, Outex, Brodatz, distribution, histogram, contrast

本論文は理論的には極めて単純なことを扱っているが、極めて効果的な多重解像法を中間調処理に応用し、局所的2値パターンと非パラメトリックな識別に基づく回転不変な標本とプロトタイプ分布の識別について述べている。この方法は、ある局所的な2値パターン、これを均一(uniform)と称する、は局所的性質画像テクスチャーの基本的性質であり、その生起ヒストグラムは極めて有力なテクスチャーの性質である。ここで一般化中間調(generalized gray scale)と、均一なパターンを検出することが可能な回転不変演算子表現を導こう。そのとき、角度空間量子化や、任意の空間解像度においても不変である、多重解像度解析のための多重演算子の組合せ方法を示そう。ここに提案する方法は、演算子が任意の中間調スケールの単調変換において不変であるように作られているから、極めてロバストである。もうひとつの利点は演算の簡易性であり、近傍の演算とルックアップテーブル参照を少量実施するだけでその演算を実現できる。識別器を特定の角度について訓練し、他の回転角度のサンプルでテストする方法によって、回転不変の実際の問題に対してすばらしい実験結果が得られたことから、単純な回転不変の局所2値パターンの生起統計に基づくこの手法の優れた性能が実証された。これらの演算子は局所画像テクスチャの空間構造を特徴づけし、局所画像テクスチャのコントラストを特徴付ける回転不変分散尺度と組み合わせることで更に改善される。これらの直交尺度の結合分布から、この尺度が回転不変テクスチャ解析の強力なツールであることが実証される。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


RKHS補間に基づくグラフマッチングアルゴリズム
A RKHS Interpolator-Based Graph Matching Algorithm

Michael A. van Wyk, Tariq S. Durrani Barend J. van Wyk

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.988-995, July 2002

Keywords: Graph matching, attributed relational graphs, reproducing kernel Hilbert space theory, combinatorial optimization, neural networks, pattern matching, image processing

本論文では属性グラフマッチングを実行する新規なアルゴリズムを紹介する。このアルゴリズムはカーネルヒルベルト空間再生の理論に基づく機能的に拡張した補間器を記述するための枠組みによって導かれる。この理論は属性グラフに基づく広範囲のグラフマッチング問題に組み入れることが可能で、グラフ構造を多数の属性集合に基づくようにすることが出来る。グラフがマッチする隣接構造については何の仮定もしなかった。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テンプレートマッチングのための超平面近似
Hyperplane Approximation for Template Matching

Frederic Jurie, Michel Dhome

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.996-1000, July 2002

Keywords: Visual tracking, motion estimation

Hager と Belhumeurは最近ビデオ画像中のオブジェクト追跡の一般的枠組みを提案した。これは標的領域の画像の動き検出のための低次パラメトリックモデルである。これらのモデルは動き推定と標的追跡に利用される。ある画素が注目領域に属しているか、あるいは、オフラインで学習した選択標的に属しているか、その強度の違いによって、注視画像中の領域の位置が直接推定可能となる。この論文の主旨はこの枠組みの中での重要な改善を提案することであり、これによって同一演算量での収束を早める。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ギッブス場の学習:精度と速度の見積もり
Learning in Gibbsian Fields: How Accurate and How Fast Can It Be?

Song Chun Zhu and  Xiuwen Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.1001-1006, July 2002

Keywords: Markov random fields, minimax entropy learning, texture modeling, Markov chain Monte Carlo, maximum-likelihood estimate, importance sampling

ギブス場、あるいはマルコフ場は広くベイズ法による画像解析に利用されている。しかし、ギブスモデルの学習は演算コストが高い。演算コストは、広い近傍領域と数百のパラメータを利用する最近のミニマックスエントロピ(minimax entropy(FRAME))モデルによって評価することができる。本論文では、ギブスモデルを学習するための共通の枠組みを示す。ギブスモデルを学習するための2つの鍵となる因子、精度と速度、を同定した:尤度関数の効率と、分配関数の近似における分散をモンテカルロ積分を利用して。ここに3つの新規なアルゴリズムを提案する。特に、maximum satellite likelihood estimatorに注目する。これはsatelliteと呼ばれる尤度関数を近似するための予測ギブスモデルの集合を利用するものである。このアルゴリズムによってテクスチャのミニマックスエントリピーモデルをHPワークステーション数秒で近似推定できる。色々な学習アルゴリズムが我々の実験で比較された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No .8

指紋の個人性について
On the Individuality of Fingerprints

Sharath Pankanti, Salil Prabhakar, Anil K. Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1010-1025, August 2002

Keywords: Fingerprints, individuality, identification, minutiae, probability of correspondence, biometric authentication

指紋が認証に利用されるには、2つの基本的前提の上に成り立っている:1)不変性:つまり指紋は時間が経っても変化しない、2)個人性:つまり指紋は個人ごとに異なる。この最初の前提の妥当性は解剖学や、指の摩擦を生じる隆起構造の形態形成からも立証されている。第2の前提は経験的に多分正しいであろうとされているが個人性がなりたつことが科学的に正式に確立されているわけではない。その結果、いくつかの法廷において指紋の有効性が争われている。指紋の個人性は法廷での指紋同定が認知されるための科学的確立につながるだけでなく、自動個人認証システムの有効性の上限を与えることにもなる。この個人同定の問題点に対して、指紋画像の詳細な特徴量から得られる情報を定量化し、2つの指紋の対応関係を確立したい。異なる指から得られた2つの指紋画像が間違って同一視される確率を式によって表した。例えば、36個の微細特徴を含む2つの指紋が12個の微細特徴を同一とする確率は6.10×10^(-8)である。この確率を代表的指紋認識器の精度と比べてみた。その結果、1)一般の認識とは異なり指紋の合致は絶対的なものではなく、同じような間違った関連性に結びつける恐れがある、2)指紋には驚くほどの量の識別情報があるが、読み取られた指紋画像のノイズの量に従って、その証拠性の強さは急激に減少する。3)最新の指紋照合器であっても、理論的限界には程遠い。4)詳細特徴量のみにもとづく指紋の自動照合システムは指紋の情報の一部しか利用してないため、自動照合ではこれを補完する他の特徴を探索することが望まれる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Blobworld:予測最大化法を使った画像のセグメンテーションと画像検索への応用
Blobworld: Image Segmentation Using Expectation-Maximization and Its Application to Image Querying

Chad Carson, Serge Belongie, Hayit Greenspan, Jitendra Malik

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1026-1038, August 2002

Keywords: Segmentation and grouping, image retrieval, image querying, clustering, Expectation-Maximization

画像の内容をキーとして、大量のデータベースから画像検索をすることは、困難だが重要でやり甲斐のある課題である。我々が開発した、画素からなる原画像をカラーやテクスチャーに対応する小領域の集合に分割する画像表現方法について紹介する。この表現を構成する小領域をブロッブ(blob)と呼ぶことにし、この表現法をBlobworld表現と呼ぶ。これは、カラー−テクスチャー−位置、の結合情報で記述される特徴空間を有する。このセグメンテーションアルゴリズムは完全自動であり、10000枚の自然画像に対して実績がある。この自然画像集合からの画像検索を行うためのBlocworld表現システムについて述べる。このシステムの重要な点は、ユーザーが画像の内部表現を観察できることである。類似のシステムでは、このようなユーザーによる視認性を許していない。その結果、類似システムでは、類似度尺度の調節機能があったとしても、問い合わせ画像に対する説明ができないことになる。対象画像の領域に近い画像を見つけることによって、グローバルな画像特徴ではなく、対象物個々の画像特徴で問い合わせが可能になる。このBlobworldによる画像検索によって、明確な対象物が存在する場合には、グローバルなカラーやテクスチャーのヒストグラムを利用するよりは、高精度となることを結果で示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ITU-T(CCITT)ファクシミリグループ3/4における連結画像抽出法の演算量の低減
An Algorithm with Reduced Operations for Connected Components Detection in ITU-T Group 3/4 Coded Images

Emma Regentova, Shahram Latifi, Shulan Deng, Dongsheng Yao

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1039-1047, August 2002

Keywords: Document image, CCITT(ITU) Group 3/4 compression, MH/MR/MMR, connected components

ITU-T(CCITT)ファクシミリグループ3/4、すなわち、MH/MR/MMRによって圧縮された画像情報を復号する過程で必要となる、連結成分を高速に検出するアルゴリズムについて述べる。MR/MMRコードによって、黒ランが隣接走査線間で連結しているかどうかを解析するために、復号で必要になるモードカラーと新遷移の定義について紹介する。CCITTの標準原稿8枚による実験では、平均的にはMR//MMRコードの直接処理の場合はラスター操作したMHのコードに比べて20〜25倍の高速である。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


工学図面のためのオブジェクト指向プログレッシブ単純化法によるベクトル化システム:モデル、アルゴリズムとその性能
An Object-Oriented Progressive-Simplification-Based Vectorization System for Engineering Drawings: Model, Algorithm, and Performance

Jiqiang Song, Feng Su, Chiew-Lan Tai, Shijie Cai

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1048-1060, August 2002

Keywords: Vectorization, raster-to-vector, engineering drawing, object-oriented model and algorithm, graphics recognition, performance evaluation

既存の工学図面ベクトル化システムでは次のような2段階にステップを経る:ラスター画像をまず生ベクトルに変換し、次に生ベクトルから図形オブジェクトを認識する。第1段階として、実際のオブジェクトが見かけ上いくつかの他のオブジェクトに接触したり交差しているため、図形オブジェクトをいくつかの部品に分解することが行われるため、第2段階では同一オブジェクトに属する生ベクトルを探索したり併合したりすることに困難が伴う。これらの処理によってベクトル化速度が落ちるし認識制度も低下する。人間の認識過程を真似て、我々は各グラフィックオブジェクトが持つ自然な特徴を利用した、1回のフェーズによるオブジェクト指向ベクトル化によるクラス別認識方法を提案する。実証済みの各グラフィックオブジェクトは画素全体を利用して直接認識される。認識されたオブジェクトをラスター画像から順次除いていくことで簡単化し、認識が順次単純化する。本提案モデルの有効性を実証するために現実の図面を対象に実験し、第3者の手続きによって定量的解析を行った。その結果は認識速度と制度の両面で顕著な改善が見られた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2D上の動きの軌跡抽出と手話認識への応用
Extraction of 2D Motion Trajectories and Its Application to Hand Gesture Recognition

Ming-Hsuan Yang, Narendra Ahuja, Mark Tabb

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1061-1074, August 2002

Keywords: Motion segmentation, motion analysis, motion trajectory, American Sign Language, hand gesture recognition, time-delay neural network

連続画像中から、動きの軌跡に基づく2次元の動き抽出・識別アルゴリズムを紹介する。第1に多重スケールのセグメンテーションを実行し、各フレーム内での均一な領域を作る。連続フレーム間の領域は2つの視野の対応付けによってマッチング処理される。対応付けされた各領域からアフィン変換が計算される。連続画像間のマッチング画素領域の対はつなぎ合わされて連続画像をまたがった画素レベルの軌跡を表す。時間遅延ニューラルネットによって抽出された軌跡から動きパターンが学習される。この方法を使って40種のアメリカ手話の認識に応用した。動き軌跡をを使った実験結果では、手話パターンは正確に抽出/認識された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


フィルタリングと抽出による識別のための有用な規範コンセプトの発見
Discovering Useful Concept Prototypes for Classification Based on Filtering and Abstraction

Wai Lam, Chi-Kin Keung, Danyu Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1075-1090, August 2002

Keywords: Prototype learning, classification, instance abstraction, machine learning, data mining

最近傍アルゴリズムとその微分は、パターン識別に有効であることが分かっている。本手法はこの識別能力の高さにもかかわらず、膨大な蓄積メモリーや、演算量の大きさ、ノイズに対する敏感さなどの問題点を持っていた。我々はICPL (統合規範コンセプト学習器、Integrated Concept Prototype Learner)と呼ばれる新しいフレームワークを開発した。これは事例が局在することを利用して各種のコンセプトプロトタイプ(規範プロトタイプ)フィルタリング処理を均衡させ保持する事例抽出手法である。抽出された成分は、それがどれほど典型的であるかに応じて、ICPLフレームワークに採用される。これを50個の実例データ集合に試行した。その結果ICPLフレームワークは、既存のフィルタリング処理や抽出処理、あるいは他の既知の方法に比べて優れた識別精度を保ち、データ量を顕著に減少させることが出来ることがわかった。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多次元インデックスによる人の行動認識
Human Activity Recognition Using Multidimensional Indexing

Jezekiel Ben-Arie, Zhiqian Wang, Purvin Pandit, Shyamsundar Rajaram

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1091-1104, August 2002

Keywords: uman activity recognition, multidimensional indexing, sequence recognition, human body part tracking, EXpansion Matching (EXM)

本論文では、ビデオ画像から視覚に基づく人の動作の新規認識方法の開発について述べる。本手法はたった数コマの画像を観察するだけでビデオ画像中の動作を同定することができる。この基本的アイデアは、ビデオから疎に標本化された体の姿勢から、その動作を陽に同定することである。この手法では、体の主要部分(手、足、胴体)の姿勢と速度ベクトルの集合によって、多次元のハッシュテーブル中に動作が表現される。我々は指標付けと系列化によって、連続姿勢ベクトルのロバストな認識ができる理論的基礎を確立したが、このためには画像の数コマの姿勢ベクトル(ビデオフレーム中における標本化された体の姿勢)があれば足りる。誤認識は標本化する体の姿勢数の増加に応じて指数関数的に減少する。従って、数個の体の姿勢のマッチングによって正しい結果を高精度に認識することが保証される。この手法は並列処理であり、従って一回の指標化処理によって、あらゆるモデル化された行動のすべてが調べられる。これは全てのモデルがハッシュテーブルに収納されていることによる。更に、部分的な画像の隠蔽にもロバストに対応できる。これは体の一部が個々に指標化されていることによる。我々は逐次投票処理を使うことによって、実時間の動作不変量を認識する。ビデオ画像による8つの異なる動作認識実験の結果、ロバストな認識が示された。また、4度から30度という視野角度の変化に対してもロバストであった。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


表面署名:方位に独立な自由形式の表面表現方式によるオブジェクトの位置合わせとマッチング
Surface Signatures: An Orientation Independent Free-Form Surface Representation Scheme for the Purpose of Objects Registration and Matching

Sameh M. Yamany, Aly A. Farag

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1105-1120, August 2002

Keywords: Surface signatures, object registration, object matching, free-form surface representation

本論文は、オブジェクトの位置合わせとマッチングのための方位に独立な自由形式の表面表現法を紹介する。コンピュータビジョンにおいて正確な表面位置合わせはよくある課題の1つである。ここに提案する方法では、ある方向から見える表面曲率情報を把握し、これに対応する「表面署名」と称する画像を生成する。異なる表面に対応する表面署名をマッチングすることで、これら表面間の変換パラメータを復元することが可能となる。我々はテンプレートマッチングを利用してこれら署名画像の比較を行う。部分マッチングを可能にするために、もう1つの基準であるオーバーラップ率を定義する。この表現によって表面の部分表現だけでなく全体表現にも適用できるし、実時間に近い高速の位置合わせが可能となる。この署名表現は3D情景のオブジェクトマッチングだけでなく、スケール変換にも利用できることを示す。ここに示す応用例は:自由形式オブジェクトマッチング、マルチモードの医用体積位置合わせ、口腔画像からの歯の再生などである。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オンライン指紋テンプレートの改良
Online Fingerprint Template Improvement

Xudong Jiang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1121-1126, August 2002

Keywords: Fingerprint verification, minutia set, template improvement, multiple fingerprints

本研究では、多数の指紋細部特徴の併合や平均化によって指紋テンプレートの改良を提案する。重み付き平均化では、皮膚や画像撮影条件に従って、時間とともに徐々にテンプレートが変化する。このアルゴリズムの回帰特性によって、蓄積画像量と演算量を大きく減少させることができた。その結果、ここに提案する指紋テンプレートは指紋検証プロセスにおいてオンラインで追従することができた。十分な実験によって、このアルゴリズムの有効性が実証できた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


双眼半隠蔽点の検出:5つの手法の実験的比較
Detecting Binocular Half-Occlusions: Empirical Comparisons of Five Approaches

Geoffrey Egnal, Richard P. Wildes

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1127-1133, August 2002

Keywords: Stereo matching, binocular half-occlusions, three-dimensional vision, empirical comparisons

双眼画像における半隠蔽点とは双眼鏡で見える2つの画像のうち、一方だけ見えない点のことである。双眼画像でのマッチングでの重要性から、当面の課題である多数の隠蔽点処理方式を開発した。本論文では、半隠蔽点を検出する5つの手法を考察し、従来実施されたよりずっと一貫性のある比較を行った。一致しない2つの画像と、その不一致度を入力情報として、対象情景画像の半隠蔽点の画像を生成した。これらの手法を、色々な条件下で、定性的、定量的に評価した。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手書き文字画像抽出のための、双方向に変形可能なマッチング
Bidirectional Deformable Matching with Application to Handwritten Character Extraction

Kwok-Wai Cheung, Dit-Yan Yeung, Roland T. Chin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1133-1139, August 2002

Keywords: Model-based segmentation, deformable models, Bayesian inference, bidirectional matching, Hausdorff matching

複雑な情景画像のセグメンテーションや認識課題を統合的に達成するためには、モデルに基づく手法が有望な手法として広く使われている。しかし、その性能は、対象物の変形が大きいとか例外的混入情報(outlier)が多いときにはとても満足できるものではない。本論文では2つのベイズ法による枠組みを紹介する。その1つは、入力パターンを識別するもので、他の1つは、変形モデルを使って複雑な情景中から標的パターンを検出するものである。次に、2つの枠組みは、ハウスドルフマッチングの前進・後退設定と類似しており、このマッチングと識別特性は互いに補完関係にあることを示す。2つの手法を適切に組み合わせることによって、双方向マッチングという新規なマッチング法を提案する。この混合手法は2つのベイス手法の特長を兼ね備えている。特に、変形の激しいCEDAR手書き文字データベースを用いて、形状に基づくパターン抽出に関する有望な実験的結果を得ることができた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像に基づくモデル化とレンダリングのためのマッチング伝播
Match Propagation for Image-Based Modeling and Rendering

Maxime Lhuillier, Long Quan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1140-1146, August 2002

Keywords: Quasi-dense matching, stereo vision, image-based modeling, rendering

本論文は、マッチング伝播原理に基づく、画像間の準稠密マッチングアルゴリズムを紹介する。このアルゴリズムは、まばらに点在する種(シード)のマッチングまず実施し、最適なものから順次決定するbest-first戦略に従って隣接画素に伝播させていき、準稠密な相違マップを生成する。この準稠密マッチングは、マッチング情報に深く依存しながら、広範囲のモデル化と可視化を目指している。このアルゴリズムは、最適なものから始めるbest-first戦略のため、初期の疎な例外点へのマッチングの場合でも、ロバストに適応できる。これは計算時間に関しても、メモリー空間に関しても効率的であり、マッチングする最終の数のみに依存するため、出力に鋭敏であるということができる。これは、新規に導入した2D勾配相違度限界と一意性の制限のため同時制約条件をつけられるので、半隠蔽領域も扱うことができる。このアルゴリズムの性質いついて考察し、実験によって実証した。準稠密マッチングの性能の妥当性は、多くの実画像に適用することで実証した。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


正規化Kemeny and Snell距離:画像の順序類似度の新規な定量的評価尺度
Normalized Kemeny and Snell Distance: A Novel Metric for Quantitative Evaluation of Rank-Order Similarity of Images

Jiebo Luo, Stephen P. Etz, Robert T. Gray, Amit Singhal

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1147-1151, August 2002

Keywords: Image similarity, rank ordering, spatial layout, Kemeny and Snell distance

画像の類似度を測る方法の1つとして、順序類似度を評価する方法がある。画像理解アルゴリズムが与える重要領域地図や、人間の観察者による順序付けの結果、画素位置の順序類似度が得られる。Kemeny and Snell距離(d_KS)とともにこれに関する3つの課題を紹介する。これは通常の順序理論から得られる従来の尺度であるが、これを画像に適用した場合には、大きな演算量、ヒストグラムが疎であるほうに偏りやすい傾向、画像サイズに依存する数値範囲、の性質がある。我々は新規な効率的演算が可能なアルゴリズムである画像サイズに独立な正規化距離を示す。2つの画像の類似度を評価するための画素の順位と見なすことができるd_KSは、相互相関係数よりは主観的に優れている。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No .9

劣化画像データに基づいた、ターゲット認識性能の情報理論的限界
Information-Theoretic Bounds on Target Recognition Performance Based on Degraded Image Data

Avinash Jain, Pierre Moulin, Michael I. Miller, Kannan Ramchandran

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1153-1166, September 2002

Keywords: Object recognition, automatic target recognition, imaging sensors, multisensor data fusion, data compression, performance metrics

本論文は、リモートセンサーで観測されたターゲット画像における、統計的物体認識システムの性能限界を導出する。検出及び認識問題は、設定が困難なパラメタを含む複合仮説検定問題としてモデル化される。我々は、センサーとデータの統計的モデルに基づいた、ターゲット認識性能の情報理論的限界を明らかにし、どのような条件下でその限界がより厳しいかについて実験を行う。特に上で述べた問題の誤り確率の漸近近似についての検証を行う。最も好ましくない、ガウシアン散乱と同様に、ガウシアンノイズ、ポアソンノイズ、そして乗法性ノイズ、ならびに任意の画素の消去を考慮に入れている。本稿では、圧縮されたセンサー画像データを含む6つの応用について詳細に考察する。本研究では、込み入った非ガウシアンモデルにおける解析的特徴付けターゲット認識性能と、システムパラメタの最適化に対する、体系的且つ計算論的に魅力的なフレームワークを示す。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


超解像度の限界、そしてそれを破る方法
Limits on Super-Resolution and How to Break Them

Simon Baker, Takeo Kanade

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1167-1183, September 2002

Keywords: Super-resolution, analysis of reconstruction constraints, learning, faces, text, hallucination, recogstruction

殆どの超解像度アルゴリズムは、基本となる拘束条件に基づいている。この条件とは即ち、画像形成処理をモデル化するように、適切に変形させ、ダウンサンプリングすれば、超解像度画像は低解像度入力画像を生成する、というものである。(これらの再構成のための拘束条件は、解を正則化するための、何らかの形の平滑性事前知識と組み合わされるのが普通である。) 本稿の最初のパートで示す一連の解析結果によれば、画像の拡大率が増大するに従い、再構成拘束条件が提供する有用な情報はより少なくなっていく。これらの解析結果は経験的にも実証され、それによると充分に大きな拡大率の下では、いかなる平滑性事前知識も、高周波成分が極端に少ない、過度に平滑な結果を導くことが示される。(しかし、多くの低解像度入力画像が用いられている。) 本稿の第二のパートでは、再構成拘束条件に加え、従来とは異なる種類の拘束条件を用いる、超解像度アルゴリズムを提案する。このアルゴリズムは、まず低解像度画像の局所特徴を認識しようと試み、次に入力画像の解像度を適切な方法で高める。我々はこのような超解像度アルゴリズムを、幻影(hallucination)アルゴリズムもしくは認識再構成(reconstruction)アルゴリズムと呼ぶ。2つの異なるデータセット(顔の前面画像と印刷されたローマン字体テキスト)に対して、幻影アルゴリズムを試験した結果、定性的にも、画素値誤差のRMSという面でも、我々のアルゴリズムは、現行の再構成に基づくアルゴリズムよりも、有意に優れるという結果が得られた。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


SVMからブーストアルゴリズムを構成する:単一クラス識別における応用
Constructing Boosting Algorithms from SVMs: An Application to One-Class Classification

Gunnar Ratsch, Sebastian Mika, Bernhard Scholkopf, Klaus-Robert Muller

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1184-1199, September 2002

Keywords: Boosting, SVMs, one-class classification, unsupervised learning, novelty detection

サポートベクトルアルゴリズムが、等価なブースト的アルゴリズムに翻訳可能である事と、このブースト的アルゴリズムもまたサポートベクトルアルゴリズムに翻訳可能である事の、数学的プログラムの等価性を示す。我々はこの翻訳手順を、1クラスのサポートベクトルマシーン(1-SVM)から始まる、新しいアルゴリズムで例証する。これはブーストアルゴリズムのフレームワークにおける、教師なし学習のための最初のステップである。これは、制約下における最適化の理論により知られるバリアー方法に基づいており、基底仮説の凸結合として記述される関数を返す。この仮説は与えられたテスト点が、トレーニングデータの分布から生成されたものであるかどうかについて特徴付けを行う。単一クラス識別問題のシミュレーションにより、我々のアプローチの有用性が示される。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像確率のモデリングのための、一般的な解析形式
Universal Analytical Forms for Modeling Image Probabilities

Anuj Srivastava, Xiuwen Liu, Ulf Grenander

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1200-1214, September 2002

Keywords: Image probabilities, spectral analysis, Bessel K forms, clutter classification, target recognition, Gabor filters

我々は、画像の確率的モデルを得るために、周波数的アプローチを採用した。このアプローチでは、画像はバンドパスフィルタにより分解され、確率モデルが各バンドパス出力(これは周波数成分とも呼ばれる)に対して適用される。文献[11]に紹介されるベッセルKフォームと呼ばれる(2パラメタの)確率密度群を、各周波数成分の周辺密度をモデル化するために用い、更に、ビデオ、赤外線画像、濃淡画像それぞれから観測されるヒストグラムへの適合具合を示す。画像解析の物体ベースモデルがモティベーションとなり、ベッセルパラメタと映像化された物体との間の関係を確立した。ベッセルKフォームの集合のL2距離を用いることで、画像の類似度/相違度を定量化するための画像空間における、擬似尺度を提案する。散乱識別や、ターゲット認識のための仮説の刈り込みを含む幾つかの応用について示す。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ロバストな因子分解
Robust Factorization

Henrik Aanas, Rune Fisker, Kalle Astrom, Jens Michael Carstensen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1215-1225, September 2002

Keywords: Robust statistics, feature tracking, perspective reconstruction, Euclidean reconstruction, structure from motion

画像系列から、動きや構造を復元するための因子分解アルゴリズムは、いくつもの利点があるが、通常、それらの手法は上手く追跡された特徴群を必要とする。その様な特徴群は実用的な応用においては殆どの場合用いることが出来ない。それゆえ追跡された特徴の誤りを効果的に扱える因子分解アルゴリズムが求められている。我々は、因子分解スキームの任意の誤差関数に適用できる、計算効率の優れた新しいアルゴリズムを提案する。このアルゴリズムは、ロバスト統計手法と、各特徴に対する任意のノイズモデルの使用を可能としている。これらの手法とモデルは、因子分解スキームにおいて、誤って対応した特徴や欠落した特徴、そして各特徴のノイズを効果的に取り扱うことを可能としている。更に提案手法はユークリッド再構成に関する新たな方法を含む。この方法は因子分解アルゴリズムの収束性を顕著に改善する。提案アルゴリズムは、投射投影の再構築を可能とするChristy-Horaud因子分解スキームの変形として実装される。この実装に基づいて、実データ及び合成データに対する、エラー耐性の顕著な向上を示す。提案手法は殆どの因子分解アルゴリズムに適用可能である。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像構成からの奥行き推定
Depth Estimation from Image Structure

Antonio Torralba, Aude Oliva

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1226-1238, September 2002

Keywords: Depth, image statistics, scene structure, scene recognition, scale selection, monocular vision

両眼視差、動き、そして焦点のぼけのように、絶対的奥行き計測のための手がかりがない場合には、観測者とシーンの間の絶対距離は計測不能である。影、エッジ、そして交叉点の解釈によりシーンの三次元モデルを得ることは出来るが、実際のシーンの「スケール」に関しては判らない。絶対的奥行き推定のための、ありうる情報源の一つとして、既知の物体の画像上の大きさがある。しかし現在の計算機科学的アプローチでは、非拘束下での物体認識は困難であり、信頼できない。我々はここに、特定の物体に依存しない、シーンの全体構造に基づいた絶対奥行き推定のための情報源を提案する。画像中の構造を認識することでシーンのスケール及び、平均絶対奥行きを推定できることを示す。シーンの平均奥行きを計算することの利益を、シーン理解と物体検出の応用と共に示す。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


二次元空間に断片化した物体の再統合のためのマルチスケール手法
A Multiscale Method for the Reassembly of Two-Dimensional Fragmented Objects

Helena Cristina da Gama Leitao, Jorge Stolfi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1239-1251, September 2002

Keywords: Outline matching, planar shape matching, multiscale analysis, planar shape invariants, ceramic fragments, archaeology, fracture analysis

多数の不規則な断片に砕けた、もしくは引き裂かれた、未知の二次元物体の再統合に関する効率的な方法を示す。このような問題は、考古学、美術品修復、法医学やその他の学問分野において、しばしば発生する。この方法では、曲率符号化された断片の輪郭を、連続的に増加する解像度のスケールで比較する。これには増分的動的計画法による画像系列マッチングアルゴリズムを用いる。合計計算量は、一断片あたりの平均サンプル数に比例して減少する。これにより本手法は現実的なサイズ(数千の断片)の問題で実行可能となる。人工的だが実際的な例により、我々の手法の性能を示す。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


コンテンツベースの画像検索のための領域ベースのファジー特徴量マッチングアプローチ
A Region-Based Fuzzy Feature Matching Approach to Content-Based Image Retrieval

Yixin Chen, James Z. Wang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1252-1267, September 2002

Keywords: Content-based image retrieval, image classification, similarity measure, fuzzified region features, fuzzy data analysis

本稿では、領域ベースの画像検索のための、ファジー理論のアプローチである、UFM(unified feature matching:統合特徴マッチング)を提案する。我々の画像検索システムにおいては、各画像は分割された領域の組みで表される。そして各領域は、色、テクスチャ、そして形状の特性を表すファジー特徴(ファジーセット)により特徴付けられる。結果として、各画像は領域を表すファジー特徴群と結び付けられる。本来、ファジー特徴量は領域(ぼやけた境界)間の緩やかな推移を特徴付けるものであり、分割に起因する不確定性を検索アルゴリズムに混入する。これにより、二つの画像の類似性は、二つのファジー特徴量群の総合的な類似度として定義され、類似度計測、画像中の全ての領域の特性を統合するUFM計量により定量化される。各個の領域に基づいた類似度計測や、はっきり価値付けされた特徴表現に比べ、UFM計量は、不正確な分割の影響を大幅に減らし、非常に直感的な定量化を与える。UFMは我々の実験的SIMPLicity画像検索システムの一部として実装されている。約60,000の汎用画像のデータベースからの例を用いて、本システムの性能を示す。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


共線写像間のマルチビュー拘束を強化する、未知の平面構造によるカメラの自己校正
Camera Self-Calibration from Unknown Planar Structures Enforcing the Multiview Constraints between Collineations

Ezio Malis, Roberto Cipolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1268-1272, September 2002

Keywords: Self-calibration, multiple views, planes, collineation, nonlinear constraints

本稿では、画像間の共線写像間に存在する拘束条件を課する、効率的な方法について述べる。これらの拘束条件は平面構造の一連のビューから計算することが出来る。通常これらの拘束条件はマルチビュー手法では考慮に入れられない。これはアルゴリズムの計算複雑度を増大させないためである。しかしこれらの拘束条件を課することはきわめて有効である。なぜならば、それにより再投影された特徴量の幾何誤りを削減し、共線写像の整合的な組を与えるからである。この共線写像の組は、モザイク化や再構成、そして自己校正などの様々な応用で用いることが出来る。我々のアプローチを検証するために、本稿では、未知の平面構造からの自己校正に焦点を絞る。これは共線写像の整合的な組を使用する方法を提案するものである。我々の方法は任意の数のビュー、任意の数の平面、そしてカメラの内部パラメタの変化を扱うことが出来る。しかし本稿では簡単のため、単一の平面で、複数のビューという場合に限定して議論する。合成データと実データから得られる結果は、極めて高精度であり、僅かな数の画像しか用いない場合でも安定である。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最大分散クラスタアルゴリズム
A Maximum Variance Cluster Algorithm

Cor J. Veenman, Marcel J.T. Reinders, Eric Backer

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1273-1280, September 2002

Keywords: Cluster analysis, partitional clustering, cluster tendency assessment, cluster validity

本稿では、クラスタ分散に関する厳しい拘束を課した場合における、総合二乗誤差指標を最小化する、部分クラスタアルゴリズムを示す。概念的には、仮定されたクラスタは、その近傍のクラスタと並行かつ協調的に振舞う。これは上記指標を最小化し、分散に関する拘束を満たすためである。厳しいパラメタを用いずに、クラスタ近傍の区分けを可能とするために、異質クラスタサンプルの概念を導入した。最後に、分散拘束パラメタを変化させることに基づく、クラスタ傾向の評価のための新しい方法を示す。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所適応的尺度による最近傍識別
Locally Adaptive Metric Nearest-Neighbor Classification

Carlotta Domeniconi, Jing Peng, Dimitrios Gunopulos

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1281-1285, September 2002

Keywords: Chi-squared distance, classification, feature relevance, nearest neighbors

最近傍識別は、局所的に均一のクラス条件付確率を前提とする。サンプルが有限の場合、次元の呪いのために、この仮定は高次元では無効となる。最近傍則を用いる場合、それらの条件下では厳しいバイアスが導入されうる。我々は、このバイアスを最小化するための、局所適応的最近傍識別方法を提案する。カイ二乗距離解析を用いて柔軟な尺度を計算し、それにより、問題となる局所領域に高度に適応した近傍を算出する。この近傍は、より関連の薄い特徴次元に沿って拡張され、最も影響の大きい特徴量次元に沿って抑制される。結果としてクラス条件付確率は、修正された近傍においてより平滑になり、より良い識別性能が達成される。合成データおよび実世界のデータの両方を用いて、我々の方法の効率の検証と、他の方法との比較を行った。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


隠蔽歪みの方位性構造:果たして信用に足るか?
Oriented Structure of the Occlusion Distortion: Is It Reliable?

Weichuan Yu, Gerald Sommer, Steven Beauchemin, Kostas Daniilidis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1286-1290, September 2002

Keywords: Optical flow, occlusion, motion discontinuities, spectral analysis

隠蔽画像系列のエネルギースペクトラムにおいては、歪み項は隠蔽された信号の速度と同じ方位を持つ。隠蔽された信号と、隠蔽信号の速度を分離するために、この方向性構造を用いることができると、近年の研究では主張されている。しかしここで我々は、この歪みの方向性構造は、エネルギー寄与が急激に減少するために、常に信頼できる特徴ではないことを論ずる。この既にして弱い方向性構造は、別の歪み項の重畳により、更にぼやけることになる。これと同時に、複合動き推定のためのShizawaとMaseの重畳原理が、調整を必要としていることを示す。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


交通監視映像のための、隠れマルコフモデルに基づいた画像分割法
An HMM-Based Segmentation Method for Traffic Monitoring Movies

Jien Kato, Toyohide Watanabe, Sebastien Joga, Jens Rittscher, Andrew Blake

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1291-1296, September 2002

Keywords: Car tracking, hidden Markov model, image classification, image segmentation, wavelet coefficients

動いている物体の影は、しばしばロバストな視覚追跡を妨げる。我々は隠れマルコフモデル(HMM)に基づいた分割手法を提案する。この方法では、画素もしくは領域を、影、前景物体、背景物体の3種類に実時間で分類する。提案手法が交通監視映像に対して有効であることが、実験結果により示されている。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No.10

一般化された空間-分光拡散
Generalized Spatio-Chromatic Diffusion

Giuseppe Boccignone, Mario Ferraro, Terry Caelli

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1298-1309, October 2002

Keywords: Color images, scale-space, vector-valued diffusion

本稿ではカラー画像の散乱拡散のフレームワークを示す。この方法は不可逆変換の熱力学の理論に基づく。この理論は、異なるカラーチャネル間の相関のデザインに適した基礎を与える。より正確には色の発現発展に関する方程式を導出する。この方程式は純粋な空間散乱拡散項と、カラーチャネル間の相互作用に依存する非線形項を含む。我々は提案した方程式を、RGB、CIELAB、反対色、HISなどの様々な色空間で表された画像に対して適用した。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


弾性適応的可変モデル
Elastically Adaptive Deformable Models

Dimitris N. Metaxas, Ioannis A. Kakadiaris

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1310-1321, October 2002

Keywords: Adaptive elastic parameters, deformable models, shape estimation, physics-based modeling, Kalman filter

本稿では、形状推定アプリケーションのためのカルマンフィルターフレームワークにおける、可変モデルの弾性パラメタの自動適応についての、新しい技法を述べる。本技法の新規性は弾性パラメタが一定でなく、空間的、時間的に変化することである。この弾性パラメタの変化は、モデルとデータとの距離と、この距離の変化の割合に依存する。このアルゴリズムは、それぞれ物理学に基づいたモデリング技法を用いて、モデルとデータの間の不一致から計算される外力に答える形で、モデルの幾何学的及び弾性的自由度を反復的に調整する。これらの付加的な変数を取り込むように拡張された、カルマンフィルターの状態方程式を増加させることにより、形状推定の精度を顕著に向上させることができる。それゆえモデルの弾性パラメタは常に同じ値に初期化され、その後データとノイズの分布に依存して修正される。二次元データと三次元データの両方に対しての、本方式の有効性を表す結果を示す。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


SVMからブーストアルゴリズムを構成する:単一クラス識別における応用
Analytic PCA Construction for Theoretical Analysis of Lighting Variability in Images of a Lambertian Object

Ravi Ramamoorthi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1322-1333, October 2002

Keywords: Illumination, radiance, irradiance, Lambertian, recognition, principal component analysis, spherical harmonics

我々は、同一の視点且つ異なる遠距離照明条件下で撮影された凸面ランバートLambertian物体画像を最適に近似する部分空間を論理的に解析する。照明は任意の関数だから、可能なすべての画像により構成される画像空間は、形式上は無限の次元となる。しかし以前の経験的知見により、大きく異なる物体の画像も、実際には5次元の部分空間で非常に近くにあることが示されている。本稿では、従属する影を明示的に考慮に入れて凸面Lambertian物体画像の主成分解析を理論的に構築し、照明の変動性に関する主な固有モードと固有値を見つける。我々の解析は、照明の球面調和係数項における放射照度の解析方式を利用し、適当な仮定の下では主成分もしくは固有ベクトルが、表面の法線ベクトルとして数値化された球面調和基底関数と独立であることを示す。単一の視点にこれらの結果を拡張する場合に、法線集合の一部のみ(上部半球)が判り、拘束下のドメインにおいて球面調和関数が最早直行しないとき、主固有モードと固有値がどのように影響を受けるかを示すことが、我々の研究の主な成果である。我々の結果は定性的にも定量的にも、以前の経験的な知見に極めて近く、これらの知見の初めての本質的に完全な論理的説明となっている。同時に我々の解析はコンピュータビジョンやイメージベースレンダリングなどの分野でも重要であるようだ。我々の結果は特に、コンピュータビジョンにおける光学測定の問題に複雑な照明を用いることは、方向性のある光源よりも顕著に困難ではないことを示している。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般化モザイク:マルチスペクトルイメージングの広い視野
Generalized Mosaicing: Wide Field of View Multispectral Imaging

Yoav Y. Schechner, Shree K. Nayar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1334-1348, October 2002

Keywords: Multispectral, hyperspectral imaging, color balance, enhancement, image fusion, physics-based vision, panorama, mosaic, mosaicing, illumination, image-based rendering.

本稿では画像のモザイク化を一般化することで、撮像系の周波数解像度を顕著に拡張するためのアプローチを示す。空間的に変化する周波数帯域を変調するフィルターがカメラにしっかりと取り付けられている。撮像系が移動する場合、システムはそれぞれのシーン中の点を、異なる周波数帯域で複数回検知する。これは一般化モザイクパラダイムの付加的な次元であり、空間的に変化する濃度フィルターを用いることで、広い視野の広範な放射ダイナミックレンジ画像を生成することが最近示された。生成されるモザイクは、シーン中のそれぞれの点のスペクトルを表す。画像取得は従来のモザイク方式と同じように容易である。我々は効率的なシーンサンプリングレートを導出し、フィルターの空間的に変化する特性を提供するレジストレーション方法を用いる。この方法で取得されたデータを用いることで、様々な擬似的な照明周波数特性の下でのシーンレンダリングを示す。また同時にシーンの照明の情報についても推測することができる。本方式は標準的な8bit白黒ビデオカメラと固定空間周波数の(干渉)フィルターを用いてテストされた。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効率的でシンプルな、サンプルからの多様体の再構築
Efficient Simplicial Reconstructions of Manifolds from Their Samples

Daniel Freedman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1349-1357, October 2002

Keywords: Machine learning, differentiable manifold, simplicial complex

多様体学習のための新しいアルゴリズムを示す。有限次元の微分可能な多様体のサンプルのみ与え、多様体の幾何もしくは位相に関する先験知識は、それらの次元以外は与えない。この多様体の記述を見つけることが目標である。サンプリング濃度が十分に高い場合には、学習された多様体は、真の多様体を幾何的にも位的にも近似していなければならない。提案するアルゴリズムは、多様体の接バンドルへの近似に基づいて、単体的複体を構築する。提案アルゴリズムの重要な特性は、複雑度が埋め込み空間の次元ではなく、多様体の次元に依存することである。平面、曲線、表面の学習曲線のケースについて成功例を示す。更に本アルゴリズムが失敗するケースについても解析する。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


円形基底関数を用いた容量正則化による表面再構成
Reconstructing Surfaces by Volumetric Regularization Using Radial Basis Functions

Huong Quynh Dinh, Greg Turk, Greg Slabaugh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1358-1371, October 2002

Keywords: Regularization, surface fitting, implicit functions, noisy range data

粗で、ノイズを含み、不均一で、且つ低解像度の奥行き画像データから、滑らかでシームレスなモデルを生成する新しい表面再構築方法を示す。両眼奥行き画像や空間カービングなどのコンピュータビジョンの技法により得られたデータは、レーザーもしくは光学的奥行きスキャナにより得られたデータに比べ、不正確で不均一な三次元点群となる。精密な奥行き画像データを前提に設計されている従来の再構築アルゴリズムでは、ビジョンベースのデータ群に適用したとき、滑らかな再構築面が得られない。我々の手法は、加重円形基底関数の和として定式化される三次元曲面を形成する。この手法は従来の方法に比べ3つの大きな利点がある。1)我々が構成した陰関数は、少数のデータしかない領域でも表面を精度良く推定できる。2)再構築された表面は、入力データ中のノイズに対して頑健である。これは本手法がデータの厳密な補間ではなく、表面による近似を許していることによる。3)再構築された表面は局所的に細密であるが、大局的には滑らかである。これは多重次数の平滑性を実現している円形基底関数を用いていることに起因する。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


密なレンジデータに対する最尤表面推定器
A Maximum-Likelihood Surface Estimator for Dense Range Data

Ross T. Whitaker, Jens Gregor

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1372-1387, October 2002

Keywords: Surface estimation, surface reconstruction, surface fitting, optimal estimation, parameter estimation, 3D range data, ladar, maximum-likelihood, Bayesian estimation, registration, calibration

本稿では、異なった視点(例えば多重レンジマップ)から得られた、ノイズを含む密なレンジデータ群から三次元表面モデルを推定する方法について述べる。 提案手法は、センサーモデルを用いて、ノイズを含むレンジ計測値セットに条件付けされた三次元表面の尤度の表現を展開する。モデルパラメタを考慮して尤度を最適化することより、バイアスのかかっていない、効率的な推定器を得る。提案した数値的アルゴリズムにより、この推定は様々な環境において計算量的に実用的なものとなっている。この方式による結果は、他の最新式のアプローチを凌ぐ。これらのアプローチは、最近傍点や直交距離尺度、ヒューリスティックに依存している。このヒューリスティックはバイアスされた解をもたらし、表面が充分に平滑でない場合には完璧に失敗してしまう。合成データ及び実際のレーダーデータ両方における結果により、様々な種類の問題における提案手法の効率性が示される。更に提案手法により、表面事前知識(即ち最大事後確率)を含むように拡張可能な、一般的なフレームワークや、より洗練されたノイズモデル、そしてソナーや合成アパーチャーレーダーなどの他の観測形式も提案される。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


成長型時間適応自己組織化マップによる、画像分割のための自動マルチレベル閾値処理
Automatic Multilevel Thresholding for Image Segmentation by the Growing Time Adaptive Self-Organizing Map

Hamed Shah-Hosseini, Reza Safabakhsh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1388-1393, October 2002

Keywords: Self-organizing map, image segmentation, automatic multilevel thresholding, histogram, time-adaptive, TASOM

本稿では、自動マルチレベル閾値処理のための、”GTASOM”と呼ばれる成長型TASOM(時間適応自己組織化マップ)ネットワークを提案する。これはピーク検出過程に基づくものである。提案したGTASOMを画像分割で試験した。この実験結果から、GTASOMは画像分割に対して信頼性の高い高精度なツールであること、そして他の閾値処理手法に比べ際立って高性能であることが示される。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


隠れマルコフ木を用いた赤外線画像識別
Infrared-Image Classification Using Hidden Markov Trees

Priya Bharadwaj, Lawrence Carin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1394-1398, October 2002

Keywords: Hidden Markov model, infrared imagery, classification

三次元物体の画像は一般的には視認可能なターゲット構成要素(visible target subcomponents)により特徴付けられる。この構成要素はターゲット―センサ方位(ターゲットのポーズ)に影響を受ける。このような画像は、ターゲットのポーズにより急激に変化することがしばしばある。隣接するターゲット―センサ方位の、関連するターゲットの画像が比較的安定である範囲におけるセットとしてクラスを定義した。一般的には各ターゲットは複数のクラスにより特徴付けられる。それぞれのクラスに、別々のWienerフィルターのセットを施し、ターゲット構成要素の姿を同定する。Karhunen-Loeve表現を用いて、各構成要素に関連するフィルター(テンプレート)の数を最少化する。異なる構成要素間の統計的関連性は、隠れマルコフ木(Hidden Markov tree: HMT)によりモデル化される。いくつかの車両の前向き赤外線(FLIR)画像に対して、このHMTを用いた識別結果の例を示す

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ウェーブレット技術を用いた古文書の修復
Restoration of Archival Documents Using a Wavelet Technique

Chew Lim Tan, Ruini Cao, Peiyi Shen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1399-1404, October 2002

Keywords: Document image analysis, wavelet enhancement, wavelet smearing, Canny edge detector, text extraction, image segmentation, bleed-through, show-through, noise cancellation, denoising

本稿では、文書内容を復元することにより、古文書の手書き文書を修復する問題について述べる。原稿裏面からのインクの滲み出しによる筆跡の干渉から、本来の内容を復元する。我々の提唱する新しい手法では、まず原稿両面の内容の照合を行い、干渉ストロークと、その元になる裏面の内容をマッピングする。これにより原稿前面のストロークと原稿背面のストロークの同定をしやすくしている。次にウェーブレット再構築過程により反復的に前面ストロークを強調し、干渉ストロークを緩和する。これにより干渉ストロークと前面ストロークを区別するために用いる改良型Cannyエッジ検出器の識別能力を高める。本方式は古文書の画像を効率的に修復し、前面テキスト抽出の平均精度と再現率はそれぞれ84%、96%である。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


フラクタルに基づいた手法による、データの本質的な次元の推定
Estimating the Intrinsic Dimension of Data with a Fractal-Based Method

Francesco Camastra, Alessandro Vinciarelli

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1404-1407, October 2002

Keywords: Bayesian information criterion, correlation integral, Grassberger-Procaccia's algorithm, intrinsic dimension, nonlinear principal component analysis, box-counting dimension, fractal dimension, Kolmogorov capacity.

本稿では、データセットの本質的な次元の推定に関する問題について調査する。Grassberger-Procacciaアルゴリズムを用いた、フラクタルに基づいたアプローチを提案する。Grassberger-Procacciaアルゴリズムは、高次元のデータセットに対する性能が悪いため、オリジナルのアルゴリズムを改良する実験的手法が開発されてきた。既知の次元性のデータセット及び、Santa Fe competitionの時系列データセットに対して、この手法を試験した。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No .11

系列画像の時空間的整合
Spatio-Temporal Alignment of Sequences

Yaron Caspi, Michal Irani

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1409-1424, November 2002

Keywords: Sequence-to-sequence alignment, space-time analysis, direct methods, feature-based methods

本論文は、2つの異なるビデオカメラで撮影されたビデオ画像系列間の時間や空間の対応付けについて研究したものである。これらの系列画像は未更正で記録されたものであり、カメラは静止しているかあるいは、いっしょに動いており、未知であるが、ある決まった内部パラメータと、カメラ間の相対的外部パラメータを持っているものとする。画像フレーム間の時間的変動(例えば、動くオブジェクトや情景の照明変化のような)は、同期合わせには強力な手がかりである。これは標準的な画像と画像の整合法では達成不可能である。空間的時間的手がかりを単一の並べ合わせ手法に取り込むことで、従来の画像系列間マッチング法ではあいまい性が回避できなかった課題を、しばしば一意的対応に解きほぐすことができる。さらに、時空間にまたがる複数のビデオ画像系列の整合をとり、統合することができるということによって、従来画像系列だけ利用して対応付けが行われていたビデオ画像系列の新たな用途を見出すことになろう。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


語彙を利用した手書き日本語住所読み取りのための切り出しと認識
Lexicon-Driven Segmentation and Recognition of Handwritten Character Strings for Japanese Address Reading

Cheng-Lin Liu, Masashi Koga, Hiromichi Fujisawa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1425-1437, November 2002

Keywords: mail address reading, handwritten character string recognition, touching character splitting, character classification, lexicon matching, beam search

本論文は、大規模な語彙を有する日本語郵便住所読み取りシステムにおける手書き文字列の認識について述べる。住所表記は、間に空白が存在しないため全体を一度に認識する。語彙は111,349個の語句からなり、trie構造で記憶されている。認識にあたって、文字行画像が登録語彙とマッチングされて高精度の切り出しが行われ、正しい住所語句が抽出される。本論文では、文字行抽出の前処理と予備切り出しのための有効な方法についてまず紹介する。予備切り出しについては、文字行は接続成分解析や、輪郭形状解析を利用した接触パターンの分離法を利用して、プリミティブセグメントに分解した。語彙マッチングでは、隣接セグメントが動的に組み合わせられ候補文字パターンが作られた。語彙マッチング部には、正確な文字分類器が内臓されており、動的なカテゴリー集合から候補文字パターンと整合する文字列が選出された。語彙マッチングにはビームサーチ法が利用され実時間認識を可能にした。現実の3,589の郵便画像による実験では、正解率は83.68%で、誤り率は1%未満であった。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手書き数字列の自動認識:認識と検証のための戦略
Automatic Recognition of Handwritten Numerical Strings: A Recognition and Verification Strategy

Luiz S. Oliveira, Robert Sabourin, Fl&vio Bortolozzi, Ching Y. Suen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1438-1454, November 2002

Keywords: Handwritten numerical string recognition, segmentation and recognition of numerals, recognition and verification, feature extraction, probabilistic model

モジュラー形式の手書き数字列認識システムを提案する。これは、切り出しに基づく認識と、認識と検証という戦略を利用している。この手法では、確率モデルによる切り出し、認識、後処理を異なるレベルで出力し、これを組み合わせる手法をとっている。セグメンテーション過剰とセグメンテーション不足という問題に対処するため2つのセグメンテーション検証器を用いた新規な手法を採用している。過剰セグメンテーションに対処するため新しい特徴量集合も導入されている。確定論的オートマトンを利用して後処理を行い、グローバルな決定モジュ−ルが結果の採否を決める。2つのデータベースについての実験結果が示されている:ブラジル銀行の小切手の数字、および、NIST SD19である。後者は、モジュール形式のコンセプトの検証と、本システムロバスト性を、著名なデータベースで実証するためである。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


木変換による数式表現の認識
Recognizing Mathematical Expressions Using Tree Transformation

Richard Zanibbi, Dorothea Blostein, James R. Cordy

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1455−14670, November 2002

Keywords: Document image analysis, recognition of mathematical notation, diagram recognition, tree transformation, graphics recognition

印刷された数式、あるいは、手書きの数式を認識するロバストで効率的な方法について述べる.外接矩形を伴う記号リストから、本システムは3つの連続的パスによって表現を解析する.レイアウトパスでは入力された記号の基本構造木(Baseline Structure Tree (BST))を構築する。もし、記号位置が本来の理想的場所から大きくずれたとしても、読み順や演算子の本来あるべき位置から、そのレイアウト位置が効率的に認識可能となる。次に、語彙パスによって、グループ化されたトークンによって、語彙解釈されたBSTが作られ、これによって“=”のようなオーバーラップしないプリミティブから更正される多数の入力記号から構成されたる。語彙パスによって関数やアクセントのような垂直構造のラベル付けも行う。語彙解釈されたBSTはLaTEXに翻訳される。記号論理学で必要な更に詳細な表現は、式表現解析パスで実行される。語彙解釈されたBSTは演算子木に翻訳され、入力表現の順序や範囲を記述する。各パスで利用される木の操作は、木変換によって簡潔に表現される。本システムはコンパイラに似たアーキテクチャーを持っているため、予期せぬ入力があってもロバストに対応することができるし、システムの拡張性を与え、数式表現の方言を処理するための土台となる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


距離データの位置合わせのための周波数空間での手法
A Frequency Domain Technique for Range Data Registration

Luca Lucchese, Gianfranco Doretto, Guido Maria Cortelazzo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1468-1484, November 2002

Keywords: Range data, 3D view registration, 3D rotation, Fourier transform, phase correlation, ICP algorithm

本研究は、一組の距離画像集合の位置合わせを周波数空間で操作するという、独創的手法を紹介する。フーリエ変換したものから、並進パラメータの推測値と、回転パラメータ推測値を分解抽出できるという、この有名な性質を、3段階のステップを経て、我々の位置合わせアルゴリズムに利用する。位相の異なる成分のフーリエ変換した強度は、一般的に等しいという関係と、並進成分は、回転が補正された後では、位相の相関を利用した第3のステップによって推測可能となる。この教師なし手法として適した手法を利用したアルゴリズムの性能は、いくつかのオブジェクトを利用した広範囲なテストの結果、3D剛体の動き予測が可能なロバストで優れた方式であることが判明した。本アルゴリズムは、より精度の高いICPアルゴリズムのような実空間での位置合わせの予備的位置合わせ法として利用できるであろう。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


相対的ファジー結合性とオブジェクト定義:理論、アルゴリズム、、および画像分離での応用
Relative Fuzzy Connectedness and Object Definition: Theory, Algorithms, and Applications in Image Segmentation

Jayaram K. Udupa, Punam K. Saha, Roberto A. Lotufo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1485-1500, November 2002

Keywords: Fuzzy connectedness, image segmentation, object definition, digital topology

ファジー連結性という概念は、オブジェクト画像中の画像要素対の全ての組に連結の強さを定義することで、「いっしょにぶら下がっている」という考え方を把握することである。この概念によって、動的計画法に基づく強力な画像セグメンテーションアルゴリズムが導けることを多様な用途における数千の画像に適用して実証してみよう。以前の枠組みの中では、ファジー連結オブジェクトは連結の強度に閾値を導入して定義された。本論文では相対的連結度を導入することで閾値の必要性を排除し、その結果より効果的セグメンテーションが得られた。中心的アイデアは、オブジェクトを共存するオブジェクトによって定義することである。各オブジェクトは種となる要素からスタートする。Cという画像要素は、これの参照する画像要素cが最も強く連結する要素に属するとみなされる。このようにして、オブジェクト同士はファジー連結性を利用して画像要素のメンバーシップを確保するために互いに競合する。相対的連結性を介してオブジェクトを定義するための理論的・アルゴリズム的枠組みを示し、この理論を利用して定義されたオブジェクトがファジー境界の内側に存在しない限りは最初選定された参照要素から独立であることを示す。逐次処理戦略によって最強の相対連結の核部品がまず定義され、次々にもっとファジーな部品を順次控え目に捕獲していく。この相対的ファジー連結性の有効性が医用画像の事例で示されている。このファジー連結性の有効性を客観的に示すため、160個の画像を含む仮想画像に対して定量的数学的な研究がなされた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


歪んで隠蔽された形状の動的計画法によるマッチングと検索
Matching and Retrieval of Distorted and Occluded Shapes Using Dynamic Programming

Euripides G.M. Petrakis, Aristeidis Diplaros, Evangelos Milios

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1501-1516, November 2002

Keywords: Image database, shape retrieval, query by example, dynamic programming, relevance judgments

歪んで、かつ、隠蔽された可能性のある形状のマッチングを動的計画法(DP)によって行うことを提案する。まず、閉じてない形状パターンがもう1つの形状の一部とマッチングするのか、全体とマッチングするかが分かっている場合のような、互いの形状の大きさの関係がわかっている場合のような、色々なマッチング場面を区別しよう。連続する微小セグメントを併合することによって大きな形状に対比させ、ノイズや形状変形を許したアルゴリズムとなっているが、これは並進、スケール、方位、始点選択とは独立である。本アルゴリズムの有効性を、海洋生物種の閉じた形状パターンと閉じてない2次元形状パターンからなる2データ集合からの形状検索で実証した。我々は、従来のフーリエ記述子による形状マッチングと形状検索に比べて優れていることを示す。さらに、我々の手法と、有名なSQUID(インターネットアクセス可能)と比較した結果も示す。結果の判定は、情報検索分野で十分確立している手法に習って、ヒトによる関連性判定である。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像セグメンテーションのための近似的ベイズ因子:擬似尤度情報判定基準
Approximate Bayes Factors for Image Segmentation: The Pseudolikelihood Information Criterion (PLIC)

Derek C. Stanford, Adrian E. Raftery

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1517-1520, November 2002

Keywords: BIC, color image quantization, ICM algorithm, image segmentation, Markov random field, medical image, mixture model, posterior model probability, pseudolikelihood, satellite image

ある画像中の色の種類とかグレーレベルの数を選定するための新手法を提案し、これによって全自動で画像のセグメンテーションが可能になる。ここに仮定する基本的確率モデルは隠れマルコフモデルである。考慮する色数は画像の統計モデルに対応しているとみなし、得られるモデルは近似的ベイズ因子によって比較される。このベイズ因子はBIC(Bayesian Information Criterion)によって近似される。また、最大尤度はQian-Titterington疑似尤度によって近似される。この得られた判定基準をPLIC (Pseudolikelihood Information Criterion)と呼ぶ。もっと簡単な近似法であるMMIC (Marginal Mixture Information Criterion)についても考察する。ここに、MMICは画素値の周辺分布のみに依存している。これは初期化に有用であることが分かり、画像の空間依存性が低い場合は、そこそこの性能を示すことが分かった。このPLIC と MMICは医用画像セグメンテーションに応用された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


歪みパラメータ推定のためのSDFタイプフィルターの利用
On the Use of SDF-Type Filters for Distortion Parameter Estimation

Neil Muller, B.M. Herbst

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1521-1528, November 2002

Keywords: Synthetic discriminant functions, synthetic estimation filters, facial location

オブジェクトの変形度合いにかかわらず、合成判別関数(SDF)を利用したオブジェクトの場所を同定したり、変形度合いを推定していた。当初から、この手法では、訓練集合が注意深く用意された場合にのみ、高精度な推定が可能であることが理解されていた。本論文で、推測精度を確実に補償する条件を得た。この条件によって、効率的訓練集合の作り方と、この手法が多様なSDF型フィルターに拡張可能であることが推察できる。理想的例題に適用した理論的結果が図示されており、また、より現実的課題である正確な顔位置の道程にも適用されている。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数フレームからの平面視差の直接的復元法
Direct Recovery of Planar-Parallax from Multiple Frames

Michal Irani, P. Anandan, Meir Cohen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1528-1534, November 2002

Keywords: Planer parallax, direct (gradient-based) methods, multiframe analysis, correspondence estimation, structure from motion

本論文は、3D情景の稠密な平面視差運動を多数の非更正画像から推定するアルゴリズムを紹介する。これによって、2フレーム以上の平面視差の復元法が一般化される。平面状表面と相対的な複数フレームにわたる視差運動は、3D情景構造とカメラのエピポールと関連している。視差の場(parallax field)や、エピポール、それに3D情景構造は、前もって対応付けしておかなくても、複数フレーム間の画像輝度変動から直接推定することができる

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自由木のマッチング,最大完全グラフ,単調ゲーム力学
Matching Free Trees, Maximal Cliques, and Monotone Game Dynamics

Marcello Pelillo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1535-1541, November 2002

Keywords: Graph matching, combinatorial optimization, quadratic programming, dynamical systems, evolutionary game theory, shape recognition

ルートを持つ木に基づくマッチング法に関する我々の最近の研究を発展させ、本論文では、ルートを持たない2つの木のマッチング方法を示す。本手法では、1対1対応点集団が最大になるような部分木となる連想グラフを構築する。次に、進化論的ゲーム理論による利益最大化手法で仮題を解く。この形状軸木による手法の威力を示すために、明瞭な形状と、変形形状のマッチングを比較した。数百の平面に対する実験において均一な確率場について述べてある。その結果はすばらしい:すなわち、これらの単純な方法では極小点領域から抜け出すことは本質的にはできず、常に全体の最小値に戻っていく。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テクスチャ分類のためのサポートベクトルマシン
Support Vector Machines for Texture Classification

Kwang In Kim, Keechul Jung, Se Hyun Park, Hang Joon Kim

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1542-1550, November 2002

Keywords: Support vector machines, texture analysis, pattern classification, machine learning, feature extraction

本論文は、テクスチャー識別にサポートベクトルマシン(SVM)を利用した応用に関する研究である。外部の特徴抽出器に頼ることなく、SVMは元の画素データの中間調データを用いる結果、高次元空間においても一般化することができる。さらに、自己のアーキテクチャー内で、従来のテクスチャー特徴抽出法といっしょに利用できるだけでなく、これらの手法に内在する課題に対する解を求めることもできる。バイナリーなSVMをマルチテクスチャー識別に適用するために、次々と分解するする手法に加え、ニューラルネットワークを利用して、最終的な識別をした。実験によって、このSVMの有効性が示された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No.12

手書き単語認識の語彙への依存性
On the Dependence of Handwritten Word Recognizers on Lexicons

Hanhong Xue, Venu Govindaraju

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1553-1564, November 2002

Keywords: Handwriting recognition, word recognition, performance prediction, performance model, multiple regression

どんな単語認識装置でも提示されている語彙に依存性をもっている。一般的に、語彙の大きなものや類似要素を含む語彙は認識装置にとって厄介である。しかし、単語認識装置とその語彙の正確な依存関係を数量的に捕らえる手法についての文献は存在しなかった。本論文は、文字認識の関数と見なしたときの単語認識装置の性能モデルを示し、単語認識装置と語彙の関係を統計的に“発見”する。これは、認識装置が個々のアルファベット文字を識別する能力を表すモデルパラメータと、語彙サイズへの感度パラメータを利用する。これらのパラメータは、性能モデルから導くことができる多重回帰分析モデルによって決定される。このモデルは、提示される語彙に基づいて認識装置の性能が予測できるので大変有用である。我々は5つの異なる単語認識装置と何千という画像、および、何十という用語による広範な実験によって、この性能モデルを実証した。その結果、このモデルは訓練データだけでなく、実験データについても認識装置の能力を予想する場合にも高い一致率を示した。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


流量最大化のための幾何学的流れ
Flux Maximizing Geometric Flows

Alexander Vasilevskiy, Kaleem Siddiqi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1565--1578, November 2002

Keywords: Geometric active contours, gradient flows, shape analysis, divergence and flux, blood vessel segmentation

コンピュータビジョンや画像解析においては、セグメンテーションのためのいくつかの幾何学的能動輪郭モデルが提案されている。基本となる考え方は、濃淡画像中の注目特徴量にしがみつくような画像力(image force)の制約条件下で、曲線(2D)や表面(3D)を進化させていく手法である。このテーマに関する最近の新しい傾向は、閉領域の特性を考慮し、多数の曲線や表面を同時に表現することである。それでも、この手法を血管のような細長い画像に応用する方法については不明瞭である。細長い画像ではしばしば強度コントラストは弱く、信頼性のある領域統計量の計算はむずかしい。この困難に取り組むために、曲線(2D)や表面(3D)を通過する適当なベクトル場で流れの増加率が最大化する勾配流れ(gradient flow)を導入する。鍵となるアイデアは、ベクトル場の大きさとともに方向を活用することである。計算を進めて行くと、簡潔でエレガントな解釈となるが、この結果はパラメータを持たず、2次元においても2次元においても同じ形式で表せる。この手法が、レベルを設定した2Dや3Dの血管造影画像のセグメンテーションに有効であることを示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多様体オブジェクトを表現する2D線画中の面の同定
Identifying Faces in a 2D Line Drawing Representing a Manifold Object

Jianzhuang Liu, Yong Tsui Lee, Wai-Kuen Cham

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1579-1593, November 2002

Keywords: 3D models, face identification, geometry, graphs, line drawings, manifolds

3Dモデル表現として直接的で簡単な表現法は線画を使った描画である。2D線画中の面は、3Dの幾何学的情報を再構現するための重要情報である。ここで定義される多様体は共通の複数のソリッドに属しており、ほとんどのソリッドの系は多様体幾何学に基づいている。本論文では、多様体を表現する1枚の2次元画像線画から、面を抽出するための新しい方法について提案する。面の同定のために、多様体の各辺は丁度2つの面に共有される、という多様体の性質に基づく、定式化を行う。その主要ステップとは、1)線画からサイクル(循環頂点系列)を探索する、2)サイクルの中から面を探索する。面発見手続きを高速化するために、線画中の虚実混ざった湾曲した面のほとんどを同定するための多数の性質を利用する。そのほとんどは平面多様体幾何学の性質に関するものである。その結果、2段目の探索における未知のサイクル数が減少する。曲面を有する多様体や、2つ以上の分離したグラフで表現される多様体を処理できる体系も提案する。実験によって、この新しい手法は、従来手法では扱えなかった多様体を扱えるのみならず、従来の多様体も扱うこともできることが示された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


4サブフィールドに基づく3次元トポロジー保存性縮退法
Three-Dimensional Topology Preserving Reduction on the 4-Subfields

Cherng-Min Ma, Shu-Yen Wan, Jiann-Der Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1594-1605, November 2002

Keywords: Topology preservation, connectivity preservation, 3D thinning algorithm, thinning, 4-subfield thinning

本論文は3D2値画像の細線化を4つのサブフィールドで行う手法について議論している。細線化アルゴリズムの対象は2値画像であるが、アルゴリズムそのものは3色縮退テンプレートの集合として表現できる。計算時間複雑度がO(n)であるための3色テンプレートによる4サブフィールド細線化アルゴリズムの必要十分条件を示した。このような条件を満たす理論と計算法について考察した。3D画像の4サブフィールド細線化の2つのアルゴリズム、その1つは中間曲線を生じる方法であり、他の1つは中間面を生じるものである、を示したが、ここに示した必要十分条件によってトポロジーが保存されることが示された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


膨張、侵食、開口、閉止のための効率的アルゴリズム
Efficient Dilation, Erosion, Opening, and Closing Algorithms

Joseph (Yossi) Gil and Ron Kimmel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1606-1617, November 2002

Keywords: Mathematical morphology, running maximum filter, min-max filter, computational efficiency

移動窓フィルターによる1次元の膨張と侵食(最大最小)のための効率的な決定論アルゴリズムを提案する。p個の要素を持つ1次元フィルター処理のための移動窓で実行するこのアルゴリズムは、1つの標本点あたり、1.5 + o(1) 回の比較演算を行う。van Herk と Gil and Werman (HGW アルゴリズム)によって、独立に開発された従来アルゴリズムに比べ、本手法には決定論的性能向上が見られる。さらに、本論文で示される結果には、HGWアルゴリズムの変形であるGevorkian (GAA)たちのアルゴリズムの改良案も示されている。この GAAアルゴリズムでは、入力情報は独立同一分布(i.i.d.仮説)と仮定されているが、我々の主要結果は決定論的である。我々は、エッジ形状を偏りなく処理するために必要な、膨張と侵食の同時処理を実行するフィルターの課題も扱う。入力がi.i.d.の場合は、膨張と侵食を別々に計算するよりは同時に計算する方がもっと効率的であることを示す。次に、minフィルターをmaxフィルターに応用する際に定義される開口フィルターについて述べ、効率的演算アルゴリズムを示す。このフィルターはmaxフィルターよりほんのわずか遅いだけであることを強調したい。この改良アルゴリズムは容易に2次元だけでなく、窓あたりの比較演算数を一定に保ったまま高次の有限次元に一般化可能(矩形窓の場合)である。完全を期すために、現在のプログラム言語による実装上の考察についてのコメントを加えた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動きから得られる2画像の正確な位置関係
Exact Two-Image Structure from Motion

John Oliensis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1618-1633, November 2002

Keywords: Structure from motion, two-image structure from motion, least-squares error, triangulation, ambiguity, spherical retina, coplanarity, Sampson error, local minima

画像の動きだけを利用して、画像投影誤差最小による2つの画像の位置関係(構造)を決定する、簡単で正確な数式を提案する。この構造と動きの最適推定のためには、動きパラメータに関して数式を2乗誤差最小化すればよい。さらに、三角測量問題への解法も示す:動きが与えられたとき、最適構造推定を求める陽な式である。この正確な誤差推定を実験的に調べ、この方法が前方および後方動き推定には局所的最小値(極小値)をしばしばもっていることを示す。また、実験によって、大きな並進運動の場合には、Oliensis and Soatto et al.の“反射”極小値が生じることを示す。この結論は、カメラが較正済であり、最小2乗誤差画像投影法を利用することを前提としているが、これはほとんどの球面画像に当てはまる。この手法を、平面画像と非較正カメラにも近似拡張した。改良Sampson誤差も示し、これが実験的には、より優れていることを示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


アクティブコンピュータビジョンのための特徴量空間軌跡法
Feature Space Trajectory Methods for Active Computer Vision

Michael A. Sipe, David Casasent

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1634-1643, November 2002

Keywords: Active vision, classification, object recognition, pose estimation

濃淡画像から、剛体オブジェクトを識別し、ポーズを推定するための新規で進歩したアクティブオブジェクト認識アルゴリズムが得られた。このアルゴリズムでは、ある画像中のオブジェクトの分類やポーズが曖昧であるかどうかを自動的に検出し、必要ならセンサーの位置を再設定し、最終的にオブジェクトを最終決定したり、ポーズを推定するために、多数のオブジェクト画像から得られたデータを活用する。グローバルな固有空間中の確率的特徴量空間軌跡(FST)を利用して、3Dの歪んだオブジェクトの情景画像を表現し、入力オブジェクトの分類とポーズを推定した。分類とポーズの確信度は、確率的特徴量空間軌跡表現から導かれるが、確信度によって、更に観察が必要かどうか、最も有益な情報を得るためにはどこにセンサーを置くべきかを決定するときにも利用される。w我々は、このFSTを使うことで現実画像中の現実オブジェクトを認識できる能力を実証するため、CADデータからの描画画像から構築されたFSTを利用して、機械加工された金属部品に対する試験的結果を示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


判別のための判別ウェーブレットフェースと最近傍特徴識別器
Discriminant Waveletfaces and Nearest Feature Classifiers for Face Recognition

Jen-Tzung Chien, Chia-Chen Wu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1644-1649, November 2002

Keywords: Discriminant waveletface, nearest feature classifier, face recognition

顔認識において、特徴抽出、判別分析、識別規則は三大重要課題である。本論文では3つの課題をいっしょに扱うためにハイブリッド法を利用する。特徴抽出のために、我々は多層解像度ウェーブレット変換を応用してウェーブレットフェースを抽出した。さらに判別能力を強化するために、線形判別分析をウェーブレットフェースに対して行った。識別に際して、表情の多様性に対応したロバストな決定のため、最近傍平面(NFP)と最近傍特徴空間(NFS)識別器を検討した。従来の最近傍器と、最類似特徴線分識別器との関係も示した。実験では、NFS識別器と協力した識別ウェーブレットフェースが最大の性能を示した。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


いくつかのクラスタリングアルゴリズムの性能評価と妥当性指標
Performance Evaluation of Some Clustering Algorithms and Validity Indices

Ujjwal Maulik, Sanghamitra Bandyopadhyay

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1650-1654, November 2002

Keywords: Unsupervised classification, Euclidean distance, K-Means algorithm, single linkage algorithm, validity index, simulated annealing

本論文では、ハードk-mean法、単連結、疑似焼きなまし法に基づく方法の3つのクラスタリングアルゴリズムと、4つのクラスター妥当性指標であるDavies-Bouldin指標、Dunn指標、Calinski-Harabasz指標、および最近開発された指標Eについての性能を評価する。指標EとDunn指標の関係から、データ集合が明確な下部構造を持っている場合にユニークなハードk-分割を達成するためには指標Eの値下限値は理論的に推定される必要がある。異なる妥当な指標とクラスタリング法によって、自動的に適当なクラスター数に適応進化して様子が、人工的データ、および実データの両方で、クラスター数が2から10と異なる集合について示してある。一旦適当なクラスター数が決まると、議事焼きなまし法によるクラスタリング法によって、適当な分割したデータから、与えられたクラスター数に分割される。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最小割合サイクル(Minimum Ratio Cycle)によるコンパクト窓によるステレオ対応
Stereo Correspondence with Compact Windows via Minimum Ratio Cycle

Olga Veksler

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1654-1660, November 2002

Keywords: Stereo correspondence, adaptive windows, compact windows, minimum ratio cycle, graph algorithms

最も初期の手法で、現在でも広く利用されている稠密ステレオ対応法は画素窓のマッチング法を基礎にしている。この手法の主な課題は、窓のサイズと形状をどのように選ぶかということである。窓が小さいと、強度変動幅が小さく、高い信頼性のマッチングができないが、大きな窓では不連続個所が訛ってしまう。窓サイズと窓形状を、コンパクト窓の多数の群にわたって最適化されたものの中から選択するアルゴリズムを提案する。ここで利用しているコンパクトという語は、窓の面積に比べて淵の部分の面積が小さい窓を表しており、正式な用語ではない。我々は非矩形窓を効率的に構成する、面積に基づく最初の手法であると信じている。グラフにおける最小割合サイクル(Minimum Ratio Cycle)アルゴリズムによって、コンパクト窓の高速最適化が達成できた。このアルゴリズムは数個のパラメータしか持っていないので、適応させることは容易である。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


HMMによる置換暗号解読法と圧縮文書処理への応用
Substitution Deciphering Based on HMMs with Applications to Compressed Document Processing

Dar-Shyang Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1661-1666, November 2002

Keywords: Substitution ciphers, HMM, symbolic compression

単純な置換暗号は、確率的弛緩法などの統計的手法で解けることが示されている。しかし、実際の応用場面ではノイズの影響で、この手法の適用にも限度がある。本論文では、隠れマルコフ法による新たな置換暗号解読法を提案する。我々のアルゴリズムは弛緩法よりも精度が高く、ノイズ下ではもっとロバストであるため、圧縮文書処理に有用である。圧縮記号による文書中のクラスター系列から復元された文字解釈は、暗号解読問題と見ますことができる。クラスター系列にはたくさんのノイズが含まれているが、ロバストな暗号解読アルゴリズムで復元でき、ある種の文書解析課題を達成することができる。この手法の妥当性は多言語文書の複写検出システムで実証された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パルツェン窓(Parzen Window)に基づく相互情報量による入力特徴量の選択
Input Feature Selection by Mutual Information Based on Parzen Window

Nojun Kwak, Chong-Ho Choi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1667-1671, November 2002

Keywords: Feature selection, mutual information, Parzen window

相互情報量は変数間の関連性を計る良い指標であるためいくつかの特徴量選択アルゴリズムで利用されてきた。しかし、相互情報量の計算は困難で、しかも特徴量選択アルゴリズムは相互情報量の正確さに依存している。本論文では、パルツェン窓に基づく入力変数とクラス変数間の相互情報量の新規な計算法を提案し、識別問題にこの特徴量選択アルゴリズムを応用する。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


文字認識のための回転不変なルールベースの細線化アルゴリズム
A Rotation Invariant Rule-Based Thinning Algorithm for Character Recognition

Maher Ahmed and Rabab Ward

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.Character recognition, thinning, skeletonization , November 2002

Keywords: Feature selection, mutual information, Parzen window

本論文は、新規なルールベースの細線化法を提案する。我々の細線化アルゴリズムのユニークな特徴は、記号の中心線へと細線化することである。つまり、記号の形状は保たれる。また、回転不変でもある。このシステムは推論エンジンに20個のルールを持っている。これらのルールは同時に画像中の各画素に適用される。その結果、細線化と速度において対称性を保持している。その結果これは、あらゆる手書き文字の記号や文字のトポロジーを保存した、効率的システムである。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


[前の年]