AbstractClub - 英文技術専門誌の論文・記事の和文要約


[インデックス] [前の年] [次の年]


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.1


大きなデータ集合から回帰クラスを見つけ出す新規な方法
A New Method for Mining Regression Classes in Large Data Sets

Yee Leung, Jiang-Hong Ma, Wen-Xiu Zhang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 1, pp.5-21, January 2001

Keywords: Data mining, genetic algorithm, maximum likelihood method, mixture modeling, RCMD method, regression class, robustness

大きなデータ集合から興味あるパターンやモデルを抽出することは色々な訓練の場において大きな注目を浴びている。機械学習、パターン認識、統計学、人工知能、高効率計算法の研究者にとってデータベースからの知識発見とか、データ発掘は共通の興味を引く領域である。回帰クラス混合分解法(RCMD)と命名する新しい効率的でロバストな方法を大きなデータベース中の回帰クラス発掘のために、ここに提案する。この方法は特にノイズが含まれるデータ集合に有効である。ここで述べる「回帰クラス」とは、回帰モデルに従うデータ集合の部分集合のことであるが、これを構成要素としてデータ発掘のプロセスが進行する。大きなデータ集合は、沢山のこのような回帰クラスと、回帰モデルで表現できないクラスが混合した集合とみなす。このRCMDに基づく、反復法と遺伝的手法を利用して目的関数を最適化する方法も構築した。またRCMD 法はノイズデータが非常に大きな割合で存在している場合にも有効であり、個々の回帰クラスを認識し、認識された個々の回帰クラスを支持する内部データ点の集合を指定する。モデルは逐次抽出されるのであるが、最終結果は、この抽出される順序とはほとんど無関係となる。そうなるために、オーバーラップした回帰クラスを動的に識別する新規な戦略を採用した。シミュレーションと現実への応用によって、色々な場面での線形回帰クラスや非線形構造が混合したデータにフィットさせ、このRCMD法の有効性とロバスト性は確固としたものになった。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率的主曲面のための統一モデル
A Unified Model for Probabilistic Principal Surfaces

Kui-yu Chang, Joydeep Ghosh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 1, pp.22-41, January 2001

Keywords: Principal curve, principal surface, probabilistic, dimensionality reduction, nonlinear manifold, generative topographic mapping

主曲線とか、主曲面とは、それぞれ主成分や部分空間を非線形に一般化した概念である。この概念によって、古典的手法では達成できないような、高次元から見たデータの概観を得ることができる。存在性とか収束性の証明のようないくつかの問題の解に関して、元来、主曲線定式化の問題が提案されてきた。それにもかかわらず、これらの解は、主曲線として拡張することができなかった。単なる計算上の障害が大きかった。その結果、主曲面に関する論文はほんの少ししか発表されてない。最近、我々は、現状の主曲面アルゴリズムに伴う様々な事柄を述べるために、確率的主曲面(PPS)法を提案した。PPSは、生成トポグラフィ写像(generative topographical mapping (GTM))に基づく、多方位共分散ノイズモデルを使う。これはKohonenの自己組織化写像のパラメータによる定式化と見ることが出来る。PPSに加えて、クランプパラメータαを変化させた PPS (0 <α<1), GTM (α=1), および 多方位(manifold-aligned) GTM (α> 0)法の統一的共分散モデルを導入した。それから包括的に、PPS, GTMおよび多方位GTMについて3つの良く知られたベンチマークデータ集合について実験的評価を行った。2つの異なる比較において、パラメータ同一条件で、PPSはGTMの性能を凌駕することを示す。PPSの収束はGTMと同値であることがわかり、PPSに必要な余計な計算コストはもっと複雑な多様体を対象とする場合は、40%以下に減少することがわかった。このことから、一般化PPSは、主曲面を得るための柔軟で効果的な手法であることを示している。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ニューラルネットワークによる高速・高精度な顔認識
A Fast and Accurate Face Detector Based on Neural Networks

Raphael Feraud, Olivier J. Bernier, Jean-Emmanuel Viallet, Michel Cotlobert

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 1, pp.42-53, January 2001

Keywords: Combination of models, face detection, generative models, machine learning, neural networks, projection

複雑な背景を有する画像中から顔を検出することは困難な課題である。最高技術水準を示す我々の手法は新規なニューラルネットワーク手法に基づいており、制約付き生成モデル(Constrained Generative Model (CGM))と呼ばれる。学習プロセスの最終目的はモデルが生成する入力データの確率を評価することであるから本方式は生成的であり、モデルによって推測される品質を向上させるために反例を利用しているので制約的でもある。横向きの顔を検出し、誤識別を減少させるために、条件付混合ネットワークを利用した。演算時間を減少させるための高速探索アルゴリズムを提案する。到達した性能レベルは検出精度と処理時間からみると、画像や動画のインデックス化にこの検出器を現実問題へ応用することが可能であることを示している。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


稠密な移動点の対応付け課題を解く
Resolving Motion Correspondence for Densely Moving Points

Cor J. Veenman, Marcel J.T. Reinders, Eric Backer

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 1, pp.54-73, January 2001

Keywords: Motion correspondence, feature point tracking, target tracking, algorithms

本論文では定性的かつ統計的な解が存在するような動作対応付け問題を研究する。ここでは定性的モデル化が目的であり、特に1つの検出点に複数の特徴量が対応して条件が矛盾する場合とか、1つの特徴点に複数の検出点が合致して条件矛盾が生じる場合を対象とする。この場合、一時的に隠蔽点を許す方針と矛盾するので、点追跡の開始と終了を保留しておく。我々は、個々の、結合モデル、あるいは、全体的な動きモデルを導入し、この枠組みの中で得られる定性的解を示す。さらに、検出誤りや隠蔽を効率的に処理できる、貪欲マッチングアルゴリズムの意味において多分に制限付きの、新規な効率的な追跡アルゴリズムを紹介する。性能評価の結果、本提案アルゴリズムは、既存の貪欲マッチングアルゴリズムを凌駕した。最後に、点追跡を自動的に開始することが出来る、追跡器の拡張について述べる。いくつかの実験によれば、この拡張アルゴリズムは効率的で、小数のパラメータには敏感でなく、定性的には、複数仮定最適統計追跡器を含む他のアルゴリズムより優れている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


基礎行列を紡ぐ
Threading Fundamental Matrices

Shai Avidan, Amnon Shashua

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 1, pp.73-77, January 2001

Keywords: Structure-form-motion, multiview geometry

我々は連続する情景画像に渡って基礎行列に演算する新規な関数を紹介する。我々が「紡ぐ」(threading)と称する演算は、3焦点テンソルを連結糸として使って隣接行列を結びつける。この紡ぐ演算は、隣接するカメラ行列は、3Dモデルを復元しなくてもユニークな3Dモデルと整合性があることを保証している。この技術の応用として、連続する情景画像からカメラの自己動作を復元すること、連続画像の安定化(画面の安定化)、複数画像の画像に基づく透視図作成などがある。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


回転によってはずれ点を除外する
ROR: Rejection of Outliers by Rotations

Amit Adam, Ehud Rivlin, Ilan Shimshoni

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 1, pp.78-84, January 2001

Keywords: Correspondence problem, feature matching, false matches, outliers, outlier rejection, robust estimation

ここでは2つの透視画像の点対応の間違いを取り除く問題について述べる。2つの画像は任意の、未知の位置、未知の方位から撮影されるとする。最良の画像マチングアルゴリズムを使ったとしても時には間違え、誤った対応付けをすることがある。マッチングアルゴリズムとしては、相対的に回転している可能性も考える必要がある。このような変動によるマッチングがマッチング誤りとなる。我々はマッチング特徴量として画像特徴を利用しない。特に、マッチング誤りを生じる問題をまず最初に避ける。このアルゴリズムは、マッチング誤りが85%に達するような場合にでも有効に働く。このアルゴリズムは、どんな点マッチングアルゴリズムからの出力の後処理ステップとしても有効と思われる。これを使うと、マッチングの誤りが顕著に改善される。後で述べるロバストな推定アルゴリズムとして、このアルゴリズムは演算コストを激減させるという非常に望ましい性質を持っている。ここにアルゴリズムを示し、これが有効である条件をはっきりさせ、人工的・実画像の両方に適用した結果を示す。このアルゴリズムのプログラムコードはウェブから得ることができる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


深さが浅い画像の、教師なし多解像画像のセグメンテーション
Unsupervised Multiresolution Segmentation for Images with Low Depth of Field

James Z. Wang, Jia Li, Robert M. Gray, Gio Wiederhold

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 1, pp.85-90, January 2001

Keywords: Content-based image retrieval, image region segmentation, low depth-of-field, wavelet, multiresolution image analysis

深さが浅い画像の教師なし学習は、ディジタルカメラの画像強調や、目標認識、内容に基づく画像索引、3D顕微鏡画像解析を含む多様な用途に大変有用である。本論文では深さが浅い画像において多解像度画像セグメンテーションの新規な方法について述べる。このアルゴリズムは、シャープに焦点の合った注視オブジェクトから、その他の全景、背景を分離することが目的である。本アルゴリズムは全てのパラメータがコンテキストに依存しない全自動である。高周波数wavelet係数とその統計量に基づく多重スケール法を使って、コンテキストに依存しない画像の個々のブロックを識別する手法が使われている。他のエッジに基づく手法と異なり、我々のアルゴリズムは連結オブジェクトの境界の処理には依存しない。多くの不均一な紛らわしい前景や背景が存在する100以上の低深度画像をテストした結果、高精度の結果が得られた。最新のアルゴリズムに比べ、この新アルゴリズムは高速で高精度であった。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.2


顔の表情分析のための行動単位を認識する
Recognizing Action Units for Facial Expression Analysis

Ying-li Tian, Takeo Kanade, Jeffrey F. Cohn

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.97-115, February 2001

Keywords: Computer vision, multistate face and facial component models, facial expression analysis, facial action units, AU combinations, neural network

最も進んだ表情の自動分析システムは、幸福感、怒り、驚き、恐怖といった原型となる少数の表情を認識しようとする。このような原型となる典型的表情はそれほど頻繁には起きない。人の感情や意志はしばしば1つ以上の個別の表情を変化させることによって互いに交換されることが多い。本論文では自動顔分析システムを開発し、おおよそ正面から撮影された連続画像から、永続的特徴量(眉、目、口)に基づいて顔表情や変化している顔特徴量(深まりつつある顔の皺)を分析するシステムを開発する。この自動顔分析システムは表情の細かい変化を認識し、顔の動きコード化システムの起動ユニットを作動させるのであり、複数の原型表情に対応させるのではない。唇、目、眉、頬、皺などの多様な顔特徴の追跡とモデル化のために、多状態顔要素モデルを提案する。追跡の間、顔特徴量の詳細なパラメータ記述が抽出される。これらのパラメータを入力値として、顔上半分の6個と、顔下半分の10個の動作ユニットのそれぞれを、各々個別のニューラルネットワーク表現によって認識する。このとき、表情は個別の要素毎に与えられても良いし、いっしょであっても構わない。このシステムの平均認識率は上半分顔で96.4%(ニューラルネット表現が使われない場合は95.4%)、下半分顔で96.7%(ニューラルネット表現が使われない場合は95.6%)であった。この方式の一般性を試すために収集された別個の独立した画像データベースを使い、実証の為に異なる研究チームによって顔表情のコード化がなされた。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単一画像からのモデルに基づく3Dオブジェクト認識
Model-Based Recognition of 3D Objects from Single Images

Isaac Weiss, Manjit Ray

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.116-128, February 2001

Keywords: Object recognition, invariance, model-based

本論文では最近ほとんど注目されないオブジェクト認識の主要問題を扱う。その中でも、特に3Dから投影された単一2Dと、これらの画像間の対応関係を見つける複雑さについて扱う。これらの問題の複雑さを減少させるために、我々は幾何学的不変量を使う。3Dから2Dへの投影においては幾何学的不変量は存在しない。しかし、3Dオブジェクトのモデル化にある種の仮定を導入すると、このような不変量が見つかる。モデル化の仮定とは、特定のモデルであるか、あるいは、モデルクラスに関するに関する一般的な仮定のいずれかである。ここでは単一画像による認識にこの仮定を使った。我々は一般的投影状況において、3Dモデルの不変量と、これを投影した2Dの間に代数学的関係式を見つけた。これらの関係式は、3D不変空間における不変モデルである、不変な「光線」として幾何学的に記述でき、与えられた画像の不変画像として投影される。この手法を実画像にも応用した。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


商画像:可変証明下のクラスに基づく描画と認識
The Quotient Image: Class-Based Re-Rendering and Recognition with Varying Illuminations

Amnon Shashua, Tammy Riklin-Raviv

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.129-139, February 2001

Keywords: Visual recognition, image-based rendering, photometric alignment

本論文はクラスに基づく、変化する照明下の画像による認識と描画表現に関する問題について述べる。描画問題は以下の様に定義できる:あるオブジェクトの画像が1枚与えられ、異なる照明下での他のオブジェクトのサンプル画像が与えられているとき、新たな照明条件をシミュレートするように再描画する。クラスに元づく認識問題も同様に定義できる:色々なオブジェクトの画像データベース中から、1つのオブジェクトが撮影された単一画像が与えられている。色々なオブジェクトの中には異なる照明下で複数回撮影されているものもある。このとき新規なオブジェクトが変化する照明下で撮影されているとき、そのオブジェクトを画像データベース中から探し出せ。我々はここで、表面はLambertian であると仮定する、特に、人間の顔表面については。この手法の重要な結論には、照明不変の特徴的画像(signature image)を利用しており、そのため変化する照明下において解析的に画像空間を合成することができる。我々は、この変化する照明下で任意の新規オブジェクトを合成するには、たった2つのオブジェクトからなる小さなデータベースで十分であることを実験によって示す。多くの場合において、この認識結果は従来手法を遥かに上回る性能を示し、標本画像データベースが少ないにも係わらず、少しの前処理の後このアルゴリズムを働かせることで、ス晴らし品質の再描画画像が得られる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効率的な被写体方位線形解
Efficient Linear Solutioin of Exterior Orientation

Paul D. Fiore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.140-148, February 2001

Keywords: Exterior orientation, pose estimation, absolute orientation, efficient linear method

本論文では被写体の方位に関する解を求める効率的アルゴリズムについて述べる。直行分解を使って、カメラ参照フレーム中における特徴点の未知の深さをまず分離し、スケール付き絶対方位問題として簡易化できる。これはSVD(特異値分解)によって解くことができる。この手法の顕著な特徴は、他の方法に比べて計算コストが小さいことである。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手書き単語認識における全体論的パラダイムの役割
The Role of Holistic Paradigms in Handwritten Word Recognition

Sriganesh Madhvanath, Venu Govindaraju

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.149-164, February 2001

Keywords: Handwriting recognition, holistic paradigms, analytical methods, reading theory, pattern recognition

手書き単語認識における全体論的パラダイムにおいては、文字を単位とする文字認識と異なり、単語を単位として、その全体形状から認識することを心がける。本概観論文において、手書き単語認識に於ける全体論的パラダイムの潜在的役割について、新鮮な視点から概観から始める。調査は、経験豊かな読者のみならず、初学者にも並列全体論的読み取りプロセスについての資料を与えてくれる文献の概観から始める。認識手法として、対象パターンの視覚的複雑度に基づく連続スペクトルを利用し、この枠組みの中で、よく知られた単語認識パラダイムへの翻訳を試みることで、従来にない新鮮な展望をしてみよう。この全体論的手法に利用されている特徴量、方法論、表現、マッチング技法について概括が述べられている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2次元、3次元画像の対応付けに応用されるロバストな点対応付け法
Robust Point Correspondence Applied to Two- and Three-Dimensional Image Registration

Elizabeth Guest, Elizabeth Berry, Richard A. Baldock, Marta Fidrich, and Mike A. Smith

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.165-179, February 2001

Keywords: Image registration, iterative closest point, surface .matching, point correspondence, image warping, image matching, serial sections, reconstruction

多くの医学用・生物学的応用においては、正確で頑健な対応付けの計算が大変重要である。しばしば、対応付け計算では剛体の対応付けアルゴリズムの一部分を使っているが、 弾性体の対応付けアルゴリズムとか、経時的な変化を定量化するためには正確な対応付けが特に重要である。本論文では、CSM (Correspondence by Sensitivity to Movement)と呼ばれる新規な計算アルゴリズムが紹介される。頑健な対応点は、対応付けされようとしている点の動きに対する影響の受け易さを決定してから計算される。対応付けの信頼性が高ければ、この点の位置の摂動は大きな動きにはならないはずである。信頼性尺度も同時に計算される。この対応付け計算法は対応付け変換には独立であり、連続断面を曲げるための2D弾性対応付けアルゴリズムにも、顔の距離画像走査画像の3D剛体の対応付けアルゴリズムにも取り込まれてきた。これらの用途においては対応付け変換にはそれぞれ異なった手法が用いられており、正確な弾性体対応付け画像はCSM法によって得られた。もし、対応付け変換の他の計算法にこの手法が使われるとすれば、この手法は沢山の異なる用途に応用可能であろうと期待されている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パルス同期の振動子の自己組織化とクラスタリングへの応用
Self-Organization of Pulse-Coupled Oscillators with Application to Clustering

Mohamed Ben Hadj Rhouma, Hichem Frigui

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.180-195, February 2001

Keywords: Oscillators, synchronization, phase-locking, unsupervised learning, clustering, hierarchical clustering

集積・発火振動子集団を、安定で構造化したグループに組織化する、効率的な同期モデルを紹介する。各振動子は、同一グループの他の振動子と同期して発火するが、グループそのものは一定の位相差があったときに発火する。同期グループの構造がどうなるかはカップリング関数の選択に依存する。振動子間の相互作用をその相対距離に基づいて定義すると、我々のモデルが一般的クラスタリングアルゴリズムとして利用できることを示す。従来法と異なり、我々のモデルは関係的(リレーショナル)でプロトタイプに基づくクラスタリング法を合体するもので、その結果、簡潔で、効率的で、頑健で、クラスターサイズによる偏りのない、従って任意のクラスタリング数を見つけることが出来るクラスタリングアルゴリズムとなる。クラスタリングと自己組織化の間の相乗作用によって、モデルが自己組織化して安定化するだけでなく、計算複雑度が顕著に減少する。その結果得られるクラスタリングアルゴリズムは、従来にくらべいくつかの利点を持っている。特に、入れ子状の分割化手続きを発生することができ、その結果、効果的に最適クラスター数を決定することができる。我々の手法は目標関数を最適化することは出来ないから、初期値の影響を受けにくく、距離尺度を持たない(non metric)類似度を統合する。我々のアルゴリズムの効率を、合成データ、実データについて示す。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率的概念をもつ、一般化に基づく概念的クラスタリング
Generality-Based Conceptual Clustering with Probabilistic Concepts

Luis Talavera, Javier Bejar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.196-206, February 2001

Keywords: Conceptual clustering, hierarchical clustering, probabilistic concepts, user interaction

クラスタリングに関する統計的研究は、通例、連続的特徴量のデータ集合を対象にしており、その手法はシンボリックな特徴量を有する課題に適用することは困難である。さらに、これらの手法は、得られた結果をユーザーに解釈してくれることはほとんどなかった。機械学習の研究者たちは、これらの問題を解くことを目的とした概念的クラスタリング手法を開発してきた。AIにおける長年の伝統に従い、概念表現のメカニズムとして、初期の概念的クラスタリング法として論理を実装化した。しかし、論理的表現はクラスター構造を束縛するものとして必要十分な条件表現ではないとして批判されてきた。これに代わるものとして、概念を定義する各特性の確率とか重みに関連する確率的概念である。本論文では、従来機械学習で用いられた確率的表現、「特殊性-一般性」、のアイデアを拡張するシンボリックな階層的クラスタリングモデルを提案する。我々は、ユーサーが各レベルのレベル数や一般化の度合いを指定することが可能な、パラメータ化された尺度を提案する。各レベルにおいて、構築された概念の一般化のバランスをユーザーにフィードバックし、ユーザーパラメータの直感的振る舞いを与えることで、システムはクラスタリングにおけるユーザーの操作性を向上させることができる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


不均質な変換を使った視覚情報の符号化
Encoding Visual Information Using Anisotropic Transformations

Giuseppe Boccignone, Mario Ferraro, Terry Caelli

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.207-211, February 2001

Keywords: Scale space, anisotropic diffusion, entropy production, feature encoding

前回の同一著者の論文では、均質な拡散モデルを利用して、局所エントロピーの変化の割合が異なる部分を境界と定義するセグメンテーション法を紹介した。今回は、不可逆変換の理論に基づく手法を利用して、細密から粗への不均質変換を経る画像情報進化について解析をした。特に、不均質拡散モデルを利用したときには、空間とスケールをまたぐエントロピー生成の局所的変動によって、適切な画像特徴を抽出できる一般的方法を示す。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3枚の非キャリブレーション1D画像から2D投影の再構成における2通りの曖昧さ
Two-Way Ambiguity in 2D Projective Reconstruction from Three Uncalibrated 1D Images

Long Quan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.212-216, February 2001

Keywords: lD camera, vision geometry, ambiguity, reconstruction

一般的に、3枚の非キャリブレーション1D情景画像から、2D投影再構築画像を作る際には、対応点の数には関係なく2通りのあいまいさが存在することを示す。2つの異なる投影再構築には、基本的位置(fundamental points)として3つのカメラ中心があり、これによって定まる2次変換式で正確に記述できる。ユニークな2Dの再構築は、この3つのカメラ中心が並んでいるときのみ可能である。Carsson双対によって、6点対応によって再構成される2Dのあいまいさには、1Dの数には関係なく2通り存在する。数値例によって、理論的結果が示されている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


経験的ベイズ法による動き領域のセグメンテーション
Empirical Bayesian Motion Segmentation

Nuno Vasconcelos, Andrew Lippman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.217-221, February 2001

Keywords: Motion segmentation, layered representations, empirical Bayesian procedures, estimation of hyperparameters, statistical learning, expectation-maximization

動き場の同時セグメンテーションと、マルコフ確率場の事前確率の超パラメータ(hyperparameter)推定について、経験に基づくベイズ手法を紹介する。この新規な手法は、事前確信度(belief)の決定にベイズ理論を利用しているが、事前確率の定性的記述が必要なだけであり、これらパラメータの定量的な仕様は必要としない。これによってこれらパラメータを決定するための試行錯誤戦略を無視することができ、その結果より良いセグメンテーションが得られる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


累積類似度変換による対応付け
Correspondence with Cumulative Similarity Transforms

Trevor Darrell, Michele Covell

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.222-227, February 2001

Keywords: image correspondence, stereo, motion, contour tracking

累積類似尺度を使った局所的画像変換を定義し、これが効率的対応付けを可能にし、隠蔽境界に近い点の追跡を可能にすることを示す。従来法と異なり、本変換法は、隠蔽境界しかコントラストが無いような場合でこの境界に沿ってコントラストが反転しているような場合にも対応付けが可能である。この変換法は累積類似度のアイデアに基づいており、局所的画像均一性の形状を特徴とする。すなわち、画像の特定の点の値だけでなく、局所的に類似しており連結値が把握されている局所形状が把握される(小領域の平均濃度と、その外側との平均2乗誤差)。この表現を使うことによって、隠蔽境界を越える構造に鈍感であるが、境界の形状には敏感であり、これが重要な手がかりとなる。この手法と従来手法の比較結果を示す。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


主成分分析と線形識別分析の比較
PCA versus LDA

Aleix M. Martinez, Avinash C. Kak

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.228-233, February 2001

Keywords: Face recognition, psttern recognition, principal components analysis, linear discriminant analysis, learning from undersampled distributions, small training deta sets

見かけによって認識するオブジェクト認識パラダイムの意味するところは、線形識別分析(LDA; Linear Discriminant Analysis)に基づいている認識アルゴリズムは主成分分析(PCA; Principal Components Analysis)に基づくアルゴリズムより優れていると一般的に信じられている。この論文では、この一般常識が必ずしも成り立たないことを示す。我々は直感的に尤もらしい議論を紹介し、次に、実際の顔データベースに適用した結果を示す。全体的結論は、訓練データ集合が小さいときはPCAはLDAより遥かに優れており、PCAは異なった訓練データ集合にそれほど鋭敏に影響を受けないことである。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


1次木構造型従属性の、変数と識別効率への依存性
First-Order Tree-Type Dependence between Variables and Classification Performance

Sarunas Raudys, Ausra Saudargiene

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 2, pp.223-239, February 2001

Keywords: First-order tree-type dependence, a priori information, classification, generalization, sample size, dimensionality

共分散行列の構造化によって、訓練データから推定されるべきパラメータ数を減少させるが、次元数と訓練標本数の両方が増加する場合、それによって一般化誤差の増加には影響しない。特徴量ベクトルの要素間の木構造の従属性、つまり、たった1つの上位関連性があるとする近似的に正しい推測から、どうやって利益を得るかについて提案する。我々が共分散行列の構造推定を利用するのは、相関性を持たず、データのスケールを決め、変換特徴量空間において単層パーセプトロンを訓練するためである。パーセプトロンを訓練する場合、不正確な事前情報が与えられると負の効果となることを示す。13個の人工データと、10個の現実データによる実験結果は、1次木構造型従属モデルは、調べた20個余りの共分散行列構造の中で最も好ましいものであることが分かった。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.3


実験による性能評価法とページセグメンテーションへの応用
Empirical Performance Evaluation Methodology and Its Application to Page Segmentation Algorithms

Song Mao, Tapas Kanungo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.242-256, March 2001

Keywords: Document page segmentation, OCR, performance evaluation, performance metric, statistical significance, paired model, direct search, simplex method

多数のページセグメンテーションアルゴリズムが論文などで提案されてはいるが、実験であろうと理論的であろうと、これらアルゴリズムの比較評価はなされてない。既存の性能評価法では次の2つの重要な要素が欠けている:1)自由パラメータによるアルゴリズムの自動的訓練、および、2)実験データの統計的解析と誤差解析。本論文では以下のような5段階の手法を使って定量的にページセグメンテーションアルゴリズムの効率を評価する:1)最初に、互いにオーバーラップしない訓練データ集合とテストデータ集合とそれぞれの正解データを作り、2)次に、意味のある、計算可能な効率尺度w選択し、3)訓練データ集合に対して最適なパラメータ値を自動的に探索する最適化手続きが取られ、4)テストデータ集合に対してセグメンテーションアルゴリズムが実行され、最後に5)実験結果に対する統計解析と誤差解析が行われて統計的評価が求められる。特に、アルゴリズムを訓練するのに従来よる利用されていた個別の、あるいは、手作業による方法に比べ、我々はアルゴリズムの最適化問題として、自動的訓練法を採用し、最適パラメータ値を探索するためにシンプレックスアルゴリズムを利用した。一対モデル(同一データに2つのアルゴリズムを適用した評価に基づく)による統計解析と誤差解析が実行され、アルゴリズムの実験結果の信頼度区間が求まった。この評価法は5つのアルゴリズムに対して行われたが、その内の3つは代表的研究用アルゴリズムであり、他の2つは有名な商用アルゴリズムであった。適用したデータはUniversity of Washington III dataの978個のである。Voronoi, Docstrumおよび Caereアルゴリズムの性能指標(平均の文字行抽出精度)は、あまり差が無かったが、これらは、ScanSoftのセグメンテーションアルゴリズムより遥かに良かったし、また、ScanSoftはX-Y cutよりは遥かに良かった。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


時間的テンプレートを利用した人の動きの認識
The Recognition of Human Movement Using Temporal Templates

Aaron F. Bobick, James W. Davis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.257-267, March 2001

Keywords: Motion recognition, computer vision

視野情報に基づく人の動きの認識法を紹介する。この表現の基礎となるものは時間的テンプレート---静的ベクトル画像であり、各点におけるこのベクトル値は画像系列中の対応する空間位置における動き特性の関数である。テスト領域として航空写真を使い、2成分を有する簡単なテンプレートによる表現能力を探索した:最初の成分は動き有無を示す2値であり、2番目の成分は系列動画像中の時間的新しさを表す関数値である。そして、この時間テンプレートを、蓄積している既知の動作の画像の事例とマッチングさせる認識手段へと発展させる。時間的セグメンテーションは自動的に行われるこの手法は、動き速度が線形である場合には不変であり、標準的プラットフォームでは実時間で作動する。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


定性的情報に基づく空間的制約条件の獲得と伝播
Acquisition and Propagation of Spatial Constraints Based on Qualitative Information

Takushi Sogo, Hiroshi Ishiguro, Toru Ishida

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.268-278, March 2001

Keywords: Qualitative spatial representation, qualitative observation, spatially classified pair, three point constraint, constraint propagation, map building

ロボットナビゲーションにおいて最も重要な基本的事柄の1つは、ロボットの周りに設置してある標識とか視覚センサーを見つけることである。本論文は複数の視覚センサーによって観察された良質のデータから良質の位置情報を再構成する手法について提案する。即ち、動くオブジェクトの動き方向である。点の良質な位置情報を直接得るためには、ここで述べるように以下の段階を繰り返す:1)視覚センサーで動き方向(右とか左とか)を観察する、2)オブジェクトの動き方向に基づいて、視覚センサーを空間的にクラス分けされた組に分類する(動きに合わせてセンサーを分類する)、3)3点束縛条件を獲得し、4)この束縛を伝播させる。画像から抽出した定量的測定と定性的表現から環境構造を再構成する以前の方法に比べ、本論文では低レベルで、単純で、信頼性のある(即ち定量的な)情報から、どうやって定量的に標識の位置データを得るかに焦点を当てている。この手法は、シミュレーションによっても、観察誤差によっても評価された。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


全方位ステレオ:パノラマステレオ画像合成
Omnistereo: Panoramic Stereo Imaging

Shmuel Peleg, Moshe Ben-Ezra, Yael Pritch

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.279-290, March 2001

Keywords: Stereo imaging, panoramic imaging, image mosaicing

全方位パノラマは、一組のパノラマ画像で構成されており、1つは左目用、もう一つは右目用である。このパノラマステレオ対によって、最大360度のフルステレオ画像が生成できる。このような任意方位のパノラマ立体画像は2点からの全方位パノラマカメラで撮影するだけでは合成することはできず、回転しながらステレオ画像対を貼り合わせることで構成できる。もっと簡単な任意方位ステレオパノラマ画像は、1台の回転カメラからの画像貼り合わせによって構成することができる。この方法によってステレオ画像の視差を調整することができ、例えば、遠くの情景は基線を広げて見たり、近くの情景は、基線を短くして見ることができる。回転カメラによるパノラマ立体画像では動きのある情景は撮影できないので、全方位ステレオ画像は静止画像に限られる。ここでは、可動部品を使わないで全方位ステレオパノラマ画像を撮影する、2通りの方法を示す。回転カメラで情景を見たときの注視光路と同じ注視光路をカバーするような特殊なミラーを用意する。全方位ステレオパノラマ用のレンズも用意する。このミラーとレンズの設計は焦線(光線の包絡線:caustic)が円であるような曲線を利用する。全方位ステレオパノラマ画像は、バーチャルな環境を表現するためにコンピュータグラフィックスでも描画できる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


輪郭領域における画像編集
Image Editing in the Contour Domain

James H. Elder, Richard M. Goldberg

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.291-296, March 2001

Keywords: Hlmage editing, edge detection, reconstruction, contour grouping, segmentation

画像編集は、基本的には画素単位で行う。本論文では、作業単位として、画素ではなく、エッジを利用する新規な方法を提案する。この提案が妥当であることは、適当なエッジモデルやスケールの選択が可能な場合は、グレースケール画像をエッジ画像として正確に表現できることから推察できる。特に、このようなエッジ表現した要素画像を高品質で原画に再構成する効率的アルゴリズムが報告されている。これらアルゴリズムをいっしょにして輪郭のグルーピングと直感的に分かりやすいユーザーインターフェースによって画像編集(刈り取り、ペースト、削除)を輪郭領域で直接操作できる。実験結果によると、視覚的アルゴリズムの新規な組み合わせによって、ある種の画像編集操作には効率的であることが示唆される。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


系列画像から層(レイヤー)を抽出するための集積化ベイズ法
An Integrated Bayesian Approach to Layer Extraction from image Sequences

Philip H.S. Torr, Richard Szeliski, P. Anandan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.297-303, March 2001

Keywords: Layer extraction, segmentation, stereo matching, motion estimation

3D情景のモデル化の一方法として、任意の位置と方位に置かれた近似的平面層(レイヤー、スプライト)集合を使って3D情景をベイズ法で記述する方法を提案する。レイヤーを2D画像の動きとして記述し、この動きによってモデル化した過去の多くの研究と異なり、我々の研究では情景を3Dで記述することを可能にする。本論文では2つの点で寄与がある。第1に、レイヤーと情景に関してベイズ決定理論の枠組みで定式化することを仮定し、レイヤーの数と、各レイヤーへの画素の割り当て数を自動的に決定する。第2はアルゴリズムに関する。最適化を達成するために、ベイズ版RANSACが開発され、これによってセグメンテーションが開始される。続いて、一般化された期待値最大化法(MAP)によってMAP 解が見つかる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


幾何学的縮退が存在するときの距離データからのプリミティブのロバストなセグメンテーション
Robust Segmentation of Primitives from Range Data in the Presence of Geometric Degeneracy

David Marshall, Gabor Lukacs, Ralph Martin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.304-314, March 2001

Keywords: Nonlinear least squares, geometric distance, cylinder, cone, sphere, torus, surface fitting, segmentation

本論文は距離画像のセグメンテーションに関する共通問題について述べる。まず、既知の表面が何種類から構成されているとみなすのが適切であるかどうかを見極める。本論文は、球、円筒、錐、トーラスを3Dにフィッティングさせる手法について述べ、セグメンテーションの観点からその応用について述べる。平面で無い表面を、最小2乗フィッティングさせることは、たとえ単純な幾何学的形状であってもあまり研究されたことがない。我々の応用領域は主として深さマップから得られたソリッドモデルからのリバースエンジニアリングとか、自動的3D検査であり、これらの応用においては、高精度の表面形状抽出が不可避である。我々のフィッティング手法の利点は、幾何学的縮退がある場合のロバスト性であり、フィッティングされる表面の主曲率が減少し(あるいは一致し)、その結果、より単純な型にますます近似するようになる。つまり、データに最も近似する平面、円筒、円錐、球などに。他の多くの方法では、このような場合に発散する。多様なパラメータの組み合わせが無限になるからである。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多重解像画像による飾り文字からの構造抽出
Structure Extraction from Decorated Characters Using Multiscale Images

Shin'ichiro Omachi, Masaki Inoue, Hirotomo Aso

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.315-322, March 2001

Keywords: Character recognition, OCR, decorated character, structure extraction

多くの文書で飾り文字が広く利用されている。実用的な工学的文字読取器は普通のフォント以外に複雑なデザインのフォントも認識する必要がある。しかし、飾り文字の見かけは複雑であり、ほとんどの文字認識システムは飾り文字をうまく処理できない。本論文では飾り文字から、文字の基本的構造を抽出する方法を提案する。このアルゴリズムは文字認識の前処理として利用される。提案するアルゴリズムは次の3ステップからなっている:全体的構造抽出、構造の補間、そして平滑化である。多段スケール画像を利用することで、尾根や谷が検出され、構造が抽出される。尾根は全体的な構造抽出に利用され、谷は補間に利用される。実験によると、非常に複雑な飾り文字から文字の構造が抽出できることが示された。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単語認識における傾き・ゆがみ補正のための多様な手法の同値性
Equivalence of Different Methods for Slant and Skew Corrections in Word Recognition Applications

Petr Slavik, Venu Govindaraju

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.323-326, March 2001

Keywords: Image preprocessing, slant normalization, skew normalization, handwriting recognition

傾きや歪みの正規化処理は単語画像を認識する前にしばしば利用される。本論文では、従来提案されている異なる傾きや歪みの補正法が、実は同値であることを理論的に証明する。とくに、歪み補正に回転を施し、次に傾き補正を水平方向に剪断変形させることと、最初に水平方向に剪断変形させ、続いて垂直方向に剪断変形によって歪みを補正することと等しいことを示す。我々の証明法を変形すると、傾きと歪みの補正を行う他の方法と等しいことが容易に示される。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Watershedセグメントの最大事後確率ラベル付けによるビデオ画像のセグメンテーション
Video Segmentation by MAP Labeling of Watershed Segments

Ioannis Patras, E. A. Hendriks, R. L. Lagendijk

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp.326-332, March 2001

Keywords: Markov Random Fields, motion-based segmentation, region labeling, watershed segmentation, motion estimation

本論文はビデオ画像の空間時間セグメンテーションに関する問題を提起する。最初、強度によるセグメンテーション法(watershed セグメンテーション)によって多数のセグメントが、続いて、動き情報を利用してラベル付けされる。ここで、watershedアルゴリズムとは、(1)輝度勾配が極小値にマーカを設定;(2)勾配に沿ってマーカを成長;(3)マーカのぶつかった所に境界を生成;と言う手続きで領域を生成する手法である。このラベル付け領域は、最初のセグメンテーションに基づいて、統計的に空間的時間的相互作用がマルコフ場としてモデル化される。ラベル付けの基準は、動き仮説に基づき、前のフレームにラベル場の推測、および、画像強度が与えられたときの推測に基づく、ラベル場の条件付事後確率の最大化である。最適化には、対話的に動き予測-ラベリングのアルゴリズムが提案され、それに基づく実験結果も示した。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.4


処理レベルの低い画像のためのガウス-マルコフ計測場モデル
Gauss-Markov Measure Field Models for Low-Level Vision

Jose L. Marroquin, Fernando A. Velasco, Mariano Rivera, Miguel Nakamura

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 4, pp.337-348, April 2001

Keywords: Bayes methods, estimation theory, Gaussian distributions, image classification, image segmentation, Markov processes, probability, simulated annealing

多くの性質の悪いコンピュータビジョン問題において極めて有用であるのは、先験確率としてマルコフ確率場(MRF)を用いたベイズ推定理論である。ここに、古典的離散マルコフ確率場から導かれた古典的モデルを紹介する。これは、画像処理やコンピュータビジョンにおける性質の悪い問題の解に利用することができるだろう。これによって柔軟で、計算的に効率的であり、生物学的にも尤らしい画像再生アルゴリズムが導ける。この有用性を示すために、優占的方位と方向場の再構成、マルチバンド画像のクラス分け、画像量子化、フィルタリングへのアプリケーションを示す。

Ej,HN

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


構成要素を利用した、画像からの例に基づくオブジェクト検出
Example-Based Object Detection in Images by Components

Anuj Mohan, Constantine Papageorgiou, Tomaso Poggio

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 4, pp.349-361, April 2001

Keywords: Object detection, people detection, pattern recognition, machine learning, components

本論文では静止画像中の構成要素を利用してオブジェクトを認識する、例に基づく認識の一般的枠組みを紹介する。この手法を実証するために、ごちゃごちゃした情景の中から人間の所在を見つけるシステムを開発した。このシステムは4つの別個の、例に基づく検出器で構成されており、その各々は人体の4つの構成要素である頭、足、左腕、右腕を検出するために別々に訓練される。これらの構成要素が、適当な幾何学的制約の範囲内で存在することが確かめられると、例に基づく2番目の識別器が、要素検出器の検出結果を結びつけ、オブジェクトが「人間」であるか「非人間」であるかを識別する。このような階層的構成を、識別器の適応的組合せ(Adaptive Combination of Classifiers (ACC))と呼ぶ。我々はこのシステムの結果が、類似の全身検出器に比べてはるかに良いことを示す。このことから、このシステムの性能が優れているのは構成要素に基づいたACCデータ識別アーキテクチャに拠る事が推察できる。また、本アルゴリズムは人間の全身検出法に比べて、より頑健であり、人間画像が部分的に隠蔽されていたり、身体の部分が背景とほとんどコントラストがつかない場合にも、頑健である。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


視覚標的の分別性のための情報理論的指標
Information Theoretic Measure for Visual Target Distinctness

Jose A. Garcia, Joaqufn Fdez-Valdivia, Xose R. Fdez-Vidal, Rosa Rodriguez-Sanchez

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 4, pp.362-383, April 2001

Keywords: Visual target distinctness, information theoretic measures, information conservation constraint,' significance conservation constraint, psychophysical experiments, bootstrap methods

人間にとって、対象物とか、関連したオブジェクトに関する視覚的な捕捉効率があらかじめ判っているなら非常に有益である。しかし、本来の探索効率は大きく変動するし、認識する情景に対する先験知識に大きく依存する。従って、典型的な探索実験では、統計的に信頼性のあるデータを得るためには多量の観察が必要となる。更に、野外における標的捕捉の効率測定はしばしば非現実的であり、非常に高くついたり危険でさえある。本論文は、標的の特徴をその背景に対してどう取るべきかの新規な方法を紹介する。その結果得られた計算結果を、ディジタル画像中の複雑な自然背景中の標的に対する視覚的分別性を定量化してみる。色々な確率変数のカルバック・ライブラー結合情報量の利得に対する一般化を示し、これが視覚標的の人間による分別性評価と強い相関を持つことを示す。統計的精度の評価には、Bootstrap法を利用した。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グローバルなアフィン変換相関によるグレイスケール文字のアフィン不変認識
Affine-lnvariant Recognition of Gray--Scale Characters Using Global Affine Transformation Correlation

Toru Wakahara, Yoshimasa Kimura, Akira Tomono

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 4, pp.384-395, April 2001

Keywords: Gray-scale character recognition, normalized cross-correlation, global affine transformation, noise-tolerant and affine-invariant image matching, successive iteration method

本論文は、グレースケールの文字画像の新たで有望な認識手法について述べる。その鍵となるアイデアは2つある。第1に正規化された相互相関(cross correlation)によるマッチングを利用しているのでノイズに強いこと、第2にグローバルなアフィン変換を入力画像に適用しているため、目標画像に対してアフィン変換不変性が得られることである。特に、グレースケール画像の地形的特徴をマッチング条件として継続的に繰り返すことによって、最適なグローバルアフィン変換(GAT)が効率的に決定できる。ランダムノイズを有する、多様なアフィン変換を受けた数字のグレースケール画像を使って、このGATが高いマッチング能力を示すことを実証する。また、徹底的な認識実験によって、ノイズの多い30度以下の回転変形、30%以内のスケール変換、文字幅の20%以内の並進変形を受けた画像に対して94.3%の認識率を達成したが、単純な相関法だけの認識率の42.8%に比べ、十分高い値である。

Ej,HN

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


適応混合モデルのための相互情報理論
Mutual Information Theory for Adaptive Mixture Models

Zheng Rong Yang, Zwolinski

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 4, pp.291-296, April 2001

Keywords: Adaptive mixtures, entropy, mutual information, pattern recognition, statistical dependence, uncertainty

多くのパターン認識システムでは、本来の固有な確率密度関数(pdf)を推定する必要がある。そのため、通常は混合モデルがこの目的に利用され、分布の有限混合によって、本来のpdfが推定される。密度混合モデルの基本的演算成分は非線形写像関数を有する要素であり、これが混合に寄与する。効率的で正確なpdfの推定をするために、混合モデルに最適要素集合を選ぶことは重要である。以前の研究では、パターンに含まれる情報を元に真の分布を推測するのが常であった。本論文では、相互情報理論を利用して、2つの成分が独立かどうかを測定する。もしある要素が、少しでも相互情報量を持っていれば、これは、他の要素にも統計的に独立である。従って、この要素はシステムのpdfに大きな寄与をなすから、取り除くべきではない。しかし、もし特定の要素が大きな相互情報量を持っているなら、これは統計的に独立ではないであろうから、推定pdfに大きな損害を与えることなくこの要素を除くことができる。大きくて正の相互情報量を持つ要素を取り除き続けると、真のpdfに極めて近い最適構造の密度混合モデルが得られる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


内挿点距離の解析による嗅覚識別
Olfactory Classification via Interpoint Distance Analysis

Carey E. Priebe

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 4, pp.404-413, April 2001

Keywords: Ensemble classifiers, combining classifiers, nonparametric, nearest-neighbor, interpoint distance, rank statistic, subsample statistic, functional data, artificial nose, electronic nose, analytical chemistry, chemometrics

近年、電子嗅覚システムが開発されるようになってきたが、電子人工鼻の信号処理に新規なノンパラメトリックな手法を提供することが本論文の目的である。化学センサーにとって、複雑な背景信号から、低濃度の特定の単一化学物質を検出することは困難な応用分野である。本論文は、トリクロロエチレン(TCE)の検出のために設計された人工鼻が観測した化学センサーデータベースの分析性能を調査することを目的とする。この応用のために、点間距離に基づく部分サンプル集合を利用した手法を考える。実験結果は、このノンパラメトリックな手法が嗅覚識別の有力な手法であることを示している。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


周辺最大エントロピー分割基準の確率密度関数への漸近的整合性
Marginal Maximum Entropy Partitioning Yields Asymptotically Consistent Probability Density Functions

Tom Chau

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 4, pp.414-417, April 2001

Keywords: Marginal maximum entropy, recursire partitioning, pattern discovery, asymptotic optimal classification

周辺最大エントロピー基準は連続サンプル空間を回帰的に分割するために使われてきた。この基準はある種のパターンを見つける用途にはうまく当てはまってきたが、その理論的妥当性がはっきり述べられることはなかった。本論文では、基本的周辺最大エントロピー分割アルゴリズムは、漸近的に密度推定と整合性があることを示す。この結果から、周辺最大エントロピー基準は、パターンの発見に利用可能であることを支持しており、最適識別器が構成可能であることが示唆される。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


欠落データを含む最少投影再構成法
Minimal Projective Reconstruction Including Missing Data

Fredrik Kahl, Anders Heyden, Long Quan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 4, pp.418-424, April 2001

Keywords: Structure recovery, projectlye reconstruction, structure from motion, projective geometry, missing data

投影画像からの再構成に必要な最少データ数は、すべての画像中で各オブジェクト点が見えている場合には、良く知られている。本論文では、いくつかの画像中に欠落点を含む多数画像からの3D画像再構成問題の新たな解法を定式化しよう。欠落点を許す最少データを扱うことができれば理論的だけでなく実用的にも大変重要である。RANSACやLMSのようなブートストラップ法での頑健な推定とか、バンドル推定のような推定に、これらを利用することは不可欠である。次に3画像中の8点がある最少の場合の解法を示す。おの3つの画像中に、各々異なる欠落点が存在してもかまわない。この最少ケースには、11個もの解が存在することを証明する。さらに、3つか4つの欠落点をもつすべての最少ケースをリストアップする。最後に、合成画像と実画像をつかって、本論文で紹介するアルゴリズムは実用問題にも有用であることを実証する。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自然画像中の雑多なものの確率モデル
Probability Models for Clutter in Natural Images

Ulf Grenander, Anuj Srivastava

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 4, pp.424-429, April 2001

Keywords: Image models, object recognition, clutter, transported model

我々は自然画像中の雑多なものをモデル化する枠組みを提案する。その仮定として、1)実際は3Dであるオブジェクトが投影されて2D画像として見えている、2)ある種の簡単な条件は成り立つ、を考え、自然画像に対する解析的密度関数を導く。この表現は、観測された密度関数(ヒストグラム)によい一致を示す。多次元密度関数を導くとともに、いくつかの拡張も提案する。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.5


二次元形状モデルの自動構築
Automatic Construction of 2D Shape Models

Nicolae Duta, Anii K. Jain, Marie-Pierre Dubuisson-Jolly

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 5, pp.433-446, May 2001

Keywords: Shape models, point correspondence, flexible registration, automatic landmarks, shape clustering

二次元形状モデルの自動生成手順を述べる。輪郭点の座標により定義されたトレーニング用の形状例をモデリングシステムに与え、それらをProcrustes解析を用いて自動的に整列させて、クラスタのプロトタイプ(典型的なオブジェクト)と、クラスタ内の形状の変動に関する統計情報とを得るべくクラスタリングする。以前に報告した方法との違いは、第一にはトレーニングセットがまず自動的にクラスタリングされ、クラスタから外れると判断される形状例については破棄されることである。この方法では、クラスタのプロトタイプはクラスタに属さない形状から擾乱を受けることはない。第二の違いは、形状輪郭から抽出される登録された点の組の扱い方である。オブジェクト対の間の非線形な形状の差異と同じように、ポーズとスケールそれぞれの差異を考慮に入れた柔軟なポイントマッチング方法を提案する。このマッチング方法は、2つのオブジェクトの位置と大きさの初期値に対して独立であり、他のいかなる手動調整されたパラメタも必要としない。MR(磁気共鳴)による脳磁図において手作業でトレースされた輪郭線のうち、11の異なる形状を用いて、モデルに学習させている。学習したモデルを用いて、学習に用いられていない様々なMR脳磁図を分割する作業を行った。我々の形状登録手法を定量的解析した結果、各構造体の主クラスタ内部では、手動登録に比べ非常によい結果を示した。誤登録は平均で約1画素だった。我々の手法は、退屈で時間を浪費する従来の手動の二次元形状登録と解析に対して、完全自動な代替手段となり得る。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


トポロジカルな点群の分割に対する計算論的方法と画像解析への応用
A Computational Method for Segmenting Topological Point-Sets and Application to Image Analysis

Stiliyan N. Kalitzin, Joes Staal, Bart M. ter Haar Romeny, Max A. Viergever

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 5, pp.447-459, May 2001

Keywords: Differential topology, critical point-sets, ridges, image analysis, scale space

任意の空間次元を持つスカラー画像の、トポロジカルな下位次元点群に対する、新しい計算論的分割手法を提案する。本手法は、下位次元画像中の各点の近傍の傾斜ベクトルにより定義される、同一性クラス(homotopy class)を基本とする。またここでいう近傍は与えられた下位次元のベクトルフレームを超えて広がる線形包絡線により定義される。フレームのランクが最大となるような、最も単純なケースでは、極大点や鞍点などの臨界点の位置を絞り込む技法を用いることができる。ヘッセ行列の絶対値主方向による、任意の数の最初の最大値により形成されるフレームの、特に重要なケースについて検討する。他の種類の、次元性間の臨界面(異なる特徴量次元を持つ点群同士の臨界面)と同じように、本手法は正と負の稜線を分割する。主方向と結合した固有値の符号は、臨界面にあるサブセットに自然なラベリングを与える。一般的な結果として、包含関係によりリンクされた異なる次元性の点群の階層構造に対する、構造的な定義が得られる。本手法は明確な計算論的特徴を持ち、様々なアプリケーションで稜線やエッジの高速なセグメンテーションに用いることができる。上で定義されたトポロジカルな点群は多面的に結合しており、それ故に本手法は局所的な測量のみを用いた幾何学的なグルーピングに用いることができるのである。特別な画像座標が導入された場合の2つのケースを例示することで、本手法により得られる構造のグルーピング特性を説明した。その内の一例では、線形スケール空間コンセプトの枠組みの中で、画像解析について検討した。そのコンセプトの下では、トポロジカルな特性が、スケールパラメタに従って次第に簡略化される。このスケールパラメタは付加された座標軸と見なすことができる。第二の例では、局所方位パラメタを、伸張された構造のグルーピングと分割に用いる。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ファジー結合度を用いたマルチシードセグメンテーション
Multiseeded Segmentation Using Fuzzy Connectedness

Gabor T. Herman, Bruno M. Carvalho

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 5, pp.460-474, May 2001

Keywords: Segmentation, fuzzy connectedness, feature extraction, algorithms, clustering

ファジー結合度は、相当崩れた画像中からオブジェクトを切り出すのに用いられてきた。多重オブジェクトの同時セグメンテーションをいつも決定しているように見えるように、定義を与えることにより、ファジー結合度のアプローチを一般化する。いかなるシード点の組み合わせにおいても、この定義により一意にセグメンテーションを決めることができる。セグメンテーションを求めるアルゴリズムを示し、その出力結果を図示した。まずこのアルゴリズムと、現行の他のセグメンテーションアルゴリズムの比較を行う。何人かのユーザに対して、多数の画像での本アルゴリズムのシード点を決定してもらう実験を行った。その実験結果に基づきアルゴリズムの精度と頑健性についても報告する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


可変形状検出およびモデルベース領域グルーピングによる記述
Deformable Shape Detection and Description via Model-Based Region Grouping

Stan Sclaroff, Lifeng Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 5, pp.475-489, May 2001

Keywords: lmage segmentation, region merging, object detection and recognition, deformable templates, nonrigid shape models, statistical shape models

本稿では可変形状検出とその認識方法について述べる。可変形状テンプレートを用いて、画像を大域整合性のある表現に分類する。またその解釈は最小記述長原理により、ある程度決まる。統計的形状モデルは、各オブジェクトクラスの大域的なパラメトリック変形に関する事前確率を向上させる。本システムは一旦教育されると、変形した形状を背景から自動的に切り出し、近傍のオブジェクトや影などと融合させることは無い。このような定式化は、あらゆる領域切り出しアルゴリズム(テクスチャ、カラー、動き)により得られた画像領域群に用いることができる。修復した形状モデルは直接オブジェクト認識に用いることができる。併せてカラー画像に関する実験を報告する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビジュアルサーチ中の注視方向に関する最大尤度戦略
A Maximum-Likelihood Strategy for Directing Attention during Visual Search

Hemant D. Tagare, Kentaro Toyama, Jonathan G. Wang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 5, pp.490-500, May 2001

Keywords: Attention, object recognition, visual search

画像の部分領域に局在するターゲット物体に注目する場合、画像全体を精密に解析する方法は、計算論的に無駄が多い。有用な「注視戦略」とは、高速かつ概算の画像測量を用い、それと目される部分領域を指し示すことで、全体的な計算量を削減することができるものである。本稿では、まさにそれが可能な最大尤度注視機構を提唱する。この注視機構は、物体がいくつかのパーツからなり、そのパーツもまた様々な特徴を持つことを認識する。上記機構は、ターゲットから引き出せる最大尤度の、物体部分と画像特徴との組みを示す。近似と同じように正確な尤度の計算が行われる。またこの注視機構は適応的である。これは即ち画像の特徴量の統計的性質に対して適応的な振る舞いを示すということである。この注視機構が、実際の物体を選択するまでに評価するのは、全ての部分-特徴対のうち平均2%以下であることを実験結果は示しており、これはビジュアルサーチにおいて、かなりの計算量の削減となる。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数の航空写真を用いた建造物の検出とモデル化
Detection and Modeling of Buildings from Multiple Aerial Images

Sanjay Noronha, Ramakant Nevatia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 5, pp.501-518, May 2001

Keywords: Aerial image analysis, building detection, building modeling, perceptual grouping, multiple image analysis

航空写真からの、ビルディングなどの人工物の自動検出および記述は多くの応用分野でますます重要になってきている。シーン切り出しや三次元推量、そして困難な条件下での形状記述などのような、一般的な問題への洗練された研究分野にも踏み込んでいる。複数の航空写真から、直線的かつ平坦もしくは対称な「切り妻」を持つビルを検出し、その三次元モデルを構築するシステムについて説明する。但しそれはステレオグラムになっている必要はない。(それは他の機会に得られるだろう)四角い屋根部分(の形状)に関する仮説は、画像中の線分を階層的にグルーピングすることで得られる。そして予測された壁と影を探すことで、この仮説は確かめられる。この仮説生成処理は、階層的グルーピングと、後続の段におけるマッチング処理を結びつける。三次元構造物同士の重複や相関を解析し、(仮説の)不整合を解消する。このシステムは多数の実画像を用いてテストされ、良好な結果を示している。いくつかの試験画像は、その評価と共に本稿に収録されている。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


領域の投影整列
Projective Alignment with Regions

Ronen Basri, David W. Jacobs

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 5, pp.519-527, May 2001

Keywords: Pose recognition, partial occlusion, projective transformations, object recognition

最近我々は、領域を用いて物体の姿勢を決める方式でありながら、その領域の一部が隠蔽されていてることをも許容する、認識方法に関するアプローチを提唱した。領域を用いた考え方は、現行の大域的、局所的なアプローチに代わる、魅力的な代替手段たりうる。そして大域的特徴と異なり隠蔽と切り出しの誤りを扱うことができ、また局所的特徴と異なり検出器の誤りに(過度に)敏感ではなく、調整も楽である。この領域を基にしたアプローチは、画像情報を直接にも使う。また算術的表現などのように信頼性の高い計算が困難な中間表現形態は構築しない。本稿では更に、この方法を投影変換を受けた平坦な物体に対して適用した場合の特性について解析している。3つの隠蔽の無い領域があれば、上記変換を一意に決定するのに充分であり、また物体の大きなクラスに関しては、2つの領域では本目的に対して充分でないことを証明する。しかし、いくつかの領域を用いることができる場合、その内の何個か、もしくは全ての領域が著しく隠蔽されていても、物体の姿勢は一般的に再現可能であることを示す。我々のこの解析は、投影変換における点群のフローパターンを、固定点と対比した調査に基を置いている。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ノイジーなデータを対象とした、パラメトリックもしくはノンパラメトリックのフィッティングモデルに対するベイズ手法
A Bayesian Method for Fitting Parametric and Nonparametric Models to Noisy Data

Michael Werman, Daniel Keren

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 5, pp.528-534, May 2001

Keywords: Bayesian fitting, parametric models, nonparametric models

ノイジーなデータを対象とした、パラメトリックもしくはノンパラメトリックのフィッティングモデルに対する、シンプルなパラダイムを提唱する。これによって、古典的なMSEアルゴリズムと関連するいくつかの問題を解消できる。これは、モデル上の各点を、各データ点の考えうる母分布と見なすことにより実現される。線分のフィッティングのような、MSEアプローチにおける不良設定性問題を解くのに、本パラダイムを用いることができる。一般的な曲線について、例え大きな不連続があったとしても、ずば抜けて素晴らしい結果を示すことが証明される。ガウスノイズまたは均一ノイズが混入している、線、円、楕円、線分、方形、そして一般的な曲線を含む、数々のフィッティング問題について結果を示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


陰影からの形状復元を用いた物体認識
Object Recognition Using Shape-from-Shading

Philip L. Worthington, Edwin R. Hancock

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 5, pp.535-, May 2001

Keywords: Shape-from-shading, object recognition, shape-index, histogram, constant shape-index maximal patches, graph-matching

近年報告されている、陰影からの形状復元(shape-from-shading:SFS)を用いて、グレーレベルの画像から抽出された物体表面の形状情報が、三次元物体認識に用いることができるかを検証する。このアルゴリズムによる曲率と形状インデックス情報が、表面形状に基づいた物体認識に、どの様に用いることができるかについて考察した。対照的な二つの物体認識方法について調査した。第一の方法は、大まかな低レベルの属性を基礎とし、曲率及び方位の測量のヒストグラムを用いる。第二の方法は、一定の形状インデックス最大パッチの体系的なアレンジと、それに結合する領域の属性を基本とする。領域の湾曲度と、大きさによる領域の順位付けにより、約96%の認識率が得られることを示す。グラフマッチング法を含む多数の認識手法に投票することにより、98〜99%の認識率を達成可能であることを示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.6


動きからの射影型多物体構造復元のための高速かつ正確なアルゴリズム
Fast and Accurate Algorithms for Projective Multi-Image Structure from Motion

John Oliensis, Yacup Genc

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.546-559, Juney 2001

Keywords: Projective multiframe structure from motion, structure from motion, projective geometry, factorization, linear algorithms, Sturm/Triggs factorization, dominant plane, bundle adjustment, shape from X, low level vision

追跡点により構成される複数の画像系列から、射影構造および動きを計算するいくつかのアルゴリズムについて解説する。これらのアルゴリズムは本質的に線形であり、極端なサイズでないならば、いかなる動きに関しても適用可能であり、最大尤度推定と同等の精度である。そしてSturm/Triggsの因子分解手法よりもよい結果を示し、それらと同等に高速で、束調整(bundle adjustment)よりも高速である。(反復型の)Sturm/Triggsの手法は、線形なカメラの動きに関してよく失敗することを我々の実験結果は示している。更に、射影型の我々のアルゴリズムと、射影/ユークリッドの混合型戦略を比較し、共通の条件を実験を通じて検証する。その条件下では校正は固定、かつ大まかには既知である。主平面補償の性質を明らかにし、そしてその補償は、シーンを平面的なものと見なして行う近似よりというよりも、小さな変換の近似と見なせることを示す。我々の投影的アルゴリズムを用いると、射影変換により構造と動きが変換されている可能性があるにもかかわらず、(射影された)実際とは逆方向の奥行きや、ホモグラフィー(実際の三次元形状は異なるが、射影された像は同一の物体の総称:訳者注)を正確に復元できることを示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複雑なビジュアルオブジェクトの追跡のための確率的データ連結法
Probabilistic Data Association Methods for Tracking Complex Visual Objects

Christopher Rasmussen, Gregory D. Hager

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.569-576, Juney 2001

Keywords: Visual tracking, data association, color regions, textured regions, snakes

本稿ではデータ連結を理路整然と論ずることが出来るフレームワークについて述べる。この方法は幾多の困難な視覚環境において、トラッキングの性能を向上させうる。追跡戦略の階層性は、データの「あいまいさ」や欠落の原因が下記の3つであることに由来する。 1)ノイズに似た視物体、2)長期に渡り存在するシーン中の既知の要素(他の追跡物)、もしくは3)長期に渡り存在するシーン中の未知の要素。まず現行の確率的データ連結フィルタ(probabilistic data association filter : PDAF) −これは、入り乱れた動きに対して抵抗となり、またすばやい動きに追従することも出来る−、から派生させた、ランダム化追跡アルゴリズムを導入する。本アルゴリズムは均質領域、テクスチャ領域、スネーク、の3つの異なる追跡モダリティに適用され、他の方法の直接的な包含関係を以って拡張的に定義される。第二に、連結PDAFを適用することにより複数の物体を追跡するための能力を付加した。この連結PDAFは同じモダリティの追跡器と画像特徴量の間の選択が首尾一貫しているかを監視する。これにより、混合追跡器モダリティを許容し、物体のオーバーラップをロバストに扱える技法を導出する。最後に、幾何学的(部分など)にも、質的(属性など)にも多様であるキューの結合として複雑な物体を表す。部分追跡器と、各個の部分の複合記述属性の間の、頑健で相互に関連した拘束条件により、(追跡対象の)物体全体をよりはっきりとさせ、誤追跡への感度を低減させる。人々の姿や、顕微鏡で見た細胞、そしてチェスの駒などの様々な物体に対して実験結果を示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非同時サンプリング地雷センサにおける特徴レベルと決定レベルの融合
Feature-Level and Decision-Level Fusion of Noncoincidently Sampled Sensors for Land Mine Detection

Ajith H. Gunatilaka, Brian A. Baertlein

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.577-589, Juney 2001

Keywords: Land mines, sensor fusion, infrared, ground penetrating radar, metal detectors

複数のセンサからのデータにおいて、特徴レベル(検出前)と決定レベル(検出後)の融合方法を示し、(従来の)方法と比較する。本研究では、非均等なポイントからサンプリングされた、非均等データを扱うのに適した融合方法を用いている。しかしこれは原理的には最適ではない。なぜならば全ての検出器に検出される場合以外では、この融合の恩恵を全て受けることができないからである。本稿では、非均等かつ非同時サンプリングデータの特徴レベルの融合に関する新規のアルゴリズムについて述べる。ここでモデルはセンサからのデータに適応し、またこのときのモデルのパラメタを特徴量として扱う。いくつかの実際上の簡略化を施し、特徴レベルと決定レベル両方での定式化について述べる。閉じた形での表記は正規分布するデータの特徴レベルの融合に用いることができ、複数のセンサから得られたデータの、サンプル点の位置の精度がどの程度求められるかを検証するための合成データと共に用いることもできる。試験場内の擬似地雷に対して、金属探知機、地中探査レーダー、及び赤外線カメラから得られた実験データを用いて、特徴レベルおよび決定レベルの融合アルゴリズムの性能を比較する。二値の決定の融合に関しては、最良のセンサよりも著しく良い性能とは言いがたいことが判った。特徴レベルの融合は、検出信頼性情報が得られる場合(「緩やかな決定」融合)における決定レベルの融合のと同じように、各センサよりも明らかに良い性能を示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


条件付ガウシアンネットワークの教師なし学習における次元性の削減
Dimensionality-Reduction in Unsupervised Learning of Conditional Gaussian Networks

Jose Manuel Pena, Jose Antonio Lozano, Pedro Larranaga, Inaki Inza

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.590-603, Juney 2001

Keywords: Data clustering, conditional Gaussian networks, feature selection, edge exclusion tests

本稿では、特徴選択の研究成果である条件付ガウシアンネットワークの教師なし学習についての新たな性能向上について述べる。データベースの各ケースのクラスタメンバーシップを反映するラベルがない状況下で、それらの特徴(量)と他の特徴(量)の相関は低く、学習過程とは独立であると見なせる、という仮定に我々の提案は基づく。それゆえ関連ある特徴量のみを用いてこの過程を実施することを提案する。その上で、他の全ての関連のない特徴量を、学習済みモデルに加え、オリジナルデータベースを説明するためのモデルを構築する。また簡明かつ効率的な、特徴量と学習過程との関連性の測定について述べる。更にこの測定方法により、自動的に関連する特徴量を特定するための「関連性の閾値」を計算することができる。合成および実世界データベースに対する実験結果により、関連ある特徴と、関連のない特徴を分別する能力があり、学習が加速されることが示される。しかし、オリジナルのデータベースを整合的に説明するためのモデルが未だ構築できていない。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


円形運動のプロファイルからのエピポーラ幾何
Epipolar Geometry from Profiles under Circular Motion

Paulo R.S. Mendonca, Kwan-Yee K. Wong, Roberto Cipolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.604-616, Juney 2001

Keywords: Structure and motion, epipolar geometry,  rofiles, apparent contours, circular motion

単一のカメラの前で、ターンテーブルに乗って回転する物体のプロファイルからの、動きの推測問題について述べる。その主な学術発展への貢献は要するに、プロファイルのみを用い、実用的で、かつ正確な解法の開発である。それは物体の形状を復元できるだけでも充分に重要である。点、もしくは線の一致はまったく必要なく、それらの特徴がそれ以上のいかなる適合も必要としないならば、提案した手法は同様に用いることができる。回転する物体を走査して得られる回転表面の対称プロファイルを利用した、頑健かつエレガントな方法により、回転軸のイメージおよびエピポーラ線と関連するホモグラフィー(実際の形状は異なるが、射影映像が類似すること:訳者注)を得る。それらの対称プロファイルと、回転物体の画像に対する幾何学的な拘束条件と併せ考えることにより、カメラ中心を含む面の投影である水平線についての画像を算出し、その後エピポール、即ち画像系列の完全なエピポーラ幾何情報を得る。連続的な手法により得られたこのエピポーラ幾何情報(回転軸のホモグラフィー像、水平線の像、エピポール)により、プロファイルから動きを復元する通常の手法を用いた場合によく陥る問題の多くを回避することが出来る。特にエピポールの検索は、そのほぼ全てのステップを単純な一次元の最適化問題として扱うことが出来る。パラメタの初期化は簡明であり、アルゴリズムの全ての段階で自動化されている。エピポーラ幾何情報の推定の後に、ユークリッド型の動きが復元される。この復元には校正グリッド若しくは自己校正手法を用いて得られた、固定値のカメラ内部パラメタを用いる。最後に、ここまでの段で推定された動きからプロファイルを用いて回転する物体が再構築される。実画像から得られたデータを示し、提案手法の効率性と有効性を明らかにする。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


繰り返し並進二次式を用いた再構築ベースのシーン認識
Reconstruction-Based Recognition of. Scenes with Translationally Repeated Quadrics

Ragini Choudhury, J.B. Srivastava, Santanu Chaudhury

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.617-632, Juney 2001

Keywords: 3D objects, reconstruction, recognition, projective invariants, translationally repeated objects, quadrics

不変式ベースの単一画像からの二次構成の認識に関する問題について述べる。それらの構成は強固に結合した反復二次曲面によりなる。この問題は再構築というフレームワークで取り扱われてきた。LuongやVievilleの研究の流れをくむ、相対的アフィン構造を用いた新しい数学的フレームワークが提唱されている。この数学的フレームワークを用いると、単一の画像、かつその中の物体を区別するための4つの点、およびその移動、から変遷する物体を投影的に再構築できる。この方法は変遷する二次式の対を再構築するために用いられてきた。我々は既に適当な二次式の結合投影不変量を提案してある。二次構成の認識という目的のために、再構築された二次式の対における、これらの不変量を計算する。合成画像と実画像における実験結果により、今回提案した不変量ベースの認識手法の識別能力と安定性が確かめられた。具体例としては、二次式でモデル化される、並進が繰り返されるドームモデルにより特徴付けられるモニュメントの画像を区別するために、本手法を用いている。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ウェーブレットとスプライン曲線のエリアモメントの正確な計算方法
An Exact Method for Computing the Area Moments of Wavelet and Spline Curves

Mathews Jacob, Thierry Biu, Michael Unser

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.633-643, Juney 2001

Keywords: Area moments, curves, splines, wavelets, Fourier, two-scale relation, box splines, wavelet-Galerkin integrals

スケーリング関数やウェーブレット基底により描かれる曲線による領域境界のモメントの正確な計算方法を示す。グリーンの定理を用いて、エリアモメントの計算が曲線の係数に適当な多次元フィルタを施すことと同値であることを示し、その後スカラー積を計算する。その多次元フィルタの係数は、2つのスケールの相関と同じように、予め正確に計算されている。この新たな方法によるパフォーマンス向上を示すために、ピクセルベースのアプローチやポリゴンによる領域の近似などの、現存する方式との比較を行う。同時にスケーリング関数がsinc(x)である場合の代替関数も提案する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


寡から多へ:様々な照明とポーズでの顔認識に対するイルミネーションコーンモデル
From Few to Many: Illumination Cone Models for Face Recognition under Variable Lighting and Pose

AthinodoroS S. Georghiades, Peter N. Belhumeur, David J. Kriegman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.643-660, Juney 2001

Keywords: Face recognition, image-based rendering, appearance-based vision, face modeling, illumination and pose modeling, lighting, illumination cones, generative models

照明や視点の変動下での人間の顔の認識のための、見え方に基づいた合成手法を示す。本手法は、固定ポーズのあらゆる可能な照明条件で得られた物体の画像集合は、画像空間において凸型錐体(convex cone)をなすということを利用する。それぞれの顔の、照明の方向が異なる少数の訓練画像を用いて、顔の形状とその表面の反射係数(アルベド)を再構築することが出来る。その結果、この再構築は合成モデルとして機能し、未知のポーズや照明条件での、顔の画像を与える--若しくは合成する--ことが出来る。上で述べたポーズ空間はこの段階でサンプリングされ、各ポーズに対して対応するイルミネーションコーンが低次元の線形下位空間により近似される。この線形下位空間の基底ベクトルはこの合成モデルを用いて生成される。この認識アルゴリズムは、各テストイメージに、最も近い近似イルミネーションコーンを割り当てる。(この距離の計算には画像空間内のユークリッド距離を用いる。)この顔認識方法をYale Face Databese B内の4,050の画像について試験した。これらの画像は、10個人の405通りの条件(9つのポーズ×45の照明条件)本手法は、極端な照明方向などの例外を除き、ほぼ全く誤り無く顔を認識し、その性能は、合成モデルを用いない通常の認識手法を遥かに凌ぐ。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


明度変動の物理モデルによるオプティカルフローの計算
Computing Optical Flow with Physical Models of Brightness Variation

Horst W. Haussecker, David J. Fleet

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.661-673, Juney 2001

Keywords: Optical flow, physics-based least squares

殆どのオプティカルフローの手法が、明度の恒常性を前提とするものであるにも関わらず、この拘束条件は度々破られてしまい、結果として画像の動きの予測も貧弱であることが知られている。本稿では一般化されたオプティカルフロー推定の定式化について述べる。この推定は経時変化する物理プロセスによる明度変動のモデルに基づく。これらのモデルは、照明の方向、動き、及び赤外線画像における熱伝導モデルを鑑みた、可変の表面方位を含んでいる。これらのモデルによって、二次元画像の動き、そして明度変化モデルの関連する物理パラメタも同時に推定する。この推測問題は、総合最小二乗法(total least squares: TLS)を用いて、これらのパラメタの信頼度と併せて定式化される。合成画像と自然画像の両方について4つのドメインで実験を行い、この定式化が如何に優れた二次元画像の動き推定であるかを示した。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


クラスタ対称性に基づく距離を用いた、修正版K-平均法アルゴリズム
A Modified Version of the K-Means Algorithm with a Distance Based on Cluster Symmetry

Mu-Chun Su, Chien-Hsing Chou

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.643-660, Juney 2001

Keywords: Data clustering, pattern recognition, k-means algorithm, face detection

本稿ではクラスタ化されたデータに対する修正版K-平均法アルゴリズムを提唱する。このアルゴリズムでは、「点対称」考えに基づく新たなノンメトリック距離法を採用する。この種の「点対称距離」はデータクラスタリングや人間の顔検出などに適用することが出来る。幾多のデータセットを用いて本手法の有効性を示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


見かけ画像への能動的モデル
Active Appearance Models

T. F. Cootes, G. J. Edwards, C. J. Taylor

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.681-685, Juney 2001

Keywords: Appeaance models, deformable templates, model matching

見かけ画像にマッチングさせるための新規な統計モデルについて述べる。訓練集合から学習したモデルパラメータ集合によってモデル形状と中間調の変動を制御する。モデルパラメータと、これによって生じた画像エラーの摂動によって、効率的な反復マッチングアルゴリズムを構成する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


「可変形状検出およびモデルベース領域グルーピングによる記述」の訂正事項
Corrections to "Deformable Shape Detection and Description via Model-Based Region Grouping"

Stan Sclaroff, Lifeng Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 6, pp.685-685, Juney 2001

Keywords:

上記論稿(2001年5月、vol23, no.5)の475ページ右コラムの第5パラグラフの第二センテンスに編集上の誤りがあった。実際には「残念ながら最適な区分を見つけることはNP困難問題であり、それゆえ実際のシステムでは近似戦略が必要となる。」となるはずであった。更にこれも編集上の誤りで、488ページの謝辞が省略されてしまっていた。本来ならば下記の通りの通知となるはずであった。 「本研究は合衆国におけるNaval Research Young Investigator Award N00014-96-1-0061および同National Science Foundation grants IIS-9624168 and EIA-9623865によるサポートを一部受けている。」

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.7


クラス不確定性と領域均一性による最適閾値処理
Optimum Image Thresholding via Class Uncertainty and Region Homogeneity

Punam K. Saha, Jayaram K. Udupa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 7, pp.689-706, July 2001

Keywords: Image segmentation, thresholding, uncertainty, scale, homogeneity, threshold energy, segmented image information

閾値処理は、濃淡画像を2値画像に変換する画像セグメント化の一般的方法である。しかし、最適な閾値を選択する問題は過去何十年もの挑戦的課題となっている。セグメント化を画像と同じ空間で処理する方法の他に、他の空間で処理する方法も、より進んだ手法となりつつある。今日まで報告されているほとんどの2値化処理法は、情報理論に基づいて、ヒストグラムを解析する方法である。これらの手法は、把握された画像形状を活用してはいなかった。ここでは、新規な2値化手法である画像強度に基づくクラスの不確定性---ヒストグラムに基づく性質---と、領域均一性---画像形状に基づく性質---の両方を利用した方法について紹介する。領域の均一性演算のためにスケールに基づく定式化を利用する。ある任意の閾値において、その閾値でセグメント化された各々の領域における強度分布にガウス関数を当てはめることによって、強度に基づくクラスの不確定性が計算される。最適2値化理論は、どんなデジタル画像入力装置を使ったとしても、対象物はあいまいな境界線を持っているという仮定に立脚している。ここでの中心的考え方は、ある対象物の周りの不確定クラスが最大となる画素レベルを選択する、と言うアイデアに基づいている。これを達成するために、クラス不確定性や領域均一性を使った、新規な閾値エネルギー基準が定式化され、画像の位置によらずクラス不確定性と領域均一性の両方が大きなとき、あるいは、両方とも小さいとき、この閾値エネルギーが大きくなるようにされた。最後に、この手法は全体の閾値ルギーが最小となる閾値が選ばれる。この手法と、最近発表された最大セグメント化画像情報と比較された。この提案手法の優れた点は、治療用画像における定性的結果からでも明らかであるし、治療用画像から2値化された実物オブジェクトに多段階のボケや、ノイズ、背景偏移を加えた250個の模式画像でも確かめられた。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


構造的画像の最大合致検索
Best-Match Retrieval for Structured Images

Alfredo Ferro, Giovanni Gallo, Rosalba Giugno, Alfredo Pulvirenti

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 7, pp.707-718, July 2001

Keywords: Structured data storage and retrieval, distance-based query processing, triangle inequality

本論文は、構造をもった画像の検索のために、高速最大合致検索のための新規な手法を提案する。木構造の距離の性質にも、三角不等式が成り立つことがOflazerによって証明された。この性質は、画像集合を蓄積したデータベースのtrie(トイラ)検索の飽和アルゴリズムに利用できる。この新規な方法は従来のOflazerの手法に比べてずっと最適化されており、どんな均一に階層化されたオブジェクトの検索にも適用可能である。この新手法は、距離に基づく多くの探索戦略の1つであり、多量の歴史的画像データの索引付けや保守にとって興味ある手法である。この手法を例題を使って示し、問い合わせ処理に応用した場合の高速化のデータを示そう。これと代表的なMVP(Multiple Vantage Point)-Treeアルゴリズムと比較する。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ラテン文字文書における文書構造の抽出のための最適化手法
An Optimization Methodology for Document Structure Extraction on Latin Character Documents

Jisheng Liang, Ihsin T. Phillips, Robert M. Haralick

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 7, pp.719-734, July 2001

Keywords: Document image analysis, statistical pattern analysis, text line extraction, performance evaluation

本論文では文書画像の構造表現について形式的定義を与え、文書画像の分割問題としての文書画像構造抽出を定式化する:すなわち、入力文書画像を最適に分割する解を見つけ、これを階層的な木構造に分割し、各階層レベル内の属性は類似した物理特性と意味ラベルを有する。さらに、階層レベル別に文書の構造を構成することが可能な、統一的手法を提案する。緩和法に似た、再帰的手法を使って解を分離し、抽出された構造の確率を最大化する。この分離プロセスに利用された確率は、大量の訓練集合を同一階層内の多様な測度で訓練することから推定された。この訓練集合で推定されたオフラインの確率値が、オンラインでの文書構造抽出での決定に関った。この枠組みを利用して、文字行の抽出アルゴリズムを実装した。このアルゴリズムは、1600ページの文書画像データベースUW-IIIによって評価された。検出された領域は、実際の真の画像と比較され、領域重なり率が評価された。105,020の文字行からなる画像を処理させたところ、104,773行を正しくセグメント化したが、これは99.76%の精度に相当する。このアルゴリズムの詳細も本論文に記述されている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


サポートベクトルマシンによる顔正面画像の認証のための伸縮性グラフマッチング効率向上
Using Support Vector Machines to Enhance the Performance of Elastic Graph Matching for Frontal Face Authentication

Anastasios Tefas, Constantine Kotropoulos, Ioannis Pitas

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 7, pp.735-746, July 2001

Keywords: Face authentication, elastic graph matching, Fisher's discriminant ratio, constrained least-squares optimization, Support Vector Machines

伸縮性グラフマッチングによって正面顔画像認証の効率を向上させる新規な方法を提案する。まず始めに、識別性能から伸縮性グラフのノード点に局所類似値の重み付けをする。その重みの1次結合に対して、強力、かつ、確立した最適化手法を適用する。もっと正確に言えば、統計的パターン認識とサポートベクトルマシンの不等号式集合を制約条件として、フィッシャーの判別率を2次形式問題として再定式化した方法を新たに提案する。線形・非線形のどちらのサポートベクトルマシンも、最適分離超平面と最適多項式決定曲面を形成するよう構築される。この方法がM2VTSデータベースの正面顔画像認証に適用された。この実験結果は、ここに提案する重み付け手法を利用することで、形体的伸縮性グラフマッチングの効率が、大きく向上したことを示している。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


アンチ顔画像検出のための高速手法
Antifaces A Novel, Fast Method for :Image Detection

Daniel Keren, Margarita Osadchy, Craig Gotsman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 7, pp.747-761, July 2001

Keywords: Image detection, smoothness, distribution of natural images, rejectors

本論文は、正面顔画像が多様な線形変換受けたような複雑な画像集合のような場合にもうまく作動する新規な検出手段を提供する。また、異なる視野角から見た3Dオブジェクトの検出にも応用可能である。検出されるはずの画像集合全体をマルチテンプレートと呼ぶ。この場合、検出問題としては、単なる単純フィルター(あるいは検出器)を逐次適用するだけで解くことができる。このフィルターはマルチテンプレートの少数顔画像(ここでは、候補外の画像を「アンチ顔」として抽出)と、大量のランダムな自然画像に対してみのために設計しておけばよい。そのためには自然画像の分布を単純な確立分布に従うものと仮定して達成でき、実際、うまく行く。最初の検出器で閾値をパスした画像だけが、2段目の検出器で吟味される。以下同様。この検出器は独立して作用するよう設計されているから、偽の警報は非相関である。このことから、偽の警報が出る割合は、検出器の増加と共に指数関数的に減少していく。このことから非常に高速な検出アルゴリズムが開発できた。典型的には、N-画素の画像を識別するには(1+5)N個の使ってN画素画像が識別可能となる。このアルゴリズムが有効であるためには訓練ループは不必要である。有名な固有顔画像法、およびサポートベクトルマシンとを比較した結果は、このアルゴリズムの効率が有望であるだけでなく、処理測度はずっと高速であった。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


重み付きフィッシャー基準によるマルチクラス線形次元縮小
Multiclass Linear Dimension Reduction by Weighted Pairwise Fisher Criteria

Marco Loog, R.P.W. Duin, Member, R. Haeb-Umbach

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 7, pp.762-764, July 2001

Keywords: Linear dimension reduction, Fisher criterion, linear discriminant analysis, Bayes error, approximate pairwise accuracy criterion

統計的パターン識別問題では、K-クラス問題を線形に既約する、いわゆる線形判別分析(LDA)、すなわちフィッシャーのK-クラス基準、が利用される。本論文では、このLDAに重みを付けた線形の基準を導入することによって計算負荷が小さい線形判別法を導入する。個々のクラス平均ユークリッド距離によって、クラス対へのLDA重みの寄与が定まることがわかる。異なる重み関数を導入することによって、我々はLDAを一般化する。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


焦点距離未知のカメラによる画像1枚からの線形パラメータ化モデル復元
Reconstruction of Linearly Parameterized Models from Single Images with a Camera of Unknown Focal Length

David Jelinek, Camillo J. Taylor

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 7, pp.767-773, July 2001

Keywords: 3D reconstruction, uncalibratecl imagery, numerical optimization

本論文は、焦点距離が未知のカメラで撮影された1枚の画像から、オブジェクトの次元復元の課題を扱う。いま、対象となっているオブジェクトは、多面体の頂点が次元ベクトルλの関数の線形結合によってモデル化されるとみなせる。この復元プログラムの入力は画像中の特徴量とモデル中の特徴量の対応付けである。この情報を元にして、プログラムはカメラの概略投影モデルを決定し(スケールは直行座標系か、あるいは遠近座標系)、オブジェクトの次元を決定し、そのカメラに対する姿勢と、遠近座標系の場合は、カメラの焦点距離を決定する。本論文は、形状再現モデルが低次元(3次元以下)のコンパクト集合の最適化問題として捕らえることができるかを示している。この最適化問題は、多数始点法による標準的非線形最適化手法を使って効率的に解くことができる。ここに多数始点法とは、標本空間を均一な多数の開始点によって解く方法である。その結果、いかなるパラメータの推定を必要としない、初期推定不要の効率的で高信頼性の解を求めるシステムとなった。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手書き漢字(中国文字)オフライン認識のための離散的文脈依存統計モデル
A Discrete Contextual Stochastic Model for the Offline Recognition of Handwritten Chinese Characters

Yan Xiong, Qiang Huo, Chorkin Chan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 7, pp.774-782, July 2001

Keywords: Offline recognition of handwritten Chinese characters, contextual stochastic model, discriminative training, Markov random field

手書き漢字(中国文字)のような変形しやすく複雑な文字の認識のために、離散的文脈依存統計モデル(CS)を研究した。CSモデルを文字認識に使う上での3つの基本的問題について考察し、これら問題を解決するためのいくつかの手法について調べた。CSモデルパラメータの離散的訓練法の定式化法についても紹介し、その実用的利用法も調査した。多様なアルゴリズムの特徴を図示するために、極めて類似した漢字50組からなるの語彙に対する認識課題の比較実験を行った。その結果、認識効率改善には離散的訓練が有効であることが確認された。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.8


クラスターに基づくハイブリッド進化探索法
Hybrid Evolutionary Search Method Based on Clusters

Ming Li, Hon-Yuen Tam

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.786-799, August 2001

Keywords: Evolutionary computation, ART neural network, prematurity, cluster, optimization

本論文は、クラスターに基づくハイブリッド進化探索(HESC)手法について述べる。この手法は標準的進化探索法(SES)に固有な収束不十分性の問題点を軽減しながら、探索効率を向上させるように設計されている。これは主要な種(species)を同時に進化させながら、種の変異速度を増加させる。ハイブリッド探索手法とは、1つのエージェントの局所的探索を並列化させ、マルチエージェントが主要種に対してグローバルな進化論的探索を実施する。探索中は、ファジーART ニューラルネット(ART NN)のクラスタリングや訓練による履歴を利用して、効果的探索が達成される。このHESCの特長は、1)各世代の個体間分散が保証されていること、2)重要領域を有効利用するための局所探索と、全空間探索調査のためのグローバルな探索が効果的に統合化されていること、3)高速変異種に対する高速探索が可能であることと追加種から主要種への移動が可能であること。これらの特長は、困難な最適化問題を実験的に解くことで確認された。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像やビデオ中の教師なしカラー・テクスチャー領域のセグメンテーション
Unsupervised Segmentation of Color-Texture Regions in Images and Video

Yining Deng, B.S. Manjunath

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.800-810, August 2001

Keywords: Image segmentation, color segmentation, texture segmentation, video segmentation, spatiotemporal segmentation

画像やビデオから、カラーテクスチャー領域の、新規な教師なしセグメンテーション法を紹介する。この方法はJSEGと呼ぶことにするが、2つの独立したステップから構成されている:カラー量子化と空間セグメンテーション。第1のステップにおいて、画像中のカラーは画像分割に利用するためにいくつかの表現クラスに量子化される。次に画素が、対応するカラークラスのラベルに置換される。こうして画像のクラスマップができあがる。この研究の目的は空間セグメンテーションであり、そのための、クラスマップを利用した「良い」セグメンテーション基準を与える。この基準を局所窓に応用するすることによって「J-画像」が出来、値の大小がカラーテクスチャーの境界の可能性を示し、境界の内側か外側かが分かる。この後、マルチスケールJ画像に基づく領域成長法によって画像がセグメント化される。類似の方法がビデオ画像にも適応された。更に領域成長法には領域追跡手法が内蔵されており、これによって、非剛体の動きの場合でも、整合性のあるセグメンテーションと追跡結果が得られる。実画像や実ビデオへの適応実験によりJSEGアルゴリズムのロバスト性が示された。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


トレース変換とその応用
The Trace Transform and Its Applications

Alexander Kadyrov, Maria Petrou

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.811-828, August 2001

Keywords: Radon transform, Trace transform, invariant features, image database search, change detection

直線に沿って十分な情報がある場合は、任意の2D関数は完全に復元することができることが知られている。これが、有名なラドン変換である。ラドン変換の導関数はハフ変換である。一般化ラドン変換であるトレース変換を提案するが、これは画像関数をある種の汎関数によって、直線に沿って計算する手続きから出来ている。異なる汎関数は、画像の異なる変換に対して独立である可能性がある。ここでは、汎関数が3つの異なる応用分野で有用であるための性質を紹介する;すなわち、画像の回転、並進、拡大縮小に対して不変特徴量を構成するため、回転、並進、拡大縮小パラメータに敏感な特徴量を構成するため、我々がモニターしたいと思っている現象に良く関連する特徴量のそれぞれについて。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


N-次元テンソル投票と、エピポーラ幾何推定への応用
N-Dimensional Tensor Voting and A..pplication to Epipolar Geometry Estimation

Chi-Keung Tang, Gerard Medioni, Mi-Suen Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.829-844, August 2001

Keywords: Tensor, hyperplane inference, epipolar geometry, matching, robust estimation

我々はエピポーラ幾何推定の効率と効果について、8D空間の疎でノイズの多い点群集合から超平面の1つを推測する定式化問題について述べる。対応関係のない2つの静的情景画像において、ノイズを含む点対応集合があるとする。動くオブジェクトが存在している場合であっても、我々の手法は良い合致を見付出し、はずれ点を除外する。この手法は新規であり、従来知られているようなある種のスカラーや目的関数を最適化する手法とは異なり、パラメータ空間での初期化や繰り返し探索は行はない。従って、局所最適や、収束が貧弱ということはない。更に、探索を実行しないため、対称画像の探索複雑度を減少させて解析すると言った、単純化仮定をする必要がない(例えば、アフィンカメラであるとか、平面同形性のような)。一般的エピポーラの制約のみであるため、N次元テンソル投票の特殊な場合である新規な8Dテンソル投票によって、マッチングの誤りを検出できる。要約すれば、入力されたマッチング集合は、まず疎な8D点群に変換される。次に密な8Dテンソルカーネルを使って、入力データに含まれる非除外点(inliers)全てを含むような最も顕著な超平面について投票する。このフィルター化されたマッチング集合によって、正規化8点アルゴリズムが基礎行列式の精度推定に利用できる。データ構造と局在性をうまく利用することによって、高い次元にもかかわらず、我々の手法は時間的にも空間的にも高効率となっている。この手法の一般的な有用性を示すために航空撮影画像解析のための大きく離れた画像対の例と、非静的3D情景画像(室内におけるバスケットボールゲーム)を利用した。各画像中には多数のマッチング誤りが含まれている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テクスチャー特徴としてのアソシエーションルールの利用
Using Association Rules as Texture Feature

John A. Rushing, Heggere S. Ranganath, Thomas H. Hinke, and Sara J. Graves

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.845-858, August 2001

Keywords: Texture, segmentation, association rules, data mining

本論文では、アソシエーションルールに基づく、当たらしテキスト特徴量を提案する。アソシエーションルールは、市場におけるバスケット解析のように、提示されたものが大きなデータ集合のとどんな関係があるのかを把握するような応用に利用されてきた。このアソシエーションルールは、画像中に頻繁に生じる局所的構造を把握するために適している。アソシエーションルールは、構造的情報や統計的情報の両方を捕まえることができ、自動的に最も頻繁に生じる構造の同定が可能であり、顕著な分類能力を持った関係を見いだすことができる。アソシエーションルールによるテクスチャー画像の分類とセグメンテーションについて述べる。人工画像や自然画像によるシミュレーション結果からは、他の広く利用されているテクスチャー特徴量に比べて、アソシエーションルールによる特徴量が高い効率を示すことが示される。このアソシエーションルール特徴量によって、1次、2次,3次統計量を有するテクスチャーや、肉眼でははっきり見えないようなテクスチャー対でも検出可能であることが示された。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


離散データの分析と視覚化のための連結された潜在クラスと特徴モデル
A Combined Latent Class and Trait Model for the Analysis and Visualization of Discrete Data

Ata Kaban, Mark Girolami

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.859-872, August 2001

Keywords: Latent trait model, generative model, nonlinear mapping, topographic mapping, independent component analysis, clustering

位相幾何学的組織化やクラスタリングによるデータ解析と視覚化のための枠組みを紹介する。本来有している潜在因子を、空間上の分布として推定することによって、この手法が可視化やクラスタリングに適したモデルとなる。系のノイズは指数関数形式分布を有するパラメトリック形式でモデル化さるとし、その結果、連続的であろうと離散的であろうと、異なる型の観察量を統一的枠組みで扱うことができる。連続的データの場合の自己組織化とは逆に、本論文では離散的な場合に着目し、Bregmanダイバージェンスの変量を、データと参照点の相違度の測度とみなし、さらに、潜在変数と観察変数の間の非線型な関系のマッチングを定義する。従って、モデルの特徴変量はデータ駆動型ノイズのある非線型独立成分分析として観察できる。これによって多変量観察データの意味のある構造を暴くことが可能となり、2次元で可視化可能となる。モデルのクラス変量(これによってクラスタリングを行う)によってデータ駆動型パラメトリック混合モデル化が達成される。付随する推定手続きとともに、(特徴とクラスの)連結モデルによって、位相幾何学的順序の意味において、視覚化された結果の解釈が可能になる。この研究の1つの重要な応用先は、テキスト文書に内在する意味構造の発見である。20-News groupの色々な部分集合とバイナリーコードの数値データへの適用実験の結果が実演風に述べられている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオ画像列からのイベント抽出
Event Detection and Analysis from Video Streams

Gerard Medioni, Isaac Cohen, Francois Bremond, Somboon Hongeng, Ramakant Nevatia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.873-889, August 2001

Keywords: Detection and tracking of moving objects, egomotion estimation, affine stabilization, mosaics, graph representation of objects trajectories, event analysis, geospatial and mission contexts, scenario recognition, finite automaton

空中撮影された、動きのあるオブジェクトを含むビデオ画像を入力し、画像中の動くオブジェクトの振る舞いについての解析結果を出力するシステムについて紹介する。この機能を達成するために、我々のシステムは2つのブロックから構成されている。最初のモジュールは画像系列から動く領域を検出・追跡する。画像系列を安定化させるために、複数スケールの特徴量集合を用い、観測に伴う画像の動きを補償する。その後、残りの動き成分を有する領域を抽出し、その軌跡を推定するために属性グラフ表現を利用する。2番目のモジュールは、これら軌跡を入力データとし、ユーザーが提供する地理空間的内容や目標内容(ゴール)に関する情報と共に、可能性のあるシナリオを例示出力する。このシステムの詳細を紹介し、同時に、実際のビデオ画像に適用した多数の例と、この定量的解析結果を示す。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


信号識別用Wavelet設計のための遺伝子的アルゴリズム
Genetic Algorithm Wavelet Design for Signal Classification

Eric Jones, Paul Runkle, Nilanjan Dasgupta, Luise Couchman, Lawrence Carin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.890-895, August 2001

Keywords: Genetic algorithms, wavelets, classification

双直行ウェーブレット(マザーウェーブレットとこれに双対なウェーブレットの総称)が、多面的で動的な散乱データを解釈する信号識別の目的に適用された。演算を言語で表現した遺伝的アルゴリズムを利用して、識別効率を高くするためのウェーブレットを設計した。この双直交ウェーブレットは、lifting手続きを利用して実装され、最適化は識別に基づくコスト関数を利用して行われた。予め測定された散乱データを利用した目標識別に対する処理結果が示されている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Foveate Wavelet変換を利用した動的カメラ制御とカメラの動き再現
On Active Camera Control and Camera Motion Recovery with Foveate Wavelet Transform

Jie Wei, Ze-Nian Li

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.896-903, August 2001

Keywords: Active vision, wavelet transform, variable resolution techniques, gaze control, object tracking, motion detection

本論文では、ディジタル画像を効率的に視覚データ表現するための、解像力変化可能な、新規なFoveate Wavelet変換(FWT)法を提案する。従来の解像度変換手法に比べて、本方式の長所は、線形表現性、方位選択性、視覚系と類似した柔軟性を保持している点にある。FWTが線形性を保持している理由は、異なる領域の変換においてローパスとハイパスフィルターだけを実施しているからである。方位選択性からは、FWT表現においては水平、垂直、斜め方向が容易に選択できることを示している。表現の柔軟性については、異なる数、形状、場所の視野中心に容易に向けられることで納得していただけるであろう。FWTの高性能を実証するためにアプリケーションを2つ用意した。まず最初に、FWTに基づく能動的カメラ制御体系を開発した。これによって動的オブジェクトを追ってコンピュータがカメラを動かす。第2に、FWTに基づいて、ビデオ画像の一部から、パン/チルト/ズームを再現できるビデオカメラを開発した。これら2つのアプリケーションから、心強い性能を持っていることが分かる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最良センサーよりもっと高性能の融合器について
On Fusers that Perform Better than Best Sensor

Nageswara S.V. Rao

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.904-909, August 2001

Keywords: Sensor fusion, multiple sensor system, information fusion, fusion

複数センサー系において、個々のセンサーSi =1,2,,,,Nは、入力X∈[0,1]に応じて、ある未知の確率分布関数PY|X に従う、Yi ∈[0,1]を出力する。ここで、複数のセンサー出力を融合する融合器は、関数クラスF={f:[0,1]N →[0,1]}から、実験誤差を最小化するように選ばれるものとする。もし、Fが孤立性(isolation property)を保持しているなら、確率近似の意味において、融合器は、少なくとも最良センサーと同じ性能を持つことを示す。線形混合、特別ポテンシャル関数、ある種のフィードフォワードネットワークのようなよく知られた融合器は、この孤立性を満足する。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


可逆ジャンプマルコフチェインモンテカルロ法による最小エントロピーデータ分割
Minimum-Entropy Data Partitioning Using Reversible Jump Markov Chain Monte Carlo

Stephen J. Roberts, Chris Holmes, Dave Denison

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.909-914, August 2001

Keywords: Unsupervised data analysis, mixture models, Bayesian analysis, reversible-jump Markov Chain Monte Carlo, number of clusters

データ解析の問題においては、しばしば教師なし分割によってデータ集合をクラス分けする必要性が生じる。このような分割にはいくつかの方法が存在するが、多くの場合、パラメトリックモデル(各クラスが、1つのガウス分布でモデル化されている)によって定式化されているか、あるいは、高次元データ空間での計算コストの高い方法に頼るという弱点を持っている。このようなクラスター分析を情報理論的用語で再考し、効率的クラス分けは、分配エントロピー最小化原理によって可能であると思われることを示す。逆ジャンプサンプリングを紹介し、分割モデルの変数次元空間を探索してみる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数照明方向検出と画像合成への応用
Multiple Illuminant Direction Detection with Application to Image Synthesis

Yufei Zhang, Yee-Hong Yang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.915-920, August 2001

Keywords: Computer vision, critical point, illuminant direction detection, image synthesis

1980年代の初め、Pentlandは、ヒトの視覚は光の強度変化に敏感であることに気づいた。滑らかな表面をもつ物体の画像は、照明方向が、表面に垂直である場合に、その強度変化が最大になる。これがきっかけとなり、表面に垂直な光源方向を臨界点とみなす考え方が導入された。明らかに照明方向と、対応する臨界点とは簡単な幾何学的関係を持っている。本論文では簡単のため、既知の半径を有するLambertian球を遠方の複数の光源で照明しているシェーディングモデルに限定する。このグローバルな強度関数表現を新たに導いた。この強度特性に基づいて、臨界点を最小二乗法、反復計算法を使って求め、従って、ある条件下での光源とその強度を決定した。この新規な手法の性能は、合成画像と実画像を使って評価された。この応用として、実画像の光源を決定し、その中に合成画像を埋め込むツールとして利用した。この実験によれば、実画像への合成画像埋め込みは利用可能である。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Q-Warping:2次参照面の直接計算
Q-Warping: Direct Computation of Quadratic Reference Surfaces

Amnon Shashua, Yonatan Wexler

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 8, pp.920-925, August 2001

Keywords: Direct estimation, quadratic reconstruction, multiview geometry

我々は、オブジェクトの周りのワーピングについて考察する。その場合、2つの画像を利用して、参照表面と、これを復元するパラメータのオプティカルフローを時空微分によって直接計算する。よく知られている従来モデルはアフィンフローモデルと、8パラメータのフローモデルであり、両者とも平面状参照面を記述する。我々はこの従来法を拡張し、2次参照面を対象として、フロー場の厳密なパラメータ形式を陽に求めた。その結果、2つの情景画像間の写像を行う簡単なワーピングアルゴリズムと、残差のフロー成分を仮想的2次表面の3Dによる変動分とした。このアプリケーションとしては、画像モーフィングによるモデル構築、画像安定化、および、異なる視野画像の対応付けなどがある。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.9


ノイズの多い部分系列木のパターン認識
On the Pattern Recognition of Noisy Subsequence Trees

B.J. Oommen, R.K.S. Loke

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.929-946, September 2001

Keywords: Syntactic pattern recognition, tree and subtree recognition, noisy subsequence trees

本稿では順位付けされたラベル付加木の認識について検討する。この認識は、ノイズの多い断片を「張り合わせる」ノイズの多い部分系列木を処理することでなされる。有限な順位付けされたラベル付加木の辞書Hが与えられると仮定する。$¥rm X^*$はHの未知の要素であり、Uは$¥rm X^*$の任意の部分系列木である。Yを処理することで、$¥rm X^*$を推定する問題について検討する。我々の示す解は、少なくとも我々の知る限りにおいては、この問題に対する初めての解答である。我々は、Hの全ての要素XとYを順次比較することで、この問題を解いた。この比較の基本概念が2つの木の相違度の尺度となっているが、これによってノイズの多いUを変造構造(「チャネル」)の特性を暗黙のうちに取り込んでしまう。この拘束を内包するアルゴリズムを、我々のパターン認識の試験に用いたところ、顕著な精度を示した。25ないし35のノードからなる手動構築された木を含み、平均して木1本あたり21.8のエラーを含む試験の結果、本スキームは約92.8%の精度を持つことが示された。ランダムに生成された木に対する、同じ形式の試験では86.4%の精度が得られた。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


SIMPLIcity:意味感覚を持つ写真ライブラリのための統合マッチング
SIMPLIcity: Semantics-Sensitive Integrated Matching for Picture Libraries

J.Z. Wang, J. Li, G. Wiederhold

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.947-963, September 2001

Keywords: Content-based image retrieval, image classification, image segmentation, integrated region matching, clustering, robustness

生体医学、軍事、商業、教育、そしてインターネット環境における画像識別と検索など、多くの分野で効率的なコンテンツベースの画像検索への要望が顕著に高まってきている。我々はここにSIMPLIcity(Semantics-Sensitive Integrated Matching for Picture LIbraries)という画像検索システムを提唱する。このシステムでは、意味論における識別手法、特徴抽出のためのウェーブレットベースのアプローチ、そして画像分割を基にした統合領域マッチングを用いる。他の領域ベースの検索システムと同様に、画像は領域のセットとして表される。この領域は、画像内のオブジェクトと大まかに一致し、色、テクスチャ、形、そして位置により特徴付けられる。このシステムにより各画像は、テクスチャ−非テクスチャ、グラフ−写真などのような意味カテゴリに分類される。また意味論に則った検索手法を用いることができるようになり、データベースの被検索領域を絞り込めるという意味において、このカテゴリ化は潜在的に画像検索を強化するものである。画像中の全ての特性を統合する、領域マッチングスキームを用いることにより、画像間の総合的な類似度の尺度を開発した。各個の領域に基づいた画像検索と比べて、総合的類似度というアプローチは、1)不正確な画像分割によるマイナス要因を低減し、2)各領域の意味を明確にする助けとなり、そして3)領域ベースの画像検索システムで、簡明な質問インターフェースを用いることを可能とした。200,000の汎用画像からなるデータベースを含む、多数のデータベースに対する、SIMPLIcityアプローチは、我々のシステムが、現存の他のシステムよりも遥かに高速で高い性能であることを示した。このシステムはデータベースの画像の入れ替えに対して相当ロバストになっている。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


主軸検索木に基づいた高速な最近傍アルゴリズム
A Fast Nearest-Neighbor Algorithm Based on a Principal Axis Search Tree

J. McNames

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.964-976, September 2001

Keywords: Nearest neighbor, vector quantization encoding, principal components analysis, closest point, intrinsic dimension, post office problem

主成分解析を用いて効率的な検索木を構築する、新しい最近傍ルゴリズムについて述べる。この木の各ノードでは、データ集合は分散が最大となる方向に沿って区分される。この検索アルゴリズムは深さ優先検索と新しいノード削除基準を効率的に用いている。時系列予測や画像ベクトル量子化などの問題を含む、3種の良く知られたベンチマークデータセットを用いて、この新アルゴリズムを他の16種の高速最近傍ルゴリズムと比較した。この比較検討により、以前のアルゴリズムの強さと弱さが明らかされた。新アルゴリズムは全てのデータ集合において素晴らしい性能を示し、常に上位3位までに入っていた。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パターン表現と識別のための多重次元KL変換
Multispace KL for Pattern Representation and Classification

R. Cappelli, D. Maio, D. Maltoni

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.977-996, September 2001

Keywords: KL transform, PCA, multispace KL, clustering, piecewise-Iinear approximation, face representation, face recognition

本研究では、パターン表現と識別のための教師なし次元縮退に対する新しいアプローチとしての、マルチスペースKL変換(Multispace-Karhunen-Loeve:MKL)導入する。トレーニング用のデータ集合は、最適な基準に沿って、自動的に重複のないサブセットに分割される。その後各サブセットは異なるKL部分空間を決定する。この部分空間は特定のパターンのグループを表すために特殊化されたものである。古典的なKLオペレータの拡張と、アドホックな距離の定義により、通常KL変換が用いられる環境でMKLを効率的に用いることができるようになる。通常のKL変換の限界を指摘し、特にデータの分布が多次元からかけ離れている場合にMKLは通常のKLを遥かに上回る性能を発揮し、また通常のKL変換ではパフォーマンスの低下が激しい、多数のパターン集合も扱いやすいことを示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


二値ベクトル系列の学習のためのパターン付き隠れマルコフモデルと、集積回路の組み込みセルフテストへの応用
Hidden Markov Models with Patterns to Learn Boolean Vector Sequences and Application to the Built-In Self-Test for Integrated Circuits

L. Brehelin, O. Gascuel, G. Caraux

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.997-1008, September 2001

Keywords: Boolean vector sequence modeling, hidden Markov models, hybrid approach, structure (and parameters) learning, built-in self-test for integrated circuits

隠れマルコフモデル(Hidden Markov Model: HMM)から派生した、二値ベクトル系列の学習のための新しいモデルを示す。このパターン付き隠れマルコフモデル(Hidden Markov Model with Patterns : HMMP)は、単純かつハイブリッド、そして解釈可能なモデルであり、状態に付随した二値パターンを用いて発現確率分布を定義する。与えられたパターンと一致するベクトルは等確率である。なぜならば一致しないベクトルでは、発現確率はゼロとなるからである。我々はこのモデルのために、効率的な学習アルゴリズムを定義した。そのアルゴリズムは最大尤度定理を基にして、構造の単純化を繰り返し、学習系列を表す特定初期HMMPのパラメタを更新する。各段の単純化は、尤度をなるべく高く保ちつつ、現在のHMMPの2つの状態をマージする。このアルゴリズムはHMMPが充分小さな構造になったときに終了する。HMMP及び学習アルゴリズムを、集積回路の組み込みセルフテスト(Built-in Self-Test: BIST)に適用した。このテストは、マイクロエレクトロニクスにおける重要な問題である。HMMPはテスト系列セットを用いて学習がなされる。(このセットは特別なツールを使って計算される。)このテストは、ICの殆どの潜在的な欠陥を即座にカバー出来るため、HMMPはテスト系列生成器として用いることが出来る。古典的なマイクロエレクトロニクスのベンチマーク回路を用いて行われた実験によると、学習済みのHMMPは、欠陥カバレッジがとても広いことが判った。更にHMMPは、小規模性と簡明さを併せ持つので、回路にセルフテストとして実装しやすいといえる。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


近似BEAMマッチングアルゴリズムを用いたオフラインの一般手書き単語認識
Offline General Handwritten Word Recognition Using an Approximate BEAM Matching Algorithm

J.T. Favata

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.1009-1021, September 2001

Keywords: Handwriting recognition, OCR, BEAM search, word segmentation, machine reading, pattern recognition

本稿では近似型の断片記号列マッチングアルゴリズムを用いた、一般化されたオフラインの手書き単語認識について述べる。ここで用いた基本的なパラダイムは、文字ベースの分割後に認識/照合を行う戦略である。単語辞書の形でユーザから与えられる、内容に関する付加情報により、グラフ検索をガイドし、最も似ている単語の画像アイデンティティを推測する。本システムは、ドキュメントのノイズや、文字の拙劣さ、そして単語辞書の間違いなどに対して頑健に設計されているため、上で述べた基本戦略は顕著に拡張され、また強められている。前処理によりノイズを除去し、手書きを正規化する。また過分割アプローチにより単語の中の個々の文字を取り出す可能性を向上させている。この課題のゴールは即ち、単語画像の正しい分割を含む、いくつかの分割点の組を得ることである。これは多数の独立な検出ルールを用いる分割モジュールによりなされる。この検出ルールは特定のキーとなる特徴に基づいており、各単語に対して、最も正解である可能性の高い分割点を見つける。次に、文字以外の棄却率が良いスライディングウィンドウアルゴリズムを用いて、最も正答確率の高い文字の区切りとアイデンティティを見つける。有向グラフは多くの単語画像の解釈、不正確さを含んで構成されるものである。この時点でコンテキスト情報が用いられ、適当な距離尺度のもとで幅優先検索方式により単語辞書とグラフのマッチングが行われる。このマッチングアルゴリズムには、BEAM検索アルゴリズムが用いられ、解釈グラフに含まれる可能性が最も高いエラーを補償するために、いくつかのヒューリスティックな情報も付加されている。このエラーとしては、分割の誤りや、セグメントの誤認識、そして単語辞書の間違いによりセグメントが失われることを含む。単語辞書内の各単語について、最終的なランクをつけるため、最も正答の可能性の高いグラフパスと、それに関連した信頼度が計算される。この信頼度は正確なものであり、後段で閾値処理することにより、トータルの誤認識を低減することができる。このアルゴリズムの特徴を明らかにするための実験について述べる。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


光源位置情報校正のための簡明な戦略
A Simple Strategy for Calibrating the Geometry of Light Sources

M.W. Powell, S. Sarkar, D. Goldgof

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.1022-1027, September 2001

Keywords: Light source calibration, constancy, color correction

複数の画像から複数の光源の三次元位置を校正するための方法論を示す。この手法では、相対位置が既知の3つの球面からなる新しい校正用物体を使用し、また画像処理にはグレースケール画像を用いる。研究室の設備で51の異なる位置の光源の位置を特定する実験を行った。ここから得られるデータによると、シーン内の各点から光源を指すベクトルは、経験的に得られた真の光源方向と、α=0.05において2.7±0.4°(相対値で6%)以内、大きさではα=0.05において、0.13m±0.02(相対値で9%)以内の誤差で求まる。最後に光源情報が色補正にどの様に用いることが出来るかを述べる。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


区画分けされたスネーク:学習したエネルギーによる画像分割の評価
Sectored Snakes: Evaluating Learned-Energy Segmentations

S.D. Fenster, J.R. Kender

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.1028-1034, September 2001

Keywords: Learning, trained deformable models, energy-minimizing shapes, snakes, segmentation evaluation, performance characterization

ユーザに特化された基準に基づいて、画像分割の正確さを最大にする、変形可能モデルの学習方法について述べる。またどの基準が最良かを評価する方法も示す。伝統的な変形可能モデル(二次元「スネーク」)は、その視野内に、その近辺で最大の画像エッジを捉えられない場合、オブジェクトの境界を検出できない。しかし画像特徴の確率分布を学習することで、その特徴に反応するようにトレーニングすることが出来る。そこで実装者は多くの画質の中からどれを用いてモデルに学習をさせるかを決めなければならない。最終的には、あらゆる変形可能モデルの効率、与えられた真の正解、最適化の過程で現れる形状範囲のモデル、そして形状の閉合度の測定、これらの評価方法を示す。腹腔のCTスキャン画像において、上で述べたような単純なスネークの「区画分け」の評価を示す。この評価においてはグレーレベルと垂直勾配が、等長切片により測定される。この特別な特性の組み合わせは、形状で均一の目的関数において、明らかな向上を示す。そしてこれは、臓器の境界部分における画像の変動により、後者が失敗することを示す実験から、自然に判るものである。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


勾配ベクトル場に曲線モデルを適用することによる、傾いたパターンの曲率推定
Curvature Estimation in Oriented Patterns Using Curvilinear Models Applied to Gradient Vector Fields

J. van de Weijer, L.J. van Vliet, P.W. Verbeek, M. van Ginkel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.1035-1042, September 2001

Keywords: Oriented patterns, anisotropy, curvature, confidence measures, curvilinear models, gradient vector fields

湾曲傾斜パターンは高周波が支配的であり、稜線や谷ではゼロ勾配を示す。現存する曲率推定法はこういった場合に失敗する。並進不変量に基づいた、湾曲傾斜パターンの特徴付けは局所的な曲率推定を失わせ、バイアスされた曲率依存の信頼度をもたらす。パラメタ化された曲線モデルを用いることにより、モデル曲率の関数としてのモデル勾配に沿った、局所勾配エネルギー量を測定する。残留エネルギーを最小にすることで局所勾配推定の閉じた形式の解法と、それに対応する信頼度の測定法が得られる。シンプルな曲線モデルが、多様な湾曲傾斜パターンの解析に適用可能であることを示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


薄板ベースの特徴認識
Laminae-Based Feature Recognition

T. Lim, J. Corney, D.E.R. Clark

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 9, pp.1043-1048, September 2001

Keywords: Geometric feature recognition, CAD, CAM

鋳造や金型の工業的なニーズを鑑みて、単純もしくは複雑な表面形成ルールによる幾何モデルにおける、形状特徴の認識に対する新たなアプローチを示す。ここで示したアルゴリズムでは、各コンポーネントのCADモデルから導き出された、隣接する二次元薄板(境界面など)のネットワークを用いて、一般的な特徴量の突起やくぼみの配置と生成を行う。本アプローチによると、予め定義された如何なる特徴ラベルも必要とせずに、代替特徴記述を自動生成することが出来る。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.10


ビジョンにおける自己組織化:イメージセグメンテーション、知覚的グループ化、および、イメージデータベース組織化のための確率論的クラスタリング
Self-Organization in Vision: Stochastic Clustering for Image Segmentation,Perceptua Grouping, and Image Database Organization

Yoram Gdalyahu, Daphna Weinshall, Michael Werman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1053-1074, October 2001

Keywords: Clustering, segmentetion, 3erceptual grouping, image retrieval

構成要素を2つずつ類似度比較しながら進める確率論的クラスタリング法を提案し、この手法は、低レベルのイメージセグメンテーション、中レベルの知覚量のグループ化、および、高レベルのイメージデータベースの組織化など、コンピュータビジョンの色々な課題に利用できることを示そう。クラスタリング問題はグラフ分割問題と見なすことが出来るが、この場合、ノードがデータ要素を表し、エッジは両側のノード類似度の重みと見なせる。Kargerの構成アルゴリズムを利用してこのグラフの切断サンプル(複数)を作ることが出来るが、「平均的」切断と、切断サンプルを比較し、平均よりクラスター内部の類似度が向上するかどうかを計算することによってクラスタリング問題の解の基準が得られる。我々のこの方法はノイズに対してロバストであり、たまたま生じた(accidental)エッジや偽(spurious)クラスターにも対処できる。計算複雑度は非常に小さく、N個のオブジェクト、類似度|E|、精度固定の場合についてO(|E|log2 N)である。更に、計算複雑度をこのままにして、入れ子状の分割階層ができる。我々の手法の優秀さを実証するために、白黒およびカラーの人工画像と自然画像のセグメンテーション処理を実行した。他の実例として、複雑な背景中の連鎖状エッジ(知覚的グループ化)とか、多視点3Dオブジェクト認識にのための画像データベース組織化も行った。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最小比重みサイクルとしての大局的最適な領域と境界
Globally Optimal Regions and Boundaries as Minimum Ratio Weight Cycles

lan H. Jermyn, Hiroshi Ishikawa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1075-1089, October 2001

Keywords: Region identification, ratio, energy minimization, global optimum, active contour, snake, segmentation

画像中の領域をモデル化し、見つけるための新規なエネルギー汎関数について述べる。このエネルギーは画像ドメイン中の境界空間上で定義されるが、境界(強度勾配など)や境界内部(テクスチャーや均一性など)からのモデル化情報の両方を、一般的組合せをしたものにも組み込める。このグローバルエネルギー最小を見つけるための、多項式時間が必要な2つのアルゴリズムを示す。その内の1つは完全に一般性があり、どのような情報モデルであっても汎関数を最小化する。256×256画像の場合、本アルゴリズムの計算時間は数秒である。もう一方のアルゴリズムは汎関数のサブクラスに適用でき、極めて並列化が容易である。どちらのアルゴリズムも初期化は不要である。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


コンテキストに基づく検索におけるグラフモデルの効率的マッチングとインデックス化
Efficient Matching and Indexing of Graph Models in Content-Based Retrieval

Stefano Berretti, Alberto Del Bimbo, Enrico Vicario

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1089-1105, October 2001

Keywords: Image databases, content-based image retrieval, spatial arrangement, Attributed Relational Graphs, indexing, metric indexing, error correcting subgraph isomorphism, pairwise weighted assignment

画像データベースからの情報検索において、見かけ、および、空間的属性と相互関連性の両方に基づく類似度の評価は、属性関係グラフに基づくコンテキスト表現に依存している。このようなモデル化では、複雑なマッチングとインデックス化の処理が不可避であるため、広範な応用を妨げている原因にもなっている。本論文では、個々の属性と相互の関連の共起性に基づく検索課題をグラフ理論に基づく定式化法を示し、その意味するところをインデックス化やマッチング面から解釈する。特に、大量のグラフモデルを整理するために測度付きインデックス化の利用を提案し、また、我々独自の先読み法を提案する。この先読み法はオブジェクト距離の計算には不可欠な、部分グラフエラー訂正同型写像問題の効率的解法となる。解析的比較と、実験結果から、この先読み法は、最新の状態—空間探索法を更に改良することが分かる。また、提案したマッチングとインデックス化法の組み合わせによって、典型的な空間配置による複雑な検索課題であっても、取り組み可能になる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフ理論に基づいた単線描画からの多面体面の同定法
A Graph-Based Method for Face Identification from a Single 2D Line Drawing

Jianzhuang Liu, Yong Tsui Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1106-1119, October 2001

Keywords: 3D object reconstruction, depth-first search, face identification, graph algorithms, line drawing interpretation, maximum weight clique problem

多面体オブジェクトを2次元の単線で描画した面は、3D形状を再現するための重要な情報を有している。本論文では、描画された多面体の面を同定するためのグラフ理論に基づく最適手法を提案する。この面同定問題は、最大重みクリーク(徒党)問題(maximum weight clique problem)として定式化される。ここでクリーク問題とは、「グラフGと整数kがあるとき、Gに属する集合Kのすべての2つの頂点が互いに隣接するような集合Kが存在するか?」と言うものである。この定式化がShpitalni と Lipsonによって提案された定式化と同等であることはすでに証明されている。我々の定式化の利点は、これによって更に高速に図面中の面を見つけるアルゴリズムが開発可能なことである。本論文に示される2つのアルゴリズムによって顕著な高速化が可能になった。すなわち、手書き図面から高速に可能な面を生成するための深さ優先グラフ探索と、図面の最適な面構成を得るための最大重みクリーク問題である。実験から、我々の手法は面同定において、Shpitalni-Lipson法と同じ結果を得た。しかし、20個以上の面を持つオブジェクトを対象とする場合は、我々の手法の方がずっと高速であった。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


期待値最大法を使ったグラフ構造マッチングと特異値分解
Structural Graph Matching Using the EM Algorithm and Singular Value Decomposition

Bin Luo, Edwin R. Hancock

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1120- 1136, October 2001

Keywords: Inexact graph matching, EM algorithm, matrix factorization, mixture models Delaunay triangulations

本論文は不正確さを含むグラフのマッチングにおける効率的アルゴリズムについて述べる。この方法は純粋に構造的である。つまり、グラフの辺や接続性のみを利用するのであり、ノードや辺の属性は利用しない。本論文では2つの新規なアイデアを紹介する。第1に、マッチング誤りの確率分布から始め、グラフマッチング問題が最尤推定法とみなせる理由について、期待値最大(EM = Expectation Maximum)法を使って示そう。第2に、行列表現を利用したデータグラフとモデルグラフの両グラフノード間の対応関係マッチング復元問題と見なせることである。こうすることで、特異値分解を利用して、対応付けマッチングを効率的に復元する事が可能になる。我々は人工データと実データの両方を使って、この方法の実験をした。本手法は、もっと計算コストの高い手法に匹敵する効率を示すことがわかる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


領域隣接グラフ間の誤りを許容する部分グラフのマッチングによるシンボル認識
Symbol Recognition by Error-Tolerant Subgraph Matching between Region Adjacency Graphs

Josep Llados, Enric Marti, Juan Jose Villanueva

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1137-1143, October 2001

Keywords: Graph isomorphism, subgraph isomorphism, graph matching, inexact graph matching, graph edit distance, symbol recognition

本論文では、領域隣接グラフ(Region Adjacency Graph = RAG)を利用したエラー耐性のある部分グラフ同型写像法を提案する。1つのRAGを、別のもう一つのRAGに写像する編集演算子集合が定義される。領域は多辺形で表現され、これらの間の類似度は辺のマッチングによって計測される。このアルゴリズムはRAG編集演算子に駆動されて分岐と境界線をたどる。この定式化によって、入力データが変形していてもマッチング可能であり、多項式時間で解に到達する。このアルゴリズムは、手書き図面中の記号認識に利用された。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


メディアングラフについて:その性質,アルゴリズム,応用
On Median Graphs: Properties, Algorithms, and Applications

Xiaoyi Jiang, Andreas Munger, Horst Bunke

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1144-1151, October 2001

Keywords: Median graph, graph distance, graph matching, genetic algorithm, learning

オブジェクト形状の学習などの場合、与えられたパターンの基本的情報を捕まえるに、メディアン演算は重要な手法である。本論文ではメディアンの考え方をグラフ領域に拡張する。グラフ距離という概念に関して、集合メディアンという新規な考え方を紹介し、グラフ集合のメディアンを一般化する。この両方の型のメディアングラフの性質を研究する。一般化メディアングラフを計算するというもっと複雑な課題に対して、遺伝的探索アルゴリズムが開発された。ランダムに生成されたグラフに対して行われた実験から、一般化メディアングラフは、集合メディアングラフに対して優れていることを実証したし、われわれの遺伝的アルゴリズムが、妥当な時間内に概略の合成メディアングラフを見つけることができた。このメディアングラフを合成データや非合成データに適用し、メディアングラフの考え方の現実的有効性を示す例として図解され示されている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2次元形状認識のためのDyadicウェーブレットのアフィン不変関数
A Dyadic Wavelet Affine Invariant Function for 2D Shape Recognition

Mahmoud I. Khalil, Mohamed M. Bayoumi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1152-1164, October 2001

Keywords: Affine transformation, dyadic wavelet transform, pattern recognition

Dyadic wavelet変換は、affine変換不変な関数を求めるために利用されてきた。当初、2つのDyadicレベルを利用して不変関数が得られた。次に、この不変関数を利用し、6つのdyadicレベルを利用して、別の不変関数が得られた。ここで、waveletに基づく円錐方程式を紹介する。この不変関数は、dyadic wavelet変換を利用し、オブジェクト境界を解析することに基づいている(たとえば、オブジェクト境界長)。この提案関数を、合成データ、および、自然画像データに適用した結果、識別能力が実証された。従来法とも比較され、この不変関数の安定性が調べられた。さらに、大きな透視変換を受けた場面での安定性が調べられた。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


指紋の組み合わせ識別器
A Combination Fingerprint Classifier

Andrew Senior

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1165-1174, October 2001

Keywords: Henry fingerprint classification, hidden Markov models, decision trees, neural networks, NIST database

大規模な指紋認識システムにとって、指紋のクラス分けは重要な指標化法であるし、あるいは、マッチングされるべき指紋の探索数を減少させる方法としても重要な指標である。指紋は、全体的特長量に基づいて大まかなカテゴリーに分類される。本論文では、特異点を検出することなく、指紋の尾根構造を認識するために、隠れマルコフモデルと決定木を利用した新規な識別方法について述べる。この手法は、標準的指紋認識システムと比較結合され、その結合された効果を大規模標準指紋データベースによって評価した。また、本論文は、識別効率を犠牲にして、任意の高認識率に到達する方法についても述べている。組み合わせ識別器は、現在の最高レベルの2つの認識システムのいずれよりも高いことが示されている。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


感性知能に向けて:感情の生理学的状態解析
Toward Machine Emotional Intelligence: Analysis of Affective Physiological State

Rosalind W. Picard, Elias Vyzas, Jennifer Healey

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1175-1191, October 2001

Keywords: Emotion recognition, physiological patterns, feature selection, Fisher Projection, affective computing, emotional intelligence

人間の感情知能の代表例の1つとして、感情理解があるが、これは、数学的知性や言語的知性以上に重要であると言われている。人工知能(Machine Intelligence)には感性知能が含まれる必要があることをここで示すとともに、このゴールに向けての結果を示す:即ち、4つの生理学的信号(怒り、悲しみ、喜び、敬意)が与えらたときの人間の感情状態を認識できる機械を開発すること。毎日、何週間にもわたって感情の8つの状態を経験させ、顕在化させようとする課題を与え、これから信頼性の高い大規模な感情データを得ることに特有な困難さについて述べる。このデータから、特徴量に基づく、多数の感情状態認識アルゴリズムについて紹介する。我々は、問題の多い、日々変化する4つの生理的信号を解析する:同じ日の異なる感情に伴う特徴量は、異なる日の同じ感情を表す特徴量よりも、分布がまとまる傾向にある。この日々の変動を扱うために、我々は新たな特徴量と複数のアルゴリズムを提案し、これらの性能を比較する。我々はFisher Projection法を核にして、逐次フローティング前方探索法(Sequential Floating Forward Search)を組み合わせることによって、Fisher Projection法の性能を改良することができ、生理に基づく感情識別に関する今までの認識の中で最高の性能を得ることができた:中立的感情を含む8個の感情クラス分け課題を81パーセントの精度で達成できた。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グローバルなテクスチャー解析に基づくフォント認識
Font Recognition Based on Global Texture Analysis

Yong Zhu, Tieniu Tan, Yunhong Wang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1192-1200, October 2001

Keywords: Font recognition, texture analysis, content-independent

本論文ではフォント認識のためのテクスチャー分析に基づく新規な手法について述べる。従来の方式は多くの場合、局所的活字形状の特徴に基づいていたが、そのためには連結要素解析が必要であった。我々の方法は、文書は特定のテクスチャーを有する画像とみなし、フォント認識をテクスチャー識別課題に置き換える。この方法はコンテンツ非依存であり、局所的な特徴解析を行う必要がない。常用される24の中国文字フォント(6書体を4種の組み版(style))について14,000のサンプルについて実験した。平均認識率は99.1%であった。この手法のノイズ(ごま塩ノイズ)や画像劣化に対する頑健性の結果も、従来法と比較して得られた。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Watershedに基づくスネーク
Snakes on the Watershed

Jaesang Park James M. Keller

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp.1201-1205, October 2001

Keywords: Active contour model, snakes, watershed algorithm, dynamic programming, energy minimization, white blood cell detection

ウォータースネーク(watersnake)と呼ばれる、新規なオブジェクト境界抽出法を紹介する。これは2段階のスネークアルゴリズムであり、このエネルギー汎関数は、動的プログラミング法によって最小化される。この手法は、全エネルギー空間を探索して最小値を見つけるため、よりロバストである。最小化処理の複雑さを軽減するため、watershed変換、および、粗から精細への戦略が利用された。人工的データによってこの手法と従来法の精度比較がなされ、骨髄中の白血球画像の分類に応用された。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.11


補正による色表現:色の恒常性のための簡単で統一した枠組み
Color by Correlation: A Simple, Unifying Framework for Color Constancy

Graham D. Finlayson, Steven D. Hordley, Paul M. Hubel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 11, pp.1209-1221, November 2001

Keywords: Color constancy, illuminant estimation, correlation matrix

本論文は照明光推定問題を考察する:未知の照明光下で記録された与えられた情景画像において、その光を再現できるかどうかを扱う。このような推定値を得ることは色の恒常性問題の一部である---すなわち、照明と独立な情景画像の反射状況を表現することである。従ってこの研究は、色に基づくオブジェクト認識、ディジタル写真などが、色の恒常性が求められる重要な応用分野となる。このような研究の中で、単一の照明光を再現する課題はずっと以前から多くの人たちによってなされてきたが、ここで取り上げる課題は、可能な照明集合の各々が情景画像の照明光であるための尤度を確立することである。まず最初に、ある可能な照明光を当てたらどんな画像色が現れるか(色の分布も含めて)を決定することから始めよう。論文中では、カメラが与えられたとき、どうしたらこの知識が得られるかを議論する。次にこの情報と、特定の画像色とを関連させ、可能な照明光の尤度(もっともらしさ)を求めることにする。最後にこの尤度情報を用いて、ある情景画像の単一光源を抽出する。計算は、我々が本論文中で開発する一般的相関を利用する枠組みで表現され、実行される。この相関を使う枠組みについて、新規な確率論的な事例を提案するとともに、合成画像であっても自然画像であっても非常に良い色の恒常性が得られることを示す。更に、ここに提案する枠組みは、既存の多様なアルゴリズムを利用できることを示す:中間調の世界やガマット(Gamut)・マッピング・アルゴリズムもこの枠組みで表現でき、これらアルゴリズムと他の確率的ニューラルネット手法を色の恒常性問題に利用した場合の関係を探索する。

Ej,TK

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフカットによる近似的高速エネルギー最小化法
Fast Approximate Energy Minimization via Graph Cuts

Yuri Boykov, Olga Veksler, Ramin Zabih

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 11, pp.1240-1256, November 2001

Keywords: Energy minimization, early vision, graph algorithms, minimum cut, maximum flow, stereo, motion, image restoration, Markov Random Fields, Potts model, multiway cut

多くのコンピュータビジョンにおいて、各画素の(等しいか否かのような)ラベル付け課題が存在する。共通制約条件として、ラベルの変化が、オブジェクト境界のようなシャープな不連続線がある場合は、この不連続性を保持しながら、連続的であると仮定している。これらの課題は自然な表現で言えば、エネルギー最小化課題とみなせる。本論文では、各種平滑度の制約条件下における多様なエネルギーについて考察する。グローバルなエネルギー最小化問題は、単純な境界保存の場合であってもNP(非多項式)の計算複雑度を有している。従って我々はより効率的な近似アルゴリズムに着目した。領域の「拡大(expansion)的動き」と「入れ替え(swap)的動き」の2種類の大きな動きに対して効率よく局所最小値を見出す、グラフカットを利用した2つのアルゴリズム紹介する。これらの動きの結果、任意の大きさの画素集合ラベルを同時に変えることができる。これに対して従来の標準的方法(焼きなまし法も含む)では、たった1つの画素ラベルが変化しても小さな動き(近傍画素を調べるために視点が動く)が必要となる。我々の拡大アルゴリズムは、グローバルな極小値の既知要因中の1つのラベルを見つけることあができるし、入れ替えアルゴリズムでは、より一般的エネルギー関数を扱う。このどちらのアルゴリズムも重要な非連続の場合を扱うことができる。この手法の有効性を画像復元やステレオや動きへの応用に適用した実験結果をお見せする。実画像での実証実験では98%の精度が得られた。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パラメータを利用しない幾何学的文書レイアウト解析
Parameter-Free Geometric Document Layout Analysis

Seong-Whan Lee, Dae-Seok Ryu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 11, pp.1240-1256, November 2001

Keywords: Geometric document layout analysis, parameter-free method, periodicity estimation, multiscale analysis, page segmentation

印刷された文書画像を自動的に電子文書化するためには、まず最初に幾何学的レイアウト解析が必要となる。しかし、文字フォントの大きさや、テキスト行間隔、文書レイアウト構造などの変動がある中で、文書のレイアウト構造を何年にも渡って汎用的に解析するアルゴリズムを設計することは困難である。そのため以前は、この変動を吸収させるパラメータを利用せざるを得なかった。本論文では、文書画像を最大限均一な領域に分割し、テキスト、画像、表、罫線領域として同定するためのパラメータを使わない方法を提案する。そのため、マルチスケール解析用にピラミッド型4分木を構築し、ページセグメンテーションのためにテキスト領域の周期性を見つけるために周期性測度を提案する。ロバストなページセグメンテーション結果を得るために、あいまいな領域に対してだけテクスチャー解析を利用した確認手続きを採用する。ここに提案する周期性測度、マルチスケール解析および確認手続きによって、文字フォントサイズ、テキスト行間隔、文書レイアウト構造に独立なロバストな文書レイアウト解析手法を開発することができた。ここに提案する方法はワシントン大学の文書データベースと、マルチメディア文書データベースに対して実験された。これらの実験結果は、本提案手法が従来法より高精度であることを示している。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


固有テクスチャー法:3Dモデルに基づく見かけ画像の圧縮と合成
Eigen-Texture Method: Appearance Compression and Synthesis Based on a 3D Model

Ko Nishino, Yoichi Sato, Katsushi Ikeuchi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 11, pp.1257-1265, November 2001

Keywords: Image synthesis, texture, appearance, model-based rendering, image-based rendering, principle component analysis

実画像からバーチャルなオブジェクトを生成させるための2つの代表的描画法に、画像にもとづく方法と,モデルに基づく方法がある。しかし、実画像の背景にバーチャル画像を作り上げるような混合現実(ミックスト・リアリティ)画像に応用する場合には、両方法ともいくつかの問題点を持っている。これらの問題点を克服するために、固有テクスチャー法と称する新しい手法を提案する。この提案手法は、さまざまな照明下、視覚条件下で実オブジェクトの見かけ画像を取得し、これを距離画像系列から生成された3Dモデル表面上の2次元座標上に圧縮表現する。正確な3Dの幾何学的モデルを他の情景画像といっしょに構築する場合、オブジェクト表面の反射解析は必要ない。本論文は、この手法と実装化について報告する。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2Dの人の顔画像を3D表面モデル用に登録するための写真の整合性の利用
Using Photo-Consistency to Register 2D Optical Images of the Human Face to a 3D Surface Model

Matthew J. Clarkson, Daniel Rueckert, Derek L.G. Hill, David J. Hawkes

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 11, pp.1266-1280, November 2001

Keywords: 2D-3D registration, similarity measures, photo-consistency, pose estimation, extrinsic parameter calibration

本論文では3D表面モデル用に2つ以上の光学的画像を登録する新規な方法について提案する。このような登録法の潜在的用途としては、例えば、医療とか、画像を利用した指示、監視と認識、工業用検査、コンピュータ補助による製造、コンピュータ補助による保守、遠隔地や危険な環境での遠隔操作などがある。登録は変換パラメータに関する類似度を最適化することで行われる。我々は写真の整合性に基づく新たな類似尺度を提案する。各表面の場所における光学的情報が、ある照明モデルでの情報に一致しているかどうかによって類似度が求められる。このとき光学画像の相対的姿勢は既知でなければならない。光学的な表面再構成システムと、人間の顔の磁気共鳴(MR)画像から得られた表面のデータを利用して,本システムの有効性を確認した。多くのビデオ画像や、ビデオノイズ、表面位置や面積の誤り、合致した表面の複雑度などに対するシステムの制度や頑健性をテストした。このアルゴリズムを、5人のボランティアから提供された頭部MR画像から、ヒトの頭と皮膚を光学的に10個再構成させてこのアルゴリズムの有効性を実証した。4つの光学的画像を表面モデルに適合させる実験では、3D誤差は1.45mmと1.59mmの間であった。このとき成功率は100%であり、合致位置からのずれの初期値は最大16mmであった。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


色分布を利用したエッジ、分岐、輪郭の検出
Edge, Junction, and Corner Detection Using Color Distributions

Mark A. Ruzon, Carlo Tomasi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 11, pp.1281-1295, November 2001

Keywords: Edge detection, junction detection, corner detection, earth mover's distance, color distributions, perceptual color distance

過去30年以上にわたってコンピュータビジョンの研究者たちは、エッジとか、コーナー、と言った低レベルの視覚課題のための新規な手法を提案し続けてきた。これらほとんどの手法の中で共通な要素の1つが、局所近傍画像の強度や色を一定であると見なし、変化部分をノイズと見なすモデルである。この仮定がなりたつ小近傍を利用するのは計算量の配慮からであるが、今でもこれが主流である。本研究では近傍を色分布でモデル化する。ゴールは、近傍領域が大きくなった場合でも、難しい自然画像において低レベルのビジョンの課題に対して高い品質の結果を得ることである。ここで大きな近傍領域を強調したが、その理由は小領域では十分な情報量を有していないからである。我々は色を強調したが、色は灰色(グレースケール)を含むからであり、また、色はヒトの視覚における主要な形態であるからである。エッジ、コーナー、分岐の検出に関する確率分布を考察し、それらの処理結果を示す。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチスケールスケルトンの階層的分解
Hierarchical Decomposition of Multiscale Skeletons

Gunilla Borgefors, Giuliana Ramella, Gabriella Sanniti di Baja

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 11, pp.1296-1212, November 2001

Keywords: Skeleton, decomposition, multiresolution, binary pyramid

多段階解像度画像から階層的に多段階スケールの離散的骨格(スケルトン)を生成する新たな方法を紹介する。スケルトンとは線状のパターン表現法であり、一般的には優れた形状記述法として認知されている。離散的画像の場合、離散的スケルトンは通常好まれている。多段解像度表現は多くの画像解析課題で便利である。ここに示す我々の多段階スケルトン分解は2つの異なる階層型を示す。最初の階層型は異なるスケールの1つであり、これは原パターンがANDピラミッドに分解され、各レベルでスケルトンが計算される。第2の階層型は、ピラミッドの各レベルでpermanenceに従ってスケルトンを同定し、ランク付けしながら実行される。ここでpermanenceとは局所的パターンの太さに関係する固有な性質である。スケルトン分解を達成するために、解像度ピラミッドを上から降下したり,下から上昇したり、つまりトップダウンだったりボトムアップだったりの両方の解析を実行する。ボトムアップによる分解では、高解像度レベルに連結しているスケルトンの一部が、低解像度レベルにも連結しているかどうかどうかを確認するために利用される。トップダウン解析は、スケルトン成分のpermanence階層ランク付けをするために利用される。我々の手法は、デジタル画像の3×3近傍演算を利用するので高速で実装も容易である。このスケルトン分解手法は、異なった領域で、異なった太さのパターンを処理する場合に最も効力がある。多段スケルトンの実例(ループのあるものも無いものも含め)をたくさんお見せしよう。そのスケルトンはほとんどの場合うまく意味のある部品として分解されていることがわかる。この手続きは一般的であり、特定の応用に限られたものではない。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


方向性を有するモルフォロジカルフィルタリング
Directional Morphological Filtering

Pierre Soille, Hugues Talbot

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 11, pp.1313-1329, November 2001

Keywords: Image analysis, mathematical morphology, rank filters, directional filters, periodic line, discrete geometry, granulometry, orientation field, radial decomposition

勾配の接線方向に沿った並進不変なmin/maxフィルターの実装について紹介する。これは、画素当たり、勾配dy/dxの既約分数として2 + k min/maxの演算コストで達成できる。ここに、k=max(|dx|, |dy|)。従って勾配が求まると計算時間は一定であり、線分の長さとは独立である。次に周期的動きヒストグラムアルゴリズムの概念を示す。この方法では、より一般的なランク付けフィルター法やランクに基づくモルフォロジカルフィルタにおいても、同様の効率を発揮する。細かいネットへの応用や、粒状や方向性を有する場での計算量について詳しく述べる。最後に、2つの拡張がなされた。第1は離散的ディスクと任意方向の離散的矩形の分解であり、第2に中間調を有する周期的線分に沿ってのmin/maxフィルターである。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


対応点無しでの非剛体追跡と、衛星の2D雲画像からの構造抽出
Tracking Nonrigid Motion and Structure from 2D Satellite Cloud Images without Correspondences

Lin Zhou, Chandra Kambhamettu, Dmitry B. Goldgof, K. Palaniappan, A.F. Hasler

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 11, pp.1330-1336, November 2001

Keywords: Nonrigid objects, structure estimation, image motion estimation, fluid models

隠蔽(オクリュージョン)が無くて、非剛体画像の動きから構造を追跡することはビジョン研究における重要な課題である。本論文では、局所解析(微細画像を再生)し、全体的解析も行う(非剛体的動きを適宜制限する)階層的手法を開発し、対応点に関する事前知識無しに、衛星による2D雲画像系列から、深さ方向に密度の高い非剛体運動を再現した。この課題が困難であるのは対応点に関する情報が得られないからばかりでなく、人工衛星から撮影された2D雲画像(スケール付きの正射投影画像)には深さ方向の手がかりが無いからである。我々の方法では、雲画像はいくつかの小領域にセグメンテーションされ、各領域に局所的解析がなされた。局所解析を、適当な全体的流れモデルに整合するように統合するために、回帰アルゴリズムを提案する。これに基づいて、構造的動き解析システム、SMAS、が開発された。流体モデルの制約を利用し、スケール付き正射影情景画像下で、非剛体の動きの高密度構造を推定したのは、我々が初めてであると信じている。気象衛星(GOES-8 および GOES-9)によって撮影された雲の連続画像に対して、我々のシステムによる確認と解析の実験がなされた。構造と3Dの動きは画素以下の精度まで対応付けができた。この結果は大変勇気付けられるもので、地球や宇宙科学、特に気象予報における雲のモデルへの応用に期待が持てる。

Ej

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.23, No.12


色不変量
Color Invariance

J.M. Geusebroek, R. van den Boomgaard, A.W.M. Smeulders, H. Geerts

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1338-1350, December 2001

Keywords: Photometric invariance, color constancy, measurement theory, scale-space, differential invariants, differential geometry, multispectral imaging, Kubelka-Munk theory, photometric models, Gaussian color model

本稿では、有色物体の表面反射率の測量法を示す。この測量法では、画像形成の際の条件を考慮した、いくつかの一般的な仮定を元にする。カラー画像からその被写物の表面反射率の頑健な計測のためのフレームワークを定義するために、カラー画像に対してガウス分布尺度空間パラダイムを用いる。被写物の表面反射率は、染料層に対するKubelka-Munk理論に基づいた物理的反射モデルから導き出される。照明と幾何的な不変的属性はこの反射率モデルから導き出される。色不変量の不変性と分離力は実験を通じて調査され、これらの色不変量が影、照明、ハイライト、そしてノイズを減らすことが出来ることが示される。広範な実験により、不変性の属性の調整により、異なった不変量が高度に分離可能であることが示される。ここで示した色測量に関するフレームワークは、測量学と同じように色の物性においても、よく定式化されている。ゆえにここで提案した不変量は、他の方法よりも、不変性色特徴の計測に適しているといえる。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


埋め込まれた信頼度を用いたエッジ検出
Edge Detection with Embedded Confidence

P. Meer, B. Georgescu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1351-1365, December 2001

Keywords: Edge detection, performance assessment, gradient estimation, window operators

ウィンドウ内の画素値の加重平均を計算することは、多くのコンピュータビジョンの演算子における基本モジュールである。その処理は線形ベクトル空間内で再度定式化され、他の下位空間の役割が強調される。このフレームワークを用いると、大きな偽反応などの、勾配を基にしたエッジ検出器のよく知られた出力結果を、定量的に説明することができる。計算に用いられたエッジモデルの信頼度に関して独立した尺度が得られるため、入力データから導出されたテンプレートとのテンプレートマッチングは重要であることも示す。広く用いられている3段階のエッジ検出手順−勾配推定、非極大抑制(訳注:理想的にはエッジは1画素幅であるべきですが,実際にエッジ検出すると,「太い」エッジが得られる。「太い」線から,極大のもの以外を「抑制」して除去することにより,1画素幅のエッジを得る方法)、履歴閾値処理−が、信頼度の測量により得られる情報を含むように一般化される。追加分の計算量はごくわずかである。幾多の標準的なテスト画像を用いた実験により、この新しい方法が、弱いエッジを検出する能力があることを示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


尺度空間に基づいた領域競合の一般スキーム
General Scheme of Region Competition Based on Scale Space

M. Tang, S. Ma

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1366-1378, December 2001

Keywords: Nonparametric probability model, region competition, region growing, scale space-based classification, segmentation

本稿では、尺度空間に基づいた画像分割のための、領域競合の一般スキーム(general scheme of region competition : GSRC)を提唱する。最初に、ある特定の尺度で一般的に定義されたピークに従って画像特徴データを分類する新たな識別アルゴリズムと、尺度空間に基づいた識別スキームを示す。この識別スキームでは、上記識別アルゴリズムの結果として得られる特徴データクラスターを、標準的な識別アルゴリズムを用いて幾つかのクラスにグルーピングする。次に上記分割結果の誤りを削減するために、ノンパラメトリック確率モデルを展開する。このモデルからGSRCのための汎関数を引き出す。三番目に、初期領域を自動決定するための、一般的且つ定式化されたアプローチを設計する。そして最後にGSRCの核となる一連の操作を提唱する。この操作により汎関数が最小となるように画像が分割される。GSRCに採用された戦略は、画像中の各画素を高速にラベル付けする。広い可能性の中で、各画素がどの領域に分類されるかが決定され、その後ノンパラメトリックモデル、境界平滑化、および領域競合の助けを借りて最終的な領域の微調整を行う。GSRCは、尺度空間に基づいた識別スキームにより、領域分割の範囲を定量的に制御する。本稿においては、このスキームの表記はノンパラメトリックであるにもかかわらず、本稿における全てのノンパラメトリック手順がパラメトリックなもので代用される場合、GSRCはパラメトリックにも稼動する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


粗から密への動的計画法
Coarse-to-Fine Dynamic Programming

C. Raphael

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1379-1390, December 2001

Keywords: Dynamic programming, A-star, mine recognition, brachistochrone, iterated complete path, coarse to fine, global optimization

本稿では、我々が「粗から密への動的計画法(Coarse-to-Fine Dynamic Programing : CFDP)」と呼んでいる動的計画法(DP)の拡張方式を紹介する。この方式は広大な状態空間におけるDPの問題に理想的に適する。オリジナルのDP問題の下限境界である粗な近似の系列を解くためにDFDPでは動的計画法を用いる。これらの近似はオリジナルのグラフの状態を併合し、より粗なグラフにおける「超状態(superstates)」を形成する。この粗なグラフでは、超状態間の楽観的なアークコストを用いる。これらの近似は、最適なパスが見つかったときにオリジナル状態グラフを終端させるように設計されている。CFDPは多くのDP問題を解くのに必要とされる計算の総量を顕著に削減し、いくつかの場合においては、他の方式では不可能な計算を可能とする。CFDPは、DP問題を、連続状態空間を用いることで一般化し、この拡張方式に対する収束解をもたらす。この近似における計算では、隣接する超状態の組と関連する、可能な全てのアークに対して,コストの範囲を限定することを必要とする。このように我々が提唱した方法の実現可能性は、これらの下限境界の同一性の検証を必要とする。鉱石認識における関数の最適化と、境界の推測への応用を示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


三次元モデル取得と追跡のためのハイパーパッチ
Hyperpatches for 3D Model Acquisition and Tracking

C.S. Wiles, A. Maki, N. Matsuda

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1391-1403, December 2001

Keywords: Pose estimation, model acquisition, model tracking, face analysis

単一のカメラによる、三次元モデルの自動生成と、動きの中での簡単な物体の三次元追跡は往々にして難しい。その理由はモデルを構築するための情報が粗であるからである。我々が開発した自動スキームでは、まず物体に対して単純な点表現ユークリッドモデルを計算し、次にこのモデルをハイパーパッチにより肉付けしていく。このハイパーパッチは、方位に関する情報と、この物体上の平面性の高いパッチにおける強度パターンの変化に関する情報の両方を含む。この情報を用いることにより、投影されたパッチの空間および強度における歪みを、三次元物体運動においても正確にモデル化することができる。人間の物体追跡を特化されたアプリケーションと見なした場合、ハイパーパッチは単眼画像系列からのモデル取得中に自動的に計算されるものではなく、また視覚における物体追跡に対して極めて適当でもあることを示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


航空機検出:人間の類似度を用いたケーススタディ
Aircraft Detection: A Case Study in Using Human Similarity Measure

B. Kamgar-Parsi, B. Kamgar-Parsi, A.K. Jain, J.E. Dayhoff

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1404-1414, December 2001

Keywords: Aircraft detection, automatic target recognition (ATR), data generation, learning, similarity measure, training set augmentation

空の画像を走査して、航空機があるかどうかを決定する問題は、理論的にも実用的にも興味深い。空の赤外線画像から最も突出した信号を抽出したならば、問題はその信号が航空機と一致するか否かである。一般的なアプローチは、その二次元信号とモデル化された航空機との、形状のユークリッド距離などを用いてなる類似度を計算し、それが(予め決められている)閾値を越えるか否かに基づいて決定を下すものである。計量類似度や閾値の使用を避け、代わりに人間が用いているような類似度を習得することを目指した新たなアプローチを示す。これによると、充分な実際のデータがない場合には、識別境界付近に投影される、任意の多数のトレーニング例を特別に生成することができる。一度このようなトレーニングセットで学習すると、我々のアプローチによるニューラルネットを基にしたシステムの性能は、人間のエキスパートと比肩しうるまでになり、有効な実データのみを用いてトレーニングしたネットワークの性能を遥かに凌いだ。さらに、ユークリッド識別器を用いた場合の性能よりもかなり良い結果であった。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


アクティブビジョンシステムのための、データおよびモデル駆動型注視制御
Data- and Model-Driven Gaze Control for an Active-Vision System

G. Backer, B. Mertsching, M. Bollmann

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1415-1429, December 2001

Keywords: Visual attention, gaze control, visual exploration, active vision

視覚の注意機構のモデルにより、アクティブビジョンシステムの活動を制御するための一般的なアプローチが得られる。問題の重要な側面において、従来の方法とは異なる新たな注意制御モデルを紹介したい。我々は注視という選択機構を2つのステージに分けた。この2つのステージは、早い選択と遅い選択の間の相克のような、自然の視覚的注意機構に見られる、異なった現象として説明するのに適している。ここで提案するモデルは、特に動的シーンへの適用のために設計されている。我々のアプローチは、なるべく多くの一般的なアクティブビジョンシステムのモデル化と、特別な問題を解くための特別な側面の統合のための、簡潔なインターフェースを狙っている。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


空間的サイズ分布:形状およびテクスチャ解析への応用
Spatial Size Distributions: Applications to Shape and Texture Analysis

G. Ayala, J. Domingo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1430-1442, December 2001

Keywords: Texture analysis, shape analysis, size distribution, granulometry, geometric covariogram, spatial size distribution

本稿では、新たに定義された空間的サイズ分布(spatial size distributions : SSD)に基づいて、二値およびグレースケールの画像の新たな記述法を提案する。主なアイディアは、二値画像の幾何学的コバリオグラム(空間的相関を示す尺度:訳者注)、もしくはオリジナル画像のグレースケール画像の自己相関関数と、それぞれの粒状性変換との間の比較と、画像の粒状性解析を組み合わせることにある。この定式化の特別なケースとして、便利な粒状性の分布が得られる。画像の高繊細な記述が求められる場合には、都合の良いことに、SSDにより生成される複雑な記述器を使用できることを、例を用いて示す。またこの新しい記述法は確率分布であり、これらの直感的解釈と特性は、適当な確率統計論的な立場から研究することが出来る。形状解析におけるこの記述法の利便性を、合成画像を用いた例で示し、標準的なテクスチャデータベースにおけるテクスチャ識別の実験を行うことで、テクスチャ解析への適応も研究される。SSDの様々なケースと、いくつかのテクスチャ識別における従来方法を、識別率と誤識別の個数を基に比較する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


三次元B-スプラインウェーブレット変換に基づいた、漢字の基本処理
Basic Processes of Chinese Character Based on Cubic B-Spline Wavelet Transform

Y.Y. Tang, F. Yang, J. Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1443-1448, December 2001

Keywords: Wavelet, cubic B-spline, character processing, compression, type zooming-in, typeface composition

本論文では、三次元B-スプラインウェーブレット変換に基づいた漢字の処理に関する新規アプローチを示す。ここでいう漢字の処理には、文字圧縮、書体ズームイン、文字書体合成が含まれる。基本的なアイディアは、漢字とは三次元B-スプライン関数で表される輪郭により記述され、その輪郭は詳細度に応じて、もしくは異なった解像度レベルでのコントロール点(ウェーブレット係数)に分解される、というものである。文字圧縮には二通りの方法があり、その一つはウェーブレット係数の細部を直接扱う方法であり、他方は異なった解像度レベルで分解された、下位の曲線を考慮する方法である。書体ズームインではウェーブレット再構築を用いて任意のサイズに漢字を変倍し、ウェーブレットフィルタを用いて拡大された書体の品質を向上させている。文字書体合成においては、異なった解像度レベルでの編集・修正により、新たな文字書体を得る。実験結果と具体的なアルゴリズムを本文中で示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


撮影対象となる人に依存しない、複雑な背景においても用いることができるジェスチャー認識システム
A System for Person-Independent Hand Posture Recognition against Complex Backgrounds

J. Triesch, C. von der Malsburg

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1449-1453, December 2001

Keywords: Computer vision, human computer interaction, human robot interaction, hand posture recognition, gesture recognition, object recognition, segmentation, complex backgrounds, elastic graph matching, Gabor wavelets

複雑な背景においても用いることができる、人に依存しないジェスチャー認識のためのコンピュータビジョンシステムを紹介する。このシステムは弾性グラフマッチング(Elastic Graph Matching : EGM)を基にしており、グラフのノードにおける、異なった特徴タイプの組み合わせを許容するように拡張されている。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


二次元形状認識のための、スペクトル特徴を用いた隠れマルコフモデル
Hidden Markov Models with Spectral Features for 2D Shape Recognition

J. Cai, Z.Q. Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1454-1458, December 2001

Keywords: Hidden Markov models, spectral features, 2D shape recognition, outer contours, handwritten numeral recognition

本稿では、二次元形状認識のための、スペクトル特徴を利用するマルコフモデルを用いた技法を示す。二次元の閉じた輪郭から導出された、フーリエスペクトル特徴の特性を解析し、これらの特徴を二次元パターン認識に利用する。隠れマルコフモデルのパラメタを再推定するアルゴリズムを開発した。我々のモデルが如何に効果的かを示すために、2つの画像データベース(工具と非拘束手書き数字)を用いてテストを行った。却下無しに、それぞれについて99.4%、96.7%という高い認識率を達成することができた。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所的アフィン歪の固有ベクトルを用いた、周期的テクスチャからの形状復元
Shape from Periodic Texture Using the Eigenvectors of Local Affine Distortion

E. Ribeiro, E.R. Hancock

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 12, pp.1459-1465, December 2001

Keywords: Shape-from-texture, spectral analysis, affine distortion, eigen-analysis

本稿では、反復による数値的最適化を用いることなく、規則正しいテクスチャを持つ曲面の、局所スラント角とチルト角を直接推定する方法を示す。我々は(空間)周波数次元でこれを検討し、スペクトルピークのパターンのアフィン歪を用いて、テクスチャの歪みを計測する。アフィン歪行列の固有ベクトルの方向は、曲面の接平面の局所スラント角とチルト角の推定に用いることができることを示すことが、本研究の理論面での主な貢献である。特に第一固有ベクトルはチルト方向を示す。幾何学的には判りやすくはないが、第二固有ベクトルの方向はスラント方向の推定に用いることができる。ここで必要とされるアフィン歪行列は、スペクトルのピーク間の適合度を用いて計算される。これらのスペクトルのピークは、エネルギー順序を原則として構築されている。この方法を様々な実画像と合成画像に適用する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


[インデックス] [前の年] [次の年]