AbstractClub - 英文技術専門誌の論文・記事の和文要約 |
![]() |
![]() |
![]() |
Donald Geman and Bruno Jedynak
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996
Keywords: Decision tree, model-based tracking, active testing, roads, SPOT images
衛星画像から道路を追跡する新しいアプローチを提案し、それによってコンピ ュータビジョンにおける1次元の構造物の追跡や他の認識の問題のための一般 的な考え方である"active testing"について説明する。このアプローチは「次 にどこを見るか」といったアクティブビジョンの最近の研究に関連し、 "Twenty Questions"のような娯楽ゲームの"divide-and-conquer"戦略によって 刺激される。
前のテスト(ここでは短い道路セグメントに対するマッチドフィルターを選択 すること)の結果から得られた正しい仮説(ここでは道路の位置)についてで きるだけ不確実さを取り除くようにその時点でのテスト内容を選択する。テ ストの内容はテストと仮説の結合分配のための統計的モデルに基づいてオンラ インで選択される。不確実さ(ここではエントロピーによって測定される)を 最小化する問題は簡潔で明示的な解析的項で定式化される。このエントロピー によるテスト規則を実行するために、データ収集と最適化を交互に行なう。こ れは、おのおのの繰り返しにおいて新しい画像データが試され、新しいエント ロピー最小化問題が解決される。これは検査するための新しい場所の画像に対 して行なう結果として可能になる。
地上で10mの解像度を持つ SPOT 衛星画像を使用した実験結果を示す。これ は、開始位置と方向を与えられ人の介在なしに100kmのオーダーの距離 で南フランスの高速道路の追跡を瞬時に行なうことができた。
Philip F. McLauchlan and David W. Murray
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996
本論文では、制御可能な頭部の台に据え付けられたカメラによる計測 の新しい方法を示す。 計測パラメーターの推定のオーバータイムを改善するために、 新しい可変状態次元の再帰フィルタを利用して、 任意の数の追跡されたコーナー特徴の軌道を使用する。 本方法は特別な視覚の刺激は必要としない。 また、頭部に対して相対的に固定であるという以外、情景の構造に関する いかなる仮定も必要としない。 本アルゴリズムは一つのインモスT805トランスピュータにおいて1秒あたり 4フレーム処理される。したがってリアルタイムのアクティブビジョンシステ ムとして構築されている。 更新された計測パラメータは必要とするビジョンモジュールに 渡される。 本アルゴリズムはカメラの焦点距離の初期推定を必要とするが、 実際の実験では初期誤りが50%までは収束が得られることが 示されている。
David W. Jacobs
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996
Keywords: Grouping, perceptual organization, convexity, proximity, nonaccidental properties, robust, efficiency, recognition
本論文は,画像中の線セグメントの凸面群の位置を強健に突き止めることの できるアルゴリズムについて述べる.このアルゴリズムでは,セグメント間の 隙間の長さが線のトータルの長さのある一定の割合より小さい線セグメント の凸面集合を全て検出できることが保証されている.これにより,輪郭がノイ ズによって部分的に欠落した凸面群をも検出することができる.そして予想さ れるケースに関する分析によってアルゴリズムの性能を示す.これによって凸 面はランダムに発生しないようであろうことが分り,線セグメントがシーンの 基礎構造を反映するという,強力な手掛かりとなる.線セグメント数 n の画 像中の 上位 m 個の凸面群に対し,提案アルゴリズムの実行時間は O(n2 log(n) + nm) となることを示す.この分析はリアルデータに対する実験 で実証され,このグルーピングシステムを完成された認識システムの一部とし て示す.
Paul T. Jackway and Mohamed Deriche
IEEE Trans. Pattern Anal. Machine Intell., Vol. 18, No. 1, January 1996.
多重尺度モーフォロジーにおける膨張,浸蝕演算による平滑化操作と,多次元 信号に対して,その操作により想起される尺度空間への展開についての研究が なされている.平滑化操作の性質が述べられ,特に信号の極値に対する尺度空 間での単調な性質について説明されている.この手法による尺度空間の特徴軌 跡画像のほうがガウシアンに基く尺度空間の特徴軌跡画像よりも,尺度のパラ メーターに負値が定義されていること,二次元やそれ以上の次元においても単 調な性質を有すること,平滑化による位置のずれを生じないこと,効率的な計 算が可能であることなどの点で優れている.また,簡約された多重尺度の膨張, 浸蝕演算の,地形表面のマッチングへの応用が示されている.
Jin-Long Chen and George C. Stockman
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996
Keywords: Pose determination, 3D objects, object tracking, object modeling, image matching, recognition by alignment
任意の曲面を持つ3次元の硬い物体の姿勢を計算する方法を提案する。入力画 像と物体モデルおよびその形状の候補が与えられると、この方法は物体がある かどうかなどを確認し姿勢に関するパラメータを計算する。
BasriとUllmanの曲率を利用した方法は物体の縁のモデル点に適応されるが、 ステレオマッチングでは物体内部のエッジ点に適応される。そのモデルは物体 のエッジ画像が姿勢のパラメータにより予想されることを可能とする。姿勢は 最も良いパラメータになるように繰り返し探索される。ヒューリスティックス はマッチングがオクルージョンや人工物が存在する場合や特徴点の対応づけを 行なわない場合でも成功するように使われる。
ベンチテストとシミュレーションはこの方法が様々な物体に対しても同じ形状 の物体で多くの開始パラメータを用いても正しいパラメータにいつも収束する ことを示す。
Aldo Laurentini Haisong Gu, Yoshiaki Shirai, and Minoru Asada
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996 IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996
Keywords: Aspect graphs, polyhedra, topological definition of aspect
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 13, No. 6, June 1991 において発表された論文 「Efficiently Computing and Representing Aspect Graphs of Polyhedral Objects」 に対するコメントである。
本書簡は多面体の aspect graphs の算出に関する上記論文で与えられた aspect の定義を出発点にしている。
この定義に則って保持されたデータは 物体の識別もしくは 位相的マッチングを用いた姿勢の識別 に不適当な場合があること を示す簡単な例が示されている。
また、指摘した問題の発生しない他の定義も提案されている。
本論文では最小記述長(MDL)原理をもとに、 複数の独立に運動する物体を含むシーンの長い画像系列を、時間的空間的に セグメンテーションする手法を与える。 まず最初に、一連の運動モデルが構成される。その各々は、一定速度の並進や 並進と回転の組合せのような、物理的に重要な運動に相当する。 それから、運動記述長が定式化される。 ある物体が運動のタイプを変えるか、もしくは物体の新たな部分が現れると、 それに相当する時間的・空間的セグメンテーションが実行される。 長い画像系列において運動記述長を最小にすることによって、2つの連続した 画像に対して明確なセグメンテーションを行なうことができる。 いくつかの実画像の系列について実験を行ない、本手法の妥当性を示す。
mNt ---
John Ostuni and Stanley Dunn
IEEE Trans. Pattern Anal. Machine Intell., Vol. 18, No. 1, January 1996.
本論文では,画像の回転を用いることによって,三つの質の低い透視画像から 動きを検出する線形アルゴリズムを開発することができることを示す.ある二 組の画像間で四つの対応点を用いることで,必要な回転を実行できるような関 数を作成できる.正確な画像の回転ができれば,三つの画像に関する回転行列 の未知要素の解を重複決定するような線形システムを得るには,第三の画像を 付加するだけでよいこととなる.
Il Y. Kim and Hyun S. Yang
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996
本論文ではマルコフランダム場モデルにおける画像理解問題のための 統一的な手法を述べる。 提案した手法において、画像分割と解釈の処理は同時に協同して進むので、 誤った分割と誤った解釈は統合されたエネルギー関数の連続的な評価によって 回復が可能である。
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996
画像解釈はドメイン知識を借用した推論問題の一つである。本小論では、この 問題を正確に定義した確率分布関数の事後推定値の最大化として定式化する。
Bayesian ネットワークはこの確率分布関数および画像解釈に必要なドメイン 知識を表現できることが我々によって示された。Bayesian ネットワーク(の 条件)を緩和すれば、最適解釈の集合を得ることもできる。
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996
二つの透視画像にで同定された最少五つの点によって構成されている場面の3 次元アフィン構造を、両者間の相対物体カメラ推進を用いて復元する方法につ いて述べる。任意の立体景色を持って比較した結果、より少ない情報でより詳 しい再構成をできることが分かった。
この方法の唯一の仮定は二つの画像が同一のカメラで取られたことであったが、 カメラの固有のパラメータについては、何の知識をも持たない。
同じこの方法で、単一画像から平行構造のアフィン3次元再構築ができる。こ の場合、アフィン再構築には四つの点があれば充分である。
S. Di Zenzo, L. Cinque, and S. Levialdi
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996
本論文では、ランレングス符合化に基づいた2値画像の表現の 変形を提案する。 この変形によって「グラフ表現」の構築が可能になる。 この「グラフ表現」は連結成分のラベリング、オイラー数、直径、凸面、 局所的な極点と重複点の計算などのたくさんの計算機処理に便利である。 最後にデジタル地図のラスター−ベクトル変換への応用を示す。
Hadar Avi-Itzhak and Thanh Diep
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996
この論文では、二クラス問題のためのベイジアン決定系について、その最小 誤差確率の新しい上限と下限とを提案する。 これらの上限と下限は、正確な最小誤差確率へと任意に近づけることができる ものであり、これまでに知られているいかなるものよりもタイトなものである。
Yanhong Li, Daniel Lopresti, George Nagy, and Andrew Tomkins
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996
本論文ではOCRにおいて出現するモデルの変形を生成する 文字画像生成器を評価する問題について論じる。 たくさんのモデルが提案されてはいるが、彼らの欲する結果を提示して、 概してアドホックで略式な方法で主張が示されている。 我々はモデルが正確な場合の厳密でより実用的な定義を導入する。 すなわち、もしそのようなモデルによって引き起こされるOCRのエラーと 実際にスキャンされた文書を使う場合に起こるエラーとが区別できない場合に 画像劣化モデルが有効であることを示す。 我々はこの類似性を定量化するために4つの尺度について述べ、それらを 3フォントの1000万個以上のスキャンされた文字画像を使って比較対照する。 それらの尺度はテキストに関わらず、異なったフォントと 同じフォントの異なったスキャンを効果的に区別する。
Anil K. Jain and Kalle Karu
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996
本論文では神経回路網によるテクスチャの分類方法を提案する。 本方法は複数チャネルフィルタリング法の一般化として導入される。 一般的なフィルタの集合を使用するかわりに、 神経回路網をトレーニングして特化フィルタの最小集合を見つける。 したがって、特徴抽出と分類は同一の統一された網で行なわれる。 異なる網のパラメータにおける誤りレートを計算し、トレーニングと ノード切りとりアルゴリズムの速度の収束を示す。 本方法をいくつかのテクスチャ分類実験に適用した結果を示す。 画像中のバーコードの位置特定実験と、 文書画像を文字領域と図・写真と背景に分離する実験で成功した。 既存の複数チャネルフィルタリング法と比べて、神経回路網を使用した 本アプローチは、同じテクスチャ分類と分割問題においてより有効である。 本方法の拡張、それは限界でもあるが、それも本論文において述べる。
Carlo Berzuini and Cristiana Larizza
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996
Keywords: Bayesian inference, statistical forecasting, analysis of time series data, analysis of failure data, Markov chain Monte Carlo methods, conditional independence graphs, model determination, medical monitoring.
本論文は,例えば病状の予見のための患者のモニタリングのような生物医学的な 問題について考慮する.モニタリングデータは指定された一定時間ごとに,時間 的に連続なものと患者の異変(病状の進行,死)に関するものが発生するという ことは重要である.本論文ではこれら両方のタイプの病状予見のためのデータの 組み合わされたモニタリングに対するBayesian 手法が提案されている.この手 法は Bayesian 階級的モデリング,連続時間データのパラメータを用いないス ムーシング,生存分析,統合された骨組みでの予見などのアイデアを併せ持って いる.連続時間データの柔軟なモデリングは確率的過程論に基づいている点が重 要である.また,病状予見のための Markov Chain Monte Carlo シミュレーショ ンの利用が議論されており,モデルのはっきりとした記述のために,条件付独立 グラフが全体にわたって用いられている.最後に移植患者のモデリングに対する 適用が示されている.
Brian C. Lovell and Andrew P. Bradley
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996
この論文では、ルールベースの推論学習アルゴリズムを提案する。それは、 それは、特徴空間を次々と半分に分割することによって学習データを分類 するための、あらゆるN次元の実(または二値)識別器に適用されうるも のである。 このアルゴリズムは、既存のルールベースのアプローチと比べた場合に、 重要な違いがいくつかある。それは、学習がインクリメンタルであること、 ツリーが二分木ではないこと、決定におけるバックトラックがある程度 可能であることである。 この論文は、まず現在の機械学習技術の背景について述べ、その強みと弱み となるいくつかの点について概説する。 次にMSCアルゴリズムについて述べ、特定のリファレンス(ID3, C4.5, バック プロパゲーションNN)について他の推論学習アルゴリズムとの比較をする。 さらに標準ベンチマーク問題のいくつかについての性能について議論をし、 一般化や表現力、それに過適応といった学習における標準的問題について 述べる。
David Slater and Glenn Healey
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996
Keywords: Object recognition, color distribution invariants, illumination invariant, viewpoint invariant, illumination correction, pose estimation.
3次元物体の認識に関する従来の研究は 3次元物体の幾何と2次元画像の幾何の間の関係を明らかにした。 次は物体表面の色に関する情報を組合せて用いることで、 物体認識システムの可能性を向上させることが出来る。
画像の構成に関する物理的モデルを用いて、 視点、形状、シーンの光源の強度およびスペクトルに依存しない 局所的な色画素の分布の不変特徴を導いた。 これらの不変特徴は 物体表面に固有のスペクトル反射の分布に関する情報をとらえ、 それによって 多くのテクスチャ表面を含む広い範囲に渡る表面を識別するのに 非常に強い識別性能を供給出来る。
これらの不変特徴は いかなる形態の分割処理も用いることなく、 カラー画像の一部分から効率的に算出出来る。 この不変特徴を用いてモデルのデータベースへ 索引付けを行なう物体認識システムを実装した。 このシステムは仮定の検証と姿勢の評価の為に 同伴幾何情報を用いている。
認識へのアプローチは 局所的不変特徴の算出に基づいており、 そのために隠蔽の影響を受けない。
このシステムが物体の形状やシーンの光源に依存しないで 乱雑なシーン中の物体を認識する性能を証明するいくつかの例をしめす。 不変特徴の識別性能は誤った仮定を生成することなしで 複雑なシーン中の多くのセットを処理できるシステムの能力によって証明される。
mNt
Pietro Parodi and Giulia Piccioli
IEEE Trans. Pattern Anal. Machine Intell., Vol. 18, No. 2, February 1996.
本論文では,消失点の位置により得られる幾何学的な制限を利用してシーンの 線画から三次元構造を定量的に再構成するという研究について述べる.消失点 に付随する情報は,線形プログラミングへの自由度の減少 ( a reduction to Linear Programing : 杉原,1982 ) に基く従来の方法に対していくつか優れた特徴をもつアルゴリズムの設計を可 能にした.それらは,計算の複雑度の低さから,誤差に対する耐性や,物体の 三次元的な幾何学的特徴の再構成の正確さにまで及んでいる.これらの特徴に より,このアルゴリズムは,例えばシーン理解から自動車の案内までのいくつ かの課題に有効であるような,実写画像の定量的な解析に対して有用なツール となるのである.
Jana Novovicov- Pavel Pudil, and Josef Kittler
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996
ここでは、二クラスの条件付き密度関数間のカルバックJダイバージェンス に基づく特徴選択手続きを提案する。条件付き密度関数はパラメータ化され た特殊なタイプの密度の有限混合によって近似されたものである。 この手続きは、特にマルチモーダルなデータに適したものである。 いかなる探索手続きをも含むことなく基本的な特徴サブセットを見つける ことの他に、疑似ベイズ決定規則をも生み出すことができる。 その性能については、実データについてテストがなされる。
Ingemar J. Cox and Sunita L. Hingorani
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996
Reid の複数仮説追跡(MHT)アルゴリズムの効率的実現について述べられて いるが、そこでは、Murty のアルゴリズムを用いて上位k個の仮説が 多項式時間で決定される。 MHTアルゴリズムはそれからいくつかの運動系列に適用されている。 追跡の開始、終了、継続でのMHTの能力が、追跡の一時的オクルージョンを 低レベルでサポートする能力とともに示されている。 50〜150のコーナー特徴が51フレーム以上の画像平面の中で 同時に追跡される。 それぞれのコーナーは単純線形カルマンフィルターを用いて追跡され、 データの関連づけの不確かさはMHTによって解決される。 カルマンフィルターのパラメーター推定を論じ、実験結果で このアルゴリズムが運動モデル中のエラーに頑強であることを示す。 前方調査(look-ahead)機能としてのアルゴリズム性能テストでは 三段程度の浅いツリーではかなりの高精度が得られることが分かった。 実験結果はある種のシーンに対して動作一致問題のための実時間MHT解法が 可能であることを示す。
Long Quan
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996
Keywords: Conic, stereo correspondence, reconstruction.
円錐は点や線と共に画像の最も基本的な特徴の一つとして広く受け入れられている。 空間の再構築と2つの視界における2つの円錐の対応付けの問題がこの論文の主題であ る。
2つの視界に跨る1組みの円錐の対応については、 2つの独立な多項式が存在することが示されており、 2つの視界での方向の関係を与えている。
これらの2つの対応は代数学的に導かれ、 その1つは円錐の対応付けを求める際の基本として示される。
一様閉形式( A unified closed-form )の解法も 2つの補正されていないカメラの視界から円錐を射影的に再構築するためと 2つの補正されたカメラの視界から計量的に再構築するための 両方の為に開発された。
実験はシミュレーションと実画像の両方に対して 対応関係の識別性能と再構築の精度と安定性 を証明する為に行なわれた。
mNt
Ari D. Gross and Terrance E. Boult
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996
一般化円筒は柔軟であり、パラメーター形状のゆるく定義されたクラスで 多くの実世界対象物をモデル化することができる。 まっすぐで均質の一般化円筒(SHGCs)は、一般化円筒の重要なサブクラスであり、 その断面で参照曲線のスケールの違うものが得られる。 従来は輪郭からのSHGCの形状の復元としてかなり研究されてきたが、今回は 輪郭とヒューリスティックな拘束条件を組み合わせた方法をほとんど使っていない。 単独輝度視界(single intensity view)からの固体パラメーター形状の復元問題の 正確なアプローチは少なくとも2つのステージを含む: 1)輪郭の拘束条件を得る 2)三次元対象物形状を一意に決定するのに用いることができる付加的画像拘束条件 例えば輝度を決定する。 この論文では、著者は今述べたアプローチに従う。 この方式は管のように輪郭やヒューリスティックな拘束条件が形状復元に不適当な 対象物クラスの復元にも重要である。 最初に正射影(orthography)で生成されるSHGC輪郭がちょうど二つの自由度を もつことを証明する。 次に残った自由なパラメーターが表面反射能(surface albedo)での光源の数、 位置、輝度、周囲の光量の知識なしに反射率に基づいた(reflectance-based) 拘束条件を用いて求めることができることを示す。 最後に、反射率に基づいたな復元アルゴリズムを人工的また実在する SHGC画像の両方で証明する。
Sugata Ghosal and Petr Vanek
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996
複数の運動する物体や部分的に重なりをもついくつかの物体や、あるいは 単一の物体でさえも背景に対して運動するときには、相当する画像系列 のオプティカルフロー場において不連続を生ずる。 一様で大局的な正則化をほどこす手法はそこそこ速いけれども、不連続な フロー場を精度良く評価することができないし、統計的な最適化を行なう 手法は精度は良いけれども、解が求まるまでに相当な時間を覚悟しなければ ならない。 ここで提案する、数値的にロバストなアルゴリズムにもとづく 「重みつき非等方的」平滑度は、不連続なオプティカルフロー場を高速に、 線形の計算量で生成することができる。 正則化のためには、フロー場の一次の空間微分の重みつき和が用いられる。 強い勾配を示す箇所では正則化はあまりはたらかない。 任意の点におけるフロー場は、勾配のゆるやかな方向に沿った近傍点の フロー場から内挿される。 そのような勾配によって重みづけされた正則化から、係数に非連続を含んで 連立された、強い非等方性を持つEuler-Lagrange方程式が導かれる。 非連続なオプティカルフロー場を評価するために、ロバストな多レベルの 反復手法をとりいれた。これは、勾配で重みづけされた平滑係数にもとづき、 粗レベル問題を再帰的に生成するものである。 実験結果から提案手法の効果を示す。
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996
グラフテンプレートを用いてモデルを登録する新しい方法を提案する。 目印となるグラフがテンプレート画像の中から選ばれる。 これらの目印に対するすべての可能な候補が、局所オペレータを用いて データ画像中で探索される。 テンプレートグラフの分割可能なサブグラフについて動的計画法を適用し、 候補点の最適な組を多項式時間で見つける。 重要な点/目印を記述するための局所オペレータと、それらの幾何学的な方向を 記述するためのグラフとをこうして結び付けることにより、 データへのモデルのマッチングを、初期化が一切不要で 速く正確に行なえるようになる。
Mourad Zerroug and Ramakant Nevatia
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996
曲線を軸とする一般化円筒クラスの三次元記述での物体レベルでの復元に ついて論ずる。本論文は、まず、2種類の一般形状(平面直一般化円筒 (planar right constant generalized cylinders (PRCGCs))、曲面直一般化円 筒(circular planar right generalized cylinders (circular PRGCs)))の投 影の性質を解析する。これら分析された性質に、上記形状の直交投影の新しい 幾何学不変性と準不変性が含まれており、構造的性質はこれらの形状の姿勢の 関数として分類されている。 本論文の後半は、ノイズ、表面マーキング、影、および部分閉塞のある画像 からPRCGCsと曲面PRGCsを探知し、復元できるシステムの実施について述べる。 ここでの方法は、上記の投影的性質を利用して、関連の曲線軸の物体の仮説を 立て、実証する。つまり、物体の三次元性質とその記述が使用されている。 本論文で述べられた研究は過去に行なわれていた研究の拡張である。これら 過去の研究では、新プリミティブを提唱し、新性質を引きだし、そして、ある システムを構築して、上述のような画像から体積測定の形状を復元した。 上述の方法は複数の実の画像での応用を示す。
Simon X. Liao and Miroslaw Pawlak
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996
近年パターン認識にモーメントを利用する研究がされている。 対象の記述子としてのモーメントの正確さに関わる離散化とノイズの影響 といった、基本的な問題はほとんど研究されていない。 本論文では、詳細なエラー解析を含むモーメント法について議論する。 モーメント記述子の正確さと能力を向上させるいくつかの方法を提案する。 それから我々はこれらの結果を、離散的でノイズを含むデータから計算した 直交ルジャンドルモーメントからの画像再構成の問題に利用した。 モーメントの最適な数を自動的に選ぶ方法についても議論する。
Y.A.
Anil K. Jain, Yu Zhong, and Sridhar Lakshmanan
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996
Keywords: Object matching, deformable templates, image database, image segmentation, Bayesian optimization, multi-resolution algorithm.
変形可能なテンプレートを用いた、一般的な物体の位置決めと検索の方法を提案する。 物体形状の先験知識は、 代表的な輪郭/エッジと、テンプレートの確率的な変形変換の集合から成る、 プロトタイプによって記述される。 変形テンプレートと画像中の物体の間のマッチングを見つけるために、 この先験知識と入力画像のエッジ情報をもとにしたベイズ的な方法を用いる。 マッチングのアルゴリズムを粗い解像度から細かい解像度へ実行することによ り、計算の効率化をはかる。 我々の方法を複雑な背景を持った画像から様々な形状の物体を検索することに 応用した。 提案する方法は、テンプレートの位置、回転、適度な大きさの変化に不変であ る。
Konstantinos Tarabanis, Roger Y. Tsai, and Anil Kaul
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996
Keywords: Visibility occlusion, viewpoint planning, sensor planning, CAD-based vision.
本稿では、既知の多面体に対する視点のうち、そこから見られる特徴がその環境 でいかなるものにも隠蔽されることなく、そっくりそのまま見られるような視点 について、そのすべての位置を算出する方法について述べる。 この研究では、多面体(凹凸あり/なし、孔あり/なし)と透視投影のビューモ デルとを用いる。 まず始めに、隠蔽のない視点と隠蔽のある視点の位置の特性が決定される。これ らの特性に基づいて、その複雑さの解析とともに位置を求めるための二つの方法 について述べる。第一の方法では、隠蔽のない位置の境界表現が得られる。第二 の方法では、隠蔽された視点の位置が、CSG(constructive solid geometry)表現 によって表される。ここでCSG表現というのは、立体要素の結合から成るものであ る。この二つの方法について、インプリメントした結果と比較を述べる。
Sz
Marie-Pierre Dubuisson Jolly, Sridhar Lakshmanan, and Anil K. Jain
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996
Keywords: Object shape models, contour extraction, deformable templates, Bayesian inference, simulated annealing, motion detection, travel time estimation.
本論文では、変形可能なテンプレートを用いて、注目している一台の自動車を 切り出すアルゴリズムを提案する。対象とするのは、背景は複雑で静止してお り、他に動いている自動車があるような連続画像である。 我々は、自動車の一般的なモデルを特徴づける多角形のテンプレートを定義し、 テンプレートが、許される形状の範囲内で変形するように制限するための事前 確率密度関数を導出する。変形可能なテンプレートが画像の動いた範囲内に含 まれ、その境界が画像中で同じ方向を持つ強いエッジに一致することを保証す るため、動きの情報とエッジの方向性の組合せである可能性の確率密度関数を 提案する。このことで自動車を抽出する問題はエネルギー最小化問題に帰着し、 Metropolisアルゴリズムによって解決できる。
本システムはハイウェーを走行する複数の自動車を含むような405個の連続 画像でテストし抽出に成功した。
Vo Anh, Ji Yu Shi, and Hung Tat Tsui
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996
Keywords: Scaling theorems, zero crossings, Gaussian kernels, scale space, multiscale analysis, signal descriptions, bandlimited signals, Whittaker-Shannon sampling theorem, quadratic forms.
スケールスペースフィルタは、 スケールを横断して特徴を抽出することにより、 階層的な信号記述の方法を供給する方法として、唯一の知られたものである。 その記述の重要な特徴の一つとして、スケールが増加するときに、 フィルタリングによって特徴が生成されないことが要求されている。 すでに、ガウシアン・フィルタだけがこの特筆すべき性質を持っていることが 示されている。 これが、いわゆる「スケーリング定理」である。 本論文では、帯域制限された信号に対する二つのスケーリング定理を提案する。 これらは、より広いクラスの信号とより大きい族のフィルタ核へ適用できる。 また、我々の定理と以前に発表されているものに関して、 突っ込んだ議論をする。
Gabriel Taubin and Remi Ronfard
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996
パラメトリックで変形可能な様々なモデルは、例えば自由な形状の曲線と曲面の 再構成や、あるいは堅くない(nonrigid)変形の追跡などに広く使われ、とてもよ い結果をおさめてきた。しかしながら、そうしたモデルは、あらかじめ幾つかの 知識を必要とするものであった。ここで知識というのは、データの位相的な型や 初期的なよい曲線(または曲面)推定についての知識である。 変形可能モデルを用いると、変形追跡中にそれが自己自身に交わるかどうかをチ ェックし避けるための計算量が膨大となる。本論文で導入されるISM(Implicit Simplicial Models)は、区分的線形関数によって定義される、陰的な曲線・曲面 である。ISM表現を用いると、局所的な変形を許容し、位相のタイプを制御し、 変形の過程で自己自身に交わることを避けることができる。 本論文ではまた、まず最初の応用として、組織化されていないデータ点の集合か ら2次元曲線を再構成するアルゴリズムについても述べる。位相や連結成分数、 およびデータの幾何的な情報は、すべて適応型空間再分割アプローチを用いて推 定される。このアルゴリズムの四つの主要な構成要素は、位相の推定、曲線当て はめ、適応型空間再分割、およびメッシュ弛緩法である。
Sz
Sateesha G. Nadabar and Anil K. Jain
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996
Keywords: Markov random fields; line process, clique potentials, parameter estimation, edge detection, CAD models, range image.
シーンにおける対象物の幾何学的CADモデルを使用したマルコフ・ランダム・ フィールド(MRF)におけるラインプロセスのパラメータ推定の新しい枠組を 示す。モデルはランダムな視点から得られる対象物の合成画像を生成するため に使用される。合成された画像から計算されるエッジ画像は、最小自乗法を使 用したラインプロセスのパラメータ推定を行なうため、トレーニングサンプル として使われる。
このパラメータ推定方法が濃淡画像のエッジと同じように距離画像のエッジ検 出にも有効であることを示す。この論文の結果に主に貢献したものは、1) 他のラベルが有効ではない真のエッジのラベルを得るためにCADモデルを使用 したこと、2)パラメータの数を削減するために一般的なMRF表現を使用した ことがあげられる。
David W. Jacobs
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 18, No. 3, March 1996.
物体認識システムを、特徴をマッチングするルックアップテーブルを用いる ことでより効率化することができる。 この指標付けのプロセスのコストは、そのようなルックアップテーブルの中 のモデル特徴のグループを表すのに要する空間に依存する。 我々は、透視投影による一つの二次元画像から、ルックアップのための任意 の組の三次元モデルの点を指標付けするのに必要となる空間を決定する。 この場合にはモデルのグループを表す三次元表面を使用しなければならない ことを示し、そのような表面の解析的な記述を与える。 これは、拡大縮小された正射影、いいかえればアフィン投影の場合と対照的 に、二次元表面のみがモデル特徴のグループを表すのに必要とされる。 このことは、透視投影での物体認識の基本的な方法が、他の投影モデル での認識よりも複雑になるということを示している。
Mark D. Wheeler and Katsushi Ikeuchi
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996
Keywords: Smoothing, filtering, curve, shrinkage, Gaussian, computer vision.
本論文ではバターワースフィルター(Butterworth filter)のように ローパスの特性を持つとともに、 ガウシアンフィルターのような空間領域での広がりを持つ リニアな平滑化(smoothing)オペレータを提案する。 この平滑化オペレータは空間/周波数領域において 閉形式(closed forms)を持つため、 解析とインプリメントが容易である。 フィルターの方程式は明白に縮退をコントロール出来るように導かれる。
mNt
Philip W. Smith and N. Nandhakumar
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996
Keywords: Cepstrum, image correspondence, stereopsis, depth estimation, foreshortening correction.
本論文はステレオ対応問題を解くためのケプストラム的手法のパフォーマンス分析 を行なう。ノイズの影響、差異の縮小および既成のケプストラム的対応法における 測光法変量の定量分析が示される。これらのノイズの影響に強い改良手法を提案し、 その強健さに対して分析的議論を行なう。新しいケプストラム的手法の比較研究に よる結果、オリジナルなケプストラム的アルゴリズム、相互相関法を示し議論する。 テクスチャーを持つ外観に対する、新手法のパフォーマンスが実験により確かめら れた。
C.M. Fan, N.M. Namazi, and P.B. Penafiel
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996
Keywords: Image motion estimation, the maximum likelihood (ML) principle, the expectation-maximization (EM) algorithm, Kalman filtering, affine motion, additive white Gaussian noise.
本論文では、雑音のある測定値から期待値最大化法に基づいて 動き係数を推定する新しい反復型アルゴリズムについて その説明と実装について焦点を当てて述べる。 そして他の2つのロバストな反復型アルゴリズムとの比較も行なう。 動きフィールドは、ユニタリー級数展開によって表現されるが、 これにはいくつかの特長があることが示される。 第一に、滑らかなところとして参照されるような動きによって変わらないもの はそのまま残される、という点がある。 第二に、動きのローパス特性を用いれば、均一でない動きの推定は、 わずかな係数の推定ですむ、という点がある。 そして最後に、動き推定はモデルの必要なしに成し遂げられ得るという点であ る。 すなわち、 動きのモデルが完全に未知な場合、DCT表現は真の動きを表すのに非常に効果 的であるということである。
J.B. Antoine Maintz, Petra A. van den Elsen, and Max A. Viergever
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996
ディジタル画像における尾根状の構造は、その画像とガウシアンの 導関数との畳み込みによって抽出しうる可能性がある。 畳み込みオペレータとそこで使われるパラメータをいかに選ぶかに よって、ある特定の尾根状画像が決まる。
本稿では、isophote曲率 に関連する様々な尾根測度を作り、これを 人間の脳の精査のCT/MRIマッチングにおける有用性という観点から、 レビューし評価する。 尾根測度は、初期的には二次元画像上のヒューリスティクスを用いて つくられ、それから数学的枠組においてしっかりとつくられる。 注意が払われるのは、オペレータの不変的性質の必要性、オペレータ のスケール、3次元画像への拡張性、およびisophoteで主要な曲率へ の関連性である。 ここでの尾根測度のうちの一つは、マッチングの目的によく適合するよ うに見えることが示される。しかも、その尾根測度が様式化された幾つ かのシーンにおいて、尾根検出に失敗するにも関わらず、である。
Sz
Irene Rothe, Herbert Susse, and Klaus Voss
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996
Keywords: Invariants, normalization, Fourier descriptors, invariant moments, Legendre descriptors, projective invariants.
不変特徴量の決定はパターン認識の分野において重要な問題である。 これまで、正規化や他の手法を用いた多くの不変量が知られている。 本論文では正規化手法は従来示されていたよりもより一般的であること、 そして第2リスト( second list )からも同様に 多くのセットの不変量を導くことが可能であることを示す。 本論文中では正規化手法は一般化され、適用が容易な形式で表現される。 したがって、不変量の決定が単一かつ単純になる。
さらに本論文では正規化によって得られる不変量の長所/短所についても論じ る。 正規化手法のおもな長所はその過程で物体の標準位置が検出できる事である。 なお、手法の一般性によって、新しい不変量を得ることも出来る。 例えば、従来知られているよりもより安定な正規化モーメントや アフィン変換に対する不変量であるLegendre記述子や Zernike記述子、あるいはHuのモーメント不変量と正規化モーメントを組み 合わせて得る2次元フーリエ記述子やアファインモーメント不変量などを 得ることが出来る。
mNt
Steven Gold and Anand Rangarajan
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996
ノイズが多くても高速かつ高精度な、グラフマッチングのための 段階つき配置アルゴリズムを与える。 段階をつけた非凸性、2方向の(配置上の)拘束、および希薄性を結合させる ことにより、精度と速度が大幅に改善される。 計算量のオーダーが低い[O(lm)、ここでlとmは2つのグラフにおけるリンクの 数を表す]ことと、ノイズに対してロバストであるため、従来からの 組み合わせ的な手法よりも優れている。 本アルゴリズムはある特定の種類のグラフに限定されるものではなく、 サブグラフのisomorphismや重みつきグラフマッチング、属性関係 グラフのマッチングにも適用できる。
アルゴリズムの性能を示すため、オブジェクトから導出した属性関係グラフ をマッチングさせた。 100個のノードをもつ様々な種類のランダムなグラフ(0-1リンクだけのグラフ、 重みつきグラフ、ノード属性と多種のリンクをもつグラフ)に対して 25000件の実験を行なった結果を報告する。 他のグラフマッチングアルゴリズムによる結果で比較できるようなデータ がこれまで報告されていなかったので、 緩和ラベリングアルゴリズムを用いた2500件の制御実験を行なったところ、 精度の大幅な改善が示された。
Robert R. Bailey
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996
本研究は手書き数字認識に二次元直交多項式を利用した様々な様々なアプロー チについて考察する。認識にはパラメータあり(なし)統計的とニューラル的な 分類機構をも利用している。位置、サイズおよび(できれば)回転に不変であ る積率に基づく特徴を生成するために、Legendreの, Zernikeの, 及び疑似 Zernikeの多項式が使用されている。幾何学的な積率を用いた効率的な積率の 計算方法の一つはここで提示される。この方法は尺度不変という副次効果をも 有する。最小外接円弧を用いた位置不変の新アプローチをも提示し、積率の回 転性質についての詳細的な分析をも与える。
これら様々な特徴タイプと分類機構を評価するために、データ分割テストが行 なわれた。回転不変的な文字認識の最高正解率は 91.7% であり、非回転不変 的な文字認識の最高正解率は 97.6% である。同じデータとテスト条件での一 つ前の認識結果は 94.8% だった。
ここで開発された技法は形状認識にも応用できる。
Hirobumi Nishida
IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 18, no. 4, pp. 400-411, April 1996
Keywords: Character recognition, handwriting recognition, learning, shape analysis, shape transformation, structural model
不連続変換を取り入れた構造モデルの構築に対する1つのアプローチを、 手書き文字認識への応用を中心として述べる。 本論文では、この問題をある特定の種類の形状変換を許容するような形状記述を、 データセットから帰納的に構築する問題として考える。 提案する方法は、変換によって生ずる効果についての、 完全で、体系的な、高いレベルのモデルの発掘を基盤としており、 一般化のプロセスは高いレベルの変換モデルによって、 制御され、支えられている。 手書き文字等に共通して見られる不連続変換による効果に関する解析が、 完全に、かつ、体系的に行なわれ、少数の場合に分類される。 この解析をもとにして、これらの変換を許容する「スーパークラス」の推論の アルゴリズムを設計する。 さらに、例と実験を通して、提案するアルゴリズムにより、 自由手書き文字が少数のクラスに一般化され、各クラスが様々な変形パターンを 代表することを示す。
Wei-Ge Chen, N. Nandhakumar and Worthy N. Martin
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996
Keywords: Motion estimation, motion smear (blur), motion-from-smear
motion smear は人間の視覚系による動きの知覚のために重要である. しかし,画像分析の研究において,motion smear はほとんど利用されていない. むしろ,motion smear は、それが本来取り除かれるべきところの画像の劣化と 見なされている。 本論文では,motion smear 情報"motion from smear"から画像の動きを推定す るための計算モデルを確立する. 画像から重要な motion smear を得るためにセンシングカメラのシャッターを 長時間開けておき,十分な信号対雑音比(SNR)を得ることが,多くの場合必要 となる.
本論文では新しい motion blur モデルと画像の動きのユニークな推定を可能に するアルゴリズムを提案する. "motion from smear"に関するデータを得るために新しい motion blur モデルを 利用したプロトタイプセンサシステムが構築される. "motion from smear"を持ちいた本アルゴリズムに対し,従来の動きの推定と同 様に,シミュレートされたものと実際のsmear画像を持ちいて実験を行なった. temporal aliasingは"motion-from-smear"に対して,転置を用いるアルゴリズム ほどには影響をおよぼさない. 明白なmotion smearが示されれば"Motion-from-smear"は動きの推定に貢献し, 現在用いられている手法を効果的に補うものとなる.
Nicolas Merlet and Josiane Zerubia
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996
Keywords: Line detection, energy minimization, dynamic programming, curvature, satellite images.
衛生画像中の線分の検出に関する研究は15年もの間注目を集めている。 その研究には解像度やノイズおよび画像理解の問題が含まれている。 これまでに開発された最も良好な手法の1つは Fischlerの F* アルゴリズムである。 F* アルゴリズムでは、 頑強に正しくかつ高速に処理が可能である。 F* アルゴリズムは、 他の動的計画法と同様に 局所的な情報に基づいたコストを定義し、 画像中においてコストの総和を最小にする処理を行なう。 本論文では F* アルゴリズムを数学的にフォーマライズする。 それによって、 (コントラストを取扱う為の)2以上の画素の集合と (曲率を考慮する為の)1以上の隣接画素にまで コストを広げることが可能となる。 したがって全ての必要な情報(コントラスト、画素値、曲率)は デジタルの元画像上で定義される単一のコスト関数の元で合成される。 これらから算出されるコストは衛生画像中の道や谷を検出する為に用いられる。
mNt
Weian Deng and S. Sitharama Iyengar
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996
Keywords: Probabilistic relaxation, dictionary scheme, MRF, edge detection.
更新関数と辞書構築手段を含む、確率的弛緩法によるラベリングの新しい方法 について述べる。 非線形更新関数はマルコムランダム場理論とベイズの公式から導かれる。 本手法は、近傍のラベル割り付けから得られる証拠を統合し 、またラベルのあいまいさを効果的に削除する。 本手法で得られる結果は、 例えば画像復元やエッジ強調、 画素分類、画像分割などの様々な画像処理問題にとって意義のあるものである。 我々は本手法をエッジ検出に適用した。
ここで提案したエッジ検出アルゴリズムの弛緩ステップはノイズの影響を 軽減し、線の端点や角などのエッジ位置を特定するに良好な特徴を得ることが 出来る。また出力するエッジを絞り込む重要な役割を果たしている。 本手法が、収束が速くかつノイズに強いことが、実験によって示された。
Sridhar Lakshmanan and David Grimmer
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996
本論文は地面近くに固定されているミリ波レーダープラットホームから得ら れた画像に2本のまっすぐで平行な二本の道路端の位置決めをする問題につ いて論ずる。 この問題解決に当たって、高速かつ頑健で、完全にデータ駆動的な Bayes的な解法が開発されたが、これは自動車ビジョンの増強に応用できる。
本論文での方法は次のようなものを使用している、つまり、期待した道路端 の変形可能なテンプレートモデル、地面レベルミリ波(ground-llevel millimeter-wave, GLEM)レーダーのイメージングプロセスの2パラメータの log-normal モデル、直線エッジ検出問題の最大事後(maximum a posteriori) 定式化、事後密度の最大化の Monte Carlo のアルゴリズムである。
実際の道路でのGLEMレーダーの画像にこの方法を適用した実験結果が提示さ れた。この方法の性能の評価は、様々の道路シーンの実際状況と照らし合わ せて行なわれる。
Douglas DeCarlo and Dimitri Metaxas
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996
この論文では,関数の混ぜ合わせを用いて,2つのパラメーター化された形を, それらの主軸に沿った線形補間に基き新しいパラメーター化されたモデルのク ラスを開発することについて述べる. この混合関数は,各々の要素の形に比例した影響を,結果の混合形上にもたら すことになる. 結果の混合形は,各々の要素の形の特色をもつことができる. 少数のパラメーターの付加を用いると,混合は形のプリミティブの影響範囲を 拡張し,また形の概念を与える. 特に,それは属性が変化しうるような形をつくる能力を与える. 混合モデルは,力学的な変形モデルを用いた物理的な形の評価の枠組になぞら えられる. 最後に,距離画像からの複雑な形の抽出と,力学的な属性の変化の例について の実験を示す.
Fredric Solomon and Katsushi Ikeuchi
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996
Keywords: Photometric stereo, Torrance-Sparrow model, specular lobe, roughness, segmentation, shape, inspection.
表面の形状と粗さを測定する非接触法を提案する。 ”4光源によるステレオ光度測定”と呼ぶこの方法は、 順番に対象物体を照らす4光源と、その物体を撮影するビデオカメラを使用す る。 本手法は多くの実画像に対して成功を収めた。
J. Kramer
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996
受光素子がチップに組み込まれた集積回路について述べる。 この回路は、焦点面上の与えられた軸に沿って動く視覚刺激を2地点において 検出し、その時間遅延を測ることによって視覚刺激の双方向の速度を計算する。 回路が簡潔なので、このような動き感知素子の高密度な配列をモノリシックに 集積することができる。 このことによって、画像の速度場を推定したり、局所的な或は大域的な 相互作用によってより高レベルな画像特徴を抽出することができる。
Y.A.
Christophe Parisse
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996
単語形状の簡易的なプロファイルを用いることで、オフラインの筆記 認識ができる可能性がある。 ここで言うプロファイルとは、単語の上部輪郭と下部輪郭の近似結果からなるも のである。 学習と認識は、n-gram の抽出と同定に基づいている。 語彙数は、16000単語に及ぶ。
Sz
Ronen Basri and Daphna Weinshall
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996
Keywords: Affine deformations, 3D-to-2D metric, object recognition, exterior orientation calibration.
3次元物体と2次元画像との類似性の測定は物体認識と分類の研究課題に取っ て有益である。画像空間の中で計算されたメトリックスと変換空間の中で計算 されたメトリックスの2つの類似性で識別する。従来方法の典型は画像メトリッ クス、すなわち観測された画像と最も似かよった物体との間の画像としての差 を測定する方法を使用する。そのような測定の例としては、画像の特徴点と最 も似かよった物体の体勢での対応点のユークリッド距離がある。(この測定は 外形の方向のキャリブレーションの問題を解くことで計算できる)
本論文では、変換空間でのメトリックスという異なるタイプのものを導入する。 これらのメトリックスは観測画像を生成するために物体に加えられる変形に制 限をもうけるものである。特に、アフィン変換に対して弱い遠近法のもとで最 適に制限をもうける変換メトリックスを定義する。このメトリックスによって 最も似かよった物体の体勢といっしょに閉じた形状の解決方法が得られる。こ のメトリックスは上からと下からとでそれぞれ境界をつけるという意味で、ユー クリッド距離の画像メトリックスと等しいということを示す。それによってモ デルと画像の間の共通に使える最小自乗距離に対して使いやすい閉じた形状の 近似が提供できる。撮影機のバッテリーチャージャーの本当の次元を変換メト リックスを最小にすることにより推定するという画像認識の応用を説明する。
Todd Law, Student Member, IEEE, Hidenori Itoh, and Hirohisa Seki, Member, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, May 1996
Keywords: Fuzzy reasoning, filtering, edge detection, tracing, joins.
本稿では、画像のエッジ検出問題を、ファジー推論問題として特徴づける。 エッジ検出問題は、三つの段階に分けられる。それは、フィルタリング、 エッジ検出、およびエッジ追跡である。 まず画像のフィルタリングであるが、これは、局所的な画素特徴に基づく ファジー推論を適用して、ガウシアン平滑化の次数の制御することにより なされる。 それから、フィルタリングされた画像に簡単なエッジ検出アルゴリズムを 施し、これによって各画素のエッジらしさを求める。すなわち、画像の局 所的な特徴に基づいて、各画素のエッジらしさを表すファジー・メンバシ ップ値を求めるのである。 最後に、高いメンバシップ値を取る画素を追跡し、これを構造化する のだが、ここでもまたエッジ追跡を進める過程でファジー推論を用い ている。 いくつかのテスト画像において、フィルタリングとエッジ検出、エッジ 追跡アルゴリズムのテストを行なう。 比較の対象として、標準的なエッジ検出法を用いた。
Sz
Francois Chaumette, Samia Boukir, Patrick Bouthemy, and Didier Juvin
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, May 1996
Keywords: Computer vision, robotics, active vision, structure from motion, vision-based control.
本論文では1つの動くカメラを用いて 動画像中から物体の3次元情報を取得する方法について論じる。
提案する手法では、 「既知の動きからの構造」( structure-from-known-motion ) 問題に対して良く用いられる公式を用いて 点,線,円筒,球など様々な種類の 幾何学的な3次元プリミティヴを取扱う。
その際、プリミティヴを抽出する過程で生じる 測定誤差の違いの影響を最小限にすることも目的としている。
提案手法では精密に3次元情報を取得する為に、 カメラの光学的配置と動作を数学的に決定する。 それによって、3次元構造変数を頑強に精度良く算出する事が出来る。 その際、カメラの動きは画像データに関する閉ループの制御法則を用いて制御する。
最後に3次元構造もちいて点と円筒を見積もる実時間の実験を示し、 その結果から、本手法が3次元構造変数の算出の精度を飛躍的に向上させることを示す。
mNt
Jayashree Subrahmonia, David B. Cooper, and Daniel Keren
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, May 1996
Keywords: Implicit polynomials, algebraic invariants, Bayesian recognition, Mahalanobis distance.
球や平面や円筒などの2次曲線や曲面のあてはめは、 コンピュータービジョンで対象となるような物体のモデリングや認識に おいて幅広い用途がある。 本論文では、より複雑で高次な曲線と曲面 (それは物体認識と位置推定のための多くの有効な情報を持つ) を扱い、またそれを部分画像や雑音のある画像に適用した時の 不安定性の問題の解決を図る。 本論文で論ずるところの概略は以下に示すところである。 すなわち、陰多項式関数としてモデル化された物体の集合か、または 各物体それぞれが、陰多項式関数としてモデル化されたクラス内 に含まれるような物体のクラスの表現の集合 をデータベースに持つというところにある。 本論文の目的は、物体の一部が与えられた時に、 物体(またはそのクラス)を認識すること、または より信頼できる認識を行なうためのよりよいパラメータを推定する ためにさらにデータを収集することである。 この道筋で行く場合に生じる2つの問題を本論文では論じる。 1)係数(それは全体を記述するものである)をもって比較を行なうか、 代数的不変量(すなわち、データの移動や回転他一般的な 線形変換に独立な多項式係数の関数)を持って比較を行なうことによって これら多項式の認識を行なう問題 2)できるだけ速いパラメータの推定を実現するためのデータの収集を 行なうという問題 我々はこの問題を確率の枠組の中で公式化することで解決する。 上記の2つの問題に対する有望な解決策を生み出す漸近ベイズ近似 を我々は用いる。 本論文のキーとなるアイデアは、 多項式の固有次元性と、係数または代数的不変量をもって多項式を比較する のに有効な道具としてマハラノビス距離を使用することである。
J. Andrew Bangham, Paul D. Ling, and Richard Harvey J. Andrew Bangham, Pierre Chardaire, C. Jeremy Pye, and Paul D. Ling
IEEE Trans. Pattern Anal. Machine Intell., Vol.18, No.5, May 1996. IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, May 1996
Keywords: Mathematical morphology, median filters, ordinal filters, rank, granularity, granulometry.
極値に基く画像の分解は,線形ビジョンシステム上の問題を尺度空間上の問題 に置き換える. 離散1次元ふるい,M型およびN型ふるい(最大値フィルターや最小値フィル ターを組み合わせた非線形フィルターの一種)は,尺度の増加につれて新しい エッジを導き出さないし,新しい極値をつくりもしないことが証明される. また,拡散フィルターもこの性質を有している. それらはロバストであり.大きな尺度の特徴のエッジを保存する.
ふるいは1次元の有界関数、例えばfをincreasing scale granule functionsの 系列(={d}→*参照)に分解すると、それはある意味では線形分解 によって得られたウェーブレットのピラミッドに類似している情報を表す。
*{d}は正しくは以下の通り。
R { dm } (dm の m は添え字) m=1ふるいは平らな構造の素子のincreasing scale open-closingsの系列に 基づいており、fから{d}へ写像し、 再構成は全てのgranule functionsを足したものからなり、{d}からfへ写像する。 実験はより一般的な特性が存在することを示している。 すなわち、{d'}をf'に写像し、{d'}に逆写像する。 ここで、granule functions{d'}は{d}に任意の作用素αを適用することによって 得られる。 αはいくつかのgranuleの符号を変えずに、振幅を変化(0を含む)させる。 換言すれば分解によって生成された、granule function vectorsの 集合は、作用素αによって閉じられる。 すなわち、{d'}がf'に写像され、{d'}に再び写像されて元に戻る。 この特性の解析的な証明を示す。 特性とは、フィルターが特徴認識をするのに有用で さらに、ふるいのノイズに対する抵抗(強さ)の解析への道を開く。
Robert Bergevin, Marc Soucy, HervGagnon, and Denis Laurendeau
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, May 1996
一組の距離画像列が与えられたときに、それぞれの画像間のレジストレー ション誤差を大幅に低減するアルゴリズムを提案する。 本アルゴリズムは、測定結果もしくは適当に人手で作ったデータ から得られる変換行列の初期推定を改善する。 反復最近傍点アルゴリズム(ICP)として知られるレジストレーション 手法に分類されるアルゴリズムだが、ここでは 画像全体を結ぶネットワークを考え、すべての画像のレジストレーション 誤差を同時に最小化している。 これにより、レジストレーション誤差が均等に分散するような、 バランスの良い画像ネットワークが得られる点で、 画像を直列に処理する従来のICPよりも優れている。 実験の結果、測定結果にもとづくレジストレーションが改善され、 多数のパーツからなる複雑な物体に対して、構築されるモデルの質が 向上することがわかった。 単純な形状からなる人工物の画像の場合は、基本アルゴリズムが ICPに共通の問題に直面するので、拡張が必要である。
Magdi Mohamed and Paul Gader
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, May 1996
Keywords: Hidden Markov models, dynamic programming, handwritten word recognition, character recognition, neural networks, character segmentation.
本論文は分割非依存と分割依存の手法を組み合わせた,語彙に基づいた 手書き単語認識システムについて述べる. 分割非依存の方法は各々の語彙の文字列の連続密度隠れマルコフモデル を構成する. 分割依存の方法は単語イメージと文字列のマッチングにダイナミックプ ログラミングを用いる, 優れたパフォーマンスを得るために,結合モジュールは分類能力の差異 を利用している.
J. Alison Noble
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, May 1996
Keywords: Low-level processing, texture analysis, mathematical morphology, image filtering, median filter.
本論文では[1]における理論的な結果を2つの対象に拡張し、1次元モーフォ ロジー・フィルターのエッジ局所化とスムージング・フィルターの古典的な2 つのタイプ(平均フィルターとモーフォロジー・フィルターに考え方が似てい るメディアン・フィルター)のフィルターとを定量的に比較した。統計的なテ クスチャー・セグメンテーションについて簡単に議論する。
Pierre Soille, Edmond J. Breen, and Ronald Jones
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, pp. 562-567, May 1996
Keywords: Mathematical morphology, image filtering, algorithms, recursivity, line and periodic structuring elements, radial decompositions.
任意の長さの線分からなる structuring element による収縮・膨張演算が、 1ピクセルあたり3回の最小・最大操作で実現できることが、Van Herk によ り示されている。 本論文では、そのアルゴリズムを、 任意の角度の離散的な直線に沿った収縮・膨張に対して拡張する。 また、 中間バッファとの間でピクセルをコピーすることをしなくても、操作を可能に することを考える。 応用として、画像フィルタリングと円盤の動径分解について述べる。
Gregory A. Babich and Octavia I. Camps
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, May 1996
Keywords: Nonparametric classifiers, Parzen-windows, kernel estimator, clustering, training samples, discriminant analysis, Bayes error, leave-one-out, holdout.
本稿は重み付きParzen窓型の識別器を紹介する。提案された技法は clustering 手順を用いて参照ベクトルの集合及びParzen窓(カー ネル評価器)識別器を近似する重みを見つける。この重み付きParzen窓型 識別器に必要とする計算と容量はフルParzen窓型識別器より少ない。 実験結果は次のことを示した、合成または実のデータセットに意味のある節約 を達成するには、最小のエラー率(もしあれば)の度合を下げることしかでき ない。
Yoshihiko Hamamoto, Shunji Uchimura, and Shingo Tomita
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, May 1996
Keywords: Artificial neural networks, generalization error, dimensionality, training sample size, peaking phenomenon, 1-NN classifier, Parzen classifier.
パターン認識の分野では、以下のことが広く信じられている。すなわち、 用いる学習サンプル数を一定として識別器を設計する場合には、特徴数 が増すにつれて、識別器の一般化誤差も増加するということである。 本稿で論ずるのは、人工的ニューラルネット(ANN)型識別器の一般化誤差 が、高次元空間においていかにふるまうかについてである。 ただし、特徴次元数に対する学習サンプルの比率は小さい、という現実的 な条件の下で考えることとする。 実験結果によれば、ANN型識別器の一般化誤差は、特徴次元数に対して 1-NNであるParzen型の二次識別器に比べて、はるかに敏感ではないと思わ れる。
Sz
Seong-Whan Lee
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996
本論文ではオフライン自由手書き数字認識の為の新しい手法を提案する。 提案する方法では単純なマルチレイヤークラスタニューラルネットワーク をバックプロパゲーション法で学習させる。 最急降下法でマルチレイヤークラスタニューラルネットワークを 学習する過程において、極小値へ落ち込むことを 遺伝アルゴリズムを用いることで防いで認識率を高めている。
提案手法では特徴ベクトル抽出の為に Kirsch マスク処理を行ない、 類似する文字を効率的に分類する為の 5つの独立サブネットを持つ3層のクラスタニューラルネットワークを用いる。
提案するマルチレイヤークラスタニューラルネットワークの性能を確認する為に、 カナダ Concordia 大学、(日本の)電総研 、 韓国の Electronics and Telecommunications Research Institute の 手書き数字データベースを用いて実験を行なった。
初期ウエイトを遺伝アルゴリズムを用いて定めた場合、 それぞれのデータベースに対する認識率は 97.10%, 99.12%, 99.40% であった。
mNt
Luan L. Lee, Toby Berger, and Erez Aviczer
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996
オンラインの筆者識別システムを設計しテストを行なった。 タブレットから入力した(x(t), y(t))の形からなる10,000以上のサイン のデータベースを用意した。 まず42個の特徴を抽出し、さらには、 偽造に対する識別能力を保ちつつ本物のサイン間の不一致に耐えられる 49個の正規化した特徴を得る。 トレーニングデータの有効性とシステムの複雑さのレベルに 従う特徴の、選別と場合によっては直交化を行なうアルゴリズムを 我々は研究した。 いくつかの識別器のタイプについて調べた。 我々の主たる識別器の改良版の性能を以下示す。 同一筆者であると認識できなかったエラーが2.5%。 第三者のサインを100%リジェクトするようにした時に、 正しい筆者をリジェクトしてしまうのはわずか7%に留まっている。 これは本物のサインの速度に十分であり、 そしてわずか15個の特徴を使用するだけである。
Daniel K. Bogen and David A. Rahdert
IEEE Trans. Pattern Anal. Machine Intell., Vol.18, No.6, June 1996.
変形適合問題において,変位場を正則化する従来の方法は回転に敏感である. 我々はゴム状物質における張力エネルギーのような回転に左右されない正則化 汎関数を提案する. 変形適合問題は,物体の一様ではないような回転を,逐次近似を繰り返し用い て解かれる.
Toru Ishida
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996
本論文は実時間双方向探索(RTBS)アルゴリズムについて述べる。 このアルゴリズムは、2つの問題解決手段が 初期状態と最終状態からスタートし、お互いに物理的に前へ動く。 このRTBSを評価するために、2種類のアルゴリズムを提案し、 実時間の単方向探索と比較した。 一つは集中RTBSで、監督者が二つの問題解決手段の 可能な全ての動きの中から最良の行動を選ぶ。 もう一つは非連結RTBSで監督者はおらず、二つの問題解決手段は 独立にそれらの次の動きを選ぶ。 迷路と、n-パズルに関する実験で以下のことが示された。 1) 明らかな状況では非連結RTBSが良い 一方不確かな場合には集中RTBSがより効果的である。 2)RTBSは15-パズル、24-パズルに対しては実時間単方向探索よりも効果的であるが、 ランダムに生成された迷路に対しては効果的でない。 問題解決法の構成を選択するということは、構成的な効果の基準を決定する 問題空間を選択することが示される。 一旦難しい問題空間を選択すると、問題解決手段間の局所的な調整では 欠損を克服するのは難しい。
B. J. Oommen, Senior Member, IEEE, and K. Zhang, Member, IEEE
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996
最近、MarzalとVidalが2つのストリング間の正規化エディット距離を 計算する際の問題について考察し、その尺度を用いた手書き文字 認識実験の結果を報告している。 彼らの論文では尺度の理論的性質を定式化し、その計算アルゴリズムを 2つ提案していた。 本文では、この尺度が先の文献の中ですでに定義されている補助尺度 ---ストリング間限定エディット距離と、どのような関係にあるかを示す。 後者を使うと正規化エディット距離が効率よく計算できる。つまり ここで与えられるやり方を使えば、先に報告されていた 解析的・実験的結果をまったく同じ精度で、しかもより効率よく 得ることができる。
Yaser Yacoob and Larry S. Davis
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996
本論文では連続画像からの表情の認識のための,表情の移り 変わりの分析と表現法について述べる. 人間の表情としての動きと表情以外の動きの方向を見分ける ために,本アルゴリズムではオプティカルフロー計算を用いる. 心理学的な考察に基づく中間レベルの記号表現を提案した. 目の瞬きのような六つの表情の表現が大量の連続画像で示された.
Zoran Duric, Member, IEEE Computer Society, Jeffrey A. Fayman, and Ehud Rivlin
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996
ロボットがその環境において自律的に操作を行なうためには、環境を認知し、 その認知に基づいた行動を取ることができなければならない。ある物体の機能 性を認識することはこの能力の重要な要素となる。
本論文では、機能性認識の新しい領域を研究する。それは物体の機能をその動 きから決定することである。いくつかの既知の機能を持つ物体の連続画像が与 えられれば、その機能が何なのかを決定する。物体の動きは、物体についての 情報とその普通の使い方を組み合わせた時、その物体が取り得る機能に強い制 限を与えることを示す。
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, pp. 657-662, June 1996
Keywords: Statistical image reconstruction, discontinuity recovery, parameter selection, Gibbs sampler, Metropolis algorithm, simulated annealing
Geman と Reynolds により、 ぼけとノイズが加わった観測画像から、 水平と垂直方向の濃淡値の不連続性を復元することができるような、 線形の画像復元の方法が提案されている。 本論文では、対角線方向の不連続性も復元できるようにするために、 彼らのモデルとパラメータ選択の方法を拡張する。 また、このようなモデル化の方法の危険性について述べ、 彼らの論文で提案された truncated Gibbs sampler についても批評する。
Michael D. Garris and Darrin L. Dimmick
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996
文字認識技術をうまく応用するためには、現行の手作業で出来たフォームの殆 んどは設計し直す必要がある。本論文は、再設計した税務フォームの三つのバー ジョンに対する幅広い研究の結果を提示する。分析によれば、一定の間隔を離 れた文字枠の使用はくし状線分を含めた領域または隣接する文字枠の使用より マシンの読みとる性能が向上する。縦に積み重ねている二個の卵形を有する文 字枠は筆記者に多大の困難を引き起こす。解析では、フォームへの筆記者の個 人に特有の反応はエラーの主要な原因であり、適切なフォーム設計はこのよう なエラーを低減できることを証明した。
Pierre Zakarauskas and John M. Ozard
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996
本稿では、Minkowskiのp-metricに従って、あるテストパターンに対する k−最近傍の探索のためのコスト評価について述べる。これは、探索アル ゴリズムの分割におけるバケットサイズの関数となる。 最近傍を探索するためのオペレーションの数の漸近的な期待値は、 バケットn当たりの平均のパターン数の関数となり、これが最小値を含む ことが示される。
Sz
Trevor Hastie and Robert Tibshirani
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996
最短距離法によるクラスタリングでは条件付き確率が 局所的に一定とみなしており、 それゆえに高次でのバイアスに苦しんでいた。 本論文では高次でのバイアスの問題を改善する為に 局所適応型の最短距離法 ( a locally adaptive form of nearest neighbor classification ) を提案する。
提案手法では neighborhoods を決定するのに効果的な距離を算出する為に、 局所的線形区分解析 ( a local linear discriminant analysis ) を用いる。 局所的線形区分解析では重心の情報から局所的な区分境界を決定し、 その局所的な区分境界に直交する方向に neighborhoods を縮退させ、 それらを境界に平行な方向に伸ばす。
局所的線形区分解析を行なった後、 修正された neighborhood を用いて 階層的手法によりクラスタリングを行なう。 この場合、事後確率は修正された neighborhood ではより一様になる傾向がある。
なお、本論文では局所的な次元の情報を統合する 全体的な次元の圧縮手法も提案する。
最後に多くのデータを用いて提案手法は 従来の最短距離法を相当に上回る可能性があることを示している。
mNt
Michael Revow, Christopher K.I. Williams, and Geoffrey E. Hinton
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996
スプライン曲線の長さ方向に沿ったガウシアン”インク生成器”を伴う、 変形可能なBスプラインによって発生モデルを構築する。 そして当該発生モデルの当てはめによって手書き数字の認識を 行なう方法について、説明する。 データを生成するモデルの見込みを最大にするような 期待値最大化(EM)アルゴリズムをベースとした、 新しい弾性マッチング処理によって当該スプライン曲線は 当てはめが行なわれる。
このアプローチは多くの利点を持つ。
1)データを生成するに最も適当なモデルの特定の後、 数字の識別だけでなく、 筆記スタイルの情報を生み出すことのできる 具現化パラメータの豊富な情報を得られる。
2)画像走査の最中に、 生成モデルは認識主導の分割を行なうことができる。
3)本方法は比較的少ないパラメータしか使用しないので、 トレーニングは比較的簡単で速い。
4) 他の認識方法とは異なり、前処理として入力画像の正規化を必要としない。 そして画像の任意のスケーリング、移動、そして角度に制限付きながら 回転したものも扱うことができる。
本方式が、ローカルミニマムに落ちずにモデルを入力画像にフィットさせる 様子を示す。 本方式の問題点は通常のOCR処理よりも計算時間がかかることである。
Adam Hoover, Gillian Jean-Baptiste, Xiaoyi Jiang, Patrick J. Flynn, Horst Bunke, Dmitry B. Goldgof, Kevin Bowyer , David W. Eggert, Andrew Fitzgibbon, and Robert B. Fisher
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 7, July 1996
Keywords: Experimental comparison of algorithms, range image segmentation, low level processing, performance evaluation.
本論文では距離画像分割アルゴリズムの評価法を提案する. この方法は以下の1),2)の二つを必要とする. 1) 正しい位置,形状を与えられた40のレーザーレンジファインダー 画像および40の structured light scanner 画像の共通集合 2)性能基準の定義(たとえば,正しく分割されたか誤ったか,分割の上下での ノイズ領域,復元された位置,形状などの正確さなど)
toolを用いることで正しい位置,形状に対して得られた機械による分割の 比較を客観的に行なった. 物体の距離画像データを小さな(位置と大きさと向きがわかった)平面の 集合に分割するアルゴリズムの評価では4つの研究グループが貢献した。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Richard G. Casey and Eric Lecolinet
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 7, July 1996
Keywords: Optical character recognition, character segmentation, survey, holistic recognition, Hidden Markov Models, graphemes, contextual methods, recognition-based segmentation.
文字のセグメンテーションはOCR処理において古くから重要な技術分野であっ た。1文字1文字分離された文字に対する認識率と単語や接触文字列に対する 認識率の比較競争はこのことを良く表している。制限のない活字や手書き文字 の認識分野での最近の進歩の一翼は、より良く考えられたセグメンテーション 技術が担っているかも知れない。
本論文ではこれらのセグメンテーション技術に関する最近の進歩のレビューを 行なう。技術のリストをまとめるというよりは開発された技術の系統に対する 評価を目的としている。セグメンテーション技術を4つの系統に分類している。 1)従来のアプローチとでも呼ぶべき方法は入力画像を部分画像に分割し、そ の時に1文字を決定する。入力画像に対して切り出し可能な部分画像に分解し てみる操作を"解剖"と呼ぶ。 2)第2の系統はこの"解剖"を避け、入力画像に対して明示的にあらかじめ定 めた窓で区切るか、画像全体の空間的特徴から区切る方法である。 3)第3の系統は1番めと2番めの方法の組合せで、可能な区切りを定義する ために再統合ルールを使って"解剖"を行なうが、1文字として区切られた場合 に1文字としての尤もらしさの許容範囲の中で部分画像を選ぶ。 4)第4の系統は文字列全部を1ユニットとして認識することでセグメンテー ションを避けようという全体論的なアプローチである。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Meir Barzohar and David B. Cooper
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.18, No.7, pp.707-721, July 1996.
Keywords: Geometric-probabilistic models, Gibbs distributions, maximum a posteriori probability estimation, road geometry model, Gaussian driving noise, dynamic programming, model-based segmentation.
本論文では、道路画像生成の幾何確率的モデルの構築に基づいた、 航空写真からの主要道路の自動検出方法を示す。 Gibbs分布を用いて、与えられた画像から、MAP(最大事後確率)推定により、 道路を発見する。 画像をウィンドウに分割することによりMAP推定を取り扱い、まず、 ダイナミック・プログラミングを使って各ウィンドウでの推定を行い、 次に、高い信頼度の推定が得られたウィンドウから開始して、 存在する道路の最適な大局的推定を得るために再び ダイナミック・プログラミングを用いる。 提案する方法は、初期処理からモデルを基盤としており、 これまでに発表されている方法とは完全に異なるものである。 各道路に対して2つの境界を生成し、中央分離帯があるときには4つの境界を 生成する。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Fang Liu and Rosalind W. Picard
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 7, July 1996
Keywords: Wold-based image modeling, pattern analysis, texture modeling, digital libraries, content-based image retrieval.
パターン認識における基本挑戦の一つはある問題のクラスに適切な特徴の集合 を選択することである。データベース検索のようなアプリケーションにおいて、 パターンの比較に使われている画像特徴が画像の感覚的な相似性によい尺度を 与えていることが重要である。
本論文では、我々が感覚的な相似性に挑戦する新しい特徴集合を持つ画像モデ ルを提示する。このモデルは、均一任意性を持つフィールドの2次元Wold 分解に基づくものである。 結果として得られた相互に直交している三つのサ ブフィールド(周期性、方向性、と任意性)は人間のテクスチャ感覚の最も重 要な次元に近い性質を持っている。ここで提示された方法は早期のWoldベー スドモデルを次の2点において改良した。つまり、自然テクスチャに現れた様々 な局部的な不均一性に寛容性を持つことと、回転のような画像変換に対する不 変性を持つことである。
この新しいテクスチャモデルに基づく画像検索アルゴリズムを提示した。ベー スの確率論的なアプローチで相似性を比較するために異なるタイプの画像特性 を集めた。二つ良く知られているパターン認識方法との比較によって、感覚的 に似ている自然テクスチャの検索におけるWoldモデルの有効性を証明した。 幾つか自然景色のWoldテクスチャモデル化の事例をも提示した。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Dz-Mou Jung, M.S. Krishnamoorthy, George Nagy, and Andrew Shapira
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 7, July 1996
Keywords: Backtracking, character features, classification, decision trees, distinguishing string, missing configuration, n-tuples, OCR, simulated parallelism.
1960年代よりこのかた、文字認識にN組特徴を使うということは、 わずかな注意を集めるのみであった。 コンピュータ技術とコンピュータ・サイエンスは進歩を遂げてき たわけであるが、本稿において我々の主たる目的は、それらが興 味・関心の一新を余儀なくしたことを示すことにある。
N組特徴は、活字識別に有用だと言える。というのは、あるパタ ーン中に、n個の黒・白画素の特定の配置があるかないかが示さ れるからである。 望ましいn組とは、以下のものである。すなわち、特定の学習セ ット(つまり正集合)の各パターンには、少なくとも p だけずれ た位置まではよく合致し、さらに特定の学習セット(つまり負集 合)の各パターンには、少なくとも n-p までずれるそれぞれの 位置において合致しない、というものである。
本研究では、2値ストリングを用いる副問題(これは誤配置問題 と呼ばれる)を調べることで、識別のためのn組を発見する問題 が NP 完全であることを証明する。 NP完全性という結果にも関わらず、現代のワークステーションで あれば識別可能なn組を2、3秒で自動的に見つけることができ る。 わずかな学習セットを元にn組の集まりを生成する、実用的な探 索アルゴリズムを示す。このn組は、クラス条件付き相関が低く、 しかも特定の設計パラメータ n,p,q を伴うものである。
この生成器は、インターネットで利用可能であり、ベンチマーク を用いた比較を通して効果的であることが経験的に示されている。 設計パラメータが有用なトレードオフを与えることを、実験により 示す。トレードオフというのは、識別能力と生成時間の間における それであり、さらにまた正クラスと負クラスに対する条件付き確率 の間におけるそれである。 様々な2分法に対して獲得可能な特徴確率を探究し、設計パラメー タが特徴確率を制御することを示す。
Sz
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Lawrence O'Gorman
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 7, July 1996
Keywords: Registration, precision, fiducial marks, machine vision, image processing, metrology, subpixel precision.
一般的に画像平面上でエッジを特定の位置に配置したり、逆にエッジの位置を測定する際 の精度は 画像のサンプル密度によって制限される。
本論文においては、まず、エッジや線分や直線エッジの位置を算出する場合に、 その精度が最悪の場合の誤差は定めることが可能であることを示す。 そしてそれぞれの場合について、 幾何学的変数の関数として、いかにして最悪の場合の誤差を小さくできるかを示し、 その結果を利用することで、既知の形状がどこに位置するかを測定する際の 最悪の場合の誤差を定めることが出来ることを示す。
本手法は例えば電子部品の組み立てに特定の位置合わせマークを用いる場合の様に、 特定の形状の物体を(小さい誤差で)画像として保存する際に、 画像上での形状をデザインする場合などに応用可能である。
本論文では、(0,45,90度以外の)方向に傾き角度に応じた幅で位置の測定を行な うことで、 高精度に直線エッジ領域の位置の測定を行なうことが出来ると結論づける。
mNt
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Javier Cabrera and Peter Meer
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 7, July 1996
Keywords: Implicit models, curve fitting, bootstrap, low-level processing
ブートストラップによる、非線形推定器のバイアス除去の一般的方法を示す。 従来の平均値バイアスの代わりに、メジアンをベースとしてバイアスを定義す ることを考える。 ノイズィなデータへの楕円片当てはめ問題にこの方法を適用する。 誤り分布について 独立同等分布(independent identically distributed = i.i.d)であること を前提とした仮定は必要としない。 合成データおよび実データに対する実験により本方法の有効性が示された。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Giovanni Seni, Rohini K. Srihari, and Nasser Nasrabadi
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 7, July, pp.757-762, 1996
本論文では,筆記者に依存しない,文字と文字との間をつなげて書かれた オンライン手書き単語を大規模な単語集から認識するシステムについて述 べる.本システムでは,膨大な参照辞書をより扱いやすい量に縮小するた めに,まず単純な文字の特徴に基くフィルタリングモジュールを用いる. 次に,そのようにして縮小された参照辞書の単語を認識モジュールに入力 する.認識モジュールでは,入力を二次元の画像ではなく時系列データと して表す.それにより,データの連続的な性質が保存され時間遅延ニュー ラルネットワーク(TDNN:Time-Delay Neural Network )の使用が可 能となる.このネットワークは,以前に連続音声認識の分野で有効であっ た.入力された単語を連続的にニューラルネットワーク型の識別モジュー ルに送ることにより,一つ一つの文字に完全に切り分けることが不要にな る.認識モジュールの出力は集められ,フィルタリングモジュールで縮小 された参照辞書の単語と拡張 Damarau-Levenshtein 関数によってマッチ ングした文字列に変換される. 55 人の筆記者から集められた筆記制限の ない 2443 の単語(11000 文字)でトレーニングし, 2100 の参照辞書の 単語を使用したテストでは,単語の上位5位までの累積認識率が,筆記者 特定の場合で 97.9%,筆記者不特定の場合で 82.4% であった.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Nalini K. Ratha, Kalle Karu, Shaoyun Chen, and Anil K. Jain
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 8, August 1996
マルチメディア技術が現在急速に進歩しているのにともなって、巨大な 画像データベースの検索/照会を行なう効率的な手法が強く求められている。 画像データベースは、その独自で特殊なニーズのために、他のデジタル ライブラリーと同じやり方で扱うことはできない。 画像中にみられる文脈依存性や、2次元画像データの複雑な性質が、 画像データベースに対する表現問題をさらに難しくしている。 一つの画像についての単一の不変な表現というのは、いまだ解決されて いない研究課題である。 このため、目次ベースの普遍的な検索システムを見いだすのは困難である。 形状、テクスチャ、色にもとづき画像データベースを索引付けする 現在のアプローチは限られた範囲でしかうまくいかず、さらにそれらは、 雑音と歪みが存在する場合についてのテストが不十分であった。 与えられた応用領域によって、検索性能の改良にはより強い制限が課せられる。 指紋データベースは、照会画像に雑音と歪みを含む上に、サイズが大きい という特徴をもつ。指紋画像では皮膚の弾性のために、歪みが生じるのが 一般的である。
本論文では、巨大な指紋データベースの索引付けを行なう方法を与える。 そのアプローチは、検索の上位層において、パターンクラスの ような多数の高レベル特徴と、(指紋の)スジ密度を統合する。 最下層においては、データベースの索引付けのために弾性的な 構造特徴ベースの照合を実現している。 多層的な索引付けによって、検索空間を小さくすることができた。 また、ASICに近いレベルの照合速度を得るために、検索エンジンは Splash2 -- field programmable gate array (FPGA)ベースの アレイプロセッサ上にインプリメントされている。 本手法はローカルに収集したテストデータ、および公開されている 指紋データベース・NIST-9についてテストしている。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
B.S. Manjunath and W.Y. Ma
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 8, August 1996
Keywords: Digital libraries, image database, content-based image retrieval, texture analysis, Gabor wavelets.
検索のためのイメージの目次はデジタルライブラリー,マルチメディアデータ ベースのアプリケーションにとって重要な研究要素となってきている. 本論文では,画像処理aspectsと,特に大規模イメージデータのブラウジング, 検索のためのテクスチャ情報の扱いに焦点をあてている. Gabor wavelet特徴を使用したテクスチャ解析を提案し, 包括的な実験評価を行なう. Brodatzテクスチャデータベースを用いた他の複数解像度テクスチャ特徴 との比較の結果,パターン検索の正確さにおいてGabor特徴がもっとも優れていた. 最後に,本手法を空の写真のブラウジングへ応用した例を示す.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Glenn Healey and Amit Jain
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 8, August 1996
Keywords: Image database,image retrieval, color constancy, satellite images, color, machine vision, texture, computer vision, recognition.
マルチスペクトル衛星画像のロバストな内容検索に関するアルゴリズムと探索 の戦略について述べる。画像中の興味ある対象は、通常、地表上の自然の特徴 なので、イルミネーションや大気の状態に不変な表現と方法を使用する。
この表現とアルゴリズムはマルチスペクトル衛星画像の構造に対する自然のモ デルから得られる。いくつかの複数の表現とアルゴリズムの使用は、画像中の 自然で幾何学的な構造の多様性を解釈するために必要である。アルゴリズムは マルチスペクトルの分配、空間的構造、ラベリングを行なうために使用され る。
システムの性能は、異なるイルミネーションや大気の状態でアメリカの異なる 地域を取った大量のマルチスペクトル衛星画像で説明される。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Daniel L. Swets and John (Juyang) Weng
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 8, pp. 831-836, August 1996
Keywords: Principal component analysis, discriminant analysis, eigenfeature, image retrieval, feature selection, face recognition, object recognition, content-based image retrieval.
本論文では、多次元判別分析と最適線形射影の理論を用いた、 画像トレーニング・セットからの自動特徴選択について述べる。 "well-framed" な画像(物体の大きさ、位置、向きの小さな変化 だけが許容される画像)として提示された多様な現実の物体から成る 大規模データベースからの画像をもとにしたクラス検索に対して、 このようなもっとも判別能力がある特徴の有効性を示し、 主成分分析と比較する。
(c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Harpreet S. Sawhney and Serge Ayer
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 8, August 1996
デジタル形式のオンライン画像と映像の爆発は既にかなり進行してある。 会話型の情報探索の指数的な増加とWorld-Wide Web (WWW) の普及によって、 オンライン映像データへの快速アクセスにおける主要な制限はコスト、 獲得と保存の管理、リアルタイムの配信の不備、および内容ベースでの知的 な検索と索引作成技術の欠如である。この獲得、保存、および配信への解決 策は地平線上若しくはもうちょっと向うにある。快速配信ができても、 視覚内容に基づく索引作成のための効率的な創作と検索ツールの不足は 映像情報を現行のテキストと伝統的な表データのように広く使うことの 制限になるだろう。
視覚内容に基づく映像の非線形的な拾い読みと索引を可能にするために、 移動物体と画面中の意味のある構成要素を自動的に分離し、コンパクトな 形で表現できる創作ツールの開発は必要である。映像データが30秒毎に 1メガバイトの速度で猛烈的に来ていたとき、映像中の物体と画面を1フレームずつ 検索することはとても非効率的である。本論文では、動画情報から画面と物体 に関するコンパクト的な表現を自動的に抽出する技法を提示する。
画面を意味のある構成要素と移動物体に分離するために、映像中の画像の 移動は重要なキュー(合図)である。この移動の解析は、二つの面に於いて、 映像を視覚内容に基づいて獲得し、索引作成と拾い読みにとって有効である。 一つは、主要な2D/3D移動評価方法を用いて静止画面と移動物体を分離でき ることである。もう一つは、もし目標は固定画面を意味のある構造と物体 の組み合わせとして表現することであれば、同時多重移動評価法はより 適切であろう。いずれの場合にしても、画面の視覚に基づく要約された 表現は移動に基づく映像の合成とモザイクによって作成できる。我々は、 つぎの2種類の表現にロバスト的なアルゴリズムを提示する。1)主要移動 評価をベースにした技法の表現。この技法は映像中によく出現している 画面を探し出して、殆んど固定された背景(画面)として写し出す、そこに 独立的に動いている物体があってもなくてもよい。2)階層化表現を用いた 移動映像に対する同時多重移動の評価と表現。各方法で得られた表現の 十分な事例を本論文に収録している。
(c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Hsinchun Chen, Bruce Schatz, Tobun Ng, Joanne Martinez, Amy Kirchhoff, and Chienting Lin
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 8, August 1996
Keywords: Semantic retrieval, concept space, concept association, parallel computing, digital library.
イリノイでは、DLI(Digital Library Initiative)プロジェクトを 進めている。ここでは、その要素である意味検索研究から得られた予 備結果について報告する。 我々が目指したのは、すべての主要な工学ドメインに対して、ドメイ ン固有の概念(用語)とそれらの重み付き共起関係のグラフを生成す ることである。ここでは、自動類義語生成技術に変更を加えたものを 用いており、我々はこれを概念空間アプローチと呼んでいる。 大規模情報検索では語彙(の違い)が問題になるのだが、概念空間を 併合し異なる概念空間にまたがる横断パスを提供するという方法は、 この問題を緩和しうる可能性を秘めている。 以前に我々は、分子生物学のある小さなドメインにそのような技術を 試しており、良い結果を得ている。これは虫社会を取り上げたもので、 ドキュメント収集に10MB以上を要した。 大規模情報検索と現在のイリノイDLIプロジェクトの分析とに関連す るスケーラビリティー問題について述べるために、並列スーパー・コン ピュータを使用し、概念空間アプローチを用いた実験を行ったところで ある。 テスト用に収集したのは、INSPECデータベースから抽出した計算機科 学と電子工学の要約文であり、これは2GB以上である。 概念空間アプローチは、大規模なテキスト分析と統計的分析とを必要 とした。これらは自動索引付けと共起分析アルゴリズムに基づくもの であり、両者ともに生物学のドメインでテストされたものである。 初期テストには、512ノードのCM-5と16プロセッサのSGI Power Challenge が用いられ、有望な結果が得られた。 Power Challenge は包括的なコンピュータ工学の概念空間を生成する ために後から選ばれたものである。この空間は、およそ27万語と4 百万以上のリンクからなり、CPU時間で24.5時間を費やして得られた ものである。 システム評価は12の博識な主題を含んでおり、自動生成されたコンピ ュータ工学の概念空間が、人間の作るINSPECコンピュータ工学類義語 よりも意味ありげな高次概念想起を行うということが明らかとなった。 しかしながら、正確さで言えば、INSPECの方が上であった。 現在の研究は主に以下のものからなる。すなわち、他の主要工学のド メインにおける概念空間の生成であり、また堅固なグラフマッチング、 ドメインをまたがる横断アルゴリズムや概念ベース検索の開発である。 将来的には、ユーザ固有の概念ベース情報検索を支援するための 個別の概念空間を生成することも考えている。
Sz
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Hanan Samet and Aya Soffer
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 8, August 1996
Keywords: Map storage and retrieval, document storage, digital libraries, automated indexing, retrieval by content, map interpretation, Geographic Information Systems (GIS).
地図画像の習得、保存、索引付け、検索を行なう 「MARCO」と名付けられたシステムについて説明する。
「MARCO」には階層画像(地名やマークなどがそれぞれ記入されている画像)と、 合成画像(通常の地図画像)がそれぞれラスターイメージで入力される。
階層画像については、地図の解釈システムが凡例に基づいて 物理的表現(画像/マーク)から論理的な表現(警察/距離/地名など)を得る。 ここで作成された論理的な表現は 合成画像と階層画像の両方の自動索引付けに利用される。
合成画像と論理表現の関係および階層画像と論理表現の関係を リレーショナルデータベースシステムの骨組みに 当てはめる方法についても説明する。 本システムでは、索引は文脈と空間の両方から構築される。 したがって、検索の際にも空間的記述からのみではなく、 文脈的記述からも階層画像と合成画像を引き出すことが出来る。
最後に本論文中では多くのデータを用いて 「MARCO」を精度と処理時間の両面から評価した結果を示す。
mNt
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Steve A. Chien and Helen B. Mortensen
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 8, August 1996
Keywords: Data analysis, image processing, artificial intelligence (AI), planning, automated programming.
この論文はMVP(Multimission VICAR Planner)について述べたものである。 これは、画像処理ステップに関する知識を使用したAI計画システム であり、この画像処理とは、 ジェット推進力研究所(JPL)の多目的画像処理サブシステムの 高度な科学的要求を満たすに有効なものである。
本論文では 一般的AI計画法による自動化のアプローチと、 画像処理の特定分野への応用アプローチについて 述べる。 ここでいう応用分野とは、例えば 放射分析の修正に関する惑星科学への応用や、 色の三つ組再構築や、 モザイク生成(画像処理エキスパートにとってよくある要求 であり、MVPシステムによって仕事量が大きく削減される) といったものである。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Michael Shneier and Mohamed Abdel-Mottaleb
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 8, August, pp.849-853, 1996
本論文では,要求画像を用いて大規模データベースから画像を検索する問題に ついて述べる.開発した手法は,とくにJPEG形式で蓄積された画像データ ベースを対象とし,索引キーを作成して圧縮されたまま実行する.キーはデー タベースの個々の画像につくられ,要求画像につくられたキーとのマッチング が行なわれる.キーは画像のサイズに依存していない.類似のキーをもつ画像 どうしは似通っていると思われるが,その類似性に意味はない.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Bjrn Olstad and Anders H. Torp
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September 1996
Keywords: Active contours, grammatical encoding, string matching, dynamic programming.
Active Contourの理論により、輪郭の復元の問題はエネルギー最小化の過程と してモデル化される。 動的計画法に基づいた数値的な解は、輪郭の候補に関連したエネルギーが 局所的なエネルギーの寄与の積分に分解できることを必要とする。
本論文では、異なった局所的なエネルギーモデルとこれらの異なった モデル間での可能な変化の集合をモデル化できる文法的な構成を提案する。 文法的な符号化は物体の形に関する事前の知識や 基礎となる画像において関連する特徴を表現するのに利用される。 数値実験において、変化性が文法的な構成に埋め込まれている エネルギー最小化の過程と共に示される。 我々はストリングマッチングのためのKnuth-Morris-Prattアルゴリズム の非決定論的なバージョンと エネルギー最小化のための時間遅延離散動的計画アルゴリズム を組合せたアルゴリズム的な解を提案する。 数値実験はノイズに対する強さやオクルージョンといった、 輪郭の再現において出てくる実際的な問題を示す。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Amnon Shashua and Nassir Navab
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September 1996
相対アフィン構造と呼ぶ、観測中心に対する不変量にもとづく 単一の非常に簡素な式によって得られる、透視画像のための アフィン幾何的な枠組を提案する。 ここから得られる主な結果によって、我々の枠組が従来の理論 --ユークリッド、投影、およびアフィン幾何--を自然かつ簡潔に 統一していることが示される。また、複眼視画像からの再構築や 配置による認識、ある種の画像コーディングへの応用のために、 新たにごくシンプルなアルゴリズムを導入する。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Song Chun Zhu and Alan Yuille
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September 1996
Keywords: Image segmentation, region growing, snakes, minimum description length, Bayes statistics, uncertainty principle, color model.
本論文では,領域競合と呼ばれる新アルゴリズムに基づいた、画像分割のため の統計的・変分的な新しい方法を提案する。 本アルゴリズムは、変分原理を用いた一般化 Bayes/MDL 基準の最小化によって 導かれる。 本アルゴリズムは、極小値に収束することが保証されており、snakes/ balloonsと領域増法の性質を組み合わせている。 実際に古典的な画像のsnakes/balloonsと領域増大アルゴリズムは 我々の手法から簡単に得ることができる. 境界位置の正確さをあわせ持つ領域比較,初期状態の基準, フィルターによるエッジ検出との関係について理論的分析 を行なう. アルゴリズムをマルチバンド分割に一般化することは容易であり, グレイレベル画像,カラー画像,テクスチャ画像に適用した例を示す. 新しいカラーアルゴリズムにより強さ勾配,陰を取扱わなくてよくなる. そして物体の albedos に基づいた分割を得ることができる. ハイライト領域の検出にも役立つ.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Robert G. Cowell
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September 1996
Keywords: Bayesian networks, Dirichlet priors, Kullback-Leibler distance, local independence, global independence.
Hyper-Dirichlet事前確率を持った離散的なランダム変数のベイジアン・ネッ トワークが与えられた場合に、構造的に異なるネットワークの条件確率に Dirichlet事前確率が割り当てられる手法が提案される。
それは割当の過程で最小化される事前確率間の距離を定義する。 直観的に2つモデルの事前確率がある意味で"近い"ように見なすならば、 その時事後確率も観測後に近くにあることを期待する。しかし、次に観測され るものは事前にはわからない。このように、事前確率間の距離を定義するため に、次に観測されうるすべての状態のKullback-leibler距離の期待値を提案す ることになる。 パラメータの大局的、局所的に独立であるという付加的な仮定に関連して、 ベイジアン・ネットワークの文献にリーズナブルな仮定として通常使われ るいくつかの定理が現れる。
この方法は"拡大と縮小"のアルゴリズムと比較され、また、ここでは扱 わない等確率の仮定による結果と比較される。簡単な例で技法を紹介する。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Pedro Larranaga, Mikel Poza, Yosu Yurramendi, Roberto H. Murga, and Cindy M.H. Kuijpers
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, pp. 912-926, September 1996
Keywords: Bayesian network, genetic algorithm, structure learning, combinatorial optimization, performance analysis.
ベイズ・ネットワークの分野における構造学習への新しいアプローチを示す。 代替となる構造を探索するジェネティック・アルゴリズムの考え方を使って、 事例のデータベースに対して、最良のベイズ・ネットワーク構造を探索する 問題に取り組む。 まず、ネットワーク構造のノード間の順序付けを仮定する。 この仮定は、ジェネティック・アルゴリズムによって作られるネットワークが 適切なネットワーク構造となるために必要である。 次に、不適切な構造を適切なものに変換する「修復演算子」を用いることにより、 その順序付けの仮定を外す。 そして、実験結果とその統計的な解析を示す。 最良の結果は、局所最適化を含む、 選り抜きのジェネティック・アルゴリズムによって得られる。
(c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
A. Mark Earnshaw and Steven D. Blostein
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September 1996
カメラの移動方向をオプティカルフローによって再現する非反復手法は既に 文献[4]で提唱された。ここでは、このアルゴリズムのバイアス(偏り) を詳しく説明し、このバイアスを排除する幾つかの方法を比較することと ともに、包括的なエラー解析を提示する。この解析は Cram-Rao lower bound (CRLB) に適当な修正を加えた。我々は、このアルゴリズムに簡単な反復 的な修正を与え、CRLBに近づくバイアスのない変換方向の評価を得ることが できる。合成と実の画像系列での様々の技法の比較に数値結果を用いている。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
W.S. Ng and C.K. Lee
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September 1996
Keywords: Thresholding, binarization, segmentation, evaluation, optimality measure.
本稿では、画像のセグメンテーションの性能を測る尺度(一様測度: Levine and Nazif による提案)が、基本的に大津の評価尺度と等価で あることを指摘する。
Sz
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Gordon Wilfong, Frank Sinden, and Laurence Ruedisueli
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September 1996
Keywords: Pattern recognition, handwriting, on-line, symbol recognition, template matching.
筆記者特定のオンライン手書き英字認識システムについて述べる。 記号が連続して書かれている場合、システムでは 文字の大きさ、回転、位置に無関係に記号を認識する必要がある。
mNt
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Cheng-Yuan Liou and Hsin-Chang Yang
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September 1996
Keywords: Handprinted character recognition, spatial topology distance, self-organizing map, neural networks, elastic matching
本論文では、太く書かれた手書き文字の認識を可能とする自己制御マッチング によるアプローチについて述べる。 本アプローチでは、未知の手書き文字を該当するオブジェクトへと徐々に 変形させていく。 自己制御マッチングに使用される 抽出すべき文字の特徴とは、 中心の軌跡であり、向きであり、そしてパターンの黒画素範囲にフィットする 楕円の主軸である。 実験により本方法の有効性が示された。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Anthony C. Kam and Gary E. Kopec
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September, pp.945-950, 1996
本稿では,文書画像の復号化を発見的な探索問題とみなすことで,その計算コ ストを削減する手法について述べる.本手法の核は変形した動的計画法(DP :dynamic programming )のアルゴリズムであって,反復完全路アルゴリズム (ICP: iterated complete path )と呼ぶ.それは,分離可能な信号源モ デルを用いている.発見的な関数の組はICPにより形式化されたテキストを 復号化するように表されている.ICPと提案された発見的手法を用いて,単 純なテキストの列と電話のイエローページを復号化するときに,動的計画法よ りも3〜25%の速度向上がみられた.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Joseph M. Reinhardt and William E. Higgins
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September 1996
Keywords: Mathematical morphology, shape representation, morphological skeleton, morphological shape decomposition, image analysis, computer vision, shape analysis.
モルフォロジカルな骨格とモルフォロジカルな形の分解(morphological shape decomposition : MSD)はモルフォロジカルな形の表現の一般的な 2つの方法である。 どちらの方法も物体を部分の幾何学的な組合せとして表現する。 各部分は相似な特定の構成要素によって広げられた点の軌跡で与えられる 本報告では2つの方法の理論的な比較を行なう。 理論的な結果といくつかの表現のコストの尺度を組み合わせることによって、 我々は2つの方法の効果の具体的な比較を行なった。 結果は複雑な物体(例えばモルフォロジカルな骨格の表現において 相似の大きさの全範囲を必要とするような物体)に対して 提案した4つのコストの尺度のうち、3つに関してモルフォロジカルな 骨格よりもMSDの方が効果的に表現できることを示している。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Tai Sing Lee
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996
1次元ウェーブレットに対するDaubechiesによるフレーム基準を 2次元に拡張し、2次元ガボアウェーブレットの特殊な場合について フレーム限界を計算する。
哺乳動物の視覚を司る脳皮質に対して、神経生理学が明らかにした最近の 成果によれば、線形応答する皮質ニューロン(単純セルと呼ばれる)の 主要な集合が示すフィルタ応答の形状は、一連の自己相似2次元ガボア ウェーブレット族として最もよくモデル化される。 このため2次元ガボア画像表現に対する完全性の基準は、多くのコン ピュータビジョンの応用、また生物学的ビジョンのモデリングにおいて 役割を増していることから、重要である。
そこで連続2次元ガボアウェーブレットが任意の画像の完全表現を 与えるための条件を導き、ウェーブレットが直交基底となっているもの として和をとれば安定な再構築が得られるような、自己相似ウェーブ レットのパラメータ付けを見い出す。 きつく量子化された2次元ガボア係数を用いて画像を再構築すること によって示すように、 "かたいフレーム"の近似が低解像度のニューロ応答に高解像度の画像を 表現させる冗長性を生じている。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Michael J. Black and Allan D. Jepson
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996
Keywords: Optical flow, segmentation, robust regression, parameterized flow models, local deformation.
本論文では,局所的に変形した平面領域の動きに基づいた オプティカルフローの評価のための新しいモデルについて述べる. 本方法では組織のための明るさの情報を用い,シーン中の平面領域を 仮定するための断片的滑らかさの明るさの分割された領域を用いた 動きの解釈を強制する. パラメトリックフローモデルは2つのプロセスで領域中で推定される. 最初のプロセスでは粗いフィットを計算し,次のプロセスで領域(2, 6,または8つのパラメータ)の動きの適当なパラメータ化を推定する. 最初のフィットは、領域に基づいた標準的な回帰法の一般化を 用いてリファインされる. 平面性の仮定は覆されがちであるので,粗いパラメトリックモデル+ 局所変形を用いたモデルの形である物理的手法と同じような,平面仮定 からの局所的変形を許すことにした. パラメトリック+変形の本モデルは,正則化手法の適合した本質を保持 している限り,パラメトリック手法の強い制約を利用する. 様々な画像に対する実験の結果,パラメトリック+変形モデルは, 明るさ分割の合併による動きの境界の局所化が正確である限り, 正確なフロー推定を行なうことが分かった.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Paul Kube and Pietro Perona
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996
Keywords: Feature detection, edge detection, scale space, nonlinear filtering, energy filters, quadratic filters, causality.
フィルタリング段階で2次の非線形性を使用した特徴検出は線形特徴に比べ いくつかの利点があることが知られている。ここではそれらのスケールスペー ス特性を考える。特に、線形の検出のように、2次特徴の検出が"因果 関係の特性"でスケールの選択を許すかどうかを調査した。この"因果関係の特 性"はスケールを粗くする時に決して特徴を生成しないということを保証する ものである。
スケール関数とのコンボリューションとして実現されたスケールの選択を使用 する、実際にはほとんど共通のデザイン、すなわち、2つの成分を持つ1次元 の検出について詳しく説明する。興味ある2つの特別な場合、ヒルベルト変換 によってと最初の空間的な導関数よって関係付けられた成分フィルターの組を 考える。リーズナブルな仮定のもとで、ヒルベルト変換による2次の検出は 因果関係の特性を持てないことを示す。導関数の場合には、因果関係にとって 必要十分であるガウシアン関数の分数の導関数に関連するスケール関数のいく つかを説明する。加えて、実際にこれらの特性の効果を示す実験について報告 する。このように、2次特徴検出の少なくとも1つのクラスが線形のフィル タリングに基づいたより良く知られた検出と同じく好ましいスケール特性を持 つことを示す。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Moshe Shpitalni and Hod Lipson
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October, pp.1000-1012, 1996
二次元の線で表された投影図から三次元物体を再構成するために,重要な鍵と なるのは面の同定である.実際の三次元物体の面に対応した,二次元の投影図 上での周を表す線分の同定は,投影された物体がワイヤーフレームで表されて いると複雑になる.この表現は,機械部品の概要設計の段階で作られる図面で よく使われる.非多様体的物体(nonmanifold object)のとき,状況はさらに複雑に なる.本論文では,表面同定の基礎となる原理を論じ,表面同定が可能なアル ゴリズムを示す.面〜線分〜頂点の関係は非多様体にも適用可能である.また, 実際に用いられている図面からの例をあげる.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Diane J. Cook, Piotr Gmytrasiewicz, and Lawrence B. Holder
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996
Keywords: Sensor planning, decision theory, multiagent planning, Unmanned Ground Vehicle, active vision.
本論文では軍事的な任務を遂行する複数の自律的な乗物間の 協調的センサープランニングの決定理論的な手法について述べる。 この自律的な乗物への応用にとって、知的な協調とは任務の間中 乗物の位置やカメラのパン/チルト角度の最適な選択がなされなければならない。 これらは乗物のステルス性を保ちながら センサーから得られる情報量が最大になるように 決定しなければならない。 任務は複数の乗物で行なわれるので、協調は乗物間の負荷のバランスを取り、 また得られる情報が増加するようになされなければならない。
本論文では協調的なセンサープランニングの研究の理論的な基礎を提案し、 これらの手法のARPAの無人走行車への応用について述べる。
Y.A.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Francois Goudail, Eberhard Lange, Takashi Iwamoto, Kazuo Kyuma, and Nobuyuki Otsu
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996
Keywords: Classification, face recognition, autocorrelation, object recognition, shift invariant feature extraction, multiresolution image analysis.
本論文では、25の局所自己相関係数にもとづく顔認識技術の性能を 調べる。 評価用の学習セット、およびテストセットとして、116名の正面向きの 顔・11600画像からなる大規模なデータベースを用いる。 自己相関係数は計算量が多くなく、平行移動に関して不変という性質を 持ち、表情の変化に対してもかなりロバストである。
我々は多数の既知顔を認識しつつ、それ以外の、パターン空間上で非常に 近接している未知顔をリジェクトするという困難な問題に取り組んだ。 多重解像度システムによって95%の認識率を達成すると同時に、未知顔の 誤認識率も1.5%だけに抑えた。それを1秒間に約1人の速度で実行する ことができる。 未知顔のリジェクトをしない場合は、最高で99.9%の認識率を得た。 この良好な性能から、局所自己相関係数が非常に有効な情報を含む ことが示された。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Phillipe Burlina and Rama Chellappa
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996
Keywords: Motion analysis, frequency domain analysis, time-to-collision, Mellin transforms, spectral structure.
本論文は,動的な画像のシーケンスの分析と画像の動き特徴付け への空間変換法の適用について述べる. 拡がりを持つ要素(looming カメラ要素に起因する)を含む 画像の動きは空間的 Mellin 変換(MT)領域において分析され、 スペクトルが二つの部分に分けられる。 2つの部分とは、静止画の空間的MTに対応する構造的な項と 衝突回避時間(a motion support)に依存する運動的な項である。
必須の画像の明るさ量からの画像の動きの回復,および 空間的 MT 分析を用いた衝突回避時間の計算のために 先の特性について応用の可能性を探った.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
G.D. Finlayson
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996
Keywords: Color, color constancy, physics-based vision.
可能性のある表面反射や発光の状態に対する簡単な制約が、Forsythの色不変 の定理に基づいた新しいアルゴリズムにおいて開発された。
Forsythの方法は規範的な発光のもとでの表面色のすべては可能な色の最大の ガミュートの範囲内におさまるという制約を保証する。残念なことにこの方法 は、照明が均一である、表面は平面である、反射がないという制限された世界 でのみ有効である。
これらの制限をなくすためにForsythの方法を(本質的には色度の空間で)遠 近的な射影のもとでの色に適応するように変更した。この方法はForsythの方 法よりも簡単(計算量が減る)であり、より重要なことは照明、表面、反射に 対する制限を緩めることができる。また、この方法は表面色におけるガミュー トの制限と同じような発光に対する最大のガミュートの制限をも含むように拡 張されている。実際の画像でのテストはこのアルゴリズムが色の不変性に対し て良好であることを示している。
M.T.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Jianying Hu, Michael K. Brown, and William Turin
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996
Keywords: On-line handwriting recognition, hidden Markov models, subcharacter models, evolutional grammar, invariant features, segmental features.
隠れマルコフモデル(HMM)による手書き認識は今ではよく用いられているが、手書 き認識のために HMM を複雑な確率的言語モデルに組み入れることはまだ始まったば かりである。我々は、より複雑な手書き認識システムの構築のために、音声認識分 野における開発成果を活用した。手書きモデルのパターン要素は HMM によってモデ ル化される部分文字のストローク型である。これらの HMM は文字モデルを形成する ために連結され、さらに確率的言語モデルに組み込まれる。よい良い言語のモデル 化に加えて、新しい手書き認識の様々な種類の特徴を導入する。これらの特徴のい くつかは不変性を有し、また、あるものは入力パターンのかなり大きい領域を覆う ような部分的な特徴である。語彙が32単語から成る、18筆者による3,823個の制約 のない手書き単語のサンプルにおいて、94.5%の筆者独立の認識率を達成した。
HN
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996
Keywords: Character segmentation and recognition, topographic feature, gray-scale character recognition, multistage graph search, recognition-based segmentation.
一般的に言って、グレースケール画像を二値化するプロセスに おいて、有用な情報が失われることが数多くある。ここで有用 な情報というのは、接触またはオーバラップ文字を切り出すう えで有用な情報のことである。 グレースケールの画像を解析すると、文字境界において、細部の地形的 ともいえる特徴と濃度変化とを観測することができる。 グレースケール画像から得られたこのような手がかりは、有効な文字 切り出しと認識に役に立てると信じている。
本論文では、グレースケール画像のこのような性質を最大限に利用する 新しい文字切り出しと認識の方法論を提案する。 この方法論では、文字を切り出す領域はグレースケール画像から抽出し た投影的輪郭と地形的特徴によって決定される。 そして、多段階グラフ探索アルゴリズムを用いて、個々の文字切り出し領域 の非線形的な文字切り出しパスを探し出す。 最後に、この非線形的な文字切り出しパスと認識結果を確定するため、 認識に基づいた切り出し方法を採用する。 様々な印刷されたドキュメントにおける実験を通して、提案された方法論 は、接触とオーバラップの文字の切り出しと認識に非常に有効であること が確信された。
LXP
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Jan Strackee
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996
この小論では、Werman と Geyzel によって提案された直線の傾き推定法 について論ずる。 この推定法がまがいものであることが、周波数分布を計算することにより、 示される。この推定法は、一次モーメントも二次モーメントも持たないの である。 したがって、それを応用すると、まったく不規則な結果となろう。
Sz
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Yaorong Ge and J. Michael Fitzpatrick
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996
Keywords: Euclidean, skeleton, shape analysis, medial axis transform, axis of symmetry, distance transform, Euclidean distance transform.
形状解析に用いる表現方法として、骨格表現は重要なものの1つである。 一般的には、骨格化は次の3つのステップで行なわれる。 1)まず、(図の端からの)距離変換図を作成し、 2)距離変換図から(図の内部に存在する)最大円盤を検出し、 3)最後に最大円盤の中心(CMDs)をつなぎ合わせて骨格表現を得る。
距離を近似するのに用いるアルゴリズムは豊富で、理論的にもしっかり 構築されている。 しかしながら、結果として得られる骨格は精度が悪く、回転に対する頑 強性が低い。 本論文では、正確なユークリッド距離に基づいて、上記手法により骨格 を抽出する手法について述べる。 始めに、従来提案されているアルゴリズムの中には、 ユークリット距離の元では、離散最大円盤の組みを正確に求めるアルゴ リズムがないことを示す。
次に、CMDs から骨格を抽出するのに、 通常良く用いられる細線化と最速上昇法の2つのアプローチについて実 験を行なった結果を示す。 実験の結果、細線化のアプローチではユークリッド距離図に対しては適 切に働かないことが指摘できた。 一方、最速上昇法では芯線が元の線の真中心に位置する骨格を生成でき、 結果として得られた骨格は、骨格として好ましい特性を全て備えている。 つまり、得られた骨格は、原図形の連結性を保持し、 骨格が原図形の中心を通過しており、回転に対する頑強性が強く、 正確な再構成が可能である。 本論文で提案するアルゴリズムの有効性は多くの実例で示されている。
mNt
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Chahab Nastar and Nicholas Ayache
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996
Keywords: Medical image analysis, nonrigid motion, deformable models, modal analysis, Fourier analysis, compression, dynamic data, four-dimensional images, cardiac imagery, automatic diagnosis.
3次元画像の時系列データ(4次元データ)における非剛体的な動きの 解析方法について示す. この方法では,変形する物体の輪郭の非硬直な動きを, 物理的に変形可能な表面の制約から直接推定する. 変形を表すパラメータの数を減らすために,表面の空間的 滑らかさを与えるモデル解析を行なう. 変形の概略を表すスペクトルは,変形の比較に効果的に使える. 主変形スペクトルの時系列データに対するフーリエ解析によって,データの テンポラルなスムージングがなされる. よって,複雑な非硬直的動きはわずかなパラメータ(主スペクトルと 主フーリエ倍スペクトル)で表現できる. 従って,4Dデータを非常に簡潔な方法で解析することができる. 本方式の有効性とロバスト性は,様々な医療画像データによって 示される. 本方法は心臓疾患の自動診断や動画の圧縮などに適用可能である.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Dario Maio, Davide Maltoni, and Stefano Rizzi
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November, pp.1080-1091, 1996
ナビゲーションのための空間的な知識の組織化と利用は,自動車の自律走行シ ステムの分野で重要な問題である. 特に,環境マップを連結クラスタに分割す ることによって,重要な位相的特徴の獲得ができ,分割統治(divide- and-conquer)法による行路設定の分解が可能となる. 発見にもとづくクラスタリングとは,エージェントが環境内を動くのに合わせ て,探査によって学習されているマップのなかで、対応するクラスターを同定 するための処理である.これは,利用可能な知識の有効なクラスタリングを, それぞれの探査ステップにおいて生み出すものである。 本論文では,クラスタリングの適格の度合いを表す測度を定義し, それを最大にする二つの発見的なアルゴリズムを提案する. いずれのアルゴリズムも,位相的・測度的基準にしたがって動的にクラス ターを決定する. 最初のものは,クラスターに属する点の散乱度を局所的に最 小化することを目的とし,一つ一つの探索ステップで存在するクラスターを部 分的に再配置する. 二番目のものは,全体的な密度マップにしたがってクラス ターの位置と規模を評価する. そして,二つのアルゴリズムの,最適性,効率, ロバスト性,安定性の点での比較を示す.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Zhiqian Wang, K. Raghunath Rao, and Jezekiel Ben-Arie
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996
Keywords: Canny edge detector, edge detection, optimal filters; ramp edges, step edges, Expansion Matching (EXM), Discriminative Signal-to-Noise Ratio (DSNR).
実際の画像において理想的な階段状のエッジは、 画像処理システムで一般的に用いられるローパスフィルターのために 傾斜状のエッジに変換されてしまう。 本論文では最近開発された最適な傾斜エッジ探索のための拡張マッチング法 について議論する。 拡張マッチング法が区別的SN比(Discriminative Signal-to-Noise Ratio :DSNR)と呼ぶ新しいマッチング基準を最適化し、 またノイズ、大きなオクルージョン、重なりなどの条件の下で ロバストにテンプレートを認識できることを示す。 我々の傾斜エッジ探索法がCannyの基準をDSNRに換算して得られる 傾斜エッジ探索法に比べて良い性能を有すること、 また様々なノイズレベルや傾きに対して抽出するのが相対的に容易で あることを示す。
Y.A.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Stephane Christy and Radu Horaud
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996
Keywords: Perspective, weak perspective, paraperspective, Euclidean and affine reconstruction.
本論文では、透視カメラモデルに対するEuclidean再構成問題を、 弱い透視、または平行視カメラモデルに対するEuclidean再構成問題 を次々と実行することによって解決する方法について述べる。 較正されたカメラによる画像系列から形状と運動を求める他の方法に 比べて、本方法は少ない反復回数で収束し、計算効率が良く、 符号(反転)のあいまいさを解消している。 まず方法の詳細を説明し、その収束性を解析して、人工データと実データ の両方を用いて実験を行なう。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Mengxiang Li and Jean-Marc Lavest
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996
Keywords: Camera calibration, zoom lens calibration, lens distortion, active vision.
ズームレンズカメラの調整は重要な問題ではあるが, 少なくとも2つの理由で難しいものとなっている. 最初の問題は,このようなカメラの固有なパラメータは 時間と共に変化し,オンラインで調整するのは難しいことにある. 2番目の問題は, シングルレンズシステムのためのピンホールモデルは ズームレンズシステムには直接適用できないことである. 本論文ではこの問題に対する ズーミング,モデル化,レンズの歪み,焦点の長さ の調整における重要な点の決定など,幾つかの考察を述べる. コンピュータ制御によるズーム,焦点,口径の調整 に関する実験結果を示す.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
G.L. Gimel'farb
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996
Keywords: Texture, Markov/Gibbs random field, pairwise interaction, maximum likelihood estimate.
Gibbsの確率分布(GPD)に基づくマルコフ・ランダム・フィールドのモデルを 提案する.これは,グレースケル画像のうち、確率過程が空間的に均一である テクスチャー,と呼ばれる特殊なクラスを記述するものである. このモデルが考慮するのは、複数の画素のグレーレベル間の相互作用のみであ る.この相互作用は、複数のショートレンジとロングレンジの対単位のもので ある. 効果的な学習の枠組が導入され, GPDにおけるポテンシャルの最尤推定を使って,相互作用の構造と強さを, 望まれるパラメータとして復元する. この枠組は,分析的に得られる推定の初期近似と,確率過程的な近 似によるその後の精緻化とに基づいている. 自然界のテクスチャーをモデリングする実験において、提案したモデルの 有効性が示された.
M.T.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Warren F. Gardner and Daryl T. Lawton
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996
Keywords: Vehicle tracking, model-based, interactive, local translation.
本論文では、車両追跡のための対話的なモデルベースのビジョンシステムについて 述べる。人間は対象モデルの形式である程度の量の情報を指定する。そのモデルに より、動いている車両を含むシーンの自律的解釈のためのコンテクストを確立され る。手で持った非校正カメラについて、いくつかの画像系列からの結果を示す。
HN
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Kyeong-Ryeol Park and Chung-Nim Lee
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996
Keywords: Mathematical morphology, scale-space, causal property, generalized zero-crossing, fingerprints, alternating sequential filter.
本論文では、モルフォロジカル・フィルタリング(morphological filterings) に基づいた一次元グレースケール信号のスケール空間が因果律を満足する (スケールが大きくなっても新しい特徴点を作らない)ことを証明する。 このため、我々は、一定の特異性質を持つ信号をも許容するように、 ゼロ・クロシングの標準的な定義を改良し、これを用いて特徴点を 定義する。 このゼロ・クロシングの新定義は、二階の導関数を有する関数については、 標準定義と同等である。 特に、ガウシアン・カーネルGに基づいたスケール空間は、この概念を 必要としない。というのは、フィルタされた信号 G * f は常に無限 微分可能であるからである。 このゼロ・クロシングの一般化された概念を用いて、openingに 基づいたモルフォロジカル・フィルタリングが因果律を満足すること を証明する(二重性により、closingの場合も同じである)。 この前の著作中に見つかった誤りがこの論文の中で修正された。 我々が得た因果律の結果は、より一般的な二次元グレースケール 画像には応用できない。 副産物として得られた可変逐次フィルタの因果律結果も この論文に含まれている。
LXP
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Bin Yu and Anil K. Jain
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996
Keywords: Form processing, learning form structure, document image analysis, segmentation, character reconstruction, block adjacency graph.
最近は、文字認識も進歩して賢くなったので、文書画像解析の分野で 多くの挑戦的な課題に取り組むことができるようになりつつある。 その一つに、知的なフォーム解析がある。 フォームに書き込まれた文字や記号は、フォーム枠と接触または交差 する場合がある。本稿では、そのようなケースのフォーム・ドロップ アウトのための一般的システムについて述べる。 我々が提案するのは、それら接触・交差文字を、位置未定のフォーム枠 から分離する方法である。 文字ストロークのなかには、フォーム枠と接触・交差するものがあるわけ であるから、次の三つの問題に触れざるを得ない。
1) フォーム枠位置の特定
2) 文字とフォーム枠との分離
3) 分離によりもたらされるストロークの欠落の再構成
1)のフォーム枠位置の特定は、長い直線を検出することにより自動的にな される。ここで、直線の検出は、ブロック隣接グラフに基づいている。 2)のフォーム枠分離と、3)の欠落文字の再構成とは、このグラフ上で実現 される。 提案されるシステムには、フォーム構造の学習とフォーム・ドロップアウト も含まれる。 まず始めに、未記入のフォームから、構造ベースのフォーム・テンプレート を自動的に生成する。未記入のフォームには、フォーム枠と、あらかじめ印 刷されているデータ領域と、スキュー角とが含まれている。 このフォーム・テンプレートを用いることにより、記入された手書き文字、 及び活字文字のいずれをも抽出することができる。 実験結果として、3種類の異なるフォームについてのものを取り上げ、 システムの性能を示す。 さらに言えば、提案方法は、スキャン中にもたらされるノイズやスキューに 対して頑健である。
Sz
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Filippo Neri and Lorenza Saitta
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996
Keywords: Genetic algorithms, distributed genetic algorithms, classification rules, machine learning, disjunctive concept learning, universal suffrage selection, mushroom dataset, splice junctions dataset, empirical comparison.
本論文では、建設的な方法で以下のことを示す。すなわち、 学習システムに基づく遺伝的アルゴリズムを用いることは、 少なくとも伝統的なアプローチ、つまり記号論的あるいは コネクショニスト的アプローチと同じくらいに効果的であ るということである。 その目的のために、REGAL*というシステムについて簡潔に述べ、 機械学習の二つの古典的なベンチマークへの応用について、 その結果を文献で公になっている最良のものの結果と比較する ことで論ずる。
Sz
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Yasuyo Kita
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 12, December 1996
Keywords: Deformable objects, elastic models, physics-based modeling, multiple view analysis, nonrigid motion, contour extraction, medical image processing, stomach X-ray images.
本論文では,複数視点画像における物体の対応を探索することによって, 該画像から変形物体の領域を抽出する方法を提案する. 本方法は胃のX線画像を解析するために開発された. 胃の(生理的ではなく)物理的な変形とカメラアングルの変動によって, 胃の形状は画像上ではかなり違って現れる. このような画像を正しく解析するために,弾性胃モデルを使用する. 初めに,一つの画像における胃の形状から弾性胃モデルを作る. 各撮影条件を考慮して,各画像における胃の変形を当該弾性モデルに よってシュミレートする. 各画像におけるカメラアングルから弾性モデルを投射することで得られる 予測される輪郭を参照することで,胃の輪郭形状がノイズィな画像からロバスト に求められる. 各画像から予測される輪郭が弾性モデルに対応することで, 画像中の胃の各パートの位置が同時に求まる. いくつかの胃のX線画像についての実験結果を示し,考察を述べる.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Laurent Najman and Michel Schmitt
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 12, December, pp.1163-1173, 1996
分水界(watershed)は数学的モルフォロジーの分野で開発された,最新の領 域分割ツールの一つである.その過分割を防ぐために,測地線の再構成に基い た,最小値の運動の考え方を提示する.本論文では,等高線にその運動の考え 方を拡張する.この考え方は,突起部の測度のように振舞う.最小値の運動に 反して,我々の概念では画像の対応する物体の大きさと形を反映している.こ の表現は平面の区分化,すなわち分割によって表されるため,より自然なもの である.それから階層的な分割過程が導かれるが,それは画像のコンパクトな 記述を与え,すべての分割を含むため,運動の考え方により,単純な閾値処理 で得ることが可能である.最後に,輪郭線の運動に加え,測地線の再構成を計 算するのに効率的なアルゴリズムを示す.
Daniel P. McReynolds and David G. Lowe
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 12, December 1996
Keywords: Rigidity checking, point correspondences, image matching, structure-from-motion, nonlinear parameter estimation, perspective projection.
透視投影における2次元の視野の組から得られる3次元の点の 対応の潜在的な剛体性を高速に検証するアルゴリズムについて述べる。 本アルゴリズムの出力は「2つの視野から得られたこれらの対応点は 厳密な配置の投影か?」という質問に対する単純なYesまたはNoという 答えである。 将来的な応用として、1つの視野からの3次元物体の認識や 大きく離れた視野間のステレオや動きの(検出の)ための対応マッチング などがある。 厳密な照合問題は動きからの構造問題とは異なる。 なぜなら多くの場合、2つの視野からは曖昧さや悪条件のために 動きからの構造を計算することは不可能であるが、 一方厳密な問題に対して正確なYes/Noという答えを与えることは可能である。 厳密な照合はマッチングの条件として3次元の復元方程式を用い、 点の対応を検証する。 提案するアルゴリズムを使って本手法の部類に属する他の方法を 改良することができる。 なぜなら本手法は、透視投影においてたった6の対応点で良い、 大きく離れた視野から(得られる点)の対応を扱う、 対応の相違を最大限に利用する、 Kontsevichによって3次元の復元に対して線形なアルゴリズムで 統合されている、からである。 様々な実画像に対する実験結果を示す。 本アルゴリズムのインプリメントについても完全に公開する。
Y.A.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Shree K. Nayar, Masahiro Watanabe, and Minori Noguchi
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 12, December 1996
Keywords: Depth from defocus, constant magnification defocusing, active illumination pattern, optical transfer function, image sensing, tuned focus operator, depth estimation, real-time range sensor.
動画の構造はリアルタイム距離センサーを用いて復元することができるが、 焦点補正から得られる奥行きを用いれば、高速で高密度の距離推定を 効果的に行なうことができる。 しかし、高精度の奥行き推定には、テクスチャのない表面の復元や精確な ぼけの推定、焦点補正によって起こる倍率の変動を含む、さまざまな問題を 理論的・実用的に解決することが必要となる。 テクスチャ表面・テクスチャのない表面ともに、画像を得るのに 使われる同じオプティカルパスにより投影される照度パターンを 用いて復元される。 照度パターンは、求めた奥行きにおける精度と空間解像度が最大に なるように最適化される。 2つの画像における相対的なぼけは、帯域の狭い線形オペレータを用いて 求められる。そのオペレータは焦点補正システムからの奥行き に関する、光学上、センサー上、計算上のあらゆる要素を考慮して 設計されている。 焦点補正に対して不変な倍率は、撮像レンズに窓を付加する ことにより実現した。 焦点距離センサーのプロトタイプを開発したが、それは 1フィート立方の領域で動作し、30Hz で 512x480までの深さ 推定を行ない、平均2乗誤差は0.2%である。 いくつかの実験結果により、センサーの性能を示す。
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Richard Szeliski and Heung-Yeung Shum
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 12, December 1996
Keywords: Motion analysis, image registration, optical flow, splines, quadtrees, local parametric motion models, multiresolution analysis, image pyramids, hierarchical basis functions, motion segmentation.
本論文では新しい多解像度表現, quadtree スプラインに基づいた, 動きの推定アルゴリズムを提案する. この表現では,動きのフィールドは様々なサイズの小領域画像を 滑らかに連結したものの集まりとして表わす. 小領域画像のサイズは基礎となる動きの複雑さに応じて自動的に 調整される. 小領域画像のトポロジーは quadtree データ構造によって決定され, 分割,併合の両手法はこの空間的細分割の推定のために開発される. quadtree スプラインはもう一つの新しい表現, 適応的で階層的な基本スプラインを用いて実装され, 階層的基本前提条件を与えることによるスピードアップ を伴う,適応的に大きさを決定された相互窓の利点 を併せ持つ. 標準的な動きのシーケンスに対して実験結果を示す.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Narendra Ahuja
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 12, December 1996
Keywords: Image segmentation, representation, scale-space, edge detection, region detection, perceptual structure, pyramids, medial axis, nonlinear image analysis, texture.
本論文はすべての幾何学的および光度スケールで画像の部分領域を抽出する新 しい変換方法を述べる。コンボリューションやマッチングのような線形なアプ ローチは部分領域の形状の先験的なモデルが必要であるという根本的な欠点が あることをまず論じる。
提案された変換は、統計力学や量子力学と同じように、画素間の相互作用から ボトムアップ的に構造的なマージを行なうことによる制限を避ける。この変換 は、スカラー的で局所的な線形処理というよりはむしろ結果のベクトル的な統 合による画素対のグローバルな計算を意味する。引力の場が同じ部分領域に属 する画素が引き合うように画像上で計算され、部分領域はコンバージェンス・ フローによって特徴付けられる。
すべての異なる幾何学的および光度スケールでマルチスケールのセグメンテー ションや元々の劣化していない構造の抽出が可能であるという変換処理の性質 が画像に表れるということが示される。これはマルチスケールの構造が画像信 号の消滅というスムーズな構造として観測される従来の方法と対比される。 スケールは引力の計算の統合パラメータであり、画像に関連付けられるスケー ルパラメータの数と値は自動的に推定される。部分領域はすべて事前にわから ない自動的なセグメンテーション・ツリーの構築によって得られるスケールで 検出され、すべての画素はそれが所属するすべての部分領域の記述が付加され る。変換の分析的な性質のいくつかは部分的にコンスタントな画像に対して表 現されるが、結果がより一般的な画像、例えばノイズや陰影などが含まれてい る画像に対しても保持されることが示される。
このように提案された方法はマルチスケールで統合されたエッジや部分領域の 検出や低レベルの画像のセグメンテーションの問題に対する解決方法として考 えられる。合成された画像と実際の画像に対する実験結果でこの変換方法の性 質とセグメンテーションの性能を示す。
M.T.
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Trevor J. Darrell, Irfan A. Essa, and Alex P. Pentland
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, December 1996
Keywords: Gesture recognition, real-time image processing, expression analysis, view-based representation, spatio-temporal gestures.
空間と時間において定義される view モデルの集合への類似性スコアのベクトルと してパターンが表現される appearance-based approach を使って、手や顔のジェス チャをモデル化する。これらの view モデルは、教師無しのクラスタリング手法を 使って例から学習される。そして、認識や制御のタスクに適切な、タスクに依存し た座標系において view スコアを内挿するために、教師付き学習のパラダイムを用 いる。この解析を特定のコンテクストのジェスチャの内挿と認識に適用し、これら のタスクを行う実時間システムを提示する。
HN
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Massimo Tistarelli
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 12, December 1996
Keywords: Optical flow, velocity field, differential constraints, dynamic vision, motion analysis, image velocity, dynamic scene analysis, computer vision.
画像列からオプティカルフロー場を計算することは、画像特徴の一時変換 の制約の定義を必要とする。 本論文では、この計算図式での多重制約の使用の意味について考える。 最初に、異なる制約がある暗黙の特徴追跡に対応することを示す。 そして、最善の結果(測定精度と計算速度の両方に於て)は最適な制約 を選択し応用することによって得られる。これら最適な制約は考慮された 特有の画像特徴でチューニングして得られたものである。 多重画像の点を考慮することによって、速度場の推定をより正確にでき、かつ、 速度場の不連続性質を起因にする計測の誤差を検出することもできる。 さらに、定加速度運動モデルを仮設することにより、オプティカルフロー の微分をも計算した。 実画像を用いた幾つかの実験結果を提示する。
LXP
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Jonathan J. Hull
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 12, December 1996
Keywords: Text recognition, OCR, document recognition, document analysis, syntax, language syntax, HMM, hidden Markov model, character recognition.
手書きまたは活字テキストのディジタル画像を認識するアルゴリズムの性能 向上を図るための、統計的な言語モデルについて論ずる。 まず、単語認識アルゴリズムは、画像として視覚的に互いによく似た語彙か ら単語集合(近傍と呼ぶ)を決める。 文法的方法による単語への分類と、そうした分類のあいだの遷移確率とが、 Viterbi アルゴリズムの入力となる。 Viterbi アルゴリズムは、観測される近傍が与えられるとして、最大事後確 率を持つ各々の文に対する文法的クラス(マルコフ過程の状態)の系列を決 める。 推定された状態系列に含まれないクラスの近傍から単語を取り除くことによ り、単語認識の性能が向上する。 実験的に作られたアプリケーションとともに、ランニングテキストの各単語 の同定に関するいくつかの推測を生み出す近傍生成アルゴリズムが示される。 近傍推定における、0次、1次及び、2次遷移確率、及び異なるレベルのノ イズをいかに用いるかが探究される。
Sz
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.
Paul D. Gader and Mohamed Ali Khabou
IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 12, December 1996
Keywords: Handwritten digit recognition, feature generation, feature selection, entropy, information, orthogonality, neural networks.
手書き数字認識のための自動的な特徴生成について述べる。 特徴の探索は、二つの異なる評価測度(垂直性と情報) に基づいて行われる。 その特徴は、 バックプロパゲーションにより学習されたニューラル・ネットワークに おいて用いられる。 分類率については、高精度手書き数字認識システムについての既刊の サーベイに載せられた結果との比較がなされる。 この識別器は、いくつかの他の高精度識別器と結合される。 1クラス当たり1000文字のテストセットについて、二つの識別器を 用いると、およそ98%前後の認識率が得られる。
Sz
Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.