Consortional assoc.: Beyond Point-based Geometric Alignment, Fusion, 3D Reconstruction and Recognition of Visual Objects

Help

Back »

Details of project

Identifier

120367

Type

Principal investigator

Czúni, László

Title in Hungarian

Konzorcium, társ p.: Vizuális objektumok geometriai illesztése, fúziója, 3D rekonstrukciója és felismerése pontmegfeleltetések nélkül

Title in English

Consortional assoc.: Beyond Point-based Geometric Alignment, Fusion, 3D Reconstruction and Recognition of Visual Objects

Keywords in Hungarian

multimodális regisztráció, illesztés, fúzió, rekonstrukció, 3D objektumfelismeres kamera kalibráció, körbelátó kamera, Lidar

Keywords in English

multimodal registration, alignment, fusion, reconstruction, 3D object recognition, camera calibration, omni camera, Lidar

Discipline

Information Technology (Council of Physical Sciences)	100 %
Ortelius classification: Informatics

Panel

Natural Sciences Committee Chairs

Department or equivalent

Department of Electric Engineering and Information Systems (University of Pannonia)

Participants

Gál, Mónika
Kiss, Péter József
Lipovits, Ágnes
Rashad Metwally Omar Alseedy, Metwally
Tamás, Levente

Starting date

2016-12-01

Closing date

2021-11-30

Funding (in million HUF)

22.344

FTE (full time equivalent)

10.68

state

closed project

Summary in Hungarian

A kutatás összefoglalója, célkitűzései szakemberek számára
Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára.
Mit is jelent egy kép megértése? Napjaink számítógépes látás rendszereiben a tisztán szegmens szintű feldolgozás kevés információval szolgál az objektum 3D térben való elhelyezkedéséről. Az újabb kutatási munkák a színteret 3D térfogatok és felszínek által próbálják értelmezni, ezáltal képesek az objektumokat úgy leírni, ahogy azok a 3D világban léteznek, elrugaszkodva a képsík megkötéseitől. Az ilyen megközelítésnek számtalan alkalmazása lehetséges úgy, mint objektum detektálás, autonóm járművek, navigáció, SmartCity vagy akár kulturális örökségvédelem. Mivel a mélység szenzorok csak tisztán geometriai adatot szolgáltatnak a színtérről, radiometriai méréseket külön spektrális kamerával szükséges rögzítenünk. Ezért a vizuális adatok teljes megértéséhez ezeknek egy összevont reprezentációjára van szükség. Egy ilyen összetett adat előállításához elengedhetetlen a különböző szenzorok fúziója, tehát egy modern 3D kamerarendszer kulcsfontosságú része a 2D képek 3D pontfelhővel való geometriai illesztése. Például a Kinect egy színes kamerát és egy strukturált fény alapú mélység szenzort tartalmaz, ezeket viszont gyárilag mereven rögzítik, így a geometriai illesztésük már gyártáskor megtörténik. Sajnos az ilyen típusú 2D-3D eszközök korlátozott nézeteket képesek csak produkálni, és a beépített szenzorok képességei is erős megkötéseket adhatnak. A projektben a felsimerés, rekonstrukció, regisztráció és heterogén szenzorokból, különösen Lidar és ToF kamerákból származó 3D adatok fúziójának alapvető problémáit valamint a perspektív és nem-perspektív képekből passzív sztereó és többnézetes rekonstrukció feladatait kutatjuk, mindezt egy új, régió alapú megközelítésben.

Mi a kutatás alapkérdése?
Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek.
A projektben a rekonstrukció, regisztráció, fúzió és a heterogén 2D/3D adatból történő felismerés alapvető problémáit tárgyaljuk.
1) Egy folt alapú kamera független 3D rekonstrukció kidolgozása, amely a-priori részleges 3D információt is felhasználva modern energia minimalizációs módszerekre (pl. gráfvágás) és valószínűségi modellekre (MRF, CRF) épül.
2) Mind a regisztráció, mind a rekonstrukció során szükség van a bemeneti adatok megfeleltetésére. A mi megközelítésünkben folt-megfeleltetésekre van szükség, erre új, különböző modalitásokon működő folt megfeleltető módszereket dolgozunk ki.
3) Hogyan lehetséges különböző szenzorok adataiból készült 3D rekonstrukciók hatékony fúziója? Ha adott a színtér referencia 3D modellje, hogyan illesszünk erre 2D képeket, vagy hogyan detektáljuk a referencia állapothoz képest történt változást?
4) Különböző mélység szenzorokkal vagy akár 2D képekből 3D rekonstrukcióval generált 3D pontfelhők egyesítése alapvető feladat egy komplex objektum 3D modelljének előállításában. Olyan módszereket dolgozunk ki amelyekkel mélység kamerák és más, részleges átfedésben levő szenzorok egyesíthetőek, ezáltal a mélység szenzorok korlátozásait (pl. üveg felületek, takarás) legyőzve.
5) A legtöbb objektum-felismerő rendszer 2D kamerákat használ, mivel a 3D információ kinyeréséhez speciális szenzorokra lenne szükség, amelyek nem mindenhol állnak rendelkezésre, vagy „structure from motion” megoldásra, ami viszont túl nagy számításigényű. A mi megközelítésünkben IMU szenzorokat és 2D kamerákat használva egy interaktív felismerő modellt készíthetünk a 3D információ kevésbé precíz mérésére.

Mi a kutatás jelentősége?
Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának!
Különböző modalitásokon történő 3D rekonstrukcióval, regisztrációval, fúzióval és felismeréssel foglalkozunk. A legfőbb elméleti hozzájárulásunk egy általános keretrendszer kidolgozása a kamera modelltől független geometriai illesztésre és rekonstrukcióra. Míg a szakirodalom kulcspontok megfeleltetésével és komplex optimalizálással oldja meg a problémát, addig mi olyan általános módszert alkalmazunk, amely a képi régiókat direkt módon használva határozza meg a geometriai kapcsolatot a 3D térben. Áttörést jelenthet az egyesített elmélet létrehozása a 2D-3D illesztésre, illetve annak széleskörű alkalmazhatósága 2D és 3D szenzorokra. Fontos alkalmazási terület lehet például a biztonságtechnika, az ipari vizuális minőségellenőrzés, intelligens navigáció, SmartCity (úthálózatok,épületek feltérképezése és megfigyelése) és kulturális örökségvédelem örökségvédelmi tárgyak és épületek precíz térbeli és spektrális dokumentálása). A biztonsági alkalmazások tipikusan többféle szenzort használnak (pl. lidar,infra szenzor), amelyek egy mozgó robotra/UAV-ra vannak szerelve. Ezen heterogén adatok fúziójára is képes lesz a módszerünk. Újszerű módszereket dolgozunk ki továbbá a mélységi adat 2D spektrális képekkel való fúziójára, amely lehetővé teszi heterogén vizuális adatok 3D-2D illesztését. A projekt keretein belül javasolt algoritmusok számításigénye alacsony és csak kis mértékben igényelnek felhasználói interakciót. A számításigény csökkentése nem csak valós idejű végrehajtáshoz vezet, de egyúttal alacsonyabb teljesítményű gépeken is elérhetővé teszi a megoldást, ezzel csökkentve a költségeket és lehetővé téve a beágyazott látó-rendszerekben való alkalmazásukat (pl. autóiparban).

A kutatás összefoglalója, célkitűzései laikusok számára
Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára.
Napjainkban gyakran kombinálnak különböző szenzor információkat és megközelítéseket annak érdekében, hogy részletes, geometriailag helyes és megfelelően textúrázott 3D vagy 4D (térbeli illetve időbeli) modellt építsenek egy tárgy vagy színtér számára, ill. hogy lehetővé váljon az objektumok detektálása és felismerése. Vizuális és nem-vizuális szenzor-adatokat gyakran fuzionálnak, hogy megbirkózzanak a változó megvilágítással, felületi tulajdonságokkal, mozgással és takarással. Megközelítésünk általános módszert biztosít, amely direkt módon meghatározza a háromdimenziós felület darabjait. Gyakorlati szempontból egy ilyen módszer új lehetőségeknek nyit utat a passzív rekonstrukció, felismerés vagy a 3D mélység adat és 2D képek fúziója terén. Fontos alkalmazási terület lehet például a biztonságtechnika (felügyelet), ipar (vizuális minőségellenőrzés) és intelligens navigáció (autonóm járművek). A kifejlesztett algoritmusok nagy hatékonyságúak és csak minimális felhasználói interakciót igényelnek. A számításigény csökkentése nem csak az esetleges valós idejű végrehajtáshoz fontos, hanem egyúttal alacsonyabb teljesítményű gépeken is elérhetővé teszi a megoldást, ezzel csökkentve a költségeket. Mindez megnyitja az utat a beágyazott rendszerek felé is, ahol a rendelkezésre álló korlátozott számítási teljesítmény nem tette lehetővé az eddigi módszerek használatát. Így a módszerünk hozzájárulhat olyan izgalmas technológiák fejlődéséhez, mint a mobil eszközök, autonóm járművek és drónok

Summary

Summary of the research and its aims for experts
Describe the major aims of the research for experts.
What does it mean to understand an image? The purely segment-level understanding of many current computer vision systems tells us little about where objects are located in 3D. Recent work has focused on obtaining a geometric understanding of the scene in terms of the 3D volumes and surfaces. This representation enables reasoning about the objects as they exist in a 3D world, rather than simply in the image plane, and has been demonstrated to have a myriad of applications for object detection,autonomous driving ,navigation,SmartCity or cultural heritage. On one hand, current depth sensors will only produce a purely geometric representation of the scene, any radiometric measurement has to be done with a 2D spectral camera. On the other hand, for understanding visual data, one needs a joint geometric - radiometric representation. However, such a complex representation can only be produced by fusing different visual sensors, thus a key component of a modern 3D camera system is the geometric alignment of 3D point clouds and 2D pixel arrays. For example, Kinect combines a color camera with a depth sensor projecting structural light. When these cameras are built together, the geometric alignment is guaranteed by construction. However, such a depth-RGB camera rig can only produce limited views and are restricted to the capabilities of the built-in sensors. In this project, we will address the fundamental problem of reconstructing,aligning,fusing, and recognizing 3D data from heterogeneous visual sensors, in particular, Lidar and ToF cameras, passive stereo and multiview reconstruction from perspective and non-perspective imagery using a novel patch-based methodology.

What is the major research question?
Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments.
In this project, we will address the fundamental problem of reconstructing, aligning, fusing, and recognizing 3D data from heterogeneous visual sensors:
1) A patch-based camera independent 3D reconstruction algorithm, which is cabaple to make use of a priori partial 3D information and builds upon modern energy minimization approaches (e.g. graph cut) and probabilistic models (MRF or CRF).
2) Both reconstruction and registration algorithms rely on correspondences between the input images. Our approaches requires region-correspondences, hence we develop efficient patch-matching algorithms across camera images of potentially different modality.
3) Given 3D reconstructions of an object from different sensors, how can we efficiently fuse such data? Having a reference 3D representation of a scene, how to map 2D images or detect changes w.r.t. a reference state ?

4) Combining 3D point clouds obtaind from various range sensors or from 2D imagery via 3D reconstruction is a fundamental question in producing a 3D model of a complex object. We develop methods to combining range cameras with partially overlapping views of other sensors to overcome depth sensor limitations (e.g. glass surfaces) or occlusions.
5) Most object recognition systems use only 2D projections since 3D information would require special sensors not available or structure from motion would need too intensive computations. In our approach the combination of IMUs and 2D cameras are to be used in viewer centered interactive recognition model to gain rough 3D information.

What is the significance of the research?
Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field.
We address the problem of 3D object reconstruction, alignment, fusion, and recognition with various modalities. The main theoretical contribution is a general framework for camera independent geometric alignment and reconstruction. While state of the art methods currently solve the problem via landmark matching and complex optimization; we provide a generic way to work with image patches and directly provide the geometric relation between the corresponding 3D surface patches. Thus the breakthrough consists in a unified theory of 2D-3D image alignment and its application to widely used 2D and 3D visual sensors. Important examples occur in surveillance, industry (visual inspection), autonomous driving, SmartCity (mapping and monitoring of roads, buildings) as well as cultural heritage (precise spatial and spectral documentation of cultural heritage objects and building). Environment monitoring or rescue operations typically rely on various sensors (e.g. lidar, infrared sensors), potentially mounted on moving robots/UAVs, which requires reliable fusion of these heterogeneous data. We will develop calibration algorithms capable to fuse such diverse visual informations. We also develop novel methods for the fusion of range data with 2D spectral imagery, which allows for 3D-2D registration of heterogeneous visual information. The algorithms proposed in this this project are computationally efficient and require little user interaction. The reduction of computational complexity not only means potential real-time speed, but also allows the use of conventional hardware (thus reducing costs) and embedded vision systems (e.g. in automotive industry).

Summary and aims of the research for the public
Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others.
Today, different sensors and approaches are often combined to achieve the goal of building a detailed, geometrically correct and properly textured 3D or 4D (spatio-temporal) model of an object or a scene, or to achieve reliable object detection and recognition. Visual and non-visual sensor data are fused to cope with varying illumination, surface properties, motion and occlusion. Our approach provides a generic way to work with image patches and directly provides the corresponding 3D surface patches. From a practical point of view, such a method opens new possibilities for the application of passive reconstruction, recognition, as well as fusion of 3D depth data with 2D imagery. Important examples occur in security (surveillance), industry (visual inspection), and intelligent transportation (autonomous driving). The algorithms proposed in this project are computationally efficient and require little user interaction. For example, the reduction of computational complexity not only means potential real-time speed, but also allows the solution of problems on conventional hardware, thus reducing costs. Furthermore, it paves the way for embedded vision systems, where limited computing power does not allow the use of current techniques. Thus our algorithms can contribute to such exciting technologies as mobile computing, autonomous vehicles or drones.

Events of the project

2018-04-18 10:46:35

Résztvevők változása

Back »