Exploration of the environment in dynamic scenery from partial views

Help

Back »

Details of project

Identifier

120499

Type

Principal investigator

Szirányi, Tamás

Title in Hungarian

Tájékozódás dinamikus környezetben részleges látványokból

Title in English

Exploration of the environment in dynamic scenery from partial views

Keywords in Hungarian

gépi látás, mélytanulás, képi jellemzők, szimultán lokalizáció és feltérképezés, változás detekció

Keywords in English

machine vision, deep learning, salient features, simultan localization and mapping, alteration detection

Discipline

Information Technology (Council of Physical Sciences)	70 %
Ortelius classification: Informatics
Electronic Devices and Technologies (Council of Physical Sciences)	30 %

Panel

Natural Sciences Committee Chairs

Department or equivalent

HUN-REN Institute for Computer Science and Control

Participants

Huszák, Árpád
Maha, Shadaydeh
Majdik, András László
Manno-Kovács, Andrea
Manno-Kovács, Andrea

Starting date

2016-10-01

Closing date

2019-09-30

Funding (in million HUF)

35.516

FTE (full time equivalent)

4.72

state

closed project

Summary in Hungarian

A kutatás összefoglalója, célkitűzései szakemberek számára
Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára.
Az automatikus navigáció, beleértve az autonóm járműveket és a pilóta-nélküli földközeli repülő eszközöket is, a dinamikusan változó környezetben kell működjön. Ebben a környezetben a megjelenő dolgok egy része ismerős lehet (hasonló valami korábbihoz), de lehetnek eddig nem látott objektumok is; ezért egy ilyen rendszer működése alapvetően folyamatos tanulást és helyzetfelismerést igényel.
A fő érzékelési eszköz a kamera, a többi szenzor (pl. radarok, lidarok) inkább fontos kiegészítők. A látványban rejlő információ alapján a helyszín és az ott levő dolgok összerendelése, és a helyszínek láncolatának összefűzése egy folyamat része, ahol a szimultán lokalizálás és térképezés (SLAM) nem csupán a helyszín összefűzésének matematikai módszerét takarja, hanem a helyszínen látott dolgok folyamatba illesztését is. A projekt egyik célja a SLAM mint térképezési matematikai eljárás kiegészítése objektumokkal és eseményekkel. A tématerület nagy, és a megoldáshoz több részprobléma megoldása nélkülözhetetlen. Ezen belül az alábbi fő feladatokat kívánjuk megoldani:
1. Alakfelismerési és eseményelemzési feladatokra folyamatosan tanuló mély-tanulásos eljárások kidolgozása
2. Változások és jellemzők érzékelése dinamikus környezetben, változó szenzor együttessel
- Változásdetekció hosszabb időtávon
- Változásdetekció a SLAM ismétlése során
3. Légi- és földi kamera nézetek összeregisztrálása dinamikus leírók segítségével
4. Vizuális SLAM algoritmusok dinamikusan változó környezetben
- Új képi tulajdonságleírók kidolgozása (saliency)
- Mozgás alapú dinamikus leírók az előtér jellemzésére
5. Földi és légi detekciót összefogó dinamikus SLAM algoritmusok kidolgozása.

Mi a kutatás alapkérdése?
Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek.
A jelenlegi SLAM algoritmusokat alapvetően nem változó környezetre tervezték. Ezért a változó dolgok kiemelése, illetve magasabb szintű (pl. objektumok, események) beemelése a SLAM optimalizációs eljárásába új megoldásokat fog tartalmazni; lényegében a korábbi, képi sztochasztikus optimalizációs eljárásaink logikáját kívánjuk tovább vinni.
Ugyanakkor egy lényeges továbblépés, hogy a különböző mobil eszközök (pl. gépkocsik fedélzeti rendszeréhez telepített kamerák) képeivel folyamatosan lehet felépíteni a környezeti modelleket, és ezen modellek különbségei adják a változások, dinamikus megjelenések felismerésének a dinamikáját.
A helyzet és az objektumok felismerése folyamatos tanulással kell történjen; ez az annotálandó adatbázisok alapján mély tanulásos struktúrákban történik majd. Ehhez ki kell fejleszteni a célra optimális új tulajdonságokat, melyek a mély-tanulásos eljárásban is jól szerepelhetnek.

Mi a kutatás jelentősége?
Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának!
Jelen kutatás jelentőségét az eddig főleg statikusnak tekintett zárt-hurkú SLAM algoritmusok kiterjesztése dinamikusan változó esetekre, ahol a környezetet sztochasztikus modelleken keresztül tudjuk a SLAM matematikai algoritmusához illeszteni.
Mindezt úgy, hogy a képi felvételek nem egy eszközzel, hanem több jármű fedélzeti kamerájával történik, melyek adatait a hálózat gyűjti össze egy elosztott kiértékelésre.
Az extrém nézetváltással készült képek regisztrációja is egy külön probléma, ahol oldal és felülnézeti képek (90 fokos nézetváltás) regisztrációja szükségeltetik. Ez a feladat még nem megoldott a szakirodalomban. Léteznek megoldások amelyek lehetővé teszik légi és földi robotok közös térképen való regisztrációját (Forster’13) laboratóriumi körülmények és megkötések között, de ebben az esetben a teljes tér sűrű 3D rekonstrukciója szükségeltetik. Ehhez kameramozgás (a tér bejárása), majd monokamerás vizuális odometria vagy vizuális SLAM (Simultaneous Localization and Mapping) algoritmusok alkalmazása szükséges. Ezen algoritmusok telepített statikus vagy majdnem statikus (i.e., MAV lebegés) kamerahálózatok esetében nem alkalmazhatóak. Egy alapjaiban más megközelítés lehetővé teszi kis nézetváltású, statikus kamerák regisztrációját a képsorozatokon detektált mozgás statisztikák alapján (Szlávik & Szirányi ’07). Jelen kutatási tervben javaslatot teszünk az extrém nézetváltású kamerák regisztrációjának vizsgálatára mozgás statisztikák alapján. Továbbá kutatni kívánjuk az oldal és felülnézeti képek és képsorozatok regisztrációját statikus, majdnem statikus (lebegés) és dinamikus kamera hálózatok esetében geometriai jellegzetességek (vonalak, élek, objektumok, gyér rekonstrukció) alapján, amelyek túlmutatnak a klasszikus jellegzetes pontleíró reprezentáción.

A kutatás összefoglalója, célkitűzései laikusok számára
Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára.
Az autonóm robotjárművek tájékozódásának segítése a környezeti modellekhez való folyamatos alkalmazkodást igénylik. Ezt a modellt létre kell hozni (készen vannak, de statikusan: Google street view, vagy pl. a városi 3D lézer szkennelések), de ezek statikus képek. Hogy a robotjárművek és valós élő szereplők közös forgalmában boldoguljunk, ezeket a modelleket folyamatosan fel kell frissíteni, és ezt a járművek maguk végzik, miközben a leképező eszköz továbbhalad és másik jelenik meg. Ezekből az információdarabokból kell összeállítani a környezet folyamatos modelljét, és lehet vizsgálni a fontos változásokat és felismerni azok szereplőit.
A kis UAV-k (MAV) szintén szereplői lesznek ennek a forgalomnak, és navigációjuk fontos része lesz a képi tájékozódás, amely viszont fontos segítője lehet a földi forgalomnak, és viszont. Tervezés alatt vannak olyan konstrukciók is, amelyekben munkagépek használnak és MAV eszközöket "szatellitként", hogy a veszélyes munkát és közlekedést segítsék. Ebben szintén lényeges szerepet kap a több nézetből és időben összeálló vizuális SLAM.
A földmegfigyelő műholdak adatai ma már szabadon elérhetőek. Ezeknek a felügyeleti, irányítási láncba kapcsolása pontosabbá teheti a képi navigációs rendszereket.

Summary

Summary of the research and its aims for experts
Describe the major aims of the research for experts.
Autonomous navigation, including the autonomous vehicles on roads and low-altitude flying vehicles in the air should work in dynamically changing environment. In this changing environment most of the appearing objects are identical or similar to some previous one in similar position/location, others, however, could be new items or some previous objects in very different positions. This area is the topic of intensive research of automotive industry and the technology of intelligent transportation systems. The continuous learning and the scalable object database needs new and sophisticated training methodology; presently, Deep Learning technology may solve similar computation intensive training tasks.
The main source of the data is the diverse types of imaging sensors, while other sensors (Radar, Lidar, Sonars) may supplement the vision based information. Remote sensing images, mainly the freely available Sentinel data, may help to support us with daily refreshed orthonormal data for reference purposes about the ground structure.
On the terrestrial bases, the concatenation of visual sources along a chain of networked or partly connected sensor systems may lead to a continuous chain of mapping/detecting processing lines, where implicit SLAM procedure is done by changing participants of scanning agents (e.g. on-board cameras of vehicles in motion). Here SLAM procedure is not a calculus of a stable environment henceforward, but it is defined over a changing scene, where parts of a view-chain is to be completed to a temporary closed loop in a dynamic situation, where the terms of the SLAM calculus is subject of stochastic optimization and continuous scene understanding.

What is the major research question?
Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments.
Recent Simultaneous Localization and Mapping (SLAM) algorithms are basically developed for stable environment in time; dynamic scenes cause strong bias in the localization models. For this reason we will improve the conventional SLAM calculus with statistical optimizing the models of changing parts and their neighborhood connection; this will result in semantic connectedness investigation on the models, which needs good classification methods of the scalable cluster structure. As we have strong background on stochastic optimization in image processing and 3D scene analysis (MRF, MPP, clustering), and also we have good practice on SLAM calculus and graph based optimization, our aim is to get together the two disciplines in a single model of SLAM calculus in dynamic environment, while the dynamics – change of the scene – is also exploited from the model as the change description over a dynamic scene. However, this changing environment could be stable on the semantic level. The solution for detecting changes over the SLAM model, or defining object based modeling or semantic description, leads to a higher level, learning based and stochastic interpretation of the complex description of the 3D scenery. Another important improvement that by using the network of diverse scanning devices, including on-board mobile cameras of vehicles, we can continuously build the model of a given local environment, and concatenating them in a chain over the moving network of cameras, while we can exploit the changes as a continuous function of time.

What is the significance of the research?
Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field.
A main goal of the project to build up a SLAM model, where the SLAM mathematical formulas will be completed by recognized objects and semantic information in dynamic situations.
The local position and the object are subject to continuous learning; the final goal is the unsupervised learning by automatic annotation of the environment, and using deep learning technology on a scalable database.
This topic of complex SLAM and scene understanding trough deep learning is a huge area of machine vision and scene modeling. We address some of the key elements, while other issues will not be touched in this research: we hope that those issues will be solved in the rapid development, while our attempts are the topics we are the most competent to deal with.

Summary and aims of the research for the public
Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others.
In the present project, we address the new challenges coming with the latest technological development and the emerging scientific background.
We aim to solve the following problems, which issues may result in a usable algorithmic toolkit for the calibrationless multiple camera based mobile SLAM and change detection:
1. Object recognition and scene analysis by using Deep Leaning
2. Detection of changes and dynamic features with varying sensor network
• Change detection in long-term basis
• Change detection during refreshed SLAM calculus
3. Remote sensing (aerial and satellite) –co-registration by using dynamic descriptors
4. Visual SLAM algorithms in dynamic environments
• New saliency features
• Co-motion based descriptors for characterizing the foreground
5. SLAM algorithms based on terrestrial (fix and on-board mobile camera network) and remote sensing views
6. Remote sensing (Satellite) information exploited for better ground detection and recognition, making more frequent refreshment on the terrain data-base.

Final report

Results in Hungarian

Ebben a munkában a cél az volt, hogy különböző optikai szenzorok adatait minél jobban fúzionáljuk, és hiányos vagy zajos adatkészletek esetére is dolgozzunk ki szemantikusan is értékelhető eljárásokat. Eredményeink között van a légi-felvételeken alapuló magas szintű képszegmentálási megoldás, vagy a szimultán lokalizáció és térképezés folyamatának kiterjesztése változásdetekcióval is, ahelyett, hogy 3D modellek generálása útján érjünk el költséges összehasonlításokat. Az útvonalak helyes geometriájának becsléséhez kidolgoztunk új gráf-elemző eljárásokat, valamint kezdeti-gráf becslő eljárást. A 3D felismerés céljaira új, részben mélytanulás alapú, módszertant hoztunk létre, melyeket valós körülmények között teszteltünk. A 3D források és nézetek kalibrálására új módszereket dolgoztunk ki, ahol az optimalizálandó becslés szabadsági fokát megfelelő geometriai kapcsolat esetén sikerült jelentősen csökkenteni. A különböző modalitások idő és tér-alapú fúziója az eddigieknél robusztusabb és pontosabb kép szegmentálási megoldásokhoz vezettek. Új adatbázisokat hoztunk létre a módszerek teszteléséhez valós körülmények között is.

Results in English

In this work, we fused the image-like data from different modalities: camera, Lidar, infra, multi-channel. We used new solutions for data-fusion, recognition and calibration in 3D computer geometry. For the positioning and repeated SLAM tracking we have introduced a new fast and robust algorithm for pose-graph initialization, and a wormhole detection method to find source-errors in the sensors’space. We also have developed a novel change detection solution from SLAM error-estimation procedure instead of 3D point cloud generation and comparison. Deep learning has important role in several cases in the project to define semantic information: monocular depth map and object categorization, finding the most appropriate colors for color-less images as a semantic proof, recognition of objects of poor data-set, or blind image- or video-quality estimation. For the above works we had to generate some own image/video databases, and also using reference data-sets for correct comparison. The proof of the development in this competitive area is a serious demand, with time-consuming evaluation. However, we have achieved strong development in several cases, published them in the best journals and conferences. In many cases, the sensorial information is incomplete or noisy; we had solutions for these cases to retrieve as much additional semantic meaning from the data as possible.

Full text

https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=120499

Decision

Yes

List of publications

Rozsa Z, Sziranyi T: Object detection from a few LIDAR scanning planes, IEEE Transactions on Intelligent Vehicles xx: (x) pp. 1-13., 2019

Zoltan Rozsa, Marcell Golarits , Tamas Sziranyi: Localization of map changes by exploiting SLAM residuals, ACIVS 2020 submitted, 2020

Karoly Harsanyi, Attila Kiss, Tamas Sziranyi, Andras Majdik: MASAT: a fast and robust algorithm for pose-graph initialization, Pattern Recognition Letters, revision submitted, 2019

Vlad Hosu, Hanhe Lin, Tamas Sziranyi, Dietmar Saupe: KonIQ-10k: An ecologically valid database for deep learning of blind image quality assessment, IEEE TRANSACTIONS ON IMAGE PROCESSING, AQ subm, 2019

Rozsa Z, Sziranyi T: Street object classification via LIDARs with only a single or a few layers, In: IEEE (szerk.) 3rd IEEE International Conference on Image Processing, Applications and Systems, IPAS 2018, IEEE (2019) pp. 156-161., 2019

Rózsa Z, Szirányi T: Utcai objektumok osztályozása LIDAR adatokon csak egyetlen vagy néhány síkból, In: KÉPAF 2019. Képfeldolgozók és Alakfelismerők Társaságának 12. országos konferenciája, (2019) pp. 1-15., 2019

Szirányi T, Kriston A, Majdik A, Tizedes L: Fusion Markov Random Field Image Segmentation for a Time Series of Remote Sensed Images, In: Faragó, I; Izsák, F; Simon, P L (szerk.) Progress in Industrial Mathematics at ECMI 2018, 20th European Conference on Mathematics for Industry, Springer (2019) pp. 99-107., 2019

Varga D, Szirányi T: No-reference video quality assessment via pretrained CNN and LSTM networks, SIGNAL IMAGE AND VIDEO PROCESSING pp. 1-8., 2019

Manno-Kovács A, Majdik A, Szirányi T: Satellite and Aerial Image Processing for Smart Farming and Biodiversity Conservation, ERCIM NEWS (113) pp. 33-34., 2018

Szirányi T, Havasi L: Observation on Earth and from the sky, In: Finszter, G; Sabjanics, I (szerk.) Security challenges in the 21st century, Dialóg Campus Kiadó (2018) pp. 401-410., 2018

Majdik AL; Till C; Scaramuzza D: The Zurich urban micro aerial vehicle dataset, INTERNATIONAL JOURNAL OF ROBOTICS RESEARCH, 2017

Varga D, Szabó Cs A, Szirányi T: Automatic Cartoon Colorization Based on Convolutional Neural Network, In: ACM (szerk.) (szerk.) CBMI '17. Proceedings of the 15th International Workshop on Content-Based Multimedia Indexing. New York: ACM Press, 2017. pp. 1-6., 2017

Varga D, Szirányi T: Robust real-time pedestrian detection in surveillance videos, J AMBIENT INTELL HUMAN COMPUT 8: (1) 79-85, 2017

Varga D, Szirányi T: Twin deep convolutional neural network for example-based image colorization, LECT NOTES ARTIF INT 10424: 184-195, 2017

Varga D, Szirányi T: Person Re-identification based on Deep Multi-instance Learning, In: EURASIP (szerk.) (szerk.) 25th European Signal Processing Conference (EUSIPCO). Kos: EURASIP, 2017. pp. 1604-1608., 2017

Majdik A L, Tizedes L, Bartus M, Szirányi T: Photogrammetric 3D reconstruction of the old slaughterhouse in budapest, In: IEEE (szerk.) (szerk.) 2016 International Workshop on Computational Intelligence for Multimedia Understanding (IWCIM). Piscataway: IEEE, 2016. pp. 1-5., 2016

Varga D, Szirányi T: Fast content-based image retrieval using Convolutional Neural Network and hash function, In: Szakál A (szerk.) (szerk.) 2016 IEEE International Conference on Systems, Man, and Cybernetics Conference Proceedings: SMC 2016. Budapest: IEEE, 2016. pp. 2636-2640., 2016

Varga D, Szirányi T: Fully automatic image colorization based on Convolutional Neural Network, In: IEEE (szerk.) (szerk.) 23rd International Conference on Pattern Recognition (ICPR). Cancun: IEEE, 2016. pp. 3680-3685., 2016

Hosu V, Hahn F, Jenadeleh M, Lin H, Men H, Szirányi T, Li S, Saupe D: The Konstanz natural video database (KoNViD-1k), In: [sn] (szerk.) (szerk.) 9th International Conference on Quality of Multimedia Experience, QoMEX 2017. [s. l.] - Nemzetközi: IEEE, 2017. pp. 1-6., 2017

Shadaydeh, M, Zlinszky, A, Manno-Kovács, A , Sziranyi,T: Wetland mapping by fusion of airborne laser scanning and multi-temporal multispectral satellite imagery, INT J REMOTE SENS 38: (23) 7422-7440, 2017

Rozsa Z, Sziranyi T: Object detection from partial view street data, In: IEEE (szerk.) (szerk.) 2016 International Workshop on Computational Intelligence for Multimedia Understanding (IWCIM). Piscataway: IEEE, 2016. pp. 1-5., 2016

Manno-Kovács Andrea, Kovács Levente: Lightweight Monocular Obstacle Avoidance by Salient Feature Fusion, ICCV 2017, IEEE, Velence, 2017

Varga D, Szirányi T: Robust real-time pedestrian detection in surveillance videos, J AMBIENT INTELL HUMAN COMPUT 8: (1) 79-85, 2017

Harsányi K, Kiss A, Majdik A, Sziranyi T: A Hybrid CNN Approach for Single Image Depth Estimation: A Case Study, Multimedia and Network Information Systems. Proceedings of the 11th International Conference MISSI 2018. Konferencia helye, ideje: Wrocław, Lengyelország, 2018

Rózsa Z, Szirányi T: Obstacle Prediction for Automated Guided Vehicles Based on Point Clouds Measured by a Tilted LIDAR Sensor, IEEE Transactions on Intelligent Transportation Systems, 2018

Harsányi Károly, Kiss Attila, Szirányi Tamás: Wormhole Detection in Wireless Sensor Networks Using Spanning Trees, 2018 IEEE International Conference on Future IoT Technologies, Future IoT 2018., 2018

Varga D, Szirányi T: A comparative study of about how image quality influences convolutional neural networks, IX. magyar számítógépes grafika és geometria konferencia, GRAFGEO 2018., 2018

Rózsa Z, Szirányi T: Városi objektum felismerés mindösszesen néhány LIDAR szkennelési síkból, IX. magyar számítógépes grafika és geometria konferencia, GRAFGEO 2018., 2018

Varga D, Saupe D, Szirányi T: DeepRN: A Content Preserving Deep Architecture for Blind Image Quality Assessment, IEEE International Conference on Multimedia and Expo (ICME) 2018. San Diego, 2018

Harsányi K, Kiss A, Majdik A, Szirányi T: Robusztus kezdeti pozíció-gráf előállítása hatékony szimultán helymeghatározási és térképezési rendszerekhez, NJSZT KÉPAF 2017: Képfeldolgozók és Alakfelism, 2017

Baráth D, Hajder L: Efficient Recovery of Essential Matrix From Two Affine Correspondences, IEEE Tr. Image Processing, 2018

Barath D: Approximate Epipolar Geometry from Six Rotation Invariant Correspondences, Proceedings of the 13th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications - Volume 5: VISAPP, 464-471, 2018, Funch, 2018

Daniel Barath: Recovering Affine Features from Orientation- and Scale-Invariant Ones, ACCV 2018: Computer Vision – ACCV 2018 pp 266-281, LNCS V. 11361, 2019

Daniel Barath, Ivan Eichhardt, Levente Hajder: Optimal Multi-View Surface Normal Estimation Using Affine Correspondences, IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 28, NO. 7, JULY 2019, 2019

Ivan Eichhardt,: Optimal Multi-view Correction of Local Affine Frames, 30th British Machine Vision Conference, BMVC 2019, pp. 1-12. Paper: 0816, 2019

Events of the project

2018-01-29 12:28:35

Résztvevők változása

Back »