|
Exploration of the environment in dynamic scenery from partial views
|
Help
Print
|
Here you can view and search the projects funded by NKFI since 2004
Back »
|
|
Details of project |
|
|
Identifier |
120499 |
Type |
K |
Principal investigator |
Szirányi, Tamás |
Title in Hungarian |
Tájékozódás dinamikus környezetben részleges látványokból |
Title in English |
Exploration of the environment in dynamic scenery from partial views |
Keywords in Hungarian |
gépi látás, mélytanulás, képi jellemzők, szimultán lokalizáció és feltérképezés, változás detekció |
Keywords in English |
machine vision, deep learning, salient features, simultan localization and mapping, alteration detection |
Discipline |
Information Technology (Council of Physical Sciences) | 70 % | Ortelius classification: Informatics | Electronic Devices and Technologies (Council of Physical Sciences) | 30 % |
|
Panel |
Natural Sciences Committee Chairs |
Department or equivalent |
HUN-REN Institute for Computer Science and Control |
Participants |
Huszák, Árpád Maha, Shadaydeh Majdik, András László Manno-Kovács, Andrea Manno-Kovács, Andrea
|
Starting date |
2016-10-01 |
Closing date |
2019-09-30 |
Funding (in million HUF) |
35.516 |
FTE (full time equivalent) |
4.72 |
state |
closed project |
Summary in Hungarian A kutatás összefoglalója, célkitűzései szakemberek számára Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára. Az automatikus navigáció, beleértve az autonóm járműveket és a pilóta-nélküli földközeli repülő eszközöket is, a dinamikusan változó környezetben kell működjön. Ebben a környezetben a megjelenő dolgok egy része ismerős lehet (hasonló valami korábbihoz), de lehetnek eddig nem látott objektumok is; ezért egy ilyen rendszer működése alapvetően folyamatos tanulást és helyzetfelismerést igényel. A fő érzékelési eszköz a kamera, a többi szenzor (pl. radarok, lidarok) inkább fontos kiegészítők. A látványban rejlő információ alapján a helyszín és az ott levő dolgok összerendelése, és a helyszínek láncolatának összefűzése egy folyamat része, ahol a szimultán lokalizálás és térképezés (SLAM) nem csupán a helyszín összefűzésének matematikai módszerét takarja, hanem a helyszínen látott dolgok folyamatba illesztését is. A projekt egyik célja a SLAM mint térképezési matematikai eljárás kiegészítése objektumokkal és eseményekkel. A tématerület nagy, és a megoldáshoz több részprobléma megoldása nélkülözhetetlen. Ezen belül az alábbi fő feladatokat kívánjuk megoldani: 1. Alakfelismerési és eseményelemzési feladatokra folyamatosan tanuló mély-tanulásos eljárások kidolgozása 2. Változások és jellemzők érzékelése dinamikus környezetben, változó szenzor együttessel - Változásdetekció hosszabb időtávon - Változásdetekció a SLAM ismétlése során 3. Légi- és földi kamera nézetek összeregisztrálása dinamikus leírók segítségével 4. Vizuális SLAM algoritmusok dinamikusan változó környezetben - Új képi tulajdonságleírók kidolgozása (saliency) - Mozgás alapú dinamikus leírók az előtér jellemzésére 5. Földi és légi detekciót összefogó dinamikus SLAM algoritmusok kidolgozása.
Mi a kutatás alapkérdése? Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek. A jelenlegi SLAM algoritmusokat alapvetően nem változó környezetre tervezték. Ezért a változó dolgok kiemelése, illetve magasabb szintű (pl. objektumok, események) beemelése a SLAM optimalizációs eljárásába új megoldásokat fog tartalmazni; lényegében a korábbi, képi sztochasztikus optimalizációs eljárásaink logikáját kívánjuk tovább vinni. Ugyanakkor egy lényeges továbblépés, hogy a különböző mobil eszközök (pl. gépkocsik fedélzeti rendszeréhez telepített kamerák) képeivel folyamatosan lehet felépíteni a környezeti modelleket, és ezen modellek különbségei adják a változások, dinamikus megjelenések felismerésének a dinamikáját. A helyzet és az objektumok felismerése folyamatos tanulással kell történjen; ez az annotálandó adatbázisok alapján mély tanulásos struktúrákban történik majd. Ehhez ki kell fejleszteni a célra optimális új tulajdonságokat, melyek a mély-tanulásos eljárásban is jól szerepelhetnek.
Mi a kutatás jelentősége? Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának! Jelen kutatás jelentőségét az eddig főleg statikusnak tekintett zárt-hurkú SLAM algoritmusok kiterjesztése dinamikusan változó esetekre, ahol a környezetet sztochasztikus modelleken keresztül tudjuk a SLAM matematikai algoritmusához illeszteni. Mindezt úgy, hogy a képi felvételek nem egy eszközzel, hanem több jármű fedélzeti kamerájával történik, melyek adatait a hálózat gyűjti össze egy elosztott kiértékelésre. Az extrém nézetváltással készült képek regisztrációja is egy külön probléma, ahol oldal és felülnézeti képek (90 fokos nézetváltás) regisztrációja szükségeltetik. Ez a feladat még nem megoldott a szakirodalomban. Léteznek megoldások amelyek lehetővé teszik légi és földi robotok közös térképen való regisztrációját (Forster’13) laboratóriumi körülmények és megkötések között, de ebben az esetben a teljes tér sűrű 3D rekonstrukciója szükségeltetik. Ehhez kameramozgás (a tér bejárása), majd monokamerás vizuális odometria vagy vizuális SLAM (Simultaneous Localization and Mapping) algoritmusok alkalmazása szükséges. Ezen algoritmusok telepített statikus vagy majdnem statikus (i.e., MAV lebegés) kamerahálózatok esetében nem alkalmazhatóak. Egy alapjaiban más megközelítés lehetővé teszi kis nézetváltású, statikus kamerák regisztrációját a képsorozatokon detektált mozgás statisztikák alapján (Szlávik & Szirányi ’07). Jelen kutatási tervben javaslatot teszünk az extrém nézetváltású kamerák regisztrációjának vizsgálatára mozgás statisztikák alapján. Továbbá kutatni kívánjuk az oldal és felülnézeti képek és képsorozatok regisztrációját statikus, majdnem statikus (lebegés) és dinamikus kamera hálózatok esetében geometriai jellegzetességek (vonalak, élek, objektumok, gyér rekonstrukció) alapján, amelyek túlmutatnak a klasszikus jellegzetes pontleíró reprezentáción.
A kutatás összefoglalója, célkitűzései laikusok számára Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára. Az autonóm robotjárművek tájékozódásának segítése a környezeti modellekhez való folyamatos alkalmazkodást igénylik. Ezt a modellt létre kell hozni (készen vannak, de statikusan: Google street view, vagy pl. a városi 3D lézer szkennelések), de ezek statikus képek. Hogy a robotjárművek és valós élő szereplők közös forgalmában boldoguljunk, ezeket a modelleket folyamatosan fel kell frissíteni, és ezt a járművek maguk végzik, miközben a leképező eszköz továbbhalad és másik jelenik meg. Ezekből az információdarabokból kell összeállítani a környezet folyamatos modelljét, és lehet vizsgálni a fontos változásokat és felismerni azok szereplőit. A kis UAV-k (MAV) szintén szereplői lesznek ennek a forgalomnak, és navigációjuk fontos része lesz a képi tájékozódás, amely viszont fontos segítője lehet a földi forgalomnak, és viszont. Tervezés alatt vannak olyan konstrukciók is, amelyekben munkagépek használnak és MAV eszközöket "szatellitként", hogy a veszélyes munkát és közlekedést segítsék. Ebben szintén lényeges szerepet kap a több nézetből és időben összeálló vizuális SLAM. A földmegfigyelő műholdak adatai ma már szabadon elérhetőek. Ezeknek a felügyeleti, irányítási láncba kapcsolása pontosabbá teheti a képi navigációs rendszereket.
| Summary Summary of the research and its aims for experts Describe the major aims of the research for experts. Autonomous navigation, including the autonomous vehicles on roads and low-altitude flying vehicles in the air should work in dynamically changing environment. In this changing environment most of the appearing objects are identical or similar to some previous one in similar position/location, others, however, could be new items or some previous objects in very different positions. This area is the topic of intensive research of automotive industry and the technology of intelligent transportation systems. The continuous learning and the scalable object database needs new and sophisticated training methodology; presently, Deep Learning technology may solve similar computation intensive training tasks. The main source of the data is the diverse types of imaging sensors, while other sensors (Radar, Lidar, Sonars) may supplement the vision based information. Remote sensing images, mainly the freely available Sentinel data, may help to support us with daily refreshed orthonormal data for reference purposes about the ground structure. On the terrestrial bases, the concatenation of visual sources along a chain of networked or partly connected sensor systems may lead to a continuous chain of mapping/detecting processing lines, where implicit SLAM procedure is done by changing participants of scanning agents (e.g. on-board cameras of vehicles in motion). Here SLAM procedure is not a calculus of a stable environment henceforward, but it is defined over a changing scene, where parts of a view-chain is to be completed to a temporary closed loop in a dynamic situation, where the terms of the SLAM calculus is subject of stochastic optimization and continuous scene understanding.
What is the major research question? Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments. Recent Simultaneous Localization and Mapping (SLAM) algorithms are basically developed for stable environment in time; dynamic scenes cause strong bias in the localization models. For this reason we will improve the conventional SLAM calculus with statistical optimizing the models of changing parts and their neighborhood connection; this will result in semantic connectedness investigation on the models, which needs good classification methods of the scalable cluster structure. As we have strong background on stochastic optimization in image processing and 3D scene analysis (MRF, MPP, clustering), and also we have good practice on SLAM calculus and graph based optimization, our aim is to get together the two disciplines in a single model of SLAM calculus in dynamic environment, while the dynamics – change of the scene – is also exploited from the model as the change description over a dynamic scene. However, this changing environment could be stable on the semantic level. The solution for detecting changes over the SLAM model, or defining object based modeling or semantic description, leads to a higher level, learning based and stochastic interpretation of the complex description of the 3D scenery. Another important improvement that by using the network of diverse scanning devices, including on-board mobile cameras of vehicles, we can continuously build the model of a given local environment, and concatenating them in a chain over the moving network of cameras, while we can exploit the changes as a continuous function of time.
What is the significance of the research? Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field. A main goal of the project to build up a SLAM model, where the SLAM mathematical formulas will be completed by recognized objects and semantic information in dynamic situations. The local position and the object are subject to continuous learning; the final goal is the unsupervised learning by automatic annotation of the environment, and using deep learning technology on a scalable database. This topic of complex SLAM and scene understanding trough deep learning is a huge area of machine vision and scene modeling. We address some of the key elements, while other issues will not be touched in this research: we hope that those issues will be solved in the rapid development, while our attempts are the topics we are the most competent to deal with.
Summary and aims of the research for the public Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others. In the present project, we address the new challenges coming with the latest technological development and the emerging scientific background. We aim to solve the following problems, which issues may result in a usable algorithmic toolkit for the calibrationless multiple camera based mobile SLAM and change detection: 1. Object recognition and scene analysis by using Deep Leaning 2. Detection of changes and dynamic features with varying sensor network • Change detection in long-term basis • Change detection during refreshed SLAM calculus 3. Remote sensing (aerial and satellite) –co-registration by using dynamic descriptors 4. Visual SLAM algorithms in dynamic environments • New saliency features • Co-motion based descriptors for characterizing the foreground 5. SLAM algorithms based on terrestrial (fix and on-board mobile camera network) and remote sensing views 6. Remote sensing (Satellite) information exploited for better ground detection and recognition, making more frequent refreshment on the terrain data-base.
|
|
|
|
|
|
|
|
|
List of publications |
|
|
Rozsa Z, Sziranyi T: Object detection from a few LIDAR scanning planes, IEEE Transactions on Intelligent Vehicles xx: (x) pp. 1-13., 2019 | Zoltan Rozsa, Marcell Golarits , Tamas Sziranyi: Localization of map changes by exploiting SLAM residuals, ACIVS 2020 submitted, 2020 | Karoly Harsanyi, Attila Kiss, Tamas Sziranyi, Andras Majdik: MASAT: a fast and robust algorithm for pose-graph initialization, Pattern Recognition Letters, revision submitted, 2019 | Vlad Hosu, Hanhe Lin, Tamas Sziranyi, Dietmar Saupe: KonIQ-10k: An ecologically valid database for deep learning of blind image quality assessment, IEEE TRANSACTIONS ON IMAGE PROCESSING, AQ subm, 2019 | Rozsa Z, Sziranyi T: Street object classification via LIDARs with only a single or a few layers, In: IEEE (szerk.) 3rd IEEE International Conference on Image Processing, Applications and Systems, IPAS 2018, IEEE (2019) pp. 156-161., 2019 | Rózsa Z, Szirányi T: Utcai objektumok osztályozása LIDAR adatokon csak egyetlen vagy néhány síkból, In: KÉPAF 2019. Képfeldolgozók és Alakfelismerők Társaságának 12. országos konferenciája, (2019) pp. 1-15., 2019 | Szirányi T, Kriston A, Majdik A, Tizedes L: Fusion Markov Random Field Image Segmentation for a Time Series of Remote Sensed Images, In: Faragó, I; Izsák, F; Simon, P L (szerk.) Progress in Industrial Mathematics at ECMI 2018, 20th European Conference on Mathematics for Industry, Springer (2019) pp. 99-107., 2019 | Varga D, Szirányi T: No-reference video quality assessment via pretrained CNN and LSTM networks, SIGNAL IMAGE AND VIDEO PROCESSING pp. 1-8., 2019 | Manno-Kovács A, Majdik A, Szirányi T: Satellite and Aerial Image Processing for Smart Farming and Biodiversity Conservation, ERCIM NEWS (113) pp. 33-34., 2018 | Szirányi T, Havasi L: Observation on Earth and from the sky, In: Finszter, G; Sabjanics, I (szerk.) Security challenges in the 21st century, Dialóg Campus Kiadó (2018) pp. 401-410., 2018 | Majdik AL; Till C; Scaramuzza D: The Zurich urban micro aerial vehicle dataset, INTERNATIONAL JOURNAL OF ROBOTICS RESEARCH, 2017 | Varga D, Szabó Cs A, Szirányi T: Automatic Cartoon Colorization Based on Convolutional Neural Network, In: ACM (szerk.) (szerk.) CBMI '17. Proceedings of the 15th International Workshop on Content-Based Multimedia Indexing. New York: ACM Press, 2017. pp. 1-6., 2017 | Varga D, Szirányi T: Robust real-time pedestrian detection in surveillance videos, J AMBIENT INTELL HUMAN COMPUT 8: (1) 79-85, 2017 | Varga D, Szirányi T: Twin deep convolutional neural network for example-based image colorization, LECT NOTES ARTIF INT 10424: 184-195, 2017 | Varga D, Szirányi T: Person Re-identification based on Deep Multi-instance Learning, In: EURASIP (szerk.) (szerk.) 25th European Signal Processing Conference (EUSIPCO). Kos: EURASIP, 2017. pp. 1604-1608., 2017 | Majdik A L, Tizedes L, Bartus M, Szirányi T: Photogrammetric 3D reconstruction of the old slaughterhouse in budapest, In: IEEE (szerk.) (szerk.) 2016 International Workshop on Computational Intelligence for Multimedia Understanding (IWCIM). Piscataway: IEEE, 2016. pp. 1-5., 2016 | Varga D, Szirányi T: Fast content-based image retrieval using Convolutional Neural Network and hash function, In: Szakál A (szerk.) (szerk.) 2016 IEEE International Conference on Systems, Man, and Cybernetics Conference Proceedings: SMC 2016. Budapest: IEEE, 2016. pp. 2636-2640., 2016 | Varga D, Szirányi T: Fully automatic image colorization based on Convolutional Neural Network, In: IEEE (szerk.) (szerk.) 23rd International Conference on Pattern Recognition (ICPR). Cancun: IEEE, 2016. pp. 3680-3685., 2016 | Hosu V, Hahn F, Jenadeleh M, Lin H, Men H, Szirányi T, Li S, Saupe D: The Konstanz natural video database (KoNViD-1k), In: [sn] (szerk.) (szerk.) 9th International Conference on Quality of Multimedia Experience, QoMEX 2017. [s. l.] - Nemzetközi: IEEE, 2017. pp. 1-6., 2017 | Shadaydeh, M, Zlinszky, A, Manno-Kovács, A , Sziranyi,T: Wetland mapping by fusion of airborne laser scanning and multi-temporal multispectral satellite imagery, INT J REMOTE SENS 38: (23) 7422-7440, 2017 | Rozsa Z, Sziranyi T: Object detection from partial view street data, In: IEEE (szerk.) (szerk.) 2016 International Workshop on Computational Intelligence for Multimedia Understanding (IWCIM). Piscataway: IEEE, 2016. pp. 1-5., 2016 | Manno-Kovács Andrea, Kovács Levente: Lightweight Monocular Obstacle Avoidance by Salient Feature Fusion, ICCV 2017, IEEE, Velence, 2017 | Varga D, Szirányi T: Robust real-time pedestrian detection in surveillance videos, J AMBIENT INTELL HUMAN COMPUT 8: (1) 79-85, 2017 | Harsányi K, Kiss A, Majdik A, Sziranyi T: A Hybrid CNN Approach for Single Image Depth Estimation: A Case Study, Multimedia and Network Information Systems. Proceedings of the 11th International Conference MISSI 2018. Konferencia helye, ideje: Wrocław, Lengyelország, 2018 | Rózsa Z, Szirányi T: Obstacle Prediction for Automated Guided Vehicles Based on Point Clouds Measured by a Tilted LIDAR Sensor, IEEE Transactions on Intelligent Transportation Systems, 2018 | Harsányi Károly, Kiss Attila, Szirányi Tamás: Wormhole Detection in Wireless Sensor Networks Using Spanning Trees, 2018 IEEE International Conference on Future IoT Technologies, Future IoT 2018., 2018 | Varga D, Szirányi T: A comparative study of about how image quality influences convolutional neural networks, IX. magyar számítógépes grafika és geometria konferencia, GRAFGEO 2018., 2018 | Rózsa Z, Szirányi T: Városi objektum felismerés mindösszesen néhány LIDAR szkennelési síkból, IX. magyar számítógépes grafika és geometria konferencia, GRAFGEO 2018., 2018 | Varga D, Saupe D, Szirányi T: DeepRN: A Content Preserving Deep Architecture for Blind Image Quality Assessment, IEEE International Conference on Multimedia and Expo (ICME) 2018. San Diego, 2018 | Harsányi K, Kiss A, Majdik A, Szirányi T: Robusztus kezdeti pozíció-gráf előállítása hatékony szimultán helymeghatározási és térképezési rendszerekhez, NJSZT KÉPAF 2017: Képfeldolgozók és Alakfelism, 2017 | Baráth D, Hajder L: Efficient Recovery of Essential Matrix From Two Affine Correspondences, IEEE Tr. Image Processing, 2018 | Barath D: Approximate Epipolar Geometry from Six Rotation Invariant Correspondences, Proceedings of the 13th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications - Volume 5: VISAPP, 464-471, 2018, Funch, 2018 | Daniel Barath: Recovering Affine Features from Orientation- and Scale-Invariant Ones, ACCV 2018: Computer Vision – ACCV 2018 pp 266-281, LNCS V. 11361, 2019 | Daniel Barath, Ivan Eichhardt, Levente Hajder: Optimal Multi-View Surface Normal Estimation Using Affine Correspondences, IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 28, NO. 7, JULY 2019, 2019 | Ivan Eichhardt,: Optimal Multi-view Correction of Local Affine Frames, 30th British Machine Vision Conference, BMVC 2019, pp. 1-12. Paper: 0816, 2019 |
|
|
|
|
|
|
Back »
|
|
|