machine vision, deep learning, salient features, simultan localization and mapping, alteration detection
megadott besorolás
Informatika (Műszaki és Természettudományok Kollégiuma)
70 %
Ortelius tudományág: Informatika
Elektronikus Eszközök és Technológiák (Műszaki és Természettudományok Kollégiuma)
30 %
zsűri
Műszaki és Természettudományi zsűrielnökök
Kutatóhely
HUN-REN Számítástechnikai és Automatizálási Kutatóintézet
résztvevők
Huszák Árpád Maha Shadaydeh Majdik András László Manno-Kovács Andrea Manno-Kovács Andrea
projekt kezdete
2016-10-01
projekt vége
2019-09-30
aktuális összeg (MFt)
35.516
FTE (kutatóév egyenérték)
4.72
állapot
lezárult projekt
magyar összefoglaló
A kutatás összefoglalója, célkitűzései szakemberek számára Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára. Az automatikus navigáció, beleértve az autonóm járműveket és a pilóta-nélküli földközeli repülő eszközöket is, a dinamikusan változó környezetben kell működjön. Ebben a környezetben a megjelenő dolgok egy része ismerős lehet (hasonló valami korábbihoz), de lehetnek eddig nem látott objektumok is; ezért egy ilyen rendszer működése alapvetően folyamatos tanulást és helyzetfelismerést igényel. A fő érzékelési eszköz a kamera, a többi szenzor (pl. radarok, lidarok) inkább fontos kiegészítők. A látványban rejlő információ alapján a helyszín és az ott levő dolgok összerendelése, és a helyszínek láncolatának összefűzése egy folyamat része, ahol a szimultán lokalizálás és térképezés (SLAM) nem csupán a helyszín összefűzésének matematikai módszerét takarja, hanem a helyszínen látott dolgok folyamatba illesztését is. A projekt egyik célja a SLAM mint térképezési matematikai eljárás kiegészítése objektumokkal és eseményekkel. A tématerület nagy, és a megoldáshoz több részprobléma megoldása nélkülözhetetlen. Ezen belül az alábbi fő feladatokat kívánjuk megoldani: 1. Alakfelismerési és eseményelemzési feladatokra folyamatosan tanuló mély-tanulásos eljárások kidolgozása 2. Változások és jellemzők érzékelése dinamikus környezetben, változó szenzor együttessel - Változásdetekció hosszabb időtávon - Változásdetekció a SLAM ismétlése során 3. Légi- és földi kamera nézetek összeregisztrálása dinamikus leírók segítségével 4. Vizuális SLAM algoritmusok dinamikusan változó környezetben - Új képi tulajdonságleírók kidolgozása (saliency) - Mozgás alapú dinamikus leírók az előtér jellemzésére 5. Földi és légi detekciót összefogó dinamikus SLAM algoritmusok kidolgozása.
Mi a kutatás alapkérdése? Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek. A jelenlegi SLAM algoritmusokat alapvetően nem változó környezetre tervezték. Ezért a változó dolgok kiemelése, illetve magasabb szintű (pl. objektumok, események) beemelése a SLAM optimalizációs eljárásába új megoldásokat fog tartalmazni; lényegében a korábbi, képi sztochasztikus optimalizációs eljárásaink logikáját kívánjuk tovább vinni. Ugyanakkor egy lényeges továbblépés, hogy a különböző mobil eszközök (pl. gépkocsik fedélzeti rendszeréhez telepített kamerák) képeivel folyamatosan lehet felépíteni a környezeti modelleket, és ezen modellek különbségei adják a változások, dinamikus megjelenések felismerésének a dinamikáját. A helyzet és az objektumok felismerése folyamatos tanulással kell történjen; ez az annotálandó adatbázisok alapján mély tanulásos struktúrákban történik majd. Ehhez ki kell fejleszteni a célra optimális új tulajdonságokat, melyek a mély-tanulásos eljárásban is jól szerepelhetnek.
Mi a kutatás jelentősége? Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának! Jelen kutatás jelentőségét az eddig főleg statikusnak tekintett zárt-hurkú SLAM algoritmusok kiterjesztése dinamikusan változó esetekre, ahol a környezetet sztochasztikus modelleken keresztül tudjuk a SLAM matematikai algoritmusához illeszteni. Mindezt úgy, hogy a képi felvételek nem egy eszközzel, hanem több jármű fedélzeti kamerájával történik, melyek adatait a hálózat gyűjti össze egy elosztott kiértékelésre. Az extrém nézetváltással készült képek regisztrációja is egy külön probléma, ahol oldal és felülnézeti képek (90 fokos nézetváltás) regisztrációja szükségeltetik. Ez a feladat még nem megoldott a szakirodalomban. Léteznek megoldások amelyek lehetővé teszik légi és földi robotok közös térképen való regisztrációját (Forster’13) laboratóriumi körülmények és megkötések között, de ebben az esetben a teljes tér sűrű 3D rekonstrukciója szükségeltetik. Ehhez kameramozgás (a tér bejárása), majd monokamerás vizuális odometria vagy vizuális SLAM (Simultaneous Localization and Mapping) algoritmusok alkalmazása szükséges. Ezen algoritmusok telepített statikus vagy majdnem statikus (i.e., MAV lebegés) kamerahálózatok esetében nem alkalmazhatóak. Egy alapjaiban más megközelítés lehetővé teszi kis nézetváltású, statikus kamerák regisztrációját a képsorozatokon detektált mozgás statisztikák alapján (Szlávik & Szirányi ’07). Jelen kutatási tervben javaslatot teszünk az extrém nézetváltású kamerák regisztrációjának vizsgálatára mozgás statisztikák alapján. Továbbá kutatni kívánjuk az oldal és felülnézeti képek és képsorozatok regisztrációját statikus, majdnem statikus (lebegés) és dinamikus kamera hálózatok esetében geometriai jellegzetességek (vonalak, élek, objektumok, gyér rekonstrukció) alapján, amelyek túlmutatnak a klasszikus jellegzetes pontleíró reprezentáción.
A kutatás összefoglalója, célkitűzései laikusok számára Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára. Az autonóm robotjárművek tájékozódásának segítése a környezeti modellekhez való folyamatos alkalmazkodást igénylik. Ezt a modellt létre kell hozni (készen vannak, de statikusan: Google street view, vagy pl. a városi 3D lézer szkennelések), de ezek statikus képek. Hogy a robotjárművek és valós élő szereplők közös forgalmában boldoguljunk, ezeket a modelleket folyamatosan fel kell frissíteni, és ezt a járművek maguk végzik, miközben a leképező eszköz továbbhalad és másik jelenik meg. Ezekből az információdarabokból kell összeállítani a környezet folyamatos modelljét, és lehet vizsgálni a fontos változásokat és felismerni azok szereplőit. A kis UAV-k (MAV) szintén szereplői lesznek ennek a forgalomnak, és navigációjuk fontos része lesz a képi tájékozódás, amely viszont fontos segítője lehet a földi forgalomnak, és viszont. Tervezés alatt vannak olyan konstrukciók is, amelyekben munkagépek használnak és MAV eszközöket "szatellitként", hogy a veszélyes munkát és közlekedést segítsék. Ebben szintén lényeges szerepet kap a több nézetből és időben összeálló vizuális SLAM. A földmegfigyelő műholdak adatai ma már szabadon elérhetőek. Ezeknek a felügyeleti, irányítási láncba kapcsolása pontosabbá teheti a képi navigációs rendszereket.
angol összefoglaló
Summary of the research and its aims for experts Describe the major aims of the research for experts. Autonomous navigation, including the autonomous vehicles on roads and low-altitude flying vehicles in the air should work in dynamically changing environment. In this changing environment most of the appearing objects are identical or similar to some previous one in similar position/location, others, however, could be new items or some previous objects in very different positions. This area is the topic of intensive research of automotive industry and the technology of intelligent transportation systems. The continuous learning and the scalable object database needs new and sophisticated training methodology; presently, Deep Learning technology may solve similar computation intensive training tasks. The main source of the data is the diverse types of imaging sensors, while other sensors (Radar, Lidar, Sonars) may supplement the vision based information. Remote sensing images, mainly the freely available Sentinel data, may help to support us with daily refreshed orthonormal data for reference purposes about the ground structure. On the terrestrial bases, the concatenation of visual sources along a chain of networked or partly connected sensor systems may lead to a continuous chain of mapping/detecting processing lines, where implicit SLAM procedure is done by changing participants of scanning agents (e.g. on-board cameras of vehicles in motion). Here SLAM procedure is not a calculus of a stable environment henceforward, but it is defined over a changing scene, where parts of a view-chain is to be completed to a temporary closed loop in a dynamic situation, where the terms of the SLAM calculus is subject of stochastic optimization and continuous scene understanding.
What is the major research question? Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments. Recent Simultaneous Localization and Mapping (SLAM) algorithms are basically developed for stable environment in time; dynamic scenes cause strong bias in the localization models. For this reason we will improve the conventional SLAM calculus with statistical optimizing the models of changing parts and their neighborhood connection; this will result in semantic connectedness investigation on the models, which needs good classification methods of the scalable cluster structure. As we have strong background on stochastic optimization in image processing and 3D scene analysis (MRF, MPP, clustering), and also we have good practice on SLAM calculus and graph based optimization, our aim is to get together the two disciplines in a single model of SLAM calculus in dynamic environment, while the dynamics – change of the scene – is also exploited from the model as the change description over a dynamic scene. However, this changing environment could be stable on the semantic level. The solution for detecting changes over the SLAM model, or defining object based modeling or semantic description, leads to a higher level, learning based and stochastic interpretation of the complex description of the 3D scenery. Another important improvement that by using the network of diverse scanning devices, including on-board mobile cameras of vehicles, we can continuously build the model of a given local environment, and concatenating them in a chain over the moving network of cameras, while we can exploit the changes as a continuous function of time.
What is the significance of the research? Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field. A main goal of the project to build up a SLAM model, where the SLAM mathematical formulas will be completed by recognized objects and semantic information in dynamic situations. The local position and the object are subject to continuous learning; the final goal is the unsupervised learning by automatic annotation of the environment, and using deep learning technology on a scalable database. This topic of complex SLAM and scene understanding trough deep learning is a huge area of machine vision and scene modeling. We address some of the key elements, while other issues will not be touched in this research: we hope that those issues will be solved in the rapid development, while our attempts are the topics we are the most competent to deal with.
Summary and aims of the research for the public Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others. In the present project, we address the new challenges coming with the latest technological development and the emerging scientific background. We aim to solve the following problems, which issues may result in a usable algorithmic toolkit for the calibrationless multiple camera based mobile SLAM and change detection: 1. Object recognition and scene analysis by using Deep Leaning 2. Detection of changes and dynamic features with varying sensor network • Change detection in long-term basis • Change detection during refreshed SLAM calculus 3. Remote sensing (aerial and satellite) –co-registration by using dynamic descriptors 4. Visual SLAM algorithms in dynamic environments • New saliency features • Co-motion based descriptors for characterizing the foreground 5. SLAM algorithms based on terrestrial (fix and on-board mobile camera network) and remote sensing views 6. Remote sensing (Satellite) information exploited for better ground detection and recognition, making more frequent refreshment on the terrain data-base.
Zárójelentés
kutatási eredmények (magyarul)
Ebben a munkában a cél az volt, hogy különböző optikai szenzorok adatait minél jobban fúzionáljuk, és hiányos vagy zajos adatkészletek esetére is dolgozzunk ki szemantikusan is értékelhető eljárásokat. Eredményeink között van a légi-felvételeken alapuló magas szintű képszegmentálási megoldás, vagy a szimultán lokalizáció és térképezés folyamatának kiterjesztése változásdetekcióval is, ahelyett, hogy 3D modellek generálása útján érjünk el költséges összehasonlításokat. Az útvonalak helyes geometriájának becsléséhez kidolgoztunk új gráf-elemző eljárásokat, valamint kezdeti-gráf becslő eljárást. A 3D felismerés céljaira új, részben mélytanulás alapú, módszertant hoztunk létre, melyeket valós körülmények között teszteltünk. A 3D források és nézetek kalibrálására új módszereket dolgoztunk ki, ahol az optimalizálandó becslés szabadsági fokát megfelelő geometriai kapcsolat esetén sikerült jelentősen csökkenteni.
A különböző modalitások idő és tér-alapú fúziója az eddigieknél robusztusabb és pontosabb kép szegmentálási megoldásokhoz vezettek. Új adatbázisokat hoztunk létre a módszerek teszteléséhez valós körülmények között is.
kutatási eredmények (angolul)
In this work, we fused the image-like data from different modalities: camera, Lidar, infra, multi-channel. We used new solutions for data-fusion, recognition and calibration in 3D computer geometry. For the positioning and repeated SLAM tracking we have introduced a new fast and robust algorithm for pose-graph initialization, and a wormhole detection method to find source-errors in the sensors’space. We also have developed a novel change detection solution from SLAM error-estimation procedure instead of 3D point cloud generation and comparison.
Deep learning has important role in several cases in the project to define semantic information: monocular depth map and object categorization, finding the most appropriate colors for color-less images as a semantic proof, recognition of objects of poor data-set, or blind image- or video-quality estimation. For the above works we had to generate some own image/video databases, and also using reference data-sets for correct comparison. The proof of the development in this competitive area is a serious demand, with time-consuming evaluation. However, we have achieved strong development in several cases, published them in the best journals and conferences. In many cases, the sensorial information is incomplete or noisy; we had solutions for these cases to retrieve as much additional semantic meaning from the data as possible.
Rozsa Z, Sziranyi T: Object detection from a few LIDAR scanning planes, IEEE Transactions on Intelligent Vehicles xx: (x) pp. 1-13., 2019
Zoltan Rozsa, Marcell Golarits , Tamas Sziranyi: Localization of map changes by exploiting SLAM residuals, ACIVS 2020 submitted, 2020
Karoly Harsanyi, Attila Kiss, Tamas Sziranyi, Andras Majdik: MASAT: a fast and robust algorithm for pose-graph initialization, Pattern Recognition Letters, revision submitted, 2019
Rozsa Z, Sziranyi T: Street object classification via LIDARs with only a single or a few layers, In: IEEE (szerk.) 3rd IEEE International Conference on Image Processing, Applications and Systems, IPAS 2018, IEEE (2019) pp. 156-161., 2019
Rózsa Z, Szirányi T: Utcai objektumok osztályozása LIDAR adatokon csak egyetlen vagy néhány síkból, In: KÉPAF 2019. Képfeldolgozók és Alakfelismerők Társaságának 12. országos konferenciája, (2019) pp. 1-15., 2019
Szirányi T, Kriston A, Majdik A, Tizedes L: Fusion Markov Random Field Image Segmentation for a Time Series of Remote Sensed Images, In: Faragó, I; Izsák, F; Simon, P L (szerk.) Progress in Industrial Mathematics at ECMI 2018, 20th European Conference on Mathematics for Industry, Springer (2019) pp. 99-107., 2019
Varga D, Szirányi T: No-reference video quality assessment via pretrained CNN and LSTM networks, SIGNAL IMAGE AND VIDEO PROCESSING pp. 1-8., 2019
Manno-Kovács A, Majdik A, Szirányi T: Satellite and Aerial Image Processing for Smart Farming and Biodiversity Conservation, ERCIM NEWS (113) pp. 33-34., 2018
Szirányi T, Havasi L: Observation on Earth and from the sky, In: Finszter, G; Sabjanics, I (szerk.) Security challenges in the 21st century, Dialóg Campus Kiadó (2018) pp. 401-410., 2018
Varga D, Szabó Cs A, Szirányi T: Automatic Cartoon Colorization Based on Convolutional Neural Network, In: ACM (szerk.) (szerk.) CBMI '17. Proceedings of the 15th International Workshop on Content-Based Multimedia Indexing. New York: ACM Press, 2017. pp. 1-6., 2017
Varga D, Szirányi T: Twin deep convolutional neural network for example-based image colorization, LECT NOTES ARTIF INT 10424: 184-195, 2017
Varga D, Szirányi T: Person Re-identification based on Deep Multi-instance Learning, In: EURASIP (szerk.) (szerk.) 25th European Signal Processing Conference (EUSIPCO). Kos: EURASIP, 2017. pp. 1604-1608., 2017
Majdik A L, Tizedes L, Bartus M, Szirányi T: Photogrammetric 3D reconstruction of the old slaughterhouse in budapest, In: IEEE (szerk.) (szerk.) 2016 International Workshop on Computational Intelligence for Multimedia Understanding (IWCIM). Piscataway: IEEE, 2016. pp. 1-5., 2016
Varga D, Szirányi T: Fast content-based image retrieval using Convolutional Neural Network and hash function, In: Szakál A (szerk.) (szerk.) 2016 IEEE International Conference on Systems, Man, and Cybernetics Conference Proceedings: SMC 2016. Budapest: IEEE, 2016. pp. 2636-2640., 2016
Varga D, Szirányi T: Fully automatic image colorization based on Convolutional Neural Network, In: IEEE (szerk.) (szerk.) 23rd International Conference on Pattern Recognition (ICPR). Cancun: IEEE, 2016. pp. 3680-3685., 2016
Hosu V, Hahn F, Jenadeleh M, Lin H, Men H, Szirányi T, Li S, Saupe D: The Konstanz natural video database (KoNViD-1k), In: [sn] (szerk.) (szerk.) 9th International Conference on Quality of Multimedia Experience, QoMEX 2017. [s. l.] - Nemzetközi: IEEE, 2017. pp. 1-6., 2017
Varga D, Szirányi T: A comparative study of about how image quality influences convolutional neural networks, IX. magyar számítógépes grafika és geometria konferencia, GRAFGEO 2018., 2018
Rózsa Z, Szirányi T: Városi objektum felismerés mindösszesen néhány LIDAR szkennelési síkból, IX. magyar számítógépes grafika és geometria konferencia, GRAFGEO 2018., 2018