Robot tájékozódás képi információk alapján  részletek

súgó  nyomtatás 
vissza »

 

Projekt adatai

 
azonosító
126513
típus KH
Vezető kutató Majdik András László
magyar cím Robot tájékozódás képi információk alapján
Angol cím Robot localiyation using visual infromation
magyar kulcsszavak képfeldolgozás, SLAM, vonatkozási hálozatok
angol kulcsszavak computer vision, SLAM, relation networks
megadott besorolás
Informatika (Élettelen Természettudományok Kollégiuma)100 %
Ortelius tudományág: Informatika
zsűri Műszaki és Természettudományi zsűrielnökök
Kutatóhely Számítástechnikai és Automatizálási Kutatóintézet
résztvevők Baráth Dániel Béla
Kriston András
projekt kezdete 2017-12-01
projekt vége 2019-11-30
aktuális összeg (MFt) 19.099
FTE (kutatóév egyenérték) 0.70
állapot lezárult projekt
magyar összefoglaló
A kutatás összefoglalója, célkitűzései szakemberek számára
Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára.

A pályázat alapjául szolgáló közleményben került bemutatásra (a szakirodalomban elsőként) egy olyan vizuális hasonlóság alapú képfeldolgozó algoritmus, mely lehetővé teszi egy városi környezetben repülő kisméretű légi jármű képi információk alapján való tájékozódását. Jelen kutatási pályázatban kívánt megoldandó probléma a képek szemantikai szegmentálása mélytanulási eljárások alkalmazása által és a részletgazdag 3D modelleknek az alkalmazása. Ebből adódóan a pályamű fő célkitűzése újabb, pontosabb (10 cm alatti), megbízhatóbb és szemantikailag értelmet nyerő vizuális hasonlóság alapú robot tájékozódási algoritmusok kutatása és kidolgozása.
A városi 3D modellek előállítására, a robotok kép alapú pozíció követéséhez a szakirodalomban gyakran Szimultán Helymeghatározási és Térképezései (SLAM) algoritmusokat alkalmaznak. Számos modern képalapú vizuális odometria és SLAM rendszer a probléma gráf struktúrával való reprezentációjára épül. A pozíció-gráf optimalizációs eljárások eredményességét nagyban meghatározza a kezdeti becslés, amelyből az optimalizációt indítjuk. A pálymű másik fontos célkitűzése olyan robusztus kezdeti pozíció-gráfbecslő algoritmusok kutatása, mely robusztusan tud működni jelentős mérési hibát tartalmazó esetekben is.
A pályázat várható eredményei új, a szakterület fejlődésére nagy hatást gyakorló szellemi termék, mérnöki koncepció, algoritmikus eljárás, számítógépes szoftver, a matematika, a számítástechnika, a képfeldolgozás és a robot látás interdiszciplináris területén. A pályázat célja néhány hallgató szoros bevonása a kutatási és munkafolyamatokba, ezáltal is ösztönözni a további kutatásokat megalapozó eredményeket a szakterületen.

Mi a kutatás alapkérdése?
Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek.

A kutatás két alapkérdés köré szerveződik:
1) Elérhető-e a robosztus és pontos (10 cm alatti) vizuális hasonlóságon alapuló helymeghatározás földi és légi járművek számára városi környezetben, mely kiegészítheti vagy akár helyettesítheti a műhold alapú GPS rendszereket? A pályázatban támasztott hipotézis szerint ez megvalósítható részletgazdag 3D virtuális város modellek alkalmazásával, ugyanakkor fontos szempont új mélytanulási eljárások kutatása is, hiszen ez által szemantikailag értelmezhetővé válik a látvány és pontosabb algoritmusok kidolgozása lehetséges. Empirikus megfigyelések alapján kijelenthető, hogy általánosságban a vizuális hasonlóságon alapuló helymeghatározási algoritmusok gyakran műkődnek tévesen olyan esetekben, ha a látvány jelentős részét változó növényzet, illetve mozgó, dinamikus objektumok teszik ki, amelyek különböző időpontban másutt jelenhetnek meg. Ezen jelenségek szemantikai felismerése jelentősen javíthatja az algoritmusok robosztusságát és pontosságát.
2) Megbecsülhető-e a SLAM algoritmusokban használt pozíció-gráf kezdeti struktúrája nagymennyiségű zajt tartalmazó mérések esetében? A pályázatban javasolt hipotézis szerint fejlett, a szakirodalomban még nem vizsgált gráf bejárási módszerek nyújthatnak erre megoldást. Az autonóm járművek és a földközeli repülő eszközök egy dinamikusan változó környezetben kell, hogy működjenek. Ebben a környezetben a referenciaként megjelenő dolgok egy része ismerős lehet, de lehetnek eddig nem látott objektumok is; ezért egy ilyen rendszer működése alapvetően folyamatos pozícionálást és helyzetfelismerést igényel. Emiatt a pozíció-gráfba kerülhetnek hibás élek is, amelyek felismerése kritikus lehet.

Mi a kutatás jelentősége?
Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának!

A jelen kutatási terv várható hasznosulás számottevő. Elsősorban új elméleti és gyakorlati eredmények várhatók a robotérzékelésben, a vizuális hasonlóságon alapuló helymeghatározásban, a pozíció és robotok helyzetkövetésében, városi környezetben. Az alapkutatás eredményei bemutatásra és publikálásra kerülnek rangos, lektorált konferenciákon és folyóiratokban. A közelmúltban a robotika e területei dinamikus fejlődésnek indultak, az alapkutatásban elért eddigi eredmények alapján sokan egy új, a teljes társadalmat átalakító, negyedik ipari forradalmat látnak az autonóm robotok elterjedésében. Jelen pályázat ehhez a társadalmi és technológiai fejlődéshez kíván hozzájárulni. Másod sorban a jelen kutatási terv megalapozza a pályázó önálló tudományos programjának fejlődését és saját csoportjának az elindítását (Robot tájékozódás kutatócsoport) a SZTAKI Gépi Érzékelés Kutatólaboratórium keretein belül. Fontos szempont az újabb, a hazai és a nemzetközi szakterület fejlődésére nagy hatást gyakorló eredmények elérése. Ehhez a pályázat alapjául szolgáló közlemény egy biztos kiindulópontot biztosít. Harmad sorban a jelen pályázat keretein belül lehetőség nyílik tehetséges és kellően motivált, a téma iránt érdeklődő mérnökhallgatók a kutatásba való bevonására, a robotlátás, a földi és kisméretű légi járművek vizuális érzékelésének megismertetésére, népszerűsítésére.

A kutatás összefoglalója, célkitűzései laikusok számára
Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média illetve az adófizetők tájékoztatása szempontjából különösen fontos az NKFI számára.

Számos autógyártó és kisméretű légi járművekkel foglalkozó vállalat jelentett be ígéretes új alkalmazásokat az autonóm járművek területén. A már jól ismert önvezető autó mellet a közeljövőben a kisméretű légi járművek felhasználhatóak lehetnek áruszállításra (Amazon Prime Air, DHL, Alibaba, Matternet, Swiss Post), egészségügyben (Matternet, Flirtey, Wingtra, RedLine), különböző ellenőrzési és megfigyelési feladatok elvégzésére (SenseFly, Skycatch), vagy bevethetőek balesetek helyszínén, mint távolról irányítható, elsődleges helyzetfelmérő eszközök (Drone Aventures, Microdrones). Annak érdekében, hogy ezek a technológiák valóra válhassanak, még számos kérdésre kell választ találjon a tudomány. Városi környezetben a GPS jel gyakran a környező épületek által árnyékolt, így ez robusztusan nem használható. Továbbá, a biztonságos vezetés és repülés érdekében szükséges a környezet szemantikai felismerése és megértése. Kutatási tervünkben a tématerület egy fontos kérdésével foglalkozunk, azaz olyan algoritmusok kutatását, programozását és tesztelését tervezzük, mely lehetővé teszi a robusztus helymeghatározást kizárólag kameraképek alapján urbánus környezetben. Ezt a célt a mesterséges intelligencia új gépi tanulási eljárások és részletgazdag 3D modellek alkalmazásával tervezzük megvalósítani. A másik célkitűzésünk olyan Szimultán Helymeghatározási és Térképezései (SLAM) algoritmusok kutatása melyek lehetővé teszik egy autonóm jármű számára az ismeretlen (térkép nélküli) területen való robusztus kamera alapú tájékozódást jelentős mérési hibát tartalmazó esetekben is.
angol összefoglaló
Summary of the research and its aims for experts
Describe the major aims of the research for experts.

The publication underlying this proposal presents a visual appearance-based image processing algorithm (the first of its kind), that allows to localize a camera-equipped micro aerial vehicle (MAV) flying in urban streets at low altitudes without GPS. The goal addressed in this research application is to further improve this technology by the semantic segmentation of the images through deep learning methods and by the use of detailed 3D models, in order to develop novel, more accurate (less than 10 cm), more reliable, and semantically meaningful visual localization algorithms for aerial and ground vehicles operating in urban environments. For the creation of 3D maps, and in order to track the robot’s ago-motion, often Simultaneous Localization and Mapping (SLAM) algorithms are used in the literature. Many modern image-based visual odometry and SLAM systems are relying on the pose-graph representation of the problem. The effectiveness of the pose-graph optimization procedure is largely determined by the initial guess from which the optimization is initiated. Thus, another important goal of this proposal is to develop a robust initial guess estimation algorithm that can work robustly in case the measurements are affected by significant errors. The expected outcomes of the proposal are new algorithms, engineering concepts, computer programs, in the multidisciplinary field of artificial intelligence, mathematics, image processing and robot vision, which will greatly impact the field of image-based localization. The scope of the application is to involve several students in the research process and workflows, thus encouraging further research in the field in Hungary.

What is the major research question?
Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments.

The research proposal is organized around two main scientific questions:
1) Is it possible to achieve a more accurate (below 10 cm) and robust visual appearance-based localization algorithm for ground and aerial robots operating in urban environments that can complement or even replace satellite-based GPS localization systems? According to the hypothesis of this application, this is a feasible goal that can be reached with the use of dense 3D virtual city models. Furthermore, it is also important to research new deep learning methods to semantically segment and understand the scene in order to further improve the visual localization. Based on empirical observations, it can be stated that appearance based methods, are prone to make errors in cases a significant part of the scene consist of vegetation or moving, dynamic objects that may appear elsewhere at different times. Consequently, by semantic recognition of the scene these errors can be significantly reduced, thus the robustness and accuracy of algorithms can be improved.
2) It is possible to estimate the initial structure of the pose-graph structures---often used in SLAM algorithms---in case the measurements are corrupted with a high level of noise? According to the hypothesis proposed in this application, advanced graph-search techniques that have not yet studied in the literature can provide a solution. Autonomous vehicles and unmanned aerial vehicles must operate in dynamically changing environment, where two different places can be perceived very much alike. Thereby, because of the perceptual aliasing the pose-graph may include faulty edges (critical errors), which needs to be detected and eliminated.

What is the significance of the research?
Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field.

The expected benefits of this research proposal are multifold. Firstly, this work will produce new theoretical and practical results in the field of robotic perception, appearance-based localization, localization and position tracking of ground and aerial vehicles in urban environments. The outcomes of the basic research work will be presented and published in prestigious, peer-reviewed conference proceedings and journal articles. Recently, the field of robotic intelligence and perception has shown a rapidly growing interest. Furthermore, based on the early results, many envision a new, the fourth industrial revolution transforming our entire society by the spread and large adoption of autonomous robots. This application is intended to contribute to this social and technological development. Secondly, the project is the foundation of establishing a new and independent research program of the applicant researcher, namely the Robot localization group, within the SZTAKI Machine Perception Research Laboratory. An important goal is the achievement of newer results with great impact on the field at national and international level. A stable starting point and a good guaranty is the publication underlying this proposal. Thirdly, this project will give the opportunity to talented and motivated students studying engineering to learn new theoretical concepts and to develop new skills in the field of robotic perception for autonomous ground and aerial vehicles.

Summary and aims of the research for the public
Describe here the major aims of the research for an audience with average background information. This summary is especially important for NKFI in order to inform decision-makers, media, and the taxpayers.

Numerous automotive and small aircraft companies have announced promising new applications in the field of autonomous vehicles. Alongside self-driving cars, in the near future small-size micro aerial vehicles could be used for goods delivery (Amazon Prime Air, DHL, Alibaba, Matternet, Swiss Post), in healthcare (Matternet, Flirtey, Wingtra, RedLine), to carry out various inspection and surveillance tasks (SenseFly, Skycatch), or can be deployed at accidents as remote-controlled first aid/responder devices (Drone Aventures, Microdrones). In order for these technologies to become one day reality, several scientific and technical questions have to be answered. In urban environments, the GPS signal is often shadowed by the surrounding buildings or is completely unavailable, thus it cannot be used reliably for accurate localization. In addition, for the sake of safe driving and flight, semantic recognition and understanding of the environment is necessary. In our research plan we are focusing on an important issue within this research field, namely on designing, programming and testing algorithms that accomplish the robust positioning of vehicles using only monocular camera images in urban environments. We plan to reach this goal by implementing new machine learning methods and by using dense detailed 3D models. Our other goal is to research robust Simultaneous Localization and Mapping (SLAM) algorithms that allow an autonomous vehicle to explore previously unknown environments in case the measurements are affected by significant errors.





 

Zárójelentés

 
kutatási eredmények (magyarul)
Ebben a projektben az autonóm légi és földi járművek látás alapú lokalizációját kutattuk városi környezetben, mivel a műholdas helymeghatározást (GPS) gyakran a környező épületek árnyékolják vagy nem minden esetben érhető el. A kutatómunka során új képfeldolgozó algoritmusokat terveztünk és valósítottunk meg a robotok vizuális hasonlóság alapú lokalizációjára sűrű, részletgazdag 3D modellek felhasználásával. Továbbá, új pontosabb és hatékonyabb látás alapú mozgásbecslési eljárásokat dolgoztunk ki. Valamint, kifejlesztettünk egy gépi mélytanulási hálózatot melynek alkalmazásával lehetségessé válik a körülvevő környezet szemantikai értelmezése is. Konkrétabban, a projekt csapat új tudományos eredményeket valósított meg és publikált rangos nemzetközi konferenciákon és folyóiratokban hét fő témában a számítógépes látás és a robotika területén: monokuláris képek szemantikai szegmentálása és mélységbecslése konvolúciós neurális hálózattal; fotogrammetrikus megjelenés-alapú lokalizáció virtuális 3D-s városi térképekben; a SZTAKI MIMO (MIkró repülőgép és gépi MOzgáskövetés) arénájának létrehozása; robusztus kamera alapú szimultán helymeghatározás és térképezés (SLAM) egyszerű kulcspont megfeleltetéseken túlmenően; gyors és robusztus kezdeti pozíció-gráf becslés SLAM optimalizálási feladatok megoldására; összetett robusztus modellbecslés hibás megfeleltetések szűréséhez; járművek geometriai helymeghatározása városi 3D-s felhőtérképeken.
kutatási eredmények (angolul)
This project tackles the problem of vision based localization of autonomous vehicles and small Micro Air Vehicles (MAV) in urban environments, since the satellite GPS signal is often shadowed by the surrounding buildings or is completely unavailable, therefore it cannot be used reliably for accurate localization. We have designed and implemented new image processing algorithms for the appearance-based localization of robots using dense detailed 3D models. We enhanced the accuracy and the computational efficiency of vision-based motion estimation methods and developed machine-learning networks to semantically understand the surrounding environment. More concretely, the project team has accomplished and published new scientific results and has advanced the state of the art in the field of computer vision and robotics in seven main topics: semantic segmentation and depth estimation of monocular images with convolutional neural network; photogrammetric appearance-based localization in virtual 3D urban maps; development of the SZTAKI MIMO (MIcro aerial vehicle and MOtion capture) arena; robust camera-based localization and Simultaneous Localization and Mapping (SLAM) beyond simple keypoint matching; initial pose-graph estimation for fast and robust SLAM back-ends; advanced model estimation for robust outlier detection; and geometric localization of vehicles in urban 3D point cloud maps.
a zárójelentés teljes szövege https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=126513
döntés eredménye
igen





 

Közleményjegyzék

 
Majdik AL, Till C, Scaramuzza D: The Zurich urban micro aerial vehicle dataset, INT J ROBOT RES 36: (3) 269-273, 2017
K. Harsányi, A. Kiss, A. Majdik, T. Sziranyi: A Hybrid CNN Approach for Single Image Depth Estimation: A Case Study, Multimedia and Network Information Systems, MISSI 2018, Advances in Intelligent Systems and Computing,, 2018
K. Harsányi, A. Kiss, A. Majdik, T. Sziranyi: A Hybrid CNN Approach for Single Image Depth Estimation: A Case Study, Multimedia and Network Information Systems, MISSI 2018, Advances in Intelligent Systems and Computing,, 2018
Harsányi K, Kiss A, Szirányi T, Majdik A: MASAT: A fast and robust algorithm for pose-graph initialization, PATTERN RECOGNITION LETTERS 129: pp. 131-136., 2020
Harsányi K, Kiss A, Majdik A, Szirányi T: Hibrid CNN hálózat egyetlen kép alapú mélység becsléséhez: egy esettanulmány, In: KÉPAF 2019. Képfeldolgozók és Alakfelismerők Társaságának 12. országos konferenciája, (2019) pp. 1-10., 2019
Rozenberszki D, Majdik A: The MTA SZTAKI micro aerial vehicle and motion capture arena, In: KÉPAF 2019. Képfeldolgozók és Alakfelismerők Társaságának 12. országos konferenciája, (2019) pp. 1-4., 2019
Harsányi K, Kiss A, Majdik A, Sziranyi T: A Hybrid CNN Approach for Single Image Depth Estimation: A Case Study, In: Choroś, K; Kopel, M; Kukla, E; Siemiński, A (szerk.) Multimedia and Network Information Systems. Proceedings of the 11th International Conference MISSI 2018, Springer (2018) pp. 372-381., 2018
I. Eichhardt, D. Baráth: Optimal Multi-view Correction of Local Affine Frames, 30th British Machine Vision Conference, Cardiff, UK, BMVC 2019, 2019
D. Baráth, J. Matas, and J. Noskova: MAGSAC: marginalizing sample consensus, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 10197-10205, CVPR 2019, 2019
D. Baráth J. Matas: Progressive-X: Efficient, Anytime, Multi-Model Fitting Algorithm, Proceedings of the IEEE International Conference on Computer Vision, pp. 13780- 3788, ICCV 2019., 2019
D. Baráth, Z. Kukelova: Homography from two orientation-and scale-covariant features, Proceedings of the IEEE International Conference on Computer Vision, pp. 1091-1099, ICCV 2019., 2019
Szirányi T, Kriston A, Csilling T, Majdik A, Tizedes L: Fusion Markov Random Field Image Segmentation for a Time Series of Remote Sensed Images, In: KÉPAF 2019. Képfeldolgozók és Alakfelismerők Társaságának 12. országos konferenciája, (2019) pp. 1-12., 2019
Szirányi T, Kriston A, Majdik A, Tizedes L: Fusion Markov Random Field Image Segmentation for a Time Series of Remote Sensed Images, In: Faragó, I; Izsák, F; Simon, P L (szerk.) Progress in Industrial Mathematics at ECMI 2018, 20th European Conference on Mathematics for Industry, Springer (2019) pp. 621-629., 2019





 

Projekt eseményei

 
2019-03-29 17:07:34
Résztvevők változása




vissza »