Multimodal feature fusion for establishing novel 3D saliency models  Page description

Help  Print 
Back »

 

Details of project

 
Identifier
126688
Type KH
Principal investigator Manno-Kovács, Andrea
Title in Hungarian Multimodális jellemzők fúziója új 3D szaliencia modellek kidolgozásához
Title in English Multimodal feature fusion for establishing novel 3D saliency models
Keywords in Hungarian szaliencia, multimodális adatok, objektum detekció, gépi érzékelés
Keywords in English saliency, multimodal data, objektum detekció, machine perception
Discipline
Information Technology (Council of Physical Sciences)100 %
Ortelius classification: Informatics
Panel Informatics and Electrical Engineering
Department or equivalent HUN-REN Institute for Computer Science and Control
Participants Kovács, Levente
Starting date 2017-12-01
Closing date 2019-11-30
Funding (in million HUF) 19.252
FTE (full time equivalent) 1.00
state closed project
Summary in Hungarian
A kutatás összefoglalója, célkitűzései szakemberek számára
Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára.

A gépi látás régóta kutatott területe a lényeges képi tartalom (szaliencia) elemzése, mely az adatfeldolgozás egyik első lépése. A szaliencia térkép célja azon képrészletek kiemelése, melyek leginkább felkeltik az egyén vizuális figyelmét. Egy hatékony és megbízható szaliencia modell számos további képfeldolgozási lépést elősegít és felgyorsít, például szegmentációt, vagy objektumosztályozási és felismerési feladatokat.
A szenzortechnológia fejlődésével a szaliencia mérésében is egyre fontosabb a 3D-s információ. A biológiai megfigyelések bizonyították, hogy az emberi látásban kiemelt szerepe van a mélységinformációnak, mely a 3D szenzorok (pl. Microsoft Kinect, Lidar szenzorok) elterjedésének köszönhetően a gépi látásban is rendelkezésre áll. A multimodális (2D, 3D) érzékelők fúziójával a korábbi 2D színtér alapú ú.n. RGB szaliencia modellek helyett az RGB-D modellek válnak egyre hangsúlyosabbá, a szín- és mélységinformáció ötvözésével.
Jelen kutatás célja, hogy a pályázat alapjául szolgáló közleményben publikált, 2D-s jellemzőkön alapuló képi tartalom kiemelése mellett kiterjessze a szaliencia modellezését 3D-s, multimodális adatokra is. A hatékony jellemzők kinyeréséhez és a modell építéséhez fontos a humán vizuális érzékelés vizsgálata, az alacsony szintű jellemzők fúziójához különböző konvolúciós, neurális hálózatok alkalmazása. Míg a pályázat alapját jelentő cikk csak a távérzékeléssel, mint alkalmazási területtel foglalkozott, jelen pályázat célja a 3D-s adatforrások bevonása mind a távérzékelés (Lidar szenzorok), mind az orvosi képalkotás (MRI, CT, stb.) területén. A projekt lehetőséget ad tehetséges diákok bevonására, elsősorban a PPKE ITK mesterképzéséből.

Mi a kutatás alapkérdése?
Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek.

A projekt fő célja az egyre szélesebb alkalmazási területen elérhetővé váló 3D-s szenzorok (Microsoft Kinect, Lidar, MRI, CT, stb.) jeleit feldolgozva és fuzionálva a képi modalitások adataival olyan új szaliencia modellek kidolgozása, melyek képesek automatikusan és hatékonyan kiemelni a vizuális figyelmet vonzó régiókat. A hatékony modell nemcsak leszűkíti a keresési teret a további képfeldolgozási lépésekhez, de egyúttal felgyorsíthatja és pontosíthatja a képszegmentáció eredményét, különös tekintettel olyan különböző alkalmazási területekre, ahol 3D-s szenzorok rendelkezésre állnak, pl. távérzékelés, orvosi képelemzés, 3D rekonstrukció és videofelügyeleti rendszerek.
A munka egyik első feladata - a kutatócsoport korábbi eredményeit felhasználva - megvizsgálni, hogy a korábban kutatott jellemzők és modellek mennyire adaptálhatóak eltérő adatmodalitások és alkalmazási területek esetén. A fő feladat, a leírók közül kiválasztani azokat, melyek alkalmasak arra, hogy az új típusú, 3D-s mélységinformációval fuzionálva hatékonyan kiemeljék a kép vizuálisan feltűnő régióit, korábbi RGB alapú módszer helyett RGB-D alapú modellt építve. A különböző modalitású adatok feldolgozása során kiemelt kérdés, hogy milyen eljárások tudják a leghatékonyabban integrálni a kiválasztott 2D-3D jellemzőket, illetve, hogy a direkt, statisztikai módszerek helyett milyen összetettebb, az emberi látórendszer által inspirált interakciós mechanizmusok dolgozhatók ki.

Mi a kutatás jelentősége?
Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának!

A lényeges képi tartalom (szaliencia) automatikus feltérképezése a gépi látás egyik alapproblémája, így a projektben elért eredmények számos alkalmazásterületen hasznosíthatóak. A szaliencia megbízható becslése hozzájárul számos képfeldolgozási lépés hatékonyabbá tételéhez pl. képszegmentáció pontosításához, megbízhatóbb objektum detekcióhoz, felismeréshez és követéshez ill. nagy képi adatbázisok kezeléséhez (visszakeresés, relevanciabecslés). A multimodális jellemzők fúziója ill. 3D szaliencia modellek kidolgozása nemzetközi szinten is meglehetősen friss kutatási terület, amely 3D szenzorok jeleiből illetve új típusú 2D szenzorok jeleiből generált 3D adatokból keletkező mélységinformációt fuzionálja a korábban önállóan használt 2D RGB alapú jellemzőkkel ú.n. RGB-D modelleket kidolgozva. A 3D szenzorok elterjedésével és fejlődésével a 3D jellemzők vizsgálata és fuzionálása elengedhetetlen, ráadásul a jellemzők kibővített tartományán kívül az integrálásuk módjában is paradigmaváltás zajlik jelenleg, ugyanis a korábbi statisztikai módszereket a gépi tanulás alapú, humán-inspirált modellek váltják fel, így a projekt több szinten is új perspektívát nyithat. Az MTA SZTAKI-ban rendelkezésre álló szenzorrendszerek lehetővé teszik a különböző adatmodalitásokból származó jelek feldolgozását, nemzetközi szinten is versenyképes módon. A kutatócsoport korábbi tapasztalatai és nemzetközi kapcsolatai a szaliencia becslés terén a korábban kutatott távérzékelés mellett más területen is újdonságot hozhatnak. Társadalmi és tudományos hasznosíthatóságra lehetőséget biztosít a számos kapcsolódó alkalmazási terület (biztonság, távfelügyelet, távérzékelés, gépi látás, orvosi képfeldolgozás).

A kutatás összefoglalója, célkitűzései laikusok számára
Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára.

Napjainkban a 2D-s érzékelők (kamerák, fényképezőgépek, stb.) mellett egyre inkább megjelennek a 3D-s szenzorok, melyek ma már a hétköznapi ember számára is elérhetőek (pl. Microsoft Kinect). Ezek az érzékelők olyan 3D-s információt is képesek rögzíteni, melyek a korábbi 2D-s kamerákkal nem voltak elérhetők. Ilyen fontos adatmodalitás például a mélységinformáció.
A lényeges képi tartalom (ú.n. szaliencia) automatikus feltérképezése a gépi látás egyik alapkérdése, melynek célja automatikusan megbecsülni, hogy egy humán megfigyelő hova nézne a képeken, melyek a vizuális figyelmet vonzó területek. Ahhoz, hogy a lényeges képi tartalom modellezése hatékony legyen, az emberi látást is segítő jellemzőkre kell építeni: pl. egy 2D-s képen a szín/kontraszt szempontjából kiemelkedő területeket feltérképezni. Az emberi látásban hasonlóan fontos 3D-s jellemző a mélységinformáció, mely a fent említett új típusú szenzorokkal ma már gépi látásban is rendelkezésre áll. A szín/kontraszt és mélység jellemzők fuzionálásával pontosabb automatikus becslés tehető, mely hozzásegít több képfeldolgozási lépés felgyorsításához és pontosításához. A 3D-s adatok egyre több alkalmazási területen érhetőek el, így pl. a távérzékelésben a Lidar szenzorok, a gyógyászatban az MRI, CT készülékekből származó adatok feldolgozását tudjuk segíteni az ilyen adatokat is beépítő, pontosabb szaliencia modellek kidolgozásával.
Summary
Summary of the research and its aims for experts
Describe the major aims of the research for experts.

Saliency detection is a long standing problem in computer vision, which is an important preprocessing step of the data processing. A saliency map aims to emphasize image regions that most attract the human’s visual attention. An efficient and reliable saliency model supports and facilitates other image processing steps, like segmentation, object classification and detection tasks.
With the progression of sensor technology, 3D information is becoming more and more important in saliency estimation. Depth cue plays an important role in human vision system, which was also confirmed by biological observations. With the novel 3D sensors (e.g. Microsoft Kinect, Lidar sensors), depth information is also available in machine vision. Thus, with the fusion of multimodal (2D, 3D) sensors, instead of previously used RGB models based on only 2D color information, RGB-D saliency models are becoming more relevant, fusing color and depth cue.
Based on the detection of salient image content by 2D features, which was published in the journal paper (basis of the proposal), the aim of this project is to extend the saliency model to 3D multimodal data. To select efficient features for building such model, it is also important to investigate human visual system and apply convolutional neural networks for the fusion of low level features. Although the journal paper of the proposal concentrated on remote sensing as an application field, the aim of the present proposal is to also include 3D sensors in other application fields beside remote sensing (Lidar), such as medical imaging (MRI, CT). The proposal means a good opportunity to cooperate with talented students, mainly from the PPKE ITK.

What is the major research question?
Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments.

The project aims to process the data of novel 3D sensors (e.g. Microsoft Kinect, Lidar, MRI, CT) available in a wide range of application fields and to fuse them with 2D image modalities to build saliency models, which are able to automatically and efficiently emphasize visually dominant regions. Such models not only tighten the region of interest for further image processing steps, but facilitate and increase the efficiency of segmentation in different application fields with available 3D sensor data, e.g. remote sensing, medical imaging, 3D reconstruction and video surveillance systems.
One of the first main tasks – based on the previous results of the research group – is to analyze whether the previously applied features and models are adaptable for novel data modalities and application areas. The main challenge is to select the applicable features which can be fused with novel, 3D depth cue to emphasize salient regions and to build an efficient RGB-D saliency model instead of the previously used RGB based model. When processing the data of different modalities, an efficient integration technique of the selected 2D and 3D features has to be searched and instead of direct, statistical fusion methods, more improved, interaction mechanisms inspired by the human vision system should be developed.

What is the significance of the research?
Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field.

Automatic saliency detection is a fundamental problem in computer vision; therefore the results of the present project are adaptable in various application fields. A reliable saliency estimation method can benefit numerous image processing tasks, e.g. accurate image segmentation, efficient object detection, recognition and tracking and processing large image databases (retrieval, relevance estimation). The fusion of multimodal features and the elaboration of 3D saliency models receive increasing international research attention, and the previously extracted 2D RGB features are combined with depth information acquired by 3D sensor data or generated from novel 2D sensor signals to build RGB-D models. With the recently emerged 3D sensing technologies, 3D information and feature fusion is a crucial task, moreover beside the feature range extension, the integration style is also evolving: instead of the previously used direct statistical methods, human-inspired, machine learning based techniques are applied, therefore the proposed research may consist of multiple level of improvement. Sensor systems available at MTA SZTAKI create the opportunity to acquire and process data from different sensor modalities, ensuring the high international competitiveness. The previous research experience and international collaborations of the research group in saliency detection support the novel research results in remote sensing and in other application areas as well. The various application fields (such as surveillance, monitoring, remote sensing, computer vision, medical imaging) ensure the social and scientific exploitation of the project results.

Summary and aims of the research for the public
Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others.

Beside existing 2D sensors (e.g. cameras and photo machine), there is a growing range of consumer-grade 3D sensors nowadays (e.g. Microsoft Kinect). These sensing technologies provide the ability to capture 3D information, which was not available before with 2D cameras. Such important 3D data modality is depth information.
Automatic saliency detection is a fundamental problem in computer vision, which aims to automatically predict where human looks in the image and locate the image regions that most attract human’s visual attention. To estimate saliency efficiently, the model should apply low-level features inspired by human vision: e.g. calculate the salient image regions with distinctive color/contrast. Depth information is an important 3D feature in human vision system, which is also available now in machine vision with the aforementioned sensors. By fusing color/contrast and depth, saliency can be more accurately estimated, which helps to facilitate and increase the performance of further image processing steps. 3D data is available in multiple application areas, like remote sensing (Lidar sensors), medical imaging (MRI, CT), therefore by elaborating 3D saliency models, data processing in those areas can be improved.





 

Final report

 
Results in Hungarian
A projekt során megvizsgáltunk különböző 2D-s jellemzőket és kiválasztottuk azokat, melyek alkalmasak lehetnek a kép vizuálisan érdekes („szaliens”) képrészleteinek automatikus kiemelésére. A szakirodalmi módszerek tanulmányozása mellett saját szaliencia modellt adtunk képi adatbázisokra. Következő lépésként speciális, korlátozott képi tulajdonságokkal bíró passzív radar (ISAR) adatokon próbáltuk ki a szaliencia modell alkalmazhatóságát különböző célpontok (hajók, repülők) kinyerésére és klasszifikálásra. Ezután a szaliencia detekciót 3D-ra terjesztettük ki, orvosi tér-adatok (MRI és CT) szegmentálására. A geometriai, kézi („handcrafted”) jellemzők mellett felmértük a szakirodalomban alkalmazott konvolúciós neurális hálózatok teljesítményét, és a geometriai jellemzőkön alapuló szaliencia modellt a hálózatok predikciós maszkjaival kombináltuk a szegmentáló teljesítmény növelése érdekében. Végül, a kutatás befejező lépéseként megvizsgáltuk, hogy a szaliencia, mint jellemző beépíthető-e a konvolúciós hálózatokba és hozzájárul-e a hatékonyabb tanításhoz és szegmentáláshoz. A projektbe több, tehetséges diákot vontunk be a PPKE ITK mesterképzéséből.
Results in English
In this project, 2D features were investigated and selected to emphasize visually interesting (so called salient) image regions automatically. Besides analyzing state-of-the-art methods, a novel saliency model was introduced for image databases. Next, the proposed saliency model was tested for passive ISAR data with limited image characteristics, to extract and classify different targets (such as ships and airplanes). Following this, saliency detection was extended to 3D to segment multimodal medical data (MRI and CT). After analyzing geometric, handcrafted features, state-of-the-art convolutional neural networks were also tested for segmentation and to further enhance the performance, the output of the geometric feature based saliency model was fused with the neural network’s prediction map. As a final step, we investigated if saliency, as a feature, can be built into the convolutional neural network, and can it support a more efficient training and segmentation performance. Talented students from PPKE ITK were also involved in the project work.
Full text https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=126688
Decision
Yes





 

List of publications

 
Andrea Manno-Kovacs ; Elisa Giusti ; Fabrizio Berizzi ; Levente Kovács: Automatic target classification in passive ISAR range-crossrange images, 2018 IEEE Radar Conference (RadarConf18), 2018
Andrea Manno-Kovacs: Direction Selective Contour Detection for Salient Objects, IEEE Transactions on Circuits and Systems for Video Technology (Early Access), 2018
Andrea Manno-Kovacs ; Elisa Giusti ; Fabrizio Berizzi ; Levente Kovács: Image Based Robust Target Classification for Passive ISAR, IEEE Sensors Journal ( Early Access ), 2018
Petra Takács ; Andrea Manno-Kovacs: MRI Brain Tumor Segmentation Combining Saliency and Convolutional Network Features, 2018 International Conference on Content-Based Multimedia Indexing (CBMI), 2018
A. Kriston, V. Czipczer, A. Manno-⁠Kovács, L. Kovács, Cs. Benedek and T. Szirányi: Segmentation of multiple organs in Computed Tomography and Magnetic Resonance Imaging measurements, 4th International Interdisciplinary 3D Conference, 2018
Czipczer V, Manno-Kovács A: Májszegmentálás orvosi képadatok tartalom alapú elemzésével, In: KÉPAF 2019. Képfeldolgozók és Alakfelismerők Társaságának 12. országos konferenciája, (2019) pp. 1-16., 2019
Manno-Kovacs A: Direction Selective Contour Detection for Salient Objects, IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY 29: (2) pp. 375-389., 2019
Manno-Kovacs A, Giusti E, Berizzi F, Kovacs L: Image Based Robust Target Classification for Passive ISAR, IEEE SENSORS JOURNAL 19: (1) pp. 268-276., 2019
Manno-Kovács A, Kovács L: Automatikus célpont klasszikáció passzív ISAR képeken, In: KÉPAF 2019. Képfeldolgozók és Alakfelismerők Társaságának 12. országos konferenciája, (2019) pp. 1-13., 2019
Takács P, Manno-Kovács A: Agytumor Szegmentálás MRI Képeken, Szaliencia alapú algoritmussal és Neurális Hálózatokkal, In: KÉPAF 2019. Képfeldolgozók és Alakfelismerők Társaságának 12. országos konferenciája, (2019) pp. 1-11., 2019
Kriston A, Czipczer V, Manno-Kovács A, Kovács L, Benedek Cs, Szirányi T: Segmentation of Multiple Organs in Computed Tomography and Magnetic Resonance Imaging Measurements, In: Háber, István Ervin; Bogdán, Csaba; Szőke, András (szerk.) Proceedings of the 4th International Interdisciplinary 3D Conference : Engineering Section - Pécs, Hungary, October 5-6, 2018, University of Pécs (2018) pp. 51-56., 2018
Manno-Kovacs A, Giusti E, Berizzi F, Kovács L: Automatic Target Classification in Passive ISAR Range-Crossrange Images, In: IEEE (szerk.) 2018 IEEE Radar Conference (Radarconf’18), IEEE (2018) pp. 206-211., 2018
Takács P, Manno-Kovács A: MRI Brain Tumor Segmentation Combining Saliency and Convolutional Network Features, In: IEEE (szerk.) CBMI 2018. Proceedings of the 2018 International Conference on Content-Based Multimedia Indexing, IEEE (2018) pp. 1-6., 2018
Takács P, Manno-Kovacs A: Brain Tumor Segmentation in MRI Data, In: Háber, István Ervin; Bogdán, Csaba; Szőke, András (szerk.) Proceedings of the 4th International Interdisciplinary 3D Conference : Engineering Section - Pécs, Hungary, October 5-6, 2018, University of Pécs (2018) pp. 68-74., 2018
Czipczer, V ; Manno-Kovacs, A: Automatic liver segmentation on CT images combining region-based techniques and convolutional features, 2019 International Conference on Content-Based Multimedia Indexing (CBMI), 2019




Back »