|
Multimodális jellemzők fúziója új 3D szaliencia modellek kidolgozásához
|
súgó
nyomtatás
|
Ezen az oldalon az NKFI Elektronikus Pályázatkezelő Rendszerében nyilvánosságra hozott projektjeit tekintheti meg.
vissza »
|
|
Projekt adatai |
|
|
azonosító |
126688 |
típus |
KH |
Vezető kutató |
Manno-Kovács Andrea |
magyar cím |
Multimodális jellemzők fúziója új 3D szaliencia modellek kidolgozásához |
Angol cím |
Multimodal feature fusion for establishing novel 3D saliency models |
magyar kulcsszavak |
szaliencia, multimodális adatok, objektum detekció, gépi érzékelés |
angol kulcsszavak |
saliency, multimodal data, objektum detekció, machine perception |
megadott besorolás |
Informatika (Műszaki és Természettudományok Kollégiuma) | 100 % | Ortelius tudományág: Informatika |
|
zsűri |
Informatikai–Villamosmérnöki |
Kutatóhely |
HUN-REN Számítástechnikai és Automatizálási Kutatóintézet |
résztvevők |
Kovács Levente
|
projekt kezdete |
2017-12-01 |
projekt vége |
2019-11-30 |
aktuális összeg (MFt) |
19.252 |
FTE (kutatóév egyenérték) |
1.00 |
állapot |
lezárult projekt |
magyar összefoglaló A kutatás összefoglalója, célkitűzései szakemberek számára Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára. A gépi látás régóta kutatott területe a lényeges képi tartalom (szaliencia) elemzése, mely az adatfeldolgozás egyik első lépése. A szaliencia térkép célja azon képrészletek kiemelése, melyek leginkább felkeltik az egyén vizuális figyelmét. Egy hatékony és megbízható szaliencia modell számos további képfeldolgozási lépést elősegít és felgyorsít, például szegmentációt, vagy objektumosztályozási és felismerési feladatokat. A szenzortechnológia fejlődésével a szaliencia mérésében is egyre fontosabb a 3D-s információ. A biológiai megfigyelések bizonyították, hogy az emberi látásban kiemelt szerepe van a mélységinformációnak, mely a 3D szenzorok (pl. Microsoft Kinect, Lidar szenzorok) elterjedésének köszönhetően a gépi látásban is rendelkezésre áll. A multimodális (2D, 3D) érzékelők fúziójával a korábbi 2D színtér alapú ú.n. RGB szaliencia modellek helyett az RGB-D modellek válnak egyre hangsúlyosabbá, a szín- és mélységinformáció ötvözésével. Jelen kutatás célja, hogy a pályázat alapjául szolgáló közleményben publikált, 2D-s jellemzőkön alapuló képi tartalom kiemelése mellett kiterjessze a szaliencia modellezését 3D-s, multimodális adatokra is. A hatékony jellemzők kinyeréséhez és a modell építéséhez fontos a humán vizuális érzékelés vizsgálata, az alacsony szintű jellemzők fúziójához különböző konvolúciós, neurális hálózatok alkalmazása. Míg a pályázat alapját jelentő cikk csak a távérzékeléssel, mint alkalmazási területtel foglalkozott, jelen pályázat célja a 3D-s adatforrások bevonása mind a távérzékelés (Lidar szenzorok), mind az orvosi képalkotás (MRI, CT, stb.) területén. A projekt lehetőséget ad tehetséges diákok bevonására, elsősorban a PPKE ITK mesterképzéséből.
Mi a kutatás alapkérdése? Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek. A projekt fő célja az egyre szélesebb alkalmazási területen elérhetővé váló 3D-s szenzorok (Microsoft Kinect, Lidar, MRI, CT, stb.) jeleit feldolgozva és fuzionálva a képi modalitások adataival olyan új szaliencia modellek kidolgozása, melyek képesek automatikusan és hatékonyan kiemelni a vizuális figyelmet vonzó régiókat. A hatékony modell nemcsak leszűkíti a keresési teret a további képfeldolgozási lépésekhez, de egyúttal felgyorsíthatja és pontosíthatja a képszegmentáció eredményét, különös tekintettel olyan különböző alkalmazási területekre, ahol 3D-s szenzorok rendelkezésre állnak, pl. távérzékelés, orvosi képelemzés, 3D rekonstrukció és videofelügyeleti rendszerek. A munka egyik első feladata - a kutatócsoport korábbi eredményeit felhasználva - megvizsgálni, hogy a korábban kutatott jellemzők és modellek mennyire adaptálhatóak eltérő adatmodalitások és alkalmazási területek esetén. A fő feladat, a leírók közül kiválasztani azokat, melyek alkalmasak arra, hogy az új típusú, 3D-s mélységinformációval fuzionálva hatékonyan kiemeljék a kép vizuálisan feltűnő régióit, korábbi RGB alapú módszer helyett RGB-D alapú modellt építve. A különböző modalitású adatok feldolgozása során kiemelt kérdés, hogy milyen eljárások tudják a leghatékonyabban integrálni a kiválasztott 2D-3D jellemzőket, illetve, hogy a direkt, statisztikai módszerek helyett milyen összetettebb, az emberi látórendszer által inspirált interakciós mechanizmusok dolgozhatók ki.
Mi a kutatás jelentősége? Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának! A lényeges képi tartalom (szaliencia) automatikus feltérképezése a gépi látás egyik alapproblémája, így a projektben elért eredmények számos alkalmazásterületen hasznosíthatóak. A szaliencia megbízható becslése hozzájárul számos képfeldolgozási lépés hatékonyabbá tételéhez pl. képszegmentáció pontosításához, megbízhatóbb objektum detekcióhoz, felismeréshez és követéshez ill. nagy képi adatbázisok kezeléséhez (visszakeresés, relevanciabecslés). A multimodális jellemzők fúziója ill. 3D szaliencia modellek kidolgozása nemzetközi szinten is meglehetősen friss kutatási terület, amely 3D szenzorok jeleiből illetve új típusú 2D szenzorok jeleiből generált 3D adatokból keletkező mélységinformációt fuzionálja a korábban önállóan használt 2D RGB alapú jellemzőkkel ú.n. RGB-D modelleket kidolgozva. A 3D szenzorok elterjedésével és fejlődésével a 3D jellemzők vizsgálata és fuzionálása elengedhetetlen, ráadásul a jellemzők kibővített tartományán kívül az integrálásuk módjában is paradigmaváltás zajlik jelenleg, ugyanis a korábbi statisztikai módszereket a gépi tanulás alapú, humán-inspirált modellek váltják fel, így a projekt több szinten is új perspektívát nyithat. Az MTA SZTAKI-ban rendelkezésre álló szenzorrendszerek lehetővé teszik a különböző adatmodalitásokból származó jelek feldolgozását, nemzetközi szinten is versenyképes módon. A kutatócsoport korábbi tapasztalatai és nemzetközi kapcsolatai a szaliencia becslés terén a korábban kutatott távérzékelés mellett más területen is újdonságot hozhatnak. Társadalmi és tudományos hasznosíthatóságra lehetőséget biztosít a számos kapcsolódó alkalmazási terület (biztonság, távfelügyelet, távérzékelés, gépi látás, orvosi képfeldolgozás).
A kutatás összefoglalója, célkitűzései laikusok számára Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára. Napjainkban a 2D-s érzékelők (kamerák, fényképezőgépek, stb.) mellett egyre inkább megjelennek a 3D-s szenzorok, melyek ma már a hétköznapi ember számára is elérhetőek (pl. Microsoft Kinect). Ezek az érzékelők olyan 3D-s információt is képesek rögzíteni, melyek a korábbi 2D-s kamerákkal nem voltak elérhetők. Ilyen fontos adatmodalitás például a mélységinformáció. A lényeges képi tartalom (ú.n. szaliencia) automatikus feltérképezése a gépi látás egyik alapkérdése, melynek célja automatikusan megbecsülni, hogy egy humán megfigyelő hova nézne a képeken, melyek a vizuális figyelmet vonzó területek. Ahhoz, hogy a lényeges képi tartalom modellezése hatékony legyen, az emberi látást is segítő jellemzőkre kell építeni: pl. egy 2D-s képen a szín/kontraszt szempontjából kiemelkedő területeket feltérképezni. Az emberi látásban hasonlóan fontos 3D-s jellemző a mélységinformáció, mely a fent említett új típusú szenzorokkal ma már gépi látásban is rendelkezésre áll. A szín/kontraszt és mélység jellemzők fuzionálásával pontosabb automatikus becslés tehető, mely hozzásegít több képfeldolgozási lépés felgyorsításához és pontosításához. A 3D-s adatok egyre több alkalmazási területen érhetőek el, így pl. a távérzékelésben a Lidar szenzorok, a gyógyászatban az MRI, CT készülékekből származó adatok feldolgozását tudjuk segíteni az ilyen adatokat is beépítő, pontosabb szaliencia modellek kidolgozásával.
| angol összefoglaló Summary of the research and its aims for experts Describe the major aims of the research for experts. Saliency detection is a long standing problem in computer vision, which is an important preprocessing step of the data processing. A saliency map aims to emphasize image regions that most attract the human’s visual attention. An efficient and reliable saliency model supports and facilitates other image processing steps, like segmentation, object classification and detection tasks. With the progression of sensor technology, 3D information is becoming more and more important in saliency estimation. Depth cue plays an important role in human vision system, which was also confirmed by biological observations. With the novel 3D sensors (e.g. Microsoft Kinect, Lidar sensors), depth information is also available in machine vision. Thus, with the fusion of multimodal (2D, 3D) sensors, instead of previously used RGB models based on only 2D color information, RGB-D saliency models are becoming more relevant, fusing color and depth cue. Based on the detection of salient image content by 2D features, which was published in the journal paper (basis of the proposal), the aim of this project is to extend the saliency model to 3D multimodal data. To select efficient features for building such model, it is also important to investigate human visual system and apply convolutional neural networks for the fusion of low level features. Although the journal paper of the proposal concentrated on remote sensing as an application field, the aim of the present proposal is to also include 3D sensors in other application fields beside remote sensing (Lidar), such as medical imaging (MRI, CT). The proposal means a good opportunity to cooperate with talented students, mainly from the PPKE ITK.
What is the major research question? Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments. The project aims to process the data of novel 3D sensors (e.g. Microsoft Kinect, Lidar, MRI, CT) available in a wide range of application fields and to fuse them with 2D image modalities to build saliency models, which are able to automatically and efficiently emphasize visually dominant regions. Such models not only tighten the region of interest for further image processing steps, but facilitate and increase the efficiency of segmentation in different application fields with available 3D sensor data, e.g. remote sensing, medical imaging, 3D reconstruction and video surveillance systems. One of the first main tasks – based on the previous results of the research group – is to analyze whether the previously applied features and models are adaptable for novel data modalities and application areas. The main challenge is to select the applicable features which can be fused with novel, 3D depth cue to emphasize salient regions and to build an efficient RGB-D saliency model instead of the previously used RGB based model. When processing the data of different modalities, an efficient integration technique of the selected 2D and 3D features has to be searched and instead of direct, statistical fusion methods, more improved, interaction mechanisms inspired by the human vision system should be developed.
What is the significance of the research? Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field. Automatic saliency detection is a fundamental problem in computer vision; therefore the results of the present project are adaptable in various application fields. A reliable saliency estimation method can benefit numerous image processing tasks, e.g. accurate image segmentation, efficient object detection, recognition and tracking and processing large image databases (retrieval, relevance estimation). The fusion of multimodal features and the elaboration of 3D saliency models receive increasing international research attention, and the previously extracted 2D RGB features are combined with depth information acquired by 3D sensor data or generated from novel 2D sensor signals to build RGB-D models. With the recently emerged 3D sensing technologies, 3D information and feature fusion is a crucial task, moreover beside the feature range extension, the integration style is also evolving: instead of the previously used direct statistical methods, human-inspired, machine learning based techniques are applied, therefore the proposed research may consist of multiple level of improvement. Sensor systems available at MTA SZTAKI create the opportunity to acquire and process data from different sensor modalities, ensuring the high international competitiveness. The previous research experience and international collaborations of the research group in saliency detection support the novel research results in remote sensing and in other application areas as well. The various application fields (such as surveillance, monitoring, remote sensing, computer vision, medical imaging) ensure the social and scientific exploitation of the project results.
Summary and aims of the research for the public Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others. Beside existing 2D sensors (e.g. cameras and photo machine), there is a growing range of consumer-grade 3D sensors nowadays (e.g. Microsoft Kinect). These sensing technologies provide the ability to capture 3D information, which was not available before with 2D cameras. Such important 3D data modality is depth information. Automatic saliency detection is a fundamental problem in computer vision, which aims to automatically predict where human looks in the image and locate the image regions that most attract human’s visual attention. To estimate saliency efficiently, the model should apply low-level features inspired by human vision: e.g. calculate the salient image regions with distinctive color/contrast. Depth information is an important 3D feature in human vision system, which is also available now in machine vision with the aforementioned sensors. By fusing color/contrast and depth, saliency can be more accurately estimated, which helps to facilitate and increase the performance of further image processing steps. 3D data is available in multiple application areas, like remote sensing (Lidar sensors), medical imaging (MRI, CT), therefore by elaborating 3D saliency models, data processing in those areas can be improved.
|
|
|
|
|
|
|
vissza »
|
|
|