Vizuális kategóriák tanulása

súgó

nyomtatás

vissza »

Projekt adatai

azonosító

76414

típus

Vezető kutató

Szlávik Zoltán

magyar cím

Vizuális kategóriák tanulása

Angol cím

Learning visual categories

magyar kulcsszavak

objektum detekció, objektum felismerés, objektumok kategorizálása

angol kulcsszavak

object detection, object recognition, object categorisation

megadott besorolás

Informatika (Műszaki és Természettudományok Kollégiuma)	100 %
Ortelius tudományág: Alkalmazott informatika

zsűri

Informatikai–Villamosmérnöki

Kutatóhely

HUN-REN Számítástechnikai és Automatizálási Kutatóintézet

projekt kezdete

2008-10-01

projekt vége

2011-10-31

aktuális összeg (MFt)

13.109

FTE (kutatóév egyenérték)

2.39

állapot

lezárult projekt

magyar összefoglaló

A jelenlegi kutatás elsődleges célja vizuális információt reprezentáló modellek kidolgozása integrálva a képi objektumok strukturális, megjelenési és mozgási jellemzőit. Véleményünk szerint ezen jellemzők integrálásával jelentősen javítható a jelenlegi képi kategerizáló és felismerő algoritmusok hatékonysága.
Az ember látórendszerének talán a leghasznosabb tulajdonsága az objektumok felismerésének és klasszifikációjának képessége. Egy pillantás alatt képesek vagyunk felmérni az objektumok szinte összes vizuális jellemzőjét. Képesek vagyunk különbséget tenni kategóriák között (pl. autók és emberek) és a kategóriák egyes elemei között (pl. a testvérünk arcát az apánk arcától) is. Ezzel ellentétben, a jelenlegi számítógépes rendszerek teljesítménye nagyon messze vannak az emberekétől a megtanulható kategóriák számát, a feldolgozás sebességét valamint az új kategóriák tanulásának egyszerűségét illetően.
Az emberi felismerési képességek számítógépek általi másolása alapjaiban változtathatja meg a mindennapi életünket. A lehetséges alkalmazások sora szinte végtelen; kezdve az egészségügyi alkalmazásoktól, a robotikán, az autonóm járművek fejlesztésén át a különböző biztonságtechnikai alkalmazásokig stb.
A kutatásunk során az objektumok megjelenésének és struktúrájának egy- és több-nézeti modellezésével, különböző vizuális jellemzők egységes modellbe való integrálásával, statisztikai tanulóalgoritmusok alkalmazásával valamint objektumok és események kategorizálásával kívánunk foglalkozni.

angol összefoglaló

The primary goal of present work is to develop methods for the representation of visual information that integrates appearance, structure and motion visual cues. We believe that this integration can increase current performance of visual information categorization and recognition methods.
The ability to detect and classify objects and object categories is one of the most useful functions of our visual system. We recognize almost all visual properties of objects and scenes at a glance. We are able to learn to discriminate between object categories (e.g. people from cars) and within them (e.g. face of father from face of brother within the category of faces). At the same time, the best algorithmic methods are far from human abilities in number of categories learned, in classification speed, in the ease and flexibility of learning new categories.
Replicating humans' abilities of learning and recognition of object categories would revolutionize our everyday life. The list of possible applications that could be developed based on more efficient object category recognition technologies would contain hundreds of items, e.g. security, personalized healthcare, personal robots, design of autonomous cars and many more.
During the research we will work on methods for representation of appearance and structure of visual information from single and multiple views, on models for the analysis and integration of different visual cues, on the application of statistical learning methods for categories and on methods for categorization of objects and actions (events).

Zárójelentés

kutatási eredmények (magyarul)

A jelenlegi kutatás elsődleges célja vizuális információt reprezentáló modellek kidolgozása volt integrálva a képi objektumok strukturális és megjelenési jellemzőit. A kutatásunk során az objektumok megjelenésének és struktúrájának egy- és több-nézeti modellezésével, különböző vizuális jellemzők egységes modellbe való integrálásával, statisztikai tanulóalgoritmusok alkalmazásával valamint objektumok kategorizálásával foglalkoztunk. A kidolgozott kategorizáló eljárásokat járműtípusok felismerésére valamint arcképek nemek és érzelmek alapján történő osztályozására alkalmaztuk. Az elért eredmények alapján kijelenthető, hogy ezen jellemzők integrálásával jelentősen javítható a klasszikus képi kategerizáló és felismerő algoritmusok hatékonysága.

kutatási eredmények (angolul)

The primary goal of present work was to develop methods for the representation of visual information that integrates appearance and structure visual cues. During our research we dealt with modelling objects' appearance and structure from single and multiple views, integrating different visual cues into single models, applying statistical learning algorithms and with object categorization. The developed methods were applied to categorization of cars by type, faces by gender and emotion. The obtained results demonstrate that this kind of integration of visual cues increases the performance of classic visual information categorization and recognition methods.

a zárójelentés teljes szövege

https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=76414

döntés eredménye

igen

Közleményjegyzék

Dömötör Molnár, Szlávik Zoltán: Joint Boosting of Histogram Like Features for the Generic Recognition of Object Classes and Subclasses, Proceedings of CogInfoCom 2011, 2011

László Havasi, Szlávik Zoltán: A Method for Object Localization in a Multiview Multimodal Camera System, Proceedings of CVPR OTCBVS, 2011, 2011

Havasi László, Szlávik Zoltán: A statistical method for object localization in multi-camera systems, KÉPAf 2011 konferenciakiadvány, 2011

Havasi László, Szlávik Zoltán: A STATISTICAL METHOD FOR OBJECT LOCALIZATION IN MULTI-CAMERA TRACKING, ICIP 2010, 2010

Havasi László, Szlávik Zoltán: Using location and motion statistics for the localization of moving objects in multiple camera surveillance videos, ICCV VS 2009 Proceedings, 2009

vissza »