Learning visual categories  Page description

Help  Print 
Back »

 

Details of project

 
Identifier
76414
Type PD
Principal investigator Szlávik, Zoltán
Title in Hungarian Vizuális kategóriák tanulása
Title in English Learning visual categories
Keywords in Hungarian objektum detekció, objektum felismerés, objektumok kategorizálása
Keywords in English object detection, object recognition, object categorisation
Discipline
Information Technology (Council of Physical Sciences)100 %
Ortelius classification: Applied informatics
Panel Informatics and Electrical Engineering
Department or equivalent HUN-REN Institute for Computer Science and Control
Starting date 2008-10-01
Closing date 2011-10-31
Funding (in million HUF) 13.109
FTE (full time equivalent) 2.39
state closed project
Summary in Hungarian
A jelenlegi kutatás elsődleges célja vizuális információt reprezentáló modellek kidolgozása integrálva a képi objektumok strukturális, megjelenési és mozgási jellemzőit. Véleményünk szerint ezen jellemzők integrálásával jelentősen javítható a jelenlegi képi kategerizáló és felismerő algoritmusok hatékonysága.
Az ember látórendszerének talán a leghasznosabb tulajdonsága az objektumok felismerésének és klasszifikációjának képessége. Egy pillantás alatt képesek vagyunk felmérni az objektumok szinte összes vizuális jellemzőjét. Képesek vagyunk különbséget tenni kategóriák között (pl. autók és emberek) és a kategóriák egyes elemei között (pl. a testvérünk arcát az apánk arcától) is. Ezzel ellentétben, a jelenlegi számítógépes rendszerek teljesítménye nagyon messze vannak az emberekétől a megtanulható kategóriák számát, a feldolgozás sebességét valamint az új kategóriák tanulásának egyszerűségét illetően.
Az emberi felismerési képességek számítógépek általi másolása alapjaiban változtathatja meg a mindennapi életünket. A lehetséges alkalmazások sora szinte végtelen; kezdve az egészségügyi alkalmazásoktól, a robotikán, az autonóm járművek fejlesztésén át a különböző biztonságtechnikai alkalmazásokig stb.
A kutatásunk során az objektumok megjelenésének és struktúrájának egy- és több-nézeti modellezésével, különböző vizuális jellemzők egységes modellbe való integrálásával, statisztikai tanulóalgoritmusok alkalmazásával valamint objektumok és események kategorizálásával kívánunk foglalkozni.
Summary
The primary goal of present work is to develop methods for the representation of visual information that integrates appearance, structure and motion visual cues. We believe that this integration can increase current performance of visual information categorization and recognition methods.
The ability to detect and classify objects and object categories is one of the most useful functions of our visual system. We recognize almost all visual properties of objects and scenes at a glance. We are able to learn to discriminate between object categories (e.g. people from cars) and within them (e.g. face of father from face of brother within the category of faces). At the same time, the best algorithmic methods are far from human abilities in number of categories learned, in classification speed, in the ease and flexibility of learning new categories.
Replicating humans' abilities of learning and recognition of object categories would revolutionize our everyday life. The list of possible applications that could be developed based on more efficient object category recognition technologies would contain hundreds of items, e.g. security, personalized healthcare, personal robots, design of autonomous cars and many more.
During the research we will work on methods for representation of appearance and structure of visual information from single and multiple views, on models for the analysis and integration of different visual cues, on the application of statistical learning methods for categories and on methods for categorization of objects and actions (events).





 

Final report

 
Results in Hungarian
A jelenlegi kutatás elsődleges célja vizuális információt reprezentáló modellek kidolgozása volt integrálva a képi objektumok strukturális és megjelenési jellemzőit. A kutatásunk során az objektumok megjelenésének és struktúrájának egy- és több-nézeti modellezésével, különböző vizuális jellemzők egységes modellbe való integrálásával, statisztikai tanulóalgoritmusok alkalmazásával valamint objektumok kategorizálásával foglalkoztunk. A kidolgozott kategorizáló eljárásokat járműtípusok felismerésére valamint arcképek nemek és érzelmek alapján történő osztályozására alkalmaztuk. Az elért eredmények alapján kijelenthető, hogy ezen jellemzők integrálásával jelentősen javítható a klasszikus képi kategerizáló és felismerő algoritmusok hatékonysága.
Results in English
The primary goal of present work was to develop methods for the representation of visual information that integrates appearance and structure visual cues. During our research we dealt with modelling objects' appearance and structure from single and multiple views, integrating different visual cues into single models, applying statistical learning algorithms and with object categorization. The developed methods were applied to categorization of cars by type, faces by gender and emotion. The obtained results demonstrate that this kind of integration of visual cues increases the performance of classic visual information categorization and recognition methods.
Full text https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=76414
Decision
Yes





 

List of publications

 
Dömötör Molnár, Szlávik Zoltán: Joint Boosting of Histogram Like Features for the Generic Recognition of Object Classes and Subclasses, Proceedings of CogInfoCom 2011, 2011
László Havasi, Szlávik Zoltán: A Method for Object Localization in a Multiview Multimodal Camera System, Proceedings of CVPR OTCBVS, 2011, 2011
Havasi László, Szlávik Zoltán: A statistical method for object localization in multi-camera systems, KÉPAf 2011 konferenciakiadvány, 2011
Havasi László, Szlávik Zoltán: A STATISTICAL METHOD FOR OBJECT LOCALIZATION IN MULTI-CAMERA TRACKING, ICIP 2010, 2010
Havasi László, Szlávik Zoltán: Using location and motion statistics for the localization of moving objects in multiple camera surveillance videos, ICCV VS 2009 Proceedings, 2009




Back »