Learning visual categories

Help

Back »

Details of project

Identifier

76414

Type

Principal investigator

Szlávik, Zoltán

Title in Hungarian

Vizuális kategóriák tanulása

Title in English

Learning visual categories

Keywords in Hungarian

objektum detekció, objektum felismerés, objektumok kategorizálása

Keywords in English

object detection, object recognition, object categorisation

Discipline

Information Technology (Council of Physical Sciences)	100 %
Ortelius classification: Applied informatics

Panel

Informatics and Electrical Engineering

Department or equivalent

HUN-REN Institute for Computer Science and Control

Starting date

2008-10-01

Closing date

2011-10-31

Funding (in million HUF)

13.109

FTE (full time equivalent)

2.39

state

closed project

Summary in Hungarian

A jelenlegi kutatás elsődleges célja vizuális információt reprezentáló modellek kidolgozása integrálva a képi objektumok strukturális, megjelenési és mozgási jellemzőit. Véleményünk szerint ezen jellemzők integrálásával jelentősen javítható a jelenlegi képi kategerizáló és felismerő algoritmusok hatékonysága.
Az ember látórendszerének talán a leghasznosabb tulajdonsága az objektumok felismerésének és klasszifikációjának képessége. Egy pillantás alatt képesek vagyunk felmérni az objektumok szinte összes vizuális jellemzőjét. Képesek vagyunk különbséget tenni kategóriák között (pl. autók és emberek) és a kategóriák egyes elemei között (pl. a testvérünk arcát az apánk arcától) is. Ezzel ellentétben, a jelenlegi számítógépes rendszerek teljesítménye nagyon messze vannak az emberekétől a megtanulható kategóriák számát, a feldolgozás sebességét valamint az új kategóriák tanulásának egyszerűségét illetően.
Az emberi felismerési képességek számítógépek általi másolása alapjaiban változtathatja meg a mindennapi életünket. A lehetséges alkalmazások sora szinte végtelen; kezdve az egészségügyi alkalmazásoktól, a robotikán, az autonóm járművek fejlesztésén át a különböző biztonságtechnikai alkalmazásokig stb.
A kutatásunk során az objektumok megjelenésének és struktúrájának egy- és több-nézeti modellezésével, különböző vizuális jellemzők egységes modellbe való integrálásával, statisztikai tanulóalgoritmusok alkalmazásával valamint objektumok és események kategorizálásával kívánunk foglalkozni.

Summary

The primary goal of present work is to develop methods for the representation of visual information that integrates appearance, structure and motion visual cues. We believe that this integration can increase current performance of visual information categorization and recognition methods.
The ability to detect and classify objects and object categories is one of the most useful functions of our visual system. We recognize almost all visual properties of objects and scenes at a glance. We are able to learn to discriminate between object categories (e.g. people from cars) and within them (e.g. face of father from face of brother within the category of faces). At the same time, the best algorithmic methods are far from human abilities in number of categories learned, in classification speed, in the ease and flexibility of learning new categories.
Replicating humans' abilities of learning and recognition of object categories would revolutionize our everyday life. The list of possible applications that could be developed based on more efficient object category recognition technologies would contain hundreds of items, e.g. security, personalized healthcare, personal robots, design of autonomous cars and many more.
During the research we will work on methods for representation of appearance and structure of visual information from single and multiple views, on models for the analysis and integration of different visual cues, on the application of statistical learning methods for categories and on methods for categorization of objects and actions (events).

Final report

Results in Hungarian

A jelenlegi kutatás elsődleges célja vizuális információt reprezentáló modellek kidolgozása volt integrálva a képi objektumok strukturális és megjelenési jellemzőit. A kutatásunk során az objektumok megjelenésének és struktúrájának egy- és több-nézeti modellezésével, különböző vizuális jellemzők egységes modellbe való integrálásával, statisztikai tanulóalgoritmusok alkalmazásával valamint objektumok kategorizálásával foglalkoztunk. A kidolgozott kategorizáló eljárásokat járműtípusok felismerésére valamint arcképek nemek és érzelmek alapján történő osztályozására alkalmaztuk. Az elért eredmények alapján kijelenthető, hogy ezen jellemzők integrálásával jelentősen javítható a klasszikus képi kategerizáló és felismerő algoritmusok hatékonysága.

Results in English

The primary goal of present work was to develop methods for the representation of visual information that integrates appearance and structure visual cues. During our research we dealt with modelling objects' appearance and structure from single and multiple views, integrating different visual cues into single models, applying statistical learning algorithms and with object categorization. The developed methods were applied to categorization of cars by type, faces by gender and emotion. The obtained results demonstrate that this kind of integration of visual cues increases the performance of classic visual information categorization and recognition methods.

Full text

https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=76414

Decision

Yes

List of publications

Dömötör Molnár, Szlávik Zoltán: Joint Boosting of Histogram Like Features for the Generic Recognition of Object Classes and Subclasses, Proceedings of CogInfoCom 2011, 2011

László Havasi, Szlávik Zoltán: A Method for Object Localization in a Multiview Multimodal Camera System, Proceedings of CVPR OTCBVS, 2011, 2011

Havasi László, Szlávik Zoltán: A statistical method for object localization in multi-camera systems, KÉPAf 2011 konferenciakiadvány, 2011

Havasi László, Szlávik Zoltán: A STATISTICAL METHOD FOR OBJECT LOCALIZATION IN MULTI-CAMERA TRACKING, ICIP 2010, 2010

Havasi László, Szlávik Zoltán: Using location and motion statistics for the localization of moving objects in multiple camera surveillance videos, ICCV VS 2009 Proceedings, 2009

Back »