Értelmezett videó-tartalmak indexelése és visszakeresése
Title in English
Indexing and retrieval of interpreted video contents
Keywords in Hungarian
tartalom alapú indexelés, visszakeresés, videó adatbázis
Keywords in English
content based indexing, retrieval, video databases
Discipline
Information Technology (Council of Physical Sciences)
50 %
Ortelius classification: Applied informatics
Computing Science (Council of Physical Sciences)
45 %
Mathematics (Council of Physical Sciences)
5 %
Ortelius classification: Algorithms
Panel
Informatics and Electrical Engineering
Department or equivalent
HUN-REN Institute for Computer Science and Control
Starting date
2011-01-01
Closing date
2013-12-31
Funding (in million HUF)
12.070
FTE (full time equivalent)
2.40
state
closed project
Summary in Hungarian
Manapság a számítógép- és internet-használók nagy mennyiségű képet és videót halmoznak fel. Sokan olyan népszerű szolgáltatásokat használnak, mint a Flickr vagy a YouTube ezen tartalmak tárolására és keresésére, de ezek még nem kínálnak tartalom alapú keresési szolgáltatásokat. Így ezeken a nagy gyűjteményeken ma csak szöveges kérésekkel lehet keresni, a társított szöveges annotációk között, amelyeket a felhasználók, vagy – a YouTube esetén – automatikus feliratozás állítanak elő. A vonatkozó élenjáró rendszerek csak kisszámú tartalom-alapú leírót hasznosítanak a visszakeresésben, kismértékben értelmezési funkcióval társítva. Hatékony és szemantikus kereséshez szükség lenne olyan hatékony indexelési és visszakeresési megoldásokra, amelyek nagyszámú leírót tudnak kombinálni oly módon, hogy elkerülhető legyen a dimenzionalitási probléma; éppen ez a terület, amelyet ez a munka elsősorban megcéloz. Új indexelési, releváns leíró keresési, hatékony visszakeresési és vizualizációs megoldásokat szándékozunk kutatni, magas szinten értelmezett videó tartalmak kereséséhez. Nagy videó-adatbázisokat kezelő indexelési, keresési és vizualizációs kutatáson lesz a hangsúly. A fontosabb célok a következők: - új tulajdonság-kinyerési algoritmusok – a magas szintű értelmezés alapjaként - új indexelési struktúrák és algoritmusok (elméleti és demonstrációs) gyors, több tulajdonságot egyszerre kezelő keresésekhez - felhasználjuk az objektum szegmentációs és kinyerési eredményeket - új módszerek automatikus annotáláshoz, amelynek alapja a kinyert tulajdonságok értelmezése - új eredmény-vizualizációs módszerek - a fentiekre épülve, videó-értelmezési alapokon nyugvó visszakeresési keretrendszer
Summary
These days the vast majority of computer- and internet-using people have large collections of images and videos. Some use popular services like Flickr for images or YouTube for videos, but these are still not deploying content-based search capabilities. Thus, searching among these huge collections of visual content can currently only be done by performing textual queries on the database of hand-collected annotations, provided either by the users themselves, or – in the case of YouTube – by annotations coming from automatic speech recognition. Most of the related state of the art systems exploit only a limited amount of content-based features for retrieval, with very limited interpretative capabilities. For efficient and semantic searches one would need well performing indexing and retrieval schemes that can combine a large number of features in a way that circumvents the dimensionality curse, and this is one of the main issues we try to address here. New indexing, relevant feature selection, efficient retrieval and visualization methods will be researched, with the goal of searching interpreted video contents. We will focus on the research of new indexing, retrieval and visualization schemes for searches over large video pools. The main goals could be summarized as the following: - new feature extraction methods as the base for higher level interpretation - new indexing structures and algorithms (theoretical and proof-of-concept) supporting fast multi-feature queries - exploit results in object segmentation and extraction - methods for assigning automatic annotations based on the extracted features - new visualization methods of retrieved results - based on the above, a video retrieval framework based on content interpretation
Final report
Results in Hungarian
A kutatási munka elsődleges célpontja videók tartalom-alapú indexelési, visszakeresési és vizualizációs módszerei, kiemelt figyelmet fordítva tulajdonság-kinyerési módszerekre, indexelési struktúrákra, automatikus leíró-kiválasztásra, és vizualizációs lehetőségekre.
Új eredményeket értünk el és publikáltunk a következő témákban.
Új módszert vezettünk be leírók automatikus kiértékelésére és kiválasztására, ami gráf struktúrák viselkedésének elemzésén alapul. Vizsgálatokat folytattunk, majd lefektettük az alapjait egy automatikus képekre és videókra vonatkozó tulajdonság-leíró kiértékelési rendszernek. Bemutattunk egy olyan párhuzamos, leíró- és adat-független indexelési struktúrát, amely rugalmas és moduláris, és alkalmas nagyszámú leírók vizsgálatára és kiértékelésére.
Új eredményeket mutattunk be mobil eszközökön lokálisan végzett tartalom alapú minta-felismerésre és keresésre, ill. láthatósági gráfok kiértékelésén alapuló kép- és szenzor-adatokat feldolgozó algoritmusokra vonatkozóan.
Létrehoztunk egy olyan vizuális valós idejű detekciós és felismerési módszert, ami repülő objektumokat képes követni és felismerni alakzat- és textúra-információk fúziójával.
Bemutattunk egy vizualizációs keretrendszert, amely rugalmas, interaktív, képi és videó adatbázisokkal is használható, szöveges és minta alapú keresésekre is alkalmas, ill. lehetőséget ad vizuális böngészésre, adatok eloszlásainak megjelenítésére, adatok annotációjára ill. osztályozására.
Results in English
The main focus of this research work is on indexing, retrieval and visualization schemes for content-based retrieval over video pools, concentrating on feature extraction, indexing structures, automatic feature selection, descriptor evaluation, and visualization.
New results have been achieved and published in the following areas.
A new approach has been developed for descriptor evaluation and feature selection, based on graph structure analysis. We investigated and laid the foundations of an automatic image and video feature descriptor evaluation framework. A parallel data- and descriptor-independent indexing scheme has also been developed providing a flexible and modular indexing scheme for evaluating large descriptor sets.
New results have been presented regarding content based pattern recognition and retrieval and methods for local processing of image contents and associated sensor information on mobile devices based on vision graph analysis.
A visual detection and recognition method for flying targets was introduced, based on the fusion of shape and object texture information, for recognition and tracking.
A query, search and result visualization framework was created which is interactive and flexible, usable for image and video retrieval applications, providing text and model based search interface, visual browsing interface, distribution visualization interface based on content based features, annotation interface, and content classification.
L. Kovács: Shape retrieval and recognition on mobile devices, Proceedings of MUSCLE International Workshop on Computational Intelligence for Multimedia Understanding, Lecture Notes in Computer Science, Springer, 2011
A. Kovács, Á. Utasi, L. Kovács, T. Szirányi: Shape and texture fused recognition of flying targets, Proceedings of Signal Processing, Sensor Fusion, and Target Recognition XX, SPIE vol. 8050, pp. 80501E-1-12, 2011