Vision-based image retrieval (VBIR) : a new eye-tracking based approach to efficient and intuitive image retrieval

Essig K (2007)
Bielefeld (Germany): Bielefeld University.

Download
OA
Bielefeld Dissertation | English
Author
Supervisor
Ritter, Helge (Prof. Dr.)
Abstract
Die vorliegende Arbeit beschreibt einen neuen Ansatz für die inhaltsbasierte Suche von Bildern in Datenbanken auf Basis von Blickbewegungsmessungen. Im Vision-Based Image Retrieval (VBIR) werden die Bilder in 16 gleich große Sektoren unterteilt, für die jeweils lokale Farb-, Form- und Texturmerkmale berechnet werden. Das Besondere am VBIR-Ansatz ist die dynamische Gewichtung lokaler Bildmerkmale (Bottom-Up Informationen) aus Aufmerksamkeitslandschaften online erfasster Blickdaten (Top-Down Informationen). Auf diese Weise passt sich das System den Präferenzen des Benutzers an. In den folgenden Suchprozessen werden dann solche Bilder ausgewählt, die dem gesuchten Bild in den bevorzugten Sektoren und Bildeigenschaften am ähnlichsten sind. Das neue System wurde in zwei Studien evaluiert, deren Ergebnisse vorgestellt werden: zum einen wird der neue Ansatz mit einem klassischen Bildsuchsystem (CBIR) verglichen. Zum anderen werden die Suchergebnisse beider Ansätze gemäß menschlichen Ähnlichkeitsbewertungen beurteilt. Die Ergebnisse belegen, dass mit dem VBIR-System eine höhere Erfolgsquote bei kürzeren mittleren Suchzeiten erreicht werden kann. Darüber hinaus werden die gefundenen Bilder als ähnlicher zum Anfragebild bewertet als beim CBIR-System. Bei der Umsetzung der Bildsuchsysteme werden zwei zentrale Aspekte für deren Gestaltungsprozess, nämlich die Bestimmung der optimalen Gewichtung der Bildmerkmale und die Merkmalsevaluierung, genauer untersucht. Dabei wird die optimale Gewichtung der eingesetzten Merkmalstypen mittels Shannon-Entropie aus Distanzhistogrammen berechnet. Im Gegensatz zu den üblichen Ansätzen, die iterativ die Einzelgewichtungen manuell anpassen, erfordert dieses Verfahren lediglich einen Rechendurchgang. Die Evaluation der Bildmerkmale erfolgt über ein Lernverfahren, eine Selbstorganisierende Merkmalskarte (SOM), welche Bilder gemäß ihrer Merkmalsähnlichkeit auf einem 2D Gitter anordnet. Die Arbeit schließt mit der Beschreibung von Computermodellen, mit denen die Suchprozesse für beide Bildsuchverfahren (VBIR und CBIR) in wesentlichen Zügen nachgebildet werden. Mittels eines weiteren, separaten Modells wird evaluiert, wie die verschiedenen Bildeigenschaften die Aufmerksamkeit der Probanden steuern.

This thesis presents a novel eye-movement based approach to image retrieval. Following a so-called Vision-Based Image Retrieval (VBIR) approach, images are divided into 16 equally sized tiles. Local colour, shape and texture features are calculated for each tile. A special feature of VBIR is the dynamical adjustment of the weights of the local image features (bottom-up information) on the basis of fixation maps. These maps are calculated online from participants' eye movements (top-down information). Thus, in the course of the retrieval process, the system adapts closer to users' preferences and finds images that are most similar to the query image in the preferred image tiles and features. In order to evaluate the performance of the VBIR system, two experiments are conducted: for one, the new approach is compared to a classical Content-Based Image Retrieval System (CBIRS) with regard to performance and reaction times. For another, the retrieval results of both approaches are evaluated with respect to participants' overall impression of similarity. The results reveal not only better retrieval performances and lower average reaction times in case of the VBIR system, but also higher ratings for the similarity between the systems' retrieval results and the corresponding query images. Two central aspects in the design process of retrieval systems are analysed: the estimation of the optimal feature weights and the evaluation of the chosen image features. The optimal feature weight combination is calculated from feature distance histograms using Shannon's entropy measure. The advantage of this method is that it requires only a single computation loop to find the optimal feature weights instead of an iterative loop of user inputs. The feature evaluation method applies a learning algorithm, the self-organizing map (SOM), which arranges images on a 2D grid according to the similarities in their feature vectors. This thesis concludes with a description of computer models simulating retrieval processes of both approaches (VBIR and CBIRS). A second, separate model evaluates the influence of different image features on participants' attention distribution.
Year
PUB-ID

Cite this

Essig K. Vision-based image retrieval (VBIR) : a new eye-tracking based approach to efficient and intuitive image retrieval. Bielefeld (Germany): Bielefeld University; 2007.
Essig, K. (2007). Vision-based image retrieval (VBIR) : a new eye-tracking based approach to efficient and intuitive image retrieval. Bielefeld (Germany): Bielefeld University.
Essig, K. (2007). Vision-based image retrieval (VBIR) : a new eye-tracking based approach to efficient and intuitive image retrieval. Bielefeld (Germany): Bielefeld University.
Essig, K., 2007. Vision-based image retrieval (VBIR) : a new eye-tracking based approach to efficient and intuitive image retrieval, Bielefeld (Germany): Bielefeld University.
K. Essig, Vision-based image retrieval (VBIR) : a new eye-tracking based approach to efficient and intuitive image retrieval, Bielefeld (Germany): Bielefeld University, 2007.
Essig, K.: Vision-based image retrieval (VBIR) : a new eye-tracking based approach to efficient and intuitive image retrieval. Bielefeld University, Bielefeld (Germany) (2007).
Essig, Kai. Vision-based image retrieval (VBIR) : a new eye-tracking based approach to efficient and intuitive image retrieval. Bielefeld (Germany): Bielefeld University, 2007.
Main File(s)
Access Level
OA Open Access

This data publication is cited in the following publications:
This publication cites the following data publications:

Export

0 Marked Publications

Open Data PUB

Search this title in

Google Scholar