1,721,060 research outputs found
Design, Implementation and Evaluation of a Methodology for Utilizing Sources of Evidence in Relevance Feedback
The objective of an Information Retrieval system is to support the user when he searches for information by predicting the documents relevant to his information need. Prediction is performed on the basis of evidence available during the search process.
User interactions are examples of sources from which this evidence can be gathered. This thesis addresses the problem of uniformly modeling heterogeneous forms of user interaction that are selected as sources for feedback. The problem of uniform source modeling is addressed by way of a complete methodology. The methodology aims at designing, implementing and evaluating a system that validates an experimental hypothesis. The hypothesis being validated regards the possible factors that can explain the user perception of relevance through the evidence gathered from the user interaction. The objective is to obtain and exploit a usable representation of the factors in the role of a new dimension of the information need representation.
The methodology aims at being general and not tailored to a specific source.
The methodology defines the set of steps needed for obtaining a vector subspace-based representation of the information need dimensions to further exploit
this representation for relevance prediction purposes. The set of steps identified are source selection, evidence collection, dimension modeling, document modeling and prediction.
This thesis shows how the methodology can be used for modeling two sources of evidence: term relationship in documents judged as relevant and the relationship between interaction features gathered from the behavior of the user when interacting with a set of documents. As for the term relationship dimension, this thesis shows that the current implementation of term relationship is feasible with a very large text collection delivered within the 2009 and 2010 Relevance Feedback tracks of the Text Retrieval Conference initiative. The methodology has supported the evaluation of term relationship for document re-ranking. As for interaction feature relationships, this thesis investigates the adoption of the user behavior dimension for document re-ranking both without query expansion and with query expansion.L'obiettivo di un sistema di reperimento dell'informazione è quello di supportare l'utente in cerca di informazioni predicendo quali documenti siano rilevanti per la sua esigenza informativa. La predizione di rilevanza è effettuata sulla base dell'evidenza disponibile durante il processo
di reperimento. Le interazioni che coivolgono l'utente sono esempi di sorgenti di evidenza.
Questa tesi affronta il problema della modellazione uniforme di forme eterogenee di interazione utilizzate come sorgenti di retroazione. Il problema della modellazione uniforme delle sorgenti è affrontato mediante l'introduzione di una metodologia, finalizzata alla progettazione, la realizzazione e la valutazione di un sistema per validare ipotesi sperimentali. Le ipotesi riguardano i possibili fattori che possano spiegare la percezione di rilevanza dell'utente sulla base dell'evidenza ottenuta da interazioni che coinvolgano l'utente stesso. L'obiettivo è quello di ottenere una rappresentazione dei
fattori che possa essere utilizzata come una nuova dimensione della rappresentazione dell'esigenza informativa.
La metodologia si propone di essere generale e non specifica per una particolare sorgente.
Essa definisce una serie di passi necessari per ottenere una rappresentazione in termini di sottospazi delle dimensioni della rappresentazione dell'esigenza informativa per poi utilizzare tale rappresentazione al fine della predizione.
La tesi applica la metodologia per modellare due sorgenti di evidenza: le relazioni tra i termini nei documenti giudicati rilevanti e la relazione
tra attributi utilizzati per caratterizzare il comportamento dell'utente durante l'interazione con i documenti. In merito alla relazione tra i termini questa tesi mostra come la attuale implementazione per questa sorgente possa essere utilizzata per effettuare il reperimento su collezioni molto ampie, in particolare quelle adottate nelle campagne di valutazione dell'iniziativa Text Retrieval Conference, nello specifico nelle track di Relevance Feedback
tenutesi nel 2009 e nel 2010. La metodologia ha consentito di supportare la valutazione del riordinamento dei documenti basato sulle relazioni tra i termini.
In merito alle relazioni tra attributi per caratterizzare il comportamento dell'utente questa tesi investiga l'utilizzo di una dimensione basata su tale sorgente per effettuare un riordinamento dei documenti sia unicamente basato sul comportamento, sia mediante espansione dell'interrogazione
Exploiting individual users and user groups interaction features: methodology and infrastructure design
An Efficient Identification Methodology for Improved Access to Music Heritage Collections
A comprehensive methodology for automatic music identification is presented. The main application of the proposed approach is to provide tools to enrich and validate the descriptors of recordings digitized by a sound archive institution. Experimentation has been carried out on three different datasets, including a collection of digitized vinyl discs, although the methodology is not linked to a particular recording carrier. Automatic identification allows a music digital library to retrieve metadata about music works even if the information was incomplete or missing at the time of the acquisition. Automatic segmentation of digitized material is obtained as a byproduct of identification, allowing the music digital library to grant access to individual tracks, even if discs are digitized using a single file for a complete disc side. Results show that the approach is both efficient and effective
A Document Retrieval Model Based on Digital Signal Filtering
Information retrieval (IR) systems are designed, in general, to satisfy the information need of a user who expresses it by means of a query, by providing him with a subset of documents selected from a collection and ordered by decreasing relevance to the query. Such systems are based on IR models, which define how to represent the documents and the query, as well as how to determine the relevance of a document for a query. In this article, we present a new IR model based on concepts taken from both IR and digital signal processing (like Fourier analysis of signals and filtering). This allows the whole IR process to be seen as a physical phenomenon, where the query corresponds to a signal, the documents correspond to filters, and the determination of the relevant documents to the query is done by filtering that signal. Tests showed that the quality of the results provided by this IR model is comparable with the state-of-the-art
- …
