1,720,994 research outputs found

    Hybrid query scheduling for a replicated search engine

    Full text link
    Search engines use replication and distribution of large indices across many query servers to achieve efficient retrieval. Under high query load, queries can be scheduled to replicas that are expected to be idle soonest, facilitated by the use of predicted query response times. However, the overhead of making response time predictions can hinder the usefulness of query scheduling under low query load. In this paper, we propose a hybrid scheduling approach that combines the scheduling methods appropriate for both low and high load conditions, and can adapt in response to changing conditions. We deploy a simulation framework, which is prepared with actual and predicted response times for real Web search queries for one full day. Our experiments using different numbers of shards and replicas of the 50 million document ClueWeb09 corpus show that hybrid scheduling can reduce the average waiting times of one day of queries by 68% under high load conditions and by 7% under low load conditions w.r.t. traditional scheduling methods

    Arquitectura de datos avanzada de un directorio web, con optimización de consultas restringidas a una zona del grafo de categorías

    Full text link
    [Resumen] Desde su origen, el World Wide Web ha sufrido un crecimiento exponencial que ha generado un gran volumen de información heterogénea accesible para cualquier usuario, Esto ha llevado a la utilización de herramientas eficientes para gestionar, recuperar y filtrar dicha información. En concreto, los directorios Web son taxonomías que clasifican documentos web, sobre los que posteriormente se realizarán consultas. Este tipo de sistemas de recuperación de información presenta un tipo específico de búsquedas, en donde la colección de documentos está restringida a una zona del grafo de categorías. Esta disertación presenta una arquitectura de datos específica para directorios Web que permite mejorar el rendimiento ante búsquedas restringidas. Dicha arquitectura se basa en una estructura de datos híbrida, constituida por un fichero invertido conteniendo embebido múltiples ficheros de firmas. En base al modelo propuesto se definen dos variantes: la arquitectura híbrida con información total y la arquitectura híbrida con información parcial. La valiez de esta arquitectura ha sido analizada mediante el desarrollo de ambas variantes para su comparación con un modelo básico, demostrando una clara mejoría en el rendimiento de las consultas restringidas, destacando especialmente el modelo híbrido con información parcial al responder adecuadamente bajo cualquier carga del sistema de búsqueda. A nivel general, la arquitectura propuesta se caracteriza por su facilidad de implementación, derivada de las estructuras de datos empleadas, su flexibilidad respecto al crecimiento del sistema y especialmente, por el buen rendimiento ofrecido ante búsquedas restringidas

    Introducción a los modelos clásicos de Recuperación de Información

    No full text
    In this article main features of the classic models of information retrieval are smmarized. On the one hand, Boolean model is the simplest of these models, which implies that the quality of their results can be improved significantly. The probabilistc model provides a essential theoretical model in the filed of information retrieval, based on probability theory, trying to interpret all the uncertainty surrounding the process of IR. The vectorial model considers a document (an the query) as vectors of terms and calculate its similarity in an space of dimensions.En este artículo se sintetizan las principales características de los modelos clásicos de Recuperación de Información (RI). Por una parte, el modelo booleano constituye el más simple de estos modelos, lo que conlleva que la calidad de sus resultados puede ser mejorada sensiblemente. El modelo probabilística establece un modelo teórico fundamental dentro del campo de la RI basado en la teoría de probabilidades, intentando interpretar toda la incertidumbre que rodea el proceso de RI. El modelo vectorial se basa en considerar a los documentos (y las consultas) como vectores de términos y calcular su similitud en un espacio de n dimensiones

    Going Beyond Counting First Authors in Author Co-citation Analysis

    Full text link
    The present study examines one of the fundamental aspects of author co-citation analysis (ACA) - the way co-citation counts are defined. Co-citation counting provides the data on which all subsequent statistical analyses and mappings are based, and we compare ACA results based on two different types of co-citation counting - the traditional type that only counts the first one among a cited work's authors on the one hand and a non-traditional type that takes into account the first 5 authors of a cited work on the other hand. Results indicate that the picture produced through this non-traditional author co-citation counting contains more coherent author groups and is therefore considerably clearer. However, this picture represents fewer specialties in the research field being studied than that produced through the traditional first-author co-citation counting when the same number of top-ranked authors is selected and analyzed. Reasons for these effects are discussed

    Metrics and techniques for early detection in cybersecurity

    Full text link
    Resumo] A importancia da detección temperá aumentou nos últimos anos conforme as redes de comunicacións pasaron a formar parte da vida diaria, e por tanto os perigos que supón aumentaron. Neste sentido, non só a seguridade das redes de comunicacións, sistemas e protección de datos están en perigo, senón tamén os seus usuarios. Coa proliferación das comunidades en liñaa e das redes sociais, os comportamentos que xa supoñían un problema atoparon unha plataforma que intensifica as súas capacidades, superando as limitacións do mundo físico. As probabilidades de producir un dano increméntanse no tempo para calquera tipo de ameaza de seguridade, polo tanto, canto antes se detecte e deteña, as probabilidades de mitigar os problemas xerados aumentan. Neste sentido, o ciberacoso converteuse nun problema urxente na Internet, especialmente nas redes sociais. Para abordar este problema deben definirse procedementos de detección temperá tanto en relación a métodos de detección coma métricas para medir o seu rendemento dende o punto de vista da detección consciente do tempo. Co obxectivo de alcanzar isto, por unha parte o problema da detección temperá definiuse formalmente e estudáronse diversas alternativas para a súa avaliación. En canto as métricas de detección temperá, estudáronse métricas de última xeración como Early Risk Detection Error (ERDE) e F-latency e propuxéronse alternativas coma Nor-malizedERDE, Time aware Precision (TaP) e Time aware F-score (TaF) para resolver problemas detectados nas outras métricas. Para mellorar os resul-tados obtidos coa utilización das métricas conscientes do tempo preséntanse tres modelos: de punto fixo, limiar e dual. Ademais, estudouse a incorpo-ración de conxuntos de características para a detección temperá do ciberacoso en redes sociais: Doc2Vec e Multiple Instance Learning.[Resumen] La importancia de la detección temprana ha aumentado en los últimos años conforme las redes de comunicaciones han pasado a formar parte de la vida diaria, y por tanto los peligros que conllevan han aumentado. En ese sentido, no solo la seguridad de las redes de comunicaciones, sistemas y protección de datos están en peligro, si no también sus usuarios. Con la proliferación de las comunidades en línea y las redes sociales, aquellos comportamientos que ya suponían un problema han encontrado una plataforma que intensifica sus capacidades, superando las limitaciones del mundo físico. Las probabilidades de producir un daño se incrementan en el tiempo para cualquier tipo de amenaza de seguridad, por tanto, cuanto antes se detecte y detenga, las probabilidades de mitigar los problemas generados aumentan. En este sentido, el ciberacoso se ha convertido en un problema urgente en Inter-net, especialmente en las redes sociales. Para abordar este problema han de definirse procedimientos de detección temprana tanto en cuanto a métodos de detección como a métricas para medir su rendimiento desde el punto de vista de la detección consciente del tiempo. Con el objetivo de alcanzar esto, por una parte, el problema de la detección temprana se ha definido formalmente y se han estudiado diversas alternativas para su evaluación. En cuanto a las métricas de detección temprana, se han estudiado métricas de última generación como Early Detection Risk Error (ERDE) y F-latency y se han propuesto alternativas como NormalizedERDE, Time aware Precision (TAP) y Time aware F-score (TAF) para resolver problemas detectados en las otras métricas. Para mejorar los resultados obtenidos con la utilización de las métricas conscientes del tiempo se presentan tres modelos: modelo de punto fijo, modelo umbral y modelo dual. Además, se ha estudiado la incorporación de dos conjuntos de características para la detección temprana del ciberacoso en redes sociales: Doc2Vec y Multiple Instance Learning.[Abstract] Early detection importance has grown in the last years and, as communi-cation networks had become part of everyday life, threats that come within had increased. In this sense, not only the security of networks, systems and data protection is in danger but also its users. With the spread of online communities and social networks, behaviours that already were a problem found a platform to grow as the capabilities of the platform allows to expand the limits of the physical world. Any security threat increases its chances of damage over time, so the earlier it is detected and stopped, there are more chances that outcome problems can be mitigated. In this sense, cyberbul-lying has become an urgent matter on the Internet and specially on social media networks. To approach this problem, a formal early detection proce-dure should be defined both in terms of methods of detection and metrics to measure the performance from the point of view of time aware detection. To achieve that, on the one hand, the early detection problem has been formally defined and multiple alternatives for the evaluation studied. Regarding early detection metrics, state of the art Early Detection Risk Error (ERDE) and F-latency had been reviewed and alternatives such as NormalizedERDE, Time aware Precision (TAP) and Time aware F-score (TAF) had been proposed to overcome problems detected. In order to improve results obtained with time aware metrics, the use of three early detection models is presented: fixed point model, threshold model and dual model. Finally, two sets of features for early detection of cyberbullying in social networks is considered: Doc2Vec and Multiple Instance Learning

    Variations on the Author

    Full text link
    “Variations on the Author” discusses two of Eduardo Coutinho’s recent films (Um Dia na Vida, from 2010, and Últimas Conversas, posthumously released in 2015) and their contribution to the general question of documentary authorship. The director’s filmography is characterized by a consistent yet self-effacing form of authorial self-inscription: Coutinho often features as an interviewer that rather than express opinions propels discourses; an interviewer that is good at listening. This mode of self-inscription characterizes him as an author who is not expressive but who is nonetheless markedly present on the screen. In Um Dia na Vida, however, Coutinho is completely absent form the image, while Últimas Conversas, on the contrary, includes a confessional prologue that moves the director from the margins to the center of his films. This article examines the ways in which these works stand out in the filmography of a director who offers new insights into the notion of cinematic authorship

    Appropriate Similarity Measures for Author Cocitation Analysis

    Full text link
    We provide a number of new insights into the methodological discussion about author cocitation analysis. We first argue that the use of the Pearson correlation for measuring the similarity between authors’ cocitation profiles is not very satisfactory. We then discuss what kind of similarity measures may be used as an alternative to the Pearson correlation. We consider three similarity measures in particular. One is the well-known cosine. The other two similarity measures have not been used before in the bibliometric literature. Finally, we show by means of an example that our findings have a high practical relevance.information science;Pearson correlation;cosine;similarity measure;author cocitation analysis

    Dispelling the Myths Behind First-author Citation Counts

    Full text link
    We conducted a full-scale evaluative citation analysis study of scholars in the XML research field to explore just how different from each other author rankings resulting from different citation counting methods actually are, and to demonstrate the capability of emerging data and tools on the Web in supporting more realistic citation counting methods. Our results contest some common arguments for the continued use of first-author citation counts in the evaluation of scholars, such as high correlations between author rankings by first-author citation counts and other citation counting methods, and high costs of using more realistic citation counting methods that are not well-supported by the ISI databases. It is argued that increasingly available digital full text research papers make it possible for citation analysis studies to go beyond what the ISI databases have directly supported and to employ more sophisticated methods

    Information Retrieval and Recommender Systems

    No full text
    Information Retrieval and Recommender System
    corecore