1,721,032 research outputs found

    Methods for open information extraction and sense disambiguation on natural language text

    Full text link
    Natural language text has been the main and most comprehensive way of expressing and storing knowledge. A long standing goal in computer science is to develop systems that automatically understand textual data, making this knowledge accessible to computers and humans alike. We conceive automatic text understanding as a bottom-up approach, in which a series of interleaved tasks build upon each other. Each task achieves more understanding over the text than the previous one. In this regard, we present three methods that aim to contribute to the primary stages of this setting. Our first contribution, ClausIE, is an open information extraction method intended to recognize textual expressions of potential facts in text (e.g. “Dante wrote the Divine Comedy”) and represent them with an amenable structure for computers [(“Dante”, “wrote”, “the Divine Comedy”)]. Unlike previous approaches, ClausIE separates the recognition of the information from its representation, a process that understands the former as universal (i.e., domain-independent) and the later as application-dependent. ClausIE is a principled method that relies on properties of the English language and thereby avoids the use of manually or automatically generated training data. Once the information in text has been correctly identified, probably the most important element in a structured fact is the relation which links its arguments, a relation whose main component is usually a verbal phrase. Our second contribution, Werdy, is a word entry recognition and disambiguation method. It aims to recognize words or multi-word expressions (e.g., “Divine Comedy” is a multi-word expression) in a fact and disambiguate verbs (e.g., what does “write” mean?). Werdy is also an unsupervised approach, mainly relying on the syntactic and semantic relation established between a verb sense and its arguments. The other key components in a structured fact are the named entities (e.g., “Dante”) that often appear in the arguments. FINET, our last contribution, is a named entity typing method. It aims to understand the types or classes of those names entities (e.g., “Dante” refers to a writer). FINET is focused on typing named entities in short inputs (like facts). Unlike previous systems, it is designed to find the types that match the entity mention context (e.g., the fact in which it appears). It uses the most comprehensive type system of any entity typing method to date with more than 16k classes for persons, organizations and locations. These contributions are intended to constitute constructive building blocks for deeper understanding tasks in a bottom-up automatic text understanding setting.Das Schreiben von Texten ist die wichtigste und reichhaltigste Art und Weise, Wissen aus- zudrücken und zu speichern. Schon lange verfolgt die Informatik das Ziel, Systeme zu entwickeln, die Texte automatisch verstehen, um dieses Wissen sowohl Maschinen als auch Menschen zugänglich zu machen. In dieser Arbeit verstehen wir das Automatische Textver- stehen als bottom-up Aufgabe, in der eine Reihe ineinandergreifender Bausteine aufeinander aufbauen. Jeder Baustein erlangt dabei ein tieferes Textverständnis als der vorhergehende. In diesem Sinne präsentieren wir drei Methoden, die alle zu den fundamentalen Stufen dieses Prozesses beizutragen. Unser erster Beitrag, ClausIE, ist eine Methode der Offenen Informationsextraktion, die textuelle Ausdrücke von Faktekandidaten (z.B. “Dante schrieb die Göttliche Kommödie”) erkennt, und diese in einer maschinenlesbaren Struktur repräsentiert [(“Dante”, “schrieb”, “die Göttliche Kommödie”)]. Im Gegensatz zu vorherigen Ansätzen trennt ClausIE die Erkennung der faktischen Information von der Repräsentation, in einem Prozess der ersters als universell (d.h. domänenunabhängig), letzteres als streng anwendungsabhängig versteht. ClausIE löst diese Aufgabe in einer grundsätzlichen, auf den Prinzipien der englischen Sprache aufbauenden Weise und vermeidet damit den Gebrauch manueller oder automatisch generierter Trainingsdaten. Wurde diese Art der Information korrekt identifiziert, ist das wahrscheinlich wich- tigste Element eines strukturierten Fakts die Relation, welche die verschiedenen Argu- mente miteinander verbindet. Hauptbestandteil einer solchen Relation ist üblicherweise eine Verbalphrase. Unser zweiter Beitrag, Werdy, ist eine Worteintrag-Erkennungs und -Disambiguierungsmethode. Es erkennt Wörter oder Mehrwortausdrücke (z.B. ist die “Göttli- che Kommdödie” ein Mehrwortausdruck) in einem Fakt und disambiguiert Verben (z.B. was “schreiben” bedeutet). Werdy ist auch ein nichtüberwachtes Verfahren, das hauptsächlich auf der semantischen Beziehung zwischen einer Verbbedeutung und dessen Argumenten beruht. Die anderen Schlüsselkomponenten eines strukturierten Fakts sind Eigennamen (z.B. “Dante”), die häufig als Argument auftreten. FINET, unser letzer Beitrag, ist eine Methode zur Typisierung von Eigennamen. Sie versteht die Typen oder Klassen solcher Eigennamen (z.B. ist “Dante” ein “Schriftsteller”). FINETs Fokus ist die Typisierung von Eigennamen in kurzen Eingaben, beispielsweise Fakten. Im Gegensatz zu vorherigen Systemen ist es so konzipiert, dass es Typen findet, die dem Kontext der Eigennamen entspricht (z.B. dem Fakt in dem er auftritt). FINET verwendet mit mehr als 16.000 Typen für Personen, Organisationen und Orten das reichhaltigste Typsystem aller bisherigen Typisierungsmethoden. Alle Beiträge stellen Bausteine für das tiefere Verständnis in einem bottom-up Verfahren zum automatischen Textverstehen dar

    Next steps in knowledge-driven architecture composition

    Full text link
    Software architecture knowledge management has itself positioned as a mature research stream over the last years. Superficially, architectural knowledge management is about documenting design and design decisions. In software-intensive systems, a concrete application scenario of architectural knowledge management deals with the question whether a provided functionality fits a required functionality. To automate the underlying integrationprocess, various research communities came up with, for example, interface definition languages and service matchers. However, formalizing the semantics ofa software interface is in practice currently regarded as a price too high to pay. In this paper, we provide the status of our incremental case-based integration method that aims at reducing the effort for formalizing integration knowledge without losing the ability to compose software components based on interface semantics automatically

    Density- and correlation-based table extension

    No full text
    With thousands of data sources available on the Web as well as within organizations, data scientists increasingly spend more time searching for data than analyzing it. In order to ease the task of finding relevant data for data mining projects, this paper presents two data discovery and data integration methods that have been developed in a joint research project by RapidMiner Research and the University of Mannheim. Given a corpus of relational tables, the methods extend a query table with additional attributes and automatically fill these new attributes with data values from the corpus. The first method, densitybased table extension, extends the query table with all attributes that can be filled with data values so that a user-specified density threshold is reached. The second method, correlation-based table extension, extends the query table with all attributes that correlate with a specific attribute of the query table. Both methods are integrated as operators into RapidMiner Studio, a popular data mining environment. This enables data scientists to search for data and apply a wide range of different mining methods to the discovered data within the same environment

    Algorithms for shared-memory matrix completion and maximum inner product search

    Full text link
    In this thesis, we propose efficient and scalable algorithms for shared-memory matrix factorization and maximum inner product search. Matrix factorization is a popular tool in the data mining community due to its ability to quantify the interactions between different types of entities. It typically maps the (potentially noisy) original representations of the entities into a lower dimensional space, where the “true” structure of the dataset is revealed. Inner products of the new vector representations are then used to measure the interactions between different entities. The strongest of these interactions are usually of particular interest in applications and can be retrieved by solving a maximum inner product search problem. For large real-life problem instances of matrix factorization and maximum inner product search, efficient and scalable methods are necessary. We first study large-scale matrix factorization in a shared-memory setting and we propose a cache-aware, parallel method that avoids fine-grained synchronization or locking. In more detail, our approach partitions the initial large problem into small, cache-fitting sub-problems that can be solved independently using stochastic gradient descent. Due to the low cache-miss rate and the absence of any locking or synchronization, our method achieves superior performance in terms of speed (up to 60% faster) and scalability than previously proposed techniques. We then proceed with investigating the problem of maximum inner product search and design a cache-friendly framework that allows for both exact and approximate search. Our approach reduces the original maximum inner product search problem into a set of smaller cosine similarity search problems that can be solved using existing cosine similarity search techniques or our novel algorithms tailored for use within our framework. Experimental results show that our approach is multiple orders of magnitude faster than naive search, consistently faster than alternative methods for exact search, and achieves better quality-speedup tradeoff (up to 3.9x faster for similar recall levels) than state-of-the-art approximate techniques.In dieser Arbeit schlagen wir effiziente und skalierbare Algorithmen für Matrixfaktorisierung und für die Suche nach maximalen Skalarprodukten unter einer gemeinsam genutzten Speicherarchitektur vor. Matrixfaktorisierung ist ein beliebtes Werkzeug in der Data-Mining-Gemeinschaft aufgrund ihrer Fähigkeit, die Interaktionen zwischen verschiedenen Arten von Objekten zu quantifizieren. Sie bildet typischerweise die (möglicherweise verrauschte) originale Darstellung der Objekte auf einen niederdimensionalen Raum ab, wo die wahre Struktur der Daten sichtbar wird. Die Skalarprodukte zwischen den neuen Darstellungen werden dann benutzt, um die Interaktionen zwischen den verschiedenen Objekten zu messen. Die stärksten dieser Interaktionen sind in Anwendungen oft von besonderem Interesse und können durch eine Suche nach maximalen Skalarprodukten abgerufen werden. Für große, reale Probleme der Matrixfaktorisierung und der Suche nach maximalen Skalarprodukten sind effiziente und skalierbare Methoden notwendig. Zunächst betrachten wir hochskalierbare Matrixfaktorisierung unter einer gemeinsam genutzten Speicherarchitektur und schlagen eine cachebewusste, parallele Methode vor, die feingranulare Synchronisation oder Locking vermeidet. Genauer betrachtet teilt unsere Methode das ursprüngliche, große Problem in kleine, cachepassende Probleme, die unabhänging voneinander durch stochastischen Gradientenabstieg gelöst werden können. Aufgrund der niedrigen Cache Miss Rate und der Abwesenheit von Locking und Synchronisation, erreicht unsere Methode eine verbesserte Leistung in Bezug auf Laufzeit (bis zu 60% schneller) und Skalierbarkeit verglichen mit vorherigen Techniken. Anschließend erforschen wir das Problem der Suche nach maximalen Skalarprodukten und entwerfen ein cachefreundliches System, das sowohl genaue als auch approximative Suche ermöglicht. Unsere Methode reduziert das ursprüngliche Problem auf eine Reihe von kleineren Problemen der Cosinus-Ähnlichkeitssuche. Diese können durch vorhandene Techniken für Cosinus-Ähnlichkeitssuche oder neue Algorithmen, die eigens für die Benutzung innerhalb unseres Systems gebaut sind, gelöst werden. Die Versuchsergebnisse zeigen, dass unsere genauen Methoden um mehrere Größenordnungen schneller als naive Suche und konstant schneller als alternative Methoden sind, und dass unsere approximativen Techniken einen besseren Qualität-Laufzeit-Trade-Off (bis zu 3.9-Mal schneller für ähnliche Recall-Level) als der moderne Stand der Technik für approximative Suche erreichen

    Scalable optimization algorithms for recommender systems

    Full text link
    Recommender systems have now gained significant popularity and been widely used in many e-commerce applications. Predicting user preferences is a key step to providing high quality recommendations. In practice, however, suggestions made to users must not only consider user preferences in isolation; a good recommendation engine also needs to account for certain constraints. For instance, an online video rental that suggests multimedia items (e.g., DVDs) to its customers should consider the availability of DVDs in stock to reduce customer waiting times for accepted recommendations. Moreover, every user should receive a small but sufficient number of suggestions that the user is likely to be interested in. This thesis aims to develop and implement scalable optimization algorithms that can be used (but are not restricted) to generate recommendations satisfying certain objectives and constraints like the ones above. State-of-the-art approaches lack efficiency and/or scalability in coping with large real-world instances, which may involve millions of users and items. First, we study large-scale matrix completion in the context of collaborative filtering in recommender systems. For such problems, we propose a set of novel shared-nothing algorithms which are designed to run on a small cluster of commodity nodes and outperform alternative approaches in terms of efficiency, scalability, and memory footprint. Next, we view our recommendation task as a generalized matching problem, and propose the first distributed solution for solving such problems at scale. Our algorithm is designed to run on a small cluster of commodity nodes (or in a MapReduce environment) and has strong approximation guarantees. Our matching algorithm relies on linear programming. To this end, we present an efficient distributed approximation algorithm for mixed packing-covering linear programs, a simple but expressive subclass of linear programs. Our approximation algorithm requires a poly-logarithmic number of passes over the input, is simple, and well-suited for parallel processing on GPUs, in shared-memory architectures, as well as on a small cluster of commodity nodes.Empfehlungssysteme haben eine beachtliche Popularität erreicht und werden in zahlreichen E-Commerce Anwendungen eingesetzt. Entscheidend für die Generierung hochqualitativer Empfehlungen ist die Vorhersage von Nutzerpräferenzen. Jedoch sollten in der Praxis nicht nur Vorschläge auf Basis von Nutzerpräferenzen gegeben werden, sondern gute Empfehlungssysteme müssen auch bestimmte Nebenbedingungen berücksichtigen. Zum Beispiel sollten online Videoverleihfirmen, welche ihren Kunden multimediale Produkte (z.B. DVDs) vorschlagen, die Verfügbarkeit von vorrätigen DVDs beachten, um die Wartezeit der Kunden für angenommene Empfehlungen zu reduzieren. Darüber hinaus sollte jeder Kunde eine kleine, aber ausreichende Anzahl an Vorschlägen erhalten, an denen er interessiert sein könnte. Diese Arbeit strebt an skalierbare Optimierungsalgorithmen zu entwickeln und zu implementieren, die (unter anderem) eingesetzt werden können Empfehlungen zu generieren, welche weitere Zielvorgaben und Restriktionen einhalten. Derzeit existierenden Ansätzen mangelt es an Effizienz und/oder Skalierbarkeit im Umgang mit sehr großen, durchaus realen Datensätzen von, beispielsweise Millionen von Nutzern und Produkten. Zunächst analysieren wir die Vervollständigung großskalierter Matrizen im Kontext von kollaborativen Filtern in Empfehlungssystemen. Für diese Probleme schlagen wir verschiedene neue, verteilte Algorithmen vor, welche konzipiert sind auf einer kleinen Anzahl von gängigen Rechnern zu laufen. Zudem können sie alternative Ansätze hinsichtlich der Effizienz, Skalierbarkeit und benötigten Speicherkapazität überragen. Als Nächstes haben wir die Empfehlungsproblematik als ein generalisiertes Zuordnungsproblem betrachtet und schlagen daher die erste verteilte Lösung für großskalierte Zuordnungsprobleme vor. Unser Algorithmus funktioniert auf einer kleinen Gruppe von gängigen Rechnern (oder in einem MapReduce-Programmierungsmodel) und erzielt gute Approximationsgarantien. Unser Zuordnungsalgorithmus beruht auf linearer Programmierung. Daher präsentieren wir einen effizienten, verteilten Approximationsalgorithmus für vermischte lineare Packungs- und Überdeckungsprobleme, eine einfache aber expressive Unterklasse der linearen Programmierung. Unser Algorithmus benötigt eine polylogarithmische Anzahl an Scans der Eingabedaten. Zudem ist er einfach und sehr gut geeignet für eine parallele Verarbeitung mithilfe von Grafikprozessoren, unter einer gemeinsam genutzten Speicherarchitektur sowie auf einer kleinen Gruppe von gängigen Rechnern

    Going Beyond Counting First Authors in Author Co-citation Analysis

    Full text link
    The present study examines one of the fundamental aspects of author co-citation analysis (ACA) - the way co-citation counts are defined. Co-citation counting provides the data on which all subsequent statistical analyses and mappings are based, and we compare ACA results based on two different types of co-citation counting - the traditional type that only counts the first one among a cited work's authors on the one hand and a non-traditional type that takes into account the first 5 authors of a cited work on the other hand. Results indicate that the picture produced through this non-traditional author co-citation counting contains more coherent author groups and is therefore considerably clearer. However, this picture represents fewer specialties in the research field being studied than that produced through the traditional first-author co-citation counting when the same number of top-ranked authors is selected and analyzed. Reasons for these effects are discussed

    Variations on the Author

    Full text link
    “Variations on the Author” discusses two of Eduardo Coutinho’s recent films (Um Dia na Vida, from 2010, and Últimas Conversas, posthumously released in 2015) and their contribution to the general question of documentary authorship. The director’s filmography is characterized by a consistent yet self-effacing form of authorial self-inscription: Coutinho often features as an interviewer that rather than express opinions propels discourses; an interviewer that is good at listening. This mode of self-inscription characterizes him as an author who is not expressive but who is nonetheless markedly present on the screen. In Um Dia na Vida, however, Coutinho is completely absent form the image, while Últimas Conversas, on the contrary, includes a confessional prologue that moves the director from the margins to the center of his films. This article examines the ways in which these works stand out in the filmography of a director who offers new insights into the notion of cinematic authorship

    Appropriate Similarity Measures for Author Cocitation Analysis

    Full text link
    We provide a number of new insights into the methodological discussion about author cocitation analysis. We first argue that the use of the Pearson correlation for measuring the similarity between authors’ cocitation profiles is not very satisfactory. We then discuss what kind of similarity measures may be used as an alternative to the Pearson correlation. We consider three similarity measures in particular. One is the well-known cosine. The other two similarity measures have not been used before in the bibliometric literature. Finally, we show by means of an example that our findings have a high practical relevance.information science;Pearson correlation;cosine;similarity measure;author cocitation analysis

    Data analysis at scale

    No full text
    corecore