1,721,192 research outputs found
Was Suchmaschinen nicht können. Holistische Entitätssuche auf Web Daten
Mehr als 50% aller Web Suchanfragen sind entitätsbezogen. Benutzer suchen entweder nach Entitäten oder nach Entitätsinformationen. Dennoch solche Anfragen von Suchmaschinen nicht gut unterstützt.
Aufbauend auf dem Konzept des semiotischen Dreiecks aus der kognitiven Psychologie, haben wir drei Anfragetypen zur Entitätssuche identifiziert: typbasierte Anfragen – Suche nach Entitäten eines gegebenen Typs, prototypbasierte Anfragen – Suche nach Entitäten mit bestimmten Eigenschaften, und instanzbasierte Anfragen – Suche nach Entitäten die ähnlich zu einer gegebene Entität sind. Für typbasierte Anfragen haben wir eine Methode entwickelt die query expansion mit einer self-supervised vocabulary learning Technik auf strukturierten und unstrukturierten Daten verbindet. Unser Ansatz liefert einen guten Kompromiss zwischen Precision und Recall. Für prototypbasierte Anfragen stellen wir ProSWIP vor. Dies ist ein eigenschaftsbasiertes System um Entitäten aus dem Web abzurufen. Da aber die Anzahl der Eigenschaften die durch die Benutzer bereitgestellt werden relativ klein sein kann, baut ProSWIP auf direkten Fragen und Benutzer Feedback um die Menge der Eigenschaften zu einer Menge welche die Intentionen der Benutzer korrekt erfasst zu erweitern. Unsere Experimente zeigen dass mit maximal vier Fragen eine perfekte Precision erreicht wird. In dem Fall von instanzbasierten Anfragen besteht die Schwierigkeit darin eine Anfrageform zu finden die die Benutzerintentionen eindeutig macht. Wir stellen eine minimalistische instanzbasierte Anfrage, die aus einem Beispiel und dem entsprechenden Entitätstypen besteht vor. Mit Hilfe des Konzepts der Familienähnlichkeit entwickeln wir eine praktische Lösung um Entitäten mit Bezug zur der Anfragenentität direkt aus dem Web abzurufen. Unser Ansatz erzielt sogar für Anfragen, die für standard Entitätssuchaufgaben wie related entity finding problematisch waren, gute Ergebnisse. Entitätszusammenfassung ist ein anderer Typ von entitätszentrischen Anfragen, der Informationen bezüglich einer Entität bereitstellt. Googles Knowledge Graph ist der Stand der Technik für solche Aufgaben. Aber das Zurückgreifen auf manuell erstellte Knowledgebases schließt weniger bekannten Entitäten für das Knowledge Graph aus. Wir schlagen daher vor datengetriebene Ansätze zu nutzen.
Wir sind überzeugt dass das Bewältigen dieser vier Anfragetypen eine holistische Entitätssuche auf Web Daten für die nächste Generation von Suchmaschinen ermöglicht.More than 50% of all Web queries are entity related. Users search either for entities or for entity information. Still, search engines do not accommodate entity-centric search very well.
Building on the concept of the semiotic triangle from cognitive psychology, which models entity types in terms of intensions and extensions, we identified three types of queries for retrieving entities: type-based queries - searching for entities of a given type, prototype-based queries - searching for entities having certain properties, and instance-based queries - searching for entities being similar to a given entity. For type-based queries we present a method that combines query expansion with a self-supervised vocabulary learning technique built on both structured and unstructured data. Our approach is able to achieve a good tradeoff between precision and recall. For prototype-based queries we propose ProSWIP, a property-based system for retrieving entities from the Web. Since the number of properties given by the users can be quite small, ProSWIP relies on direct questions and user feedback to expand the set of properties to a set that captures the user’s intentions correctly. Our experiments show that within a maximum of four questions the system achieves perfect precision of the selected entities. In the case of instance-based queries the first challenge is to establish a query form that allows for disambiguating user intentions without putting too much cognitive pressure on the user. We propose a minimalistic instance-based query comprising the example entity and intended entity type. With this query and building on the concept of family resemblance we present a practical way for retrieving entities directly from the Web. Our approach can even cope with queries which have proven problematic for benchmark tasks like related entity finding. Providing information about a given entity, entity summarization is another kind of entity-centric query. Google’s Knowledge Graph is the state of the art for this task. But relying entirely on manually curated knowledge bases, the Knowledge Graph does not include all new and less known entities. We propose to use a data-driven approach. Our experiments on real-world entities show the superiority of our method.
We are confident that mastering these four query types enables holistic entity search on Web data for the next generation of search engines
Qualitätskontrolle mittels semantischer Technologien in digitalen Bibliotheken
Controlled content quality especially in terms of indexing is one of the major ad-vantages of using digital libraries in contrast to general Web sources or Web search engines. Therefore, more and more digital libraries offer corpora related to a specialized domain. Beyond simple keyword based searches the resulting infor-mation systems often rely on entity centered searches. For being able to offer this kind of search, a high quality document processing is essential.
However, considering today’s information flood the mostly manual effort in ac-quiring new sources and creating suitable (semantic) metadata for content indexing and retrieval is already prohibitive. A recent solution is given by automatic genera-tion of metadata, where mostly statistical techniques like e.g. document classifica-tion and entity extraction currently become more widespread. But in this case neglecting quality assurance is even more problematic, because heuristic genera-tion often fails and the resulting low-quality metadata will directly diminish the quality of service that a digital library provides. Thus, the quality assessment of information system’s metadata annotations used for subsequent querying of collections has to be enabled. In this thesis we discuss the importance of metadata quality assessment for information systems and the benefits gained from controlled and guaranteed quality.Eine kontrollierte Qualität der Metadaten ist einer der wichtigsten Vorteile bei der Verwendung von digitalen Bibliotheken im Vergleich zu Web Suchmaschinen. Auf diesen hochqualitativen Inhalten werden immer mehr fachspezifische Portale durch die digitalen Bibliotheken erzeugt. Die so entstehenden Informationssysteme bieten oftmals neben einer simplen Stichwortsuche auch Objekt zentrierte Suchen an. Um solch eine Objekt-Suche zu ermöglichen, ist aber eine hochqualitative Verarbeitung der zugrunde liegenden Dokumente notwendig.
Betrachtet man hingegen die heutige Informationsflut, so stellt man fest, dass der Aufwand für eine manuelle Erschließung von neuen Quellen und die Erzeugung von (semantischen) Metadaten für die Indexierung schon heute unerschwinglich ist. Eine aktuelle Lösung für dieses Problem ist die zumeist automatische Erzeugung von (semantischen) Metadaten, durch statistische Methoden, wie die automatische Dokumenten Klassifizierung Entitäten Extraktion. Aber bei der Verwendung sol-cher Methoden ist die Vernachlässigung der Qualität noch problematischer, da eine heuristische Erzeugung oftmals fehlerbehaftet ist. Diese schlechte Qualität der so erzeugten Metadaten wird dabei direkt die Servicequalität einer digitalen Biblio-thek herabmindern. Somit muss eine Qualitätsbewertung der Metadaten garantiert werden. In dieser Arbeit diskutieren wir die Bedeutung von Metadaten Qualität für Digitale Bibliotheken und die Chancen die aus kontrollierter und garantierter Qua-lität gewonnen werden können
Semantically Enriched Text-Based Retrieval in Chemical Digital Libraries
During the last decades, the information gathering process has considerably changed in science, research and development, and the private life. Whereas Web pages for private information seeking are usually accessed using well-known text-based search engines, complex documents for scientific research are often stored in digital libraries and will usually be accessed through domain specific Web portals. Considering the specific domain of chemistry, portals usually rely on graphical user-interfaces allowing for pictorial structure queries. The difficulty with purely text-based searches is that information seeking in chemical documents is generally focused on chemical entities, for which current standard search relies on complex and hard to extract structures.
In this thesis, we introduce a retrieval workflow for chemical digital libraries enabling text-based searches. First, we explain how to automatically index chemical documents with high completeness by creating enriched index pages containing different entity representations and synonyms. Next, we analyze different similarity measures for chemical entities. We further describe how to model the chemists’ implicit knowledge to personalize the retrieval process. Furthermore, since users often search for chemical entities occurring in a specific context, we also show how to use contextual information to further enhance the retrieval quality. Since, the annotated context terms will not help for contextual search if the users use different vocabulary, we present an approach that semantically enriches documents with Wikipedia concepts to overcome the vocabulary problem. Since for most queries a huge amount of possibly relevant hits are returned to the user, we further present an approach summarizing the documents’ content using Wikipedia categories. Finally, we present an architecture for a chemical digital library provider combining the different steps enabling semantically enriched text-based retrieval for the chemical domain.Über die letzten Jahre hat sich der Prozess der Informationssuche stark verändert. Während im privaten Bereich meistens über eine text-basierte Websuche auf Informationen zugegriffen wird, erfolgt der Zugriff auf Dokumente für den wissenschaftlichen Gebrauch in der Regel über domänenspezifische Web Portale. Betrachtet man beispielsweise die Domäne der Chemie, basieren Web Portale auf speziellen grafischen Benutzeroberflächen, die gezeichnete, strukturbasierte Anfragen ermöglichen. Da die Informationssuche für chemische Dokumente generell auf chemischen Entitäten basiert, die wiederum aus komplexen Strukturen bestehen, birgt eine reine text-basierte Suche eine Vielzahl von Herausforderungen.
In dieser Arbeit entwickeln wir einen Retrieval Workflow für eine chemische digitale Bibliothek, der text-basierte Suchen ermöglicht. Als erstes erzeugen wir für chemische Dokumente semantisch angereicherte Indexseiten. Im Folgenden analysieren wir wie man Ähnlichkeit zwischen chemischen Entitäten bestimmen kann. Im Anschluss zeigen wir wie man das subjektive Relevanzempfinden der Chemiker modellieren kann, um ein personalisiertes Retrieval zu ermöglichen. Dann beschäftigen wir uns mit der Tatsache, dass Benutzer häufig nach chemischen Entitäten suchen, die in einem bestimmten Kontext auftreten. Allerdings sind die annotierten Kontext-Terme nutzlos, falls die Benutzer ein völlig anderes Vokabular verwenden. Deshalb reichern wir die Dokumente semantisch mit Wikipedia Konzepten an um das Problem des unterschiedlichen Vokabulars zu beheben. Da für die meisten Anfragen eine Vielzahl von relevanten Treffern zurückgeliefert wird, präsentieren wir eine Methode um den Inhalt der Dokumente auf übersichtliche Weise mit Hilfe von Wikipedia Kategorien darzustellen. Schlussendlich kombinieren wir die gewonnenen Erkenntnisse und stellen eine Architektur für eine chemische digitale Bibliothek vor, die semantisch angereicherte, text-basierte Suchen in der Chemie ermöglicht
Narrativer Informationszugriff – Ein neues Paradigma für Digitale Bibliotheken
Digital libraries usually allow users to access their collections through keyword-based retrieval. While such access paths come with moderate implementation and maintenance costs, they also come with limited expressiveness. This has two reasons: 1) expression of relations between keywords is challenging, and 2) exploratory search with variables is usually not supported at all. Inspired by the way humans exchange knowledge through oral or written narratives, this thesis proposes narrative information access to tackle those limitations. The central idea is that users formulate information needs as short narratives of interest, basically a graph pattern with relevant concepts and their interactions. Those patterns are then bound against a digital library's content, e.g., its document collection. In contrast to querying knowledge bases, narrative information access enforces a context-compatible information fusion to ensure valid results. This fusion only combines pieces of information whose validity refers to the same or similar settings. In this thesis, narrative information access has been realized in the use case of the pharmaceutical domain. Moreover, we propose, implement, and evaluate practical nearly-unsupervised information extraction workflows, novel implicit context models, and a full-fledged discovery system for narrative information access.Digitale Bibliotheken ermöglichen Nutzenden den Zugriff auf ihre Sammlungen in der Regel mittels schlüsselwortbasierter Anfragen. Solche Zugriffspfade sind mit moderaten Implementierungs- und Wartungskosten verbunden, haben aber auch eine begrenzte Aussagekraft. Dies hat zwei Gründe: 1) Der Ausdruck von Beziehungen zwischen Schlüsselwörtern ist schwierig, und 2) die explorative Suche mit Variablen wird in der Regel nicht unterstützt. Inspiriert durch die Art und Weise wie Menschen Wissen durch mündliche oder schriftliche Narrative austauschen, wird in dieser Arbeit ein narrativer Informationszugriff vorgeschlagen, um die obigen Einschränkungen zu überwinden. Die zentrale Idee besteht darin, dass Nutzende ihren Informationsbedarf in Form eines kurzen Narrativs formulieren, also als Graphmuster bestehend aus relevanten Konzepten und deren Interaktionen. Diese Muster werden dann an die Inhalte einer digitalen Bibliothek gebunden, z. B. an ihre Dokumentensammlung. Im Gegensatz zu Anfragen an Wissensbasen (Knowledge Bases) fordert der narrative Informationszugriff eine kontextkompatible Informationsfusion, um valide Ergebnisse sicherzustellen. Diese Fusion kombiniert nur Informationen, die unter gemeinsamen oder ähnlichen Bedingungen gültig sind. In dieser Arbeit wurde der narrative Informationszugriff im Anwendungsfall der pharmazeutischen Domäne realisiert. Darüber hinaus werden praktische, nahezu unüberwachte Informationsextraktionsworkflows, neuartige implizite Kontextmodelle und ein vollwertiges Discovery System für den narrativen Informationszugriff vorgeschlagen, implementiert und evaluiert
Vermeidung von Repräsentationsheterogenitäten in realweltlichen Wissensgraphen
Knowledge graphs are repositories providing factual knowledge about entities. They are a great source of knowledge to support modern AI applications for Web search, question answering, digital assistants, and online shopping. The advantages of machine learning techniques and the Web's growth have led to colossal knowledge graphs with billions of facts about hundreds of millions of entities collected from a large variety of sources. While integrating independent knowledge sources promises rich information, it inherently leads to heterogeneities in representation due to a large variety of different conceptualizations. Thus, real-world knowledge graphs are threatened in their overall utility. Due to their sheer size, they are hardly manually curatable anymore. Automatic and semi-automatic methods are needed to cope with these vast knowledge repositories. We first address the general topic of representation heterogeneity by surveying the problem throughout various data-intensive fields: databases, ontologies, and knowledge graphs. Different techniques for automatically resolving heterogeneity issues are presented and discussed, while several open problems are identified. Next, we focus on entity heterogeneity. We show that automatic matching techniques may run into quality problems when working in a multi-knowledge graph scenario due to incorrect transitive identity links. We present four techniques that can be used to improve the quality of arbitrary entity matching tools significantly. Concerning relation heterogeneity, we show that synonymous relations in knowledge graphs pose several difficulties in querying. Therefore, we resolve these heterogeneities with knowledge graph embeddings and by Horn rule mining. All methods detect synonymous relations in knowledge graphs with high quality. Furthermore, we present a novel technique for avoiding heterogeneity issues at query time using implicit knowledge storage. We show that large neural language models are a valuable source of knowledge that is queried similarly to knowledge graphs already solving several heterogeneity issues internally.Wissensgraphen sind eine wichtige Datenquelle von Entitätswissen. Sie unterstützen viele moderne KI-Anwendungen. Dazu gehören unter anderem Websuche, die automatische Beantwortung von Fragen, digitale Assistenten und Online-Shopping. Neue Errungenschaften im maschinellen Lernen und das außerordentliche Wachstum des Internets haben zu riesigen Wissensgraphen geführt. Diese umfassen häufig Milliarden von Fakten über Hunderte von Millionen von Entitäten; häufig aus vielen verschiedenen Quellen. Während die Integration unabhängiger Wissensquellen zu einer großen Informationsvielfalt führen kann, führt sie inhärent zu Heterogenitäten in der Wissensrepräsentation. Diese Heterogenität in den Daten gefährdet den praktischen Nutzen der Wissensgraphen. Durch ihre Größe lassen sich die Wissensgraphen allerdings nicht mehr manuell bereinigen. Dafür werden heutzutage häufig automatische und halbautomatische Methoden benötigt. In dieser Arbeit befassen wir uns mit dem Thema Repräsentationsheterogenität. Wir klassifizieren Heterogenität entlang verschiedener Dimensionen und erläutern Heterogenitätsprobleme in Datenbanken, Ontologien und Wissensgraphen. Weiterhin geben wir einen knappen Überblick über verschiedene Techniken zur automatischen Lösung von Heterogenitätsproblemen. Im nächsten Kapitel beschäftigen wir uns mit Entitätsheterogenität. Wir zeigen Probleme auf, die in einem Multi-Wissensgraphen-Szenario aufgrund von fehlerhaften transitiven Links entstehen. Um diese Probleme zu lösen stellen wir vier Techniken vor, mit denen sich die Qualität beliebiger Entity-Alignment-Tools deutlich verbessern lässt. Wir zeigen, dass Relationsheterogenität in Wissensgraphen zu Problemen bei der Anfragenbeantwortung führen kann. Daher entwickeln wir verschiedene Methoden um synonyme Relationen zu finden. Eine der Methoden arbeitet mit hochdimensionalen Wissensgrapheinbettungen, die andere mit einem Rule Mining Ansatz. Beide Methoden können synonyme Relationen in Wissensgraphen mit hoher Qualität erkennen. Darüber hinaus stellen wir eine neuartige Technik zur Vermeidung von Heterogenitätsproblemen vor, bei der wir eine implizite Wissensrepräsentation verwenden. Wir zeigen, dass große neuronale Sprachmodelle eine wertvolle Wissensquelle sind, die ähnlich wie Wissensgraphen angefragt werden können. Im Sprachmodell selbst werden bereits viele der Heterogenitätsprobleme aufgelöst, so dass eine Anfrage heterogener Wissensgraphen möglich wird
Eine Frage der Perspektive – Entflechtung narrativer Strukturen in ereigniszentrierten Wissensrepositorien
The extraction, representation, semantic enrichment, and thus assessment or understanding of real-world events in the context of information systems has a long tradition in different research areas such as Conceptual Modeling, Semantic Web research, and Web Science. One important aspect that is often neglected, however, is the problem of different perspectives or viewpoints on the same events. The typical assumption in event representation and extraction is that events are objectively observed and can, therefore, be represented in an unambiguous and undisputed way. However, especially for large-scale events, such as wars or political conflicts, this assumption is oftentimes not valid. This is because we do not observe events directly in, e.g., newspaper articles or press releases, but instead, we observe narratives that describe the respective events. In this sense, narratives combine objective or generally agreed-upon information (i.e., facts), with somewhat subjective or viewpoint-dependent information (i.e., claims) to form a coherent or plausible narrative from the viewpoint of a narrator. In this thesis, we argue that utilizing narratives as information primitives in event-centric knowledge repositories, and especially event-centric knowledge graphs, enables a new type of information system for real-world events. Such a system provides new access paths to event data on the one hand and allows for the consistent representation of viewpoint-dependent information on the other. We extend traditional knowledge representations of events with viewpoint-dependent information often found in social media or media outlets with different ideological alignments. For that, we rely on narratives and narrative prototypes as abstractions of real-world events such as conflicts. The core contributions of this thesis are, first, the notion of narrative prototypes and recursive narrative structures for real-world events, second, the consistent representation of viewpoint-dependent information in event-centric knowledge graphs, and third, a mining procedure for recursive narrative structures from texts. Finally, we investigate plausibility for narratives evaluated over viewpoint-enabled knowledge graphs and motivate plausibility semantics.Die Extraktion, Repräsentation, semantische Anreicherung und somit die Bewertung oder Einordnung von realweltlichen Ereignissen ist seit langem Schwerpunkt verschiedener Forschungsbereiche im Bereich der Informationssysteme, z.B. in der konzeptionellen Modellierung (Conceptual Modeling), dem Semantic Web sowie der Webwissenschaft (Web Science). Ein wichtiger aber oft vernachlässigter Aspekt ist jedoch das Problem unterschiedlicher Perspektiven oder Sichtweisen (Viewpoints) auf dieselben Ereignisse. Im Bereich der Repräsentation und Extraktion von Ereignissen wird zumeist angenommen, dass die zugrunde liegenden Daten bezüglich eines Ereignisses dieses objektiv beschreiben und zu einer eindeutigen und unumstrittenen Darstellung des Sachverhalts führen. Typischerweise werden jedoch zumindest große Ereignisse nicht direkt beobachtet, sondern lediglich Erzählungen bzw. Narrative wahrgenommen, die das Ereignis beschreiben. Narrative verbinden objektive bzw. allgemein anerkannte Informationen (d.h. Fakten) mit eher subjektiven bzw. umstrittenen Informationen (d.h. Behauptungen bzw. Claims) und formen dabei eine kohärente oder plausible Darstellung aus Sicht des Erzählers. Unsere Hauptannahme in dieser Dissertation ist, dass Narrative in ereigniszentrierten Wissensrepositorien (event-centric knowledge repositories) und hierbei insbesondere in ereigniszentrierten Wissensgraphen (event-centric knowledge graphs) eine neue Form von Informationssystemen ermöglichen. Solche Systeme erlauben zum einen neuartige Zugangspfade zu den unterliegenden Repositorien und zum anderen eine konsistente Repräsentation von perspektivischen Informationen (viewpoint-dependent information). Wir erweitern in dieser Arbeit traditionelle Wissensrepräsentationsweisen von Ereignissen um umstrittene Informationen, die oft in sozialen Medien oder Medien mit unterschiedlicher ideologischer Ausrichtung zu finden sind. Dabei stützen wir uns auf den Begriff des Narrativs und den des narrativen Prototypen als Abstraktionen von realen Ereignissen wie Konflikten. Die zentralen Beiträge dieser Arbeit sind erstens der Begriff des narrativen Prototyps und rekursive narrative Strukturen für Ereignisse der realen Welt, zweitens die konsistente Repräsentation von perspektivischen Informationen in ereigniszentrierten Wissensgraphen und drittens ein Verfahren zum Mining rekursiver narrativer Strukturen aus Texten. Darüber hinaus untersuchen wir den Begriff der Plausibilität von Narrativen in Bezug auf um Sichtweisen erweiterte Wissensgraphen und motivieren eine Plausibilitätssemantik für Narrative
Privacy preserving content analysis, indexing and retrieval for social search applications
[no abstract
Efficient combination of ranked result sets in multi feature applications
Applications like multimedia databases or enterprise-wide information management systems have to meet the challenge of efficiently retrieving best matching objects from vast collections of data. For instance in image retrieval queries can be based on the similarity of objects, using several feature attributes like shape, texture, color or text. Such multi-feature queries return a ranked result set instead of exact matches. Besides, the user wants to see only the k top-ranked objects. In the recent years combining algorithms have been proposed to cope with this essentially different retrieval model.
Generally speaking, we distinguish three environments for the combination of ranked results. In homogeneous environments the various features are used on a set of objects that can be identified by a common key. The quasi-homogeneous environment uses features on different collections of data that share some common, standardized attributes. The last and rather rare case are heterogeneous environments, where objects from different collections have to be compared using a complex function.
We present a new combining algorithm called Quick-Combine for combining multi-feature result lists in (quasi-) homogeneous environments, guaranteeing the correct retrieval of the k top-ranked results. For score aggregation virtually any combining function can be used, including weighted queries. Compared to common algorithms we have developed an improved termination condition in tuned combination with a heuristic control flow adopting itself narrowly to the particular score distribution. Top-ranked results can be computed and output incrementally. We show that we can dramatically improve performance, in particular for non-uniform score distributions. Benchmarks on practical data indicate efficiency gains by a factor of 30. For very skewed data observed speed-up factors are even larger. These performance results scale through different database sizes and numbers of result sets to combine.
Also for heterogeneous environments we present an innovative algorithm called Stream-Combine for processing multi-feature queries on heterogeneous data sources. This algorithm can guarantee the correct retrieval of the k top-ranked results without using any random accesses. Stream-Combine implements sophisticated heuristics and therefore is self-adapting to different data distributions and to the specific kind of the combining function. Furthermore we present a new retrieval strategy that will essentially speed up the output of relevant objects.
As benchmarks on practical data promise that our combining algorithms can dramatically improve performance, we also want to discuss interesting applications of the combination of ranked result sets in different areas. The applications for the optimization in ranked query models are manifold. Generally speaking we believe that all kinds of federated searches in database or portal technology can be supported like e.g. content-based retrieval, knowledge management systems or multi-classifier combinatio
- …
