1,721,253 research outputs found

    WebFlow: Ein System zur flexiblen Ausführung webbasierter, kooperativer Workflows

    No full text
    Der zunehmende Einsatz von Web-Technologien steigert die Notwendigkeit, kooperative Geschäftsprozesse und Workflows zwischen verschiedenen Unternehmen oder Abteilungen webbasiert abzuwickeln. Eine treibende Kraft hierfür ist die wachsende Verfügbarkeit von Web-Service-Realisierungen zur Interoperabilität. Die derzeit verfügbaren Ansätze unterstützen jedoch keine ausreichende Qualität und Flexibilität kooperativer webbasierter Workflows, insbesondere bzgl. der Ausführungsqualität von Diensten und der dynamischen Ausnahmebehandlung. Diese Defizite sollen mit dem System WEBFLOW abgebaut werden. Es ermöglicht die Definition und Überwachung von Ausführungsbedingungen für unterschiedlich mächtige Dienste verschiedener Kooperationspartner. Zudem unterstützt es eine regelbasierte dynamische Ausnahmebehandlung, mit der die Robustheit kooperativer Workflows deutlich verbessert werden soll

    Comparative evaluation of microarray-based gene expression databases

    No full text
    Microarrays make it possible to monitor the expression of thousands of genes in parallel thus generating huge amounts of data. So far, several databases have been developed for managing and analyzing this kind of data but the current state of the art in this field is still early stage. In this paper, we comprehensively analyze the requirements for microarray data management. We consider the various kinds of data involved as well as data preparation, integration and analysis needs. The identified requirements are then used to comparatively evaluate eight existing microarray databases described in the literature. In addition to providing an overview of the current state of the art we identify problems that should be addressed in the future to obtain better solutions for managing and analyzing microarray data

    Graph Data Transformations in Gradoop

    No full text
    The analysis of graph data using graph database and distributed graph processing systems has gained significant interest. However, relatively little effort has been devoted to preparing the graph data for analysis, in particular to transform and integrate data from different sources. To support such ETL processes for graph data we investigate transformation operations for property graphs managed by the distributed platform Gradoop. We also provide initial results of a runtime evaluation of the proposed graph data transformations

    Big graph analysis by visually created workflows

    No full text
    The analysis of large graphs has received considerable attention recently but current solutions are typically hard to use. In this demonstration paper, we report on an effort to improve the usability of the open-source system Gradoop for processing and analyzing large graphs. This is achieved by integrating Gradoop into the popular open-source software KNIME to visually create graph analysis workflows, without the need for coding. We outline the integration approach and discuss what will be demonstrated

    Efficient clustering of massive data with MapReduce

    No full text
    Since several decades, after the Agrarian society and Machine Age, the mankind approached the Information Age. Information or even much more important knowledge became one of the most valuable resources. The usual way to generate knowledge is the analysis of observation, or of some raw data, and the more and interconnected data is available the more insights can be gained from it. Therefore, in the past decade the trend to gather all possible information in all areas of life, industry and science became overwhelming. Moreover, the technological development of storage and sensor systems allowed an even larger growth of data that are stored. As stated by Peter Hirshberg (global pulse summit) the amount of generated data in the year 2011 alone has exceeded the amount of data generated since the beginning of mankind’s history. The importance of knowledge extraction led to the development of the Knowledge Discovery process in Databases (KDD process) in the year 1996. The KDD process describes a workflow from the raw data gathering, its preprocessing, and analysis to the final visualization for further interpretation. In the last decades, the model-driven approach for knowledge extraction was mainly used. That is, the gathered data was used to accept or to decline a hypothesis that was developed by a human expert. Therefore, the accuracy of the predictive quality of the model highly depended on the expertise of the specialist. Moreover, even good models could miss several aspects of the problem at hand. In the last years, the data-driven approach for knowledge extraction gained a lot of attention. The idea is letting the data "speak for themselves", i.e., to generate novel models based on the given data and to validate them afterwards. As the models are not known in advance, the goal is to find unknown patterns in the data. In the KDD process, this task is usually solved by a group of data mining techniques called unsupervised learning or cluster analysis. However, the cluster analysis task is often computationally expensive and efficient techniques for huge amount of data are indispensable. The usual way for processing large amounts of data is the parallelization of single tasks on multi-core or in cluster environments. In this work, the author follows the parallelization approach and investigates and presents novel techniques for processing and analyzing huge datasets in the widely used MapReduce framework. MapReduce is a parallelization framework for data intensive task that was proposed by Google Inc. in 2004 and developed to one of the most prevalent technologies for batch processing of huge amounts of data. More precisely, this thesis deals with two classes of cluster analysis - the density-based approaches and particularly DBSCAN algorithm, and the projected clustering techniques, where the P3C algorithm was investigated and further developed for processing huge datasets. As part of the density-based approaches, the author of this thesis proposes efficient approaches for similarity self-join technique in vector spaces and determination of connected components in huge graphs in the MapReduce framework

    ISLE: Konzeption und Realisierung eines verteilten XML-basierten Informationssystems

    Full text link
    Die rasante Entwicklung von XML (eXtensible Markup Language) als neue Web-Sprache eröffnet weitreichende Möglichkeiten zur flexiblen Realisierung von verteilten Informationssystemen. Diese Diplomarbeit beschreibt den grundlegenden Aufbau und die Erfahrungen, die bei der Entwicklung eines universitären Informationssystems auf der Basis von XML gesammelt wurden. Das Resource Description Framework (RDF) wurde dabei als konzeptuelle Grundlage zur Datenmodellierung eingesetzt. Zur Manipulation von XML-Dokumenten wurde eine CORBA-basierte Schnittstelle verwendet. Durch eine zur Zeit noch kaum in der Praxis eingesetzte Technologie-Kombination konnten viele Schwierigkeiten heutiger Informationssysteme mit vergleichsweise geringem Aufwand umgangen werden. Das Datenmodell wird durch eine XML-basierte Speicherungsorganisation realisiert. Die Daten werden transparent im WWW verteilt, der Zugriff darauf erfolgt mittels des HTTP-Protokolls. Dadurch daß die in XML semantisch ausgezeichneten Informationsobjekte maschinell verarbeitet werden können, lassen sich aus dieser verteilten Datenstruktur alle benötigten Informationen extrahieren und für eine detaillierte Recherche aufbereiten. Weiterhin verfügen die Daten über einen hohen Grad der Wiederverwendbarkeit und lassen sich beispielsweise zur automatischen Generierung von Dokumenten und zur Archivierung in einer digitalen Bibliothek einsetzen. Für die Präsentation der Informationen ist ein Java-Modul zuständig, das die Interpretation und Formatierung der XML-Daten direkt vom Client-Rechner aus, entsprechend den benutzerspezifischen Präferenzen, ermöglicht, die ebenfalls in Form einer XML-Datei im lokalen Dateisystem des Nutzers gespeichert werden können. Durch die Verlagerung der Datenmanipulierung auf den Client wird die Server-Last minimiert. Ein ebenfalls in Java realisierter Server für XML-Dokumente ermöglicht die Client-basierte Bearbeitung von Dokumenten über eine CORBA-Schnittstelle. Mehrere Benutzer mit unterschiedlichen Zugriffsrechten können somit gemeinsam XML-Dokumente durch ein Web-Browser-Interface editieren. Die Diplomarbeit geht darauf ein, welche Vorteile und Probleme die Verwendung von XML und der verteilten Architektur aufgeworfen hat, und stellt die grundlegenden Prinzipien und Techniken vor, die dabei eingesetzt wurden

    Evaluierung und Erweiterung von MapReduce-Algorithmen zur Berechnung der transitiven Hülle ungerichteter Graphen für Entity ResolutionWorkflows

    Full text link
    Im Bereich von Entity-Resolution oder deduplication werden aufgrund fehlender global eindeutiger Identifikatoren Match-Techniken verwendet, um zu bestimmen, ob verschiedene Datensätze dasselbe Realweltobjekt darstellen. Die inhärente quadratische Komplexität führt zu sehr langen Laufzeiten für große Datenmengen, was eine Parallelisierung dieses Prozesses erfordert. MapReduce ist wegen seiner Skalierbarkeit und Einsetzbarkeit in Cloud- Infrastrukturen eine gute Lösung zur Verbesserung der Laufzeit. Außerdem kann unter bestimmten Voraussetzungen die Qualität des Match-Ergebnisses durch die Berechnung der transitiven Hülle verbessert werden

    Analyse der Wiederverwendung zum Schema-Matching

    Full text link
    Datenbanken finden in mehr und mehr Bereichen einen Einsatz. Angestrebter Datenaustausch zur Vernetzung von Informationen und Gewinnung zusätzlicher Kenntnisse ist wegen der Heterogenität von den Datenbanken problembehaftet. Schema- Matching beinhaltet durch das Erzeugen von Korrespondenzen zwischen Schemata eine Lösungsmöglichkeit für zumindestens einen Teil dieser Probleme. Viele Ansätze wurden schon für das Schema-Matching entwickelt und werden in dieser Arbeit dargestellt. Es werden Strategien zur Wiederverwendung näher erläutert und Erweiterungen für die Mapping-Wiederverwendung vorgestellt. Die neuen Strategien, die in dieser Diplomarbeit entstehen, wurden in dem Schema-Matching-Prototyp COMA++ integriert und zusammen mit anderen Strategien evaluiert
    corecore