Universität Rostock, Lehrstuhl Datenbank- und Informationssysteme: Dbis Repository
Not a member yet
    940 research outputs found

    Systematische Evaluierung der Optimierungsparameter für Klassifikationsalgorithmen in SQL

    No full text
    Die Optimierung von Anfragen in Datenbankmanagementsystemen stellt eine zentrale Herausforderung dar, und trotz jahrzehntelanger Forschung ist eine umfassende Lösung weiterhin nicht vollständig erreicht worden. Diese Systeme sind mit internen Optimierern ausgestattet, die für die Auswahl eines geeigneten Ausführungspfades verantwortlich sind; dennoch besteht die Möglichkeit von Fehlern bei der Wahl des optimalen Ausführungsplans. In relationalen Datenbankmanagementsystemen ist es den Benutzern möglich, den Ausführungspfad durch die Verwendung von Hinweisen zu steuern. Zur Behandlung dieses Problems wird in dieser Masterarbeit zunächst ein Klassifikationsalgorithmus des maschinellen Lernens in Form eines Entscheidungsbaums unter Verwendung von SQL in PostgreSQL implementiert. Darüber hinaus wird ein Optimierungsansatz vorgestellt, der sich auf die Identifikation von Ausführungsengpässen bei Join-Operationen konzentriert. Die experimentellen Ergebnisse zeigen, dass die Wirksamkeit der Optimierung von verschiedenen Faktoren abhängt, darunter der Stil der Programmierung, die Struktur der Anfragen und die Definition der Bedingungen jeder Join-Operation. Zudem zeigt die Analyse der Ergebnisse, dass der gezielte und korrekte Einsatz von Hinweisen einen signifikanten Einfluss auf die Ausführungszeit des Systems haben kann, wobei dieser Effekt mit zunehmender Größe der Datensätze deutlicher wird

    Implementation and parallelization of SOMs in Structured Query Language (SQL).

    Full text link
    Self-Organizing Maps (SOMs) find extensive applications in pattern discovery and clustering but are computationally intensive to train, particularly with big data. Parallelization of SOM training in PostgreSQL is investigated here by spreading neuron computations over plurality of schemas for improved performance and scalability. The study was originally planned to carry out multi-server parallelization with the assistance of PostgreSQL-XL. As there was no multiple server and PostgreSQL-XL was not implemented in the university environment, the study focused on schema-based parallelization on a single server database. Parallel processing of neuron data among schemas helped the workload run much quicker. The experiment was run on a high-end machine with parallel query execution and PostgreSQL. For the experiment, a dataset size of 100,000 feature vectors was used against a 100x100 grid of SOMs. The experiment showed that the parallelization process based on a schema optimizes computation effectively than the legacy single-schema solution, reducing the training time. Even with all these advancements, there are certain limitations. Scalability with multiple servers was not feasible to test under the study, and the performance improvement is restricted to the capability of a single server. Other distributed database solutions like CitusDB and hybrid solutions with schema-based parallelism with GPU process or cloud process will be studied further. Briefly, distributing SOM training across schemas in PostgreSQL greatly improves efficiency. Parallelization across multiple servers is yet to be attempted on minimal infrastructure, but schema-based distribution is a effective optimization technique. Testing distributed database platforms and hybrid parallelization techniques should be included in future work in an attempt to further improve the scalability of SOM training

    Entwicklung effizienter Zugriffsstrukturen auf großen Messdatenfiles

    Full text link
    Die vorliegende Arbeit beschäftigt sich mit der Entwicklung effizienter Zugriffsstrukturen auf große Messdatenfiles am Beispiel von LIDAR-Daten, die im HDF5-Format vorliegen. Motiviert durch die stetig wachsenden Datenmengen am Leibniz-Institut für Atmosphärenphysik wurde untersucht, wie Abfragen auf Petabyte-großen Datensätzen beschleunigt und gleichzeitig die Speicherorganisation konsistent gehalten werden können. Zu diesem Zweck wurden verschiedene Indexstrukturen untersucht, miteinander verglichen und im Hinblick auf die Anforderungen dieser Arbeit bewertet. Anschließend wurde diskutiert, wie die ausgewählte Struktur in den bestehenden Datenworkflow integriert und für die effiziente Durchführung von Abfragen auf den Messdaten eingesetzt werden kann. Die durchgeführten Experimente zeigen, dass externe Indexierung konsistent die besten Laufzeiten erzielt. Interne Indexierung bietet zwar Vorteile in Bezug auf die direkte Integration, verursacht jedoch deutlich höhere Laufzeiten aufgrund der Restriktionen des HDF5-Formats. Bei der Variante ohne Indexierung, wobei einfache Pythonskripte genutzt sind, bleiben die Zugriffszeiten wegen der linearen Suche stabil. Insgesamt verdeutlichen die Ergebnisse, dass eine Kombination aus HDF5 als primärem Datenspeicher und einer ergänzenden externen Indexierung den vielversprechendsten Ansatz darstellt, um auch künftig wachsende Datenmengen effizient verwalten und wissenschaftliche Abfragen performant unterstützen zu können

    Layouterkennung, Extraktion und Transformation handgeschriebener Zeiterfassungen

    No full text
    Die vorliegende Arbeit befasst sich mit der automatisierten Verarbeitung teilstrukturierter Zeiterfassungsformulare, die sowohl gedruckte als auch handschriftlich ausgefüllte Inhalte enthalten. Ausgangspunkt ist die Problematik, dass die manuelle Übertragung solcher Formulare in digitale Systeme fehleranfällig und zeitaufwendig ist. Ziel der Arbeit war daher die Entwicklung eines Konzepts sowie einer prototypischen Implementierung, die eine zuverlässige Verarbeitung digitalisierter Formulare ermöglicht. Dies umfasst die automatische Erfassung der darin enthaltenen Inhalte, die Dokumentenlayoutanalyse sowie die Texterkennung. Dazu wurden zunächst bestehende Verfahren der Dokumentenlayoutanalyse (DLA), der optischen Zeichenerkennung (OCR) und der handschriftlichen Texterkennung (HTR) untersucht und geeignete Werkzeuge ausgewählt. Auf dieser Basis entstand eine komponentenbasierte Verarbeitungspipeline, die Vorverarbeitung, Layoutsegmentierung, Texterkennung mittels LayoutParser, DocTR und TrOCR sowie die strukturierte Überführung der Ergebnisse in relationale Datenbankschemata umfasst. Besonderes Augenmerk lag auf der korrekten Verarbeitung von sechs unterschiedlichen Formulartypen. Die Evaluation der prototypischen Umsetzung zeigt, dass durch die Kombination von DLA, OCR und HTR eine hohe Genauigkeit bei der Erkennung von Formularinhalten erreicht werden kann. Damit leistet die Arbeit einen Beitrag zur Effizienzsteigerung in der digitalen Dokumentenverarbeitung. Zukünftige Arbeiten können insbesondere die Erweiterung auf weitere Formulartypen, die Verbesserung der handschriftlichen Texterkennung sowie die direkte Verarbeitung von PDF-Dateien adressieren

    Integration von Anonymisierungsverfahren in ETL-Prozesse für semistrukturierte Daten

    Full text link
    Die Verarbeitung und Analyse personenbezogener Daten stellt in vielen Anwendungsbereichen eine große Herausforderung dar, insbesondere im Hinblick auf Datenschutzbestimmungen wie die Datenschutz-Grundverordnung (DSGVO). Diese Arbeit untersucht die Integration von Anonymisierungsverfahren in Extract (Extrahieren), Transform (Transformieren) und Load (Laden) (ETL)-Prozesse für semistrukturierte Daten, um sowohl den Datenschutz als auch die Datenqualität zu gewährleisten. Der Fokus liegt auf der Anonymisierung von Extensible Markup Language (XML)-Daten und deren Speicherung in einem relationalen Format sowie der Anwendung von k-Anonymität und ℓ-Diversität zum Schutz sensibler Attribute. Zur Umsetzung wurde eine Pipeline entwickelt, die Daten extrahiert, transformiert und anonymisiert, bevor sie für die weitere Verarbeitung gespeichert werden. Die Evaluierung zeigt, dass eine Kombination aus Maskierung oder Generalisierung mit den Schutzmodulen einen effektiven Schutz bietet, während die Daten weiterhin für Analysen nutzbar bleiben. Die Ergebnisse verdeutlichen, dass eine adaptive Anonymisierungsstrategie, die sich dynamisch an die Datenstruktur anpasst, den besten Kompromiss zwischen Datenschutz und Datenqualität bietet. Zukünftige Arbeiten könnten diesen Ansatz durch Machine-Learning-gestützte Klassifikationsmethoden oder Differential Privacy erweitern

    Data Cleaning in SQL

    No full text

    Reverse engineering for the subsequent creation of relational models

    No full text
    Data’s massive production has changed how we live, work and collaborate. As accessing large databases becomes increasingly affordable and widely available, numerous data-intensive applications have emerged in various fields, including scientific research, healthcare, sports, industry, and many more. However, many datasets are poorly structured and designed, often containing missing, non-existent, or incorrect documentation, and lacking essential design information. When this type of data is required for modern research, whether for statistical analysis or artificial intelligence, it is crucial first to understand its structure, which can be both challenging and time-consuming. Furthermore, identifying relationships between tables and columns requires significant time and effort. Manual processing not only increases the chances of errors but also adds to the costs. Nevertheless, if we can identify key relational properties and data dependencies from a dataset, it is possible to generate a relational model by combining these properties. To solve this problem, we will design and develop a system that automates the identification of important relational properties and the generation of a complete relational model from existing data. Our research will focus on exploring various methods and techniques of database reverse engineering, relational models, and data dependencies. By combining these methods, we aim to create a web-based application that accepts a database as input and generates both key relational properties and a complete relational model as output. In addition, we are developing a user-friendly interface to use the system for data analysis and optimization. To evaluate the effectiveness and accuracy of our application, we will conduct tests with different databases and compare the results. Overall, our study will provide a systematic approach to the reverse engineering of relational databases and the automation of the extraction of key relational properties and data dependencies. Our system will help users to understand the structure of their databases. In this study, the system will support MySQL and PostgreSQL databases. In the future, further research will be conducted to expand the system’s capabilities to support other types of databases and different dataset formats

    Constraint-getriebene Generierung von medizinischen Testdaten

    Full text link

    252

    full texts

    940

    metadata records
    Updated in last 30 days.
    Universität Rostock, Lehrstuhl Datenbank- und Informationssysteme: Dbis Repository
    Access Repository Dashboard
    Do you manage Open Research Online? Become a CORE Member to access insider analytics, issue reports and manage access to outputs from your repository in the CORE Repository Dashboard! 👇