Universität Rostock, Lehrstuhl Datenbank- und Informationssysteme: Dbis Repository
Not a member yet
940 research outputs found
Sort by
Webpublikation und Archivierung von Radarforschungsdatensätzen innerhalb eines verteilten Forschungsdatenworkflows
Ziel dieser Bachelorarbeit ist die Entwicklung eines webbasierten Systems zur Publikation und Archivierung von Messdatenbildern meteorischer Radarnetzwerke. Im Mittelpunkt stand die Konzeption und Implementierung einer skalierbaren und wartungsarmen Infrastruktur, die aktuelle sowie historische Bilddaten automatisiert archiviert und über eine benutzerfreundliche Weboberfläche zugänglich macht.
Auf Grundlage einer Analyse bestehender Speicherlösungen wurde ein Dateisystem als zentrales Organisationsprinzip gewählt. Dieses System ermöglicht eine strukturierte und langfristige Ablage der Bilddaten nach Station, Jahr, Monat und Tag. Zur Verwaltung der Metadaten wurde eine relationale Datenbank (SQLite) eingesetzt, die eine effiziente Suche und Filterung der archivierten Bilder nach Land, Station und Datum erlaubt. Die Webschnittstelle, realisiert mit dem Flask-Framework und der Template-Engine Jinja2, ermöglicht den direkten Zugriff auf aktuelle und archivierte Messbilder über einen Browser und bildet die Verbindung zwischen Dateisystem und Datenbank.
Das entwickelte System wurde erfolgreich implementiert und getestet. Die Tests zeigten, dass die Anwendung stabil arbeitet, neue und nachgereichte Bilder zuverlässig verarbeitet und die Such- und Anzeigeprozesse korrekt durchführt. Damit erfüllt das System alle funktionalen Anforderungen und bietet eine flexible Grundlage für den langfristigen Einsatz in der wissenschaftlichen Datenverwaltung.
Abschließend wird in einem Ausblick die Erweiterung der Suchfunktion um eine visuelle Vergleichsmöglichkeit mehrerer Archivbilder vorgeschlagen, um zeitliche und räumliche Veränderungen in den Messdaten direkt über die Weboberfläche analysieren zu können. Das Gesamtsystem stellt somit einen effizienten und praxisnahen Ansatz zur digitalen Archivierung und Visualisierung meteorologischer Forschungsdaten dar
Erstellung und Evaluierung einer Datenpipeline zur automatisierten Klassifikation von Sammelkarten am Beispiel des Pokémon TCGs
Die vorliegende Arbeit beschreibt die Entwicklung einer Datenpipeline zur automatischen Klassifizierung von Pokémon-Sammelkarten. Ziel ist es, Verfahren aus der Literatur zurVorverarbeitung und Klassifikation von Sammelkarten miteinander zu vergleichen,umeine effiziente und genaue Methode zur automatischen Erkennung und Klassifizierung der Karten zu entwickeln. Da Sammelkarten oft durch verschiedene Störeinflüsse, wie unterschiedliche Lichtverhältnisse aufgenommen werden, ist die Entwicklung einer robusten Methodik für deren eindeutige Erfassung wichtig. Dafür wurden Methoden der globalen und lokalen Merkmalsextraktion untersucht und miteinander verglichen. Der entwickelte Prototyp nutzt dafür eine Datenbank von Pokémon-Kartenbildern, um die Ansätze hinsichtlich ihrer Genauigkeit beim Bildabruf zu evaluieren. Die Ergebnisse zeigen, dass die helligkeitsbasierte Merkmalsextraktion in Verbindung mit einem trainierten Instanzsegmentierungsmodell in der Lage ist, eine hohe Erkennungsgenauigkeit zu erreichen. Mit zunehmender Komplexität an Störeinflüssen stößt die Methodik jedoch an ihre Grenzen. Die Arbeit stellt ein solides Grundgerüst für weitere Arbeiten im Bereich der Bildklassifikationsverfahren für Sammelkarten bereit und kann als Ausgangspunkt für weitere Experimente verwendet werden
Investigation of Machine Learning methods for root cause analysis in SMT-Manufacturing data
Automatisierte Prüfung von Quellenangaben in studentischen Arbeiten
Diese Bachelorarbeit beschäftigt sich mit der Entwicklung eines automatisierten Systems zur Überprüfung von Quellenangaben in studentischen Arbeiten. Ziel ist es, die Integrität wissenschaftlicher Arbeiten zu gewährleisten und einen Beitrag zur Plagiatserkennung zu leisten. Zur Realisierung dieses Vorhabens wurden verschiedene Technologien und Methoden eingesetzt. Für die Extraktion von Texten aus PDF-Dateien kam die Bibliothek PyPDF2 zum Einsatz, während die Vorverarbeitung der natürlichen Sprache mithilfe der NLTK-Bibliothek durchgeführt wurde. Reguläre Ausdrücke (regex) dienten dazu, Zitate innerhalb der studentischen Arbeiten zu identifizieren sowie relevante Abschnitte aus den referenzierten wissenschaftlichen Publikationen zu extrahieren. Zur automatisierten Suche nach Quellen wurde die Datenbank DBLP1 herangezogen. Zur Messung der Ähnlichkeit zwischen den extrahierten Zitaten aus studentischen Arbeiten und den Textpassagen aus den wissenschaftlichen Referenzen wurden zwei Methoden verglichen: die TF-IDF-Methode, implementiert mit scikit-learn, sowie die SIF-Methode unter Verwendung eines vortrainierten Word2Vec-Modells. Als Maßstab für die Ähnlichkeit diente die Kosinus-Ähnlichkeit. Die wichtigsten Ergebnisse der Arbeit zeigen, dass die automatisierte Messung der Ähnlichkeit zwischen Textpassagen effektiv durchgeführt werden kann, was bedeutende Implikationen für die Plagiatserkennung in akademischen Kontexten hat. Diese Forschung demonstriert die Machbarkeit der automatisierten Überprüfung von Quellenangaben und unterstreicht das Potential, die akademische Integrität durch den Einsatz fortschrittlicher Textanalysemethoden zu fördern
Structured Knowledge Extraction from Text using Large Language Models
This thesis presents an approach to structured knowledge extraction using Large Language Models (LLMs), specifically addressing the challenge of transforming unstructured text into ontology-guided knowledge representations. We introduce a dual-task framework that first generates domain-specific ontologies and then extracts knowledge in the form of custom hypergraphs, ensuring both structural consistency and semantic accuracy. Through the implementation of Parameter-Efficient Fine-Tuning techniques, particularly Low-Rank Adaptation (LoRA), we demonstrate how LLM can be effectively adapted for complex knowledge extraction tasks while modifying less than 1% of the model’s parameters.
Our methodology integrates several components: a synthetic data generation pipeline for creating training instances, a validation framework ensuring ontological consistency, and a custom hypergraph representation capable of capturing entities, binary relations, complex multi-entity relations and their attributes. We conducted two distinct sets of experiments – full block adaptation and selective attention-layer adaptation – each tested with different LoRA rank configurations (4, 16, and 32) to investigate how the type of targeted layers and number of adapted parameters affect performance.
The experimental results demonstrate that full-block adaptation achieves superior performance across structural consistency and knowledge similarity metrics, with rank-16 configuration offering an optimal balance between efficiency and effectiveness. Although attention-only adaptation shows promise for computational efficiency by requiring only one-third of the parameters, it exhibits higher volatility in training and lower performance metrics. This research contributes to the field by providing a framework for adapting LLMs to structured knowledge extraction tasks, offering insights into the balance between model efficiency and extraction accuracy, and establishing a foundation for future work in automated knowledge management systems
Prognose der H2S-Belastung am Ende der Druckleitung mithilfe von Machine Learning basierend auf Durchfluss- und Zuflussmengen an Abwasserpumpen zur Vermeidung von H2S-Emissionen
Konzeption eines ETL-Prozesses zur Ermittlung von Kennzahlen aus Bildern als Vorbereitungsschritt einer Plagiatserkennung
Layout- und Texterkennung im Wossidlo-Archiv
Der Fokus dieser wissenschaftlichen Arbeit liegt darauf, historische und handgeschriebene Flurnamen aus der Vielzahl von der im Wossidlo-Archiv vorliegenden Karteikarten in digitale Form zu bringen, ihren Inhalt und Aufbau gründlich zu analysieren und mithilfe des Transkribus-Modells zu extrahieren. Das Ziel besteht darin, diese Informationen präzise in dedizierten Datensätzen zu organisieren und zu speichern, um eine einfache und digitale Zugänglichkeit sicherzustellen. Der Prozess umfasst die Umwandlung von handschriftlichem Text in digitale Form für eine effiziente Nutzung und Analyse. Die extrahierten Daten werden in Datensätzen strukturiert, um eine organisierte und durchsuchbare Datenbank zu schaffen
Detection of Similar Text Documents Based on Self-Organizing Maps
Plagiarism of text has become a common occurrence today with difficulty in detecting forms such as paraphrasing being frequently practiced. This project presents an approach for detecting plagiarism in academic documents using Self-Organizing Maps (SOMs). The system leverages SOMs to cluster documents based on both word-level and context-level similarities, achieved through advanced text embeddings. Experimental results demonstrate the effectiveness of this approach in accurately detecting textual similarities and distinguishing between original and plagiarized content. Future enhancements include fine-tuning the embedding models and expanding the system’s capabilities to handle multilingual