Universität Rostock, Lehrstuhl Datenbank- und Informationssysteme: Dbis Repository
Not a member yet
940 research outputs found
Sort by
Konzeption eines ETL-Prozesses zur Ermittlung von Kennzahlen aus Audioaufnahmen als Vorbereitungsschritt einer Plagiatserkennung
Diese Bachelorarbeit befasst sich mit der Konzeption und Implementierung eines ETL-Prozesses zur Ermittlung von Kennzahlen aus Audioaufnahmen, die als Vorbereitungsschritt für die Plagiatserkennung dienen. Ziel der Arbeit war es, einen robusten ETL-Workflow zu entwickeln, der Audiodaten aus verschiedenen Quellen effizient extrahiert, transformiert und in ein Zielsystem lädt. Die Arbeit beleuchtet die Herausforderungen und technischen Aspekte, die mit der Verarbeitung von Audiodaten verbunden sind, und zeigt, wie ein maßgeschneidertes ETL-Framework zur Bewältigung dieser Herausforderungen beitragen kann.
Im theoretischen Teil der Arbeit werden die Grundlagen des ETL-Prozesses sowie die relevanten Technologien und Tools vorgestellt. Darauf aufbauend wird der aktuelle Stand der Technik hinsichtlich der Audiodatenverarbeitung und Plagiatserkennung untersucht. Im praktischen Teil derArbeit wird das entwickelte Konzept detailliert beschrieben und die Implementierung Schritt für Schritt erläutert. Die Ergebnisse zeigen, dass das entwickelte System in der Lage ist, Audiodaten effizient zu verarbeiten und die Grundlage für eine zuverlässige Plagiatserkennung zu schaffen. Abschließend werden die Ergebnisse diskutiert und Empfehlungen für zukünftige Entwicklungen gegeben
My Energy to the Moon? Combining Human Energy Tracking with Financial Chart Analysis for Advanced Desktop Work-Life Tracking
KI-basierte Generierung von SQL-Anfragen basierend auf natürlichsprachlichen Anfragen
In dieser Masterarbeit wird die KI-basierte Generierung von SQL-Anfragen aus natürlichsprachlichen Anfragen untersucht. Im Mittelpunkt der Studie stehen die fortschrittlichen Tools LlamaIndex und LangChain, die im Kontext des Generative Pre-trained Transformer 4 (GPT-4) analysiert werden. Die Relevanz dieser Untersuchung ergibt sich aus der zunehmenden Bedeutung von Datenbanken in der modernen digitalen Welt und der gleichzeitig bestehenden Barriere technischer Fachkenntnisse, insbesondere im Bereich der strukturierten Abfragesprache (SQL). Durch den Einsatz von künstlicher Intelligenz (KI) und der Verarbeitung natürlicher Sprache (NLP) zielt diese Arbeit darauf ab, die Mensch-Computer-Interaktion zu vereinfachen, indem sie einen breiteren Zugang zu Datenbankinteraktionen ermöglicht und die Art und Weise, wie Informationen abgerufen und genutzt werden, revolutioniert. Die Hauptziele dieser Arbeit umfassen die eingehende Untersuchung und den Vergleich von LlamaIndex und LangChain hinsichtlich ihrer Fähigkeiten, natürlichsprachliche Anfragen in präzise SQL-Befehle umzuwandeln, sowie die Bewertung ihrer Benutzerfreundlichkeit, Leistung in unterschiedlichen Szenarien und ihre Zuverlässigkeit. Die Ergebnisse sollen Einblicke in die Praktikabilität und Effizienz von KI-gestützten Datenbankabfragetools bieten und Verbesserungsmöglichkeiten für die zukünftige Entwicklung solcher Technologien aufzeigen
Konzeption eines ETL-Prozesses zur Ermittlung von Kennzahlen aus Videos als Vorbereitungsschritt einer Plagiatserkennung
Medien mit zunehmender Geschwindigkeit hochgeladen. Plagiat, oder das unautorisierte Kopieren von Inhalten, ist ein ernstes gesellschaftliches Problem im Bereich des Internets und der Multimediatechnologien. In dieser Forschungsarbeit schlagen wir eine Methode vor, um Merkmale aus Videos zu extrahieren und Plagiate zu erkennen. Dieses Framework stützt sich auf lokale Merkmale, um einzelne Videos im Vergleich zu in der Datenbank gespeicherten Videos zu identifizieren. Es erfordert eine Untersuchung der aktuellen Methoden zur Erkennung von Plagiaten in Videos, einen Vergleich dieser Methoden anhand geeigneter Leistungskennzahlen und die Identifizierung offener Herausforderungen. Diese Arbeit stellt einen ETL-Prozess zur Erkennung von Plagiaten in Videos vor. Sie extrahiert relevante Daten aus dem Video wie Audio, Frames und Text. Dann werden die Daten transformiert, um einen zuverlässigen Satz von Merkmalen zu extrahieren, der bei der Vergleich von Videos verwendet wird. Am Ende werden die extrahierten und transformierten Daten in einer geeigneten Datenbank gespeichert, die schnelle Vergleiche zwischen einem neuen Video und den bereits hinzugefügten Videos ermöglicht
Einsatz von Transformer-Architekturen und Text-to-Speech-Technologien zur personalisierten Gestaltung von Online-Umfragen
Konzeption eines ETL-Prozesses zur Ermittlung von Kennzahlen aus Texten als Vorbereitungsschritt einer Plagiatserkennung
Diese Bachelorarbeit diskutiert den Entwicklungsprozess eines ETL-Prozesses, das darauf abzielt, spezifische Kennzahlen aus Texten zu extrahieren. Die Texte wurden aus PDF-Dateien unter Verwendung der PyPDF2-Bibliothek in der Programmiersprache Python extrahiert. Diese Arbeit bietet eine umfassende Analyse der Arten von Kennzahlen, die extrahiert werden können, mit einem besonderen Schwerpunkt auf der Art und Weise, wie Metadaten extrahiert und als effektive Indikatoren genutzt werden können, auf diese Kennzahlen kann dann später verlassen werden, um Plagiate in akademischen Arbeiten von Studenten zu identifizieren. Die Arbeit hebt auch eine Reihe von in Python verfügbaren Programmbibliotheken hervor, erläutert ihre Eigenschaften und die Vorteile, die sie bieten, und kommt zu dem Schluss, dass in dieser Arbeit die PyPDF2-Bibliothek die bessere Option für die Textextraktion darstellt. Darüber hinaus wird die Rolle der NLTK-Bibliothek bei der effizienten Extraktion von Kennzahlen und Textanalyse diskutiert. Zusätzlich wurden die Ergebnisse der Text- und Kennzahlenextraktion sowie der Metadaten sorgfältig bewertet, um ihre Gültigkeit und Zuverlässigkeit zu überprüfen. Die Arbeit schließt mit einer Reihe von Empfehlungen für zukünftige Forschungen in diesem vielversprechenden Feld
Extraktion textueller Informationen aus heterogenen PDF-Dokumenten
Diese Bachelorarbeit untersucht den Prozess der Extraktion von Text aus Absätzen, Überschriften und Tabellen, die in PDF-Dokumenten enthalten sind, mithilfe des Python-Moduls PDFMiner. In dieser Arbeit wird ein Überblick über viele Python-Bibliotheken sowie ein Vergleich ihrer Funktionen und Eigenschaften präsentiert, mit der Schlussfolgerung, dass PDFMiner die überlegene Option für das Ziel der Textextraktion ist. Die Verarbeitungs- und Implementierungsmethode von PDFMiner wird detailliert aufgeschlüsselt und die Ausgabeergebnisse der Textextraktion werden untersucht, bewertet und auf ihre Korrektheit und Verlässlichkeit geprüft. Die Arbeit schließt mit einigen Vorschlägen für weitere Forschungen in diesem Bereich sowie mit einigen möglichen Anwendungen von PDFMiner in anderen Studienbereichen. Generell zeigen die Ergebnisse der Studie, dass die effiziente Extraktion von Text aus PDF-Dateien das Potenzial hat, in einer Vielzahl von Bereichen wie Bildung, Forschung und Datenanalyse eingesetzt zu werden
Removal of Imperfections in Digital Scans using Generative Adversarial Networks
move towards a more digital workflow. However, scanned document images often suffer from damage caused by different real-life scenarios, which makes them difficult to read and use. In this thesis, we explore the use of generative adversarial networks (GANs) to enhance scanned images and remove imperfections, such as coffee stains and other distortion factors. The problem is formulated as an image-to-image translation task between two domains, and we compare the performance of two GAN types: Pix2Pix, a supervised image-to-image translation model that uses paired data, and CycleGAN, an unsupervised image-to-image translation model that uses unpaired data.
To address this problem, we developed a data pipeline to generate appropriate data to train the aforementioned models. Furthermore, we developed a prototype that allows users to easily test out these models. The effectiveness of the proposed methods was evaluated in detail using various criteria, such as Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index Measure (SSIM), and Fréchet Inception Distance (FID). We also assessed the impact of these approaches on improving Optical Character Recognition (OCR) efficiency. The results showed that Pix2Pix can significantly improve the quality of scanned images and remove defects such as coffee
stains, while CycleGAN performed averagely.
Overall, this study provides a perspective on improving the digitization process by using GANs to address image imperfections. The data pipeline and prototype developed in this work can be used to improve the quality of scanned images and facilitate the transition to a more digital workflow. Future research could explore the possibility of further improving the performance of this method by incorporating other types of GANs or alternative approaches