Hochschulschriftenserver der Hochschule der Medien Stuttgart
Not a member yet
128342 research outputs found
Sort by
Generalizable 6DoF Pose Estimation in Augmented Reality: A Comparison of Modern Methods
Accurately estimating the 6DoF pose of novel objects is essential for applications such as augmented reality, robotics, and automated inspection, particularly in industrial environments. In the context of vehicle development at Mercedes-Benz, robust pose estimation enables dynamic use cases including real-time visualization of components during assembly and quality control.
This bachelor thesis evaluates and compares five modern deep learning-based methods for 6DoF pose estimation of previously unseen objects, using only a CAD model as input. The selected methods are FoundationPose, SAM-6D, MegaPose, GigaPose, and OVE6D. Each method was implemented within a unified, Python-based evaluation pipeline and tested on real automotive components, such as a brake disc and a crankcase, under realistic conditions.
The evaluation focused on accuracy, inference time, and generalizability, particularly in dynamic scenarios without object-specific training. The results show that FoundationPose consistently achieved the highest accuracy and robustness. MegaPose provided a solid trade-off between runtime and generalization. SAM-6D delivered promising results on simple, geometric objects but showed clear limitations when applied to more complex shapes. In contrast, GigaPose and OVE6D were affected by unstable predictions and long preprocessing times.
The thesis concludes that the tested methods are fundamentally suitable for industrial use. However, further development is required to achieve a lightweight, real-time capable all-in-one pipeline. This includes reducing model size for faster inference, integrating robust and automated segmentation, and streamlining the overall system for seamless deployment. Based on the experimental findings, this work outlines the technical and methodological improvements needed to enable a robust and real-time capable pose estimation pipeline for effective integration into augmented reality applications within the vehicle development process
The Influence of Embodied Virtual Agents in a Mystery Game: Exploring the Effects of Spoken Interaction on Players’ Sense of Agency
This thesis investigates the impact of spoken natural language interaction with Embodied Virtual Agents on players’ Sense of Agency in a narrative-driven mystery game. The game prototype ‘Speaking of Hidden Truth’ was developed to enable open-ended voice interactions with AI-controlled agents. Employing a mixed-methods approach, ten participants filled out a pre-test questionnaire, participated in a playtest and completed the Game Sense of Agency Questionnaire, followed by qualitative interviews. Findings indicate that spoken interaction can enhance players’ Sense of Agency through a Sense of Freedom, Natural Realistic Interaction and Contextual Responsiveness. However, Speech Processing Mistakes, Memory and Cognitive Overload, Formulating Questions Without Guidance and Misleading Agents were identified as hindrances to agency. Participants reported a positive attitude towards speech technology, describing it as natural and novel. While the overall Sense of Agency ratings were positive, the anticipated link between utterance length and Sense of Agency could not be statistically confirmed. This study adds to the expanding field of Human-Agent Interaction by emphasizing the potential and challenges of voice-based interaction in games
Demokratie braucht Medienbildung! Bibliotheken als (Lern-)Orte für den Umgang mit Desinformation Ein praktischer Leitfaden für zielgruppenorientierte Angebote – entwickeln, umsetzen, reflektieren.
Wie du diese Handreichung nutzen kannst
Diese Handreichung soll dich dabei unterstützen, das
Thema Desinformation in deine Bildungsarbeit zu
integrieren und mit entsprechenden Angeboten zu
demokratiefördernden Prozessen beizutragen. Sie bietet
Grundlagenwissen, praxisnahe Tipps, Reflexionsfragen,
Argumentationshilfen sowie Good-Practice-Beispiele,
die du direkt übernehmen oder an deine Situation anpassen
kannst. Dabei musst du nicht alles lesen – suche
dir einfach das heraus, was für deine Arbeit passt! Ziel ist
es, dir praktische Werkzeuge an die Hand zu geben, mit
denen du deine bestehenden Angebote reflektieren und
neue, niedrigschwellige Formate entwickeln kannst. So
unterstützt du deine Zielgruppen dabei, Desinformation
zu erkennen und zu begegnen, und förderst eine reflektierte,
kritische Mediennutzung. Die Handreichung enthält
leicht umsetzbare Ideen, die sich in den bibliothekarischen
Alltag integrieren lassen, ebenso wie Konzepte
für größere Formate wie Workshops oder Projekttage,
die du allein oder gemeinsam mit externen Partner:innen
umsetzen kannst.
Ob kleine Impulse oder umfassende Angebote – jede
Maßnahme trägt dazu bei, Desinformation entgegenzuwirken
und die demokratische Resilienz der Gesellschaft
zu stärken. Lass dich inspirieren und probiere
aus – du brauchst kein Vorwissen. Nutze diese Handreichung
dabei als Werkzeugkiste. Hier findest du alles, um
einfach loszulegen. Jede Bibliothek kann ein wichtiger
Ort für Medienbildung und Demokratie sein!
Um die Orientierung in der Handreichung zu erleichtern,
findest du an verschiedenen Stellen Infokästen mit Links
und QR-Codes. So kannst du direkt auf weiterführende
Materialien, praktische Beispiele oder hilfreiche Werkzeuge
zugreifen. Die ausgeschriebenen Links sind zudem
im Linkverzeichnis am Ende gesammelt.
Viele Infokästen sind zusätzlich mit Icons versehen. Sie
zeigen dir auf einen Blick, welche Art von Material oder
Information du hier findest – ob ein Video zum Sehen,
einen Podcast zum Hören, ein interaktives Spiel, pädagogisches
Material, eine Methode, eine Projektempfehlung,
eine Netzwerkressource oder eine kurze Begriffsdefinition.
So kannst du gezielt auswählen, was für deine Arbeit
am nützlichsten ist.
Wie du diese Handreichung nutzen kanns
Definition von Handlungsempfehlungen und Entwicklung eines Workshopkonzepts für einen inklusiven User-Experience-Design-Prozess zur Verminderung von Anti-Schwarzem Rassismus
Die vorliegende Arbeit untersucht, wie ein inklusiver Designprozess gestaltet werden
kann, der Anti-Schwarzen Rassismus vermindert und die technologische User Experience
Schwarzer Menschen verbessert. Basierend auf einer ausführlichen Literaturanalyse, vier
qualitativen, semistrukturierten Expert*inneninterviews und einer Fokusgruppe mit der
Zielgruppe wurden zentrale Barrieren und Verbesserungsmöglichkeiten im User
Experience Design identifiziert.
Die Untersuchung verdeutlicht, dass fehlende Diversität in User-Experience-Teams,
fehlende Awareness für die Lebensrealitäten Schwarzer Menschen und die unzureichende
Berücksichtigung Schwarzer Perspektiven im Designprozess zu den zentralen
Herausforderungen gehören. Aufbauend darauf werden praxisnahe
Handlungsempfehlungen entlang der Phasen des Design-Thinking-Prozesses entwickelt,
die dabei unterstützen sollen, den Designprozess inklusiver zu gestalten. Die Arbeit
schlägt außerdem ein Workshop-Konzept vor, das User-Experience-Teams für die
Thematik sensibilisiert und konkrete Ansätze zur Integration von Methoden bietet, die
Anti-Schwarzen Rassismus vermindern und nachhaltige Verbesserungen im
Designprozess fördern.This paper examines how an inclusive design process can be created to reduce anti-Black
racism and enhance the user experience for Black people in technological contexts. Based
on an extensive literature review, four qualitative, semi-structured expert interviews and
a focus group with the target group, key barriers and opportunities for improvement in
user experience design were identified.
The findings reveal that a lack of diversity in user experience teams, limited awareness
of Black people’s lived realities and insufficient consideration of Black perspectives in
the design process are among the key challenges. Building on these insights, practical
recommendations are developed along the phases of the design thinking process, which
should support making the design process more inclusive. The paper also proposes a
workshop concept that sensitizes user experience teams to the topic and offers concrete
approaches for integrating methods that reduce anti-Black racism and promote
sustainable improvements in the design process
Einsatzpotenziale von Large Language Models zur Verbesserung der Barrierefreiheit im automatisierten Website-Testing
Barrierefreiheit im Web bedeutet die Ermöglichung von gesellschaftlicher Teilhabe. Die Prüfung von Websites auf Barrierefreiheit ist allerdings im Moment ein aufwendiger manueller Prozess, der fachbezogene Kenntnisse erfordert. Dieser könnte durch den Einsatz von Large Language Models (LLMs) vereinfacht werden, indem sie automatisiert Fehler erkennen und Verbesserungsvorschläge liefern. In dieser Arbeit werden drei LLMs auf ihre Fähigkeit dazu untersucht, wobei auch die Potenziale von Retrieval Augmented Generation und Fine-Tuning beleuchtet werden. Dies wurde durch die Verwendung eines Datensatzes an beispielhaften Bewertungen nach den Kriterien des BITV-Tests umgesetzt. Getestet wurden die LLMs von OpenAI, Google und Mistral, wobei nur letzteres Open-Source ist. Die vielversprechendsten Ergebnisse erzielte ChatGPT, welches in 37% der Tests die Existenz von Mängeln erfolgreich erkannte. Google Gemini und Mistral erreichten eine Erfolgsquote von 26%. Lediglich das erstellte Fine-Tuned Modell von Gemini schnitt mit einer Erfolgsquote von 7% deutlich schlechter ab. Die Ergebnisse zeigen, dass LLMs potenziell gut geeignet zur Automatisierung der Barrierefreiheitsprüfung sind. Für eine Vollautomatisierung ohne manuelle Überprüfung bedarf es allerdings noch weiterer Forschung.Web accessibility means enabling social participation. However, checking websites for accessibility is currently a time-consuming manual process that requires specialized knowledge. This could be simplified through the use of large language models (LLMs), which automatically detect errors and provide suggestions for improvement. In this paper, three LLMs are examined for their ability to do this, also highlighting the potential of Retrieval Augmented Generation and fine-tuning. This was implemented by using a data set of exemplary evaluations according to the criteria of the BITV test. The LLMs of OpenAI, Google and Mistral were tested, with only the latter being open source. The most promising results were achieved by ChatGPT, which successfully detected the existence of defects in 37% of the tests. Google Gemini and Mistral achieved a success rate of 26%. Only the fine-tuned model created using Gemini performed significantly worse with a success rate of 7%. The results show that LLMs are potentially well suited for automating the accessibility assessment. However, further research is needed for full automation without manual checking
10 Gebote der KI-Ethik
Die 10 Gebote der KI-Ethik dienen als medienethisches Lehrmaterial für Kinder und Jugendliche im Alter von 12 bis 17 Jahren zur Aufklärung über mögliche Gefahren und Wertekonflikte im Umgang mit Künstlicher Intelligenz
Ethische Leitlinien für den Einsatz von synthetischen und geklonten Stimmen im Nachrichtenjournalismus
Die „Ethischen Leitlinien für den Einsatz von synthetischen und geklonten Stimmen im Nachrichtenjournalismus“ stellen einen ethischen Ansatz vor, der klare Orientierungsvorgaben für Redaktionen und Medienschaffende formuliert. Im Zentrum stehen Fragen nach Verantwortung, Transparenz, Schutz vor Täuschung, Medienkompetenz und der Rolle der menschlichen Stimme im Zusammenhang mit journalistischer Verantwortung. Die Leitlinien richten sich ausdrücklich auch an politische Influencer und neue mediale Formate, da hier die Meinungsbildung vor allem von jüngeren Zielgruppen maßgeblich beeinflusst wird. Die Leitlinien sind eine Einladung zu einem öffentlichen Diskurs über die Bedingungen und Voraussetzungen für einen guten Journalismus im Zeitalter von generativer KI
Hands-On Quantum Computing for Computer Science and Media: Conceptualizing and Implementing Laboratory Practices in Higher Education
This thesis investigates how a hands-on introductory Quantum Computing (QC) course can be effectively designed for students of Computer Science and Media (CSM) at a University of Applied Sciences (UAS). Using a mixed-methods approach - including a literature review, focus group discussions, and a student survey - the study addresses five core research questions concerning course content, abstraction level, instructional methodology, and tool selection. The findings highlight that foundational quantum computing concepts (e.g. superposition, entanglement, interference) should be prioritized, while complex mathematical formulations may be omitted without impairing students’ practical understanding.
The research supports a moderately abstract, application-driven course structure, combining theoretical foundations with hands-on programming using tools such as IBM Composer and Qiskit. Both students and lecturers emphasized the importance of accessible, cost-efficient platforms with
strong visual and interactive elements. The proposed course framework promotes project-based learning, flexibility, and just-in-time theoretical instruction, accommodating the varied backgrounds of CSM students.
This work contributes to the growing field of quantum education in non-physics domains and offers a blueprint for interdisciplinary, practice-oriented QC instruction. Future research is encouraged to incorporate industry perspectives, assess long-term learning outcomes, and expand course content to include topics like quantum ethics.Diese Masterarbeit untersucht, wie ein praxisnaher, einführender Kurs in Quantencomputing (QC) für Studierende der Studienrichtung Medieninformatik (engl.: Computer Science and Media) an einer Hochschule für Angewandte Wissenschaften (HAW) effektiv gestaltet werden kann. Mithilfe eines Mixed-Methods-Ansatzes – bestehend aus einer Literaturrecherche, Fokusgruppen-Diskussionen und einer Studierendenbefragung – wurden fünf zentrale Forschungsfragen zu den Kursinhalten, dem Abstraktionsniveau, der Lehrmethodik und dem Einsatz geeigneter Werkzeuge untersucht.
Die Ergebnisse zeigen, dass grundlegende Konzepte des Quantencomputings (z.B. Superposition, Verschränkung, Interferenz) priorisiert werden sollten, während komplexe mathematische Herleitungen weggelassen werden können, ohne das praktische Verständnis der Studierenden zu beeinträchtigen. Unterstützt wird ein moderat abstrakter, praxisorientierter Kursaufbau, der die theoretische Grundlagen mit anwendungsbezogener Programmierung (z. B. mit IBM Composer und Qiskit) kombiniert. Sowohl Studierende als auch Lehrende betonten die Bedeutung von leicht zugänglichen, kostengünstigen Plattformen mit visuellen und interaktiven Elementen. Das vorgeschlagene Kurskonzept fördert projektbasiertes Lernen, Flexibilität, sowie eine bedarfsorientierte Vermittlung theoretischer Inhalte, um den unterschiedlichen Vorkenntnissen der Medieninformatik-Studierenden gerecht zu werden.
Diese Arbeit leistet einen Beitrag zur Entwicklung praxisnaher, interdisziplinärer Bildungsangebote im Bereich Quantencomputing außerhalb der Physik und liefert ein konzeptionelles Rahmenwerk für die curriculare Umsetzung. Zukünftige Forschung sollte Industrieperspektiven einbeziehen,
Langzeitwirkungen des Lernens evaluieren und Inhalte um Themen wie Quantenethik erweitern
Evaluation of guiding methods for displaying on- and offscreen subtitles in XR to support hearing-impaired users
Developing effective subtitle guidelines for XR is crucial to support hearing-impaired users. In this research we synthesize existing 2D guidelines and addresses 3D-specific challenges, focusing on subtitle placement (world-spaced vs. screen-spaced) and different guiding meth-ods for offscreen sound localization. We created a prototype in Unity, simulating a VR meeting to test ten use cases combining different placement and guiding method combinations.
Our results reveal a statistically significant preference for world-spaced subtitles, particularly with guiding methods like icon bubbles, which were praised for improving spatial awareness and speaker identification while minimizing cognitive load. Screen-spaced subtitles were found to be less effective in scenarios with multiple speakers due to difficulties in speaker associa-tion. Our findings emphasize the need for scenario-specific, flexible, and intuitive subtitle sys-tems in immersive XR environments.Die Entwicklung effektiver Untertitelrichtlinien für XR ist entscheidend, um hörgeschädigte Nutzer zu unterstützen. In dieser Forschung haben wir bestehende 2D-Richtlinien zusammen-gefasst und spezifische Herausforderungen in 3D adressiert, mit einem Fokus auf Untertitel-platzierung (weltbezogen vs. bildschirmbezogen) und verschiedenen Methoden zur Lokalisie-rung von Offscreen-Soundquellen. Wir erstellten ein Prototyp in Unity, in dem ein VR-Meeting simuliert wurde, um zehn Anwendungsfälle mit unterschiedlichen Kombinationen von Platzie-rung und Leitmethoden zu testen.
Unsere Ergebnisse zeigen eine statistisch signifikante Präferenz für weltbezogene Untertitel, insbesondere in Kombination mit Leitmethoden wie Symbolblasen, die für eine verbesserte räumliche Wahrnehmung und Sprecheridentifikation gelobt wurden und gleichzeitig die kogni-tive Belastung minimierten. Bildschirmbezogene Untertitel erwiesen sich in Szenarien mit mehreren Sprechern als weniger effektiv, da die Zuordnung zu Sprechern erschwert wurde. Die Ergebnisse betonen die Notwendigkeit von Szenario spezifischen, flexiblen und intuitiven Untertitel-Systemen in immersiven XR-Umgebungen
Large Language Model unterstützte Barrierefreiheitsprüfung für Websites - Analyse und proof of concept
Digitale Teilhabe ist ein zentraler Aspekt gesellschaftlicher Inklusion, wird jedoch durch bestehende Barrieren im Web weiterhin eingeschränkt. Diese Masterarbeit untersucht das Potenzial von Large Language Models (LLMs), die Prüfung digitaler Barrierefreiheit automatisiert zu unterstützen. Im theoretischen Teil werden relevante technische Grundlagen, bestehende Werkzeuge und aktuelle Forschungsansätze analysiert.
Darauf aufbauend wurde ein Prototyp entwickelt, der mithilfe verschiedener LLMs
(GPT-4o, Gemini 2.5 Pro, LLaMA 3.0 8B, Mistral 7B) ausgewählte WCAG-Kriterien
(1.1.1 Nicht-Text-Inhalte, 1.3.1 Informationen und Beziehungen, 3.1.2 Sprache von Teilen und 3.1.5 Lesbarkeit) überprüft. Der Ansatz kombiniert DOM-Extraktion und -Filterung, automatisiertes Prompting, optional Retrieval-Augmented Generation (RAG) und Screenshots. Ziel ist es, auch Personen ohne tiefes Fachwissen konkrete Rückmeldungen und Verbesserungsvorschläge zu ermöglichen.
Die Evaluation erfolgte anhand standardisierter Test-Snippets, gezielt modifizierter Webseiten und realer Seiten mit bekannten Barrieren. Die Ergebnisse zeigen deutliche Unterschiede zwischen den getesteten Modellen und Eingabemodi. Die großen multimodalen Modelle Gemini 2.5 Pro und GPT-4o lieferten in allen Teststufen die besten Resultate. Gemini 2.5 Pro erwies sich als Spitzenreiter. Der Screenshot-Modus zeigte sich bei visuell geprägten Kriterien als klarer Vorteil, während der Standard-Modus mit ausführlichen Anweisungen insgesamt den stabilsten Kompromiss aus Precision und Recall
bot. Der Minimal-Modus führten zu einer systematischen Überkennzeichnung und
erwiesen sich in der Praxis als wenig geeignet. Die Filter des Prototyps erwiesen sich als essenziell für diesen Ansatz.
Während die Snippet-Tests und die simplen modifizierten Webseiten noch hohe Genauigkeiten ermöglichten, wurden bei den komplexen realen Webseiten die Grenzen des Ansatzes sichtbar. Lange DOM-Strukturen überforderten die Modelle, Batching war nur bedingt praktikabel, und es kam zu unspezifischen oder fehlerhaften Barrieremeldungen.
Insgesamt zeigt die Arbeit, dass LLMs bestimmte Barrierefreiheitsverstöße automatisiert erkennen können. Für den vollautomatischen Einsatz unter realen Bedingungen ist der Ansatz jedoch noch nicht ausreichend robust. Ein iterativer Prüfprozess und optimierte Filter bieten vielversprechende Ansatzpunkte für zukünftige Forschung und die Integration in bestehende Prüfverfahren.Digital inclusion is a key aspect of social participation, yet it remains significantly limited by existing barriers on the web. This master’s thesis explores the potential of Large Language Models (LLMs) to support the automated evaluation of digital accessibility. The theoretical part analyzes relevant technical foundations, existing tools, and current research approaches.
Based on this, a prototype was developed that uses various LLMs (GPT-4o, Gemini 2.5 Pro, LLaMA 3.0 8B, Mistral 7B) to assess selected WCAG criteria (1.1.1 Non-text Content, 1.3.1 Info and Relationships, 3.1.2 Language of Parts, and 3.1.5 Reading Level). The approach combines DOM extraction and filtering, automated prompting, optional Retrieval-Augmented Generation (RAG), and screenshots. The goal is to provide concrete feedback even to non-experts and position LLMs as a complementary tool to existing accessibility evaluation methods.
The evaluation was conducted using standardized test snippets, intentionally modified web pages, and real-world websites with known accessibility issues. Results show clear differences between the tested models and input modes. The large multimodal models Gemini 2.5 Pro and GPT-4o delivered the best results across all test stages, with Gemini 2.5 Pro performing best overall. The screenshot mode proved to be an advantage for visually oriented criteria, while the standard mode with detailed instructions offered the most balanced performance in terms of precision and recall. The minimal mode led to a high number of false positives and was less suitable in practice. The prototype’s
filtering mechanisms were essential for the approach.
While high accuracy was achieved with snippets and simple modified pages, the evaluation of complex real-world websites revealed limitations. Long DOM structures overwhelmed the models, batching was only partially effective, and a lot of errors were missed or reported without clear references.
Overall, the thesis demonstrates that LLMs can automatically detect certain accessibility violations. However, the approach is not yet robust enough for fully automated use in real-world scenarios. Iterative testing and improved filtering offer promising directions for future research and integration into existing evaluation workflows