Hochschule RheinMain PUBLIKATIONEN-REPOSITORIUM
Not a member yet
421 research outputs found
Sort by
Self-Supervised Learning on Source Code to Assist Software Developers
This dissertation addresses two challenges inherent in software development: code reuse and quality. It explores the use of Machine Learning (ML), specifically transformer models, to address these challenges. The transformer architecture has recently become the de facto standard in Natural Language Processing (NLP). While code could be treated similar to natural language text, it offers unique opportunities and challenges: it follows a rigid syntax, combines structural with natural language elements, has operational semantics (i.e., code executes), and hence requires a different "understanding" than natural language. To this end, this thesis develops strategies to incorporate the structural properties of source code into transformer models, and improves tasks that require semantic code understanding of ML models, such as code summarization, code retrieval, and quality assessment of code identifiers. The first task, code summarization, generates natural language descriptions for code snippets, which assists developers at the tedious task of writing documentation. The second task investigates a strategy for code retrieval, called Contextualized Code Search (CCS), that aims at an opportunistic code reuse, by allowing the developer to retrieve relevant code snippets from a codebase based on a developer's current coding context and cursor position alone. The third task explores assessing the quality of identifiers in source code based on established coding guidelines and ML models, which are essential for code readability and maintainability.
The dissertation is organized into two parts: Part I Models and Techniques, and Part II Applications. The first part introduces novel approaches to integrate structural information from Abstract Syntax Trees (ASTs) into transformer models. Chapter 3 extends relative positional embeddings to encode structural relationships between nodes in the AST and proposes a new structure-aware loss function based on predicting the Lowest Common Ancestor (LCA) of nodes in trees. Chapter 4 follows a different strategy to integrate structural information, namely through a structure-aware pretraining. It presents a novel self-supervised span-selection, which selects spans for masking based on the AST, and suggests improvements to the structural task identifier deobfuscation. The main result is a multi-task encoder-decoder Language Model (LM), called SyntaxPT, that achieved state-of-the-art code understanding performance at the time of development.
Finally, Chapter 5 studies the application of SyntaxPT to code retrieval, specifically Contextualized Code Search (CCS). The chapter develops a self-supervised training strategy and model for CCS, SyntaxPT-CCS, and introduces the COCOS dataset, the first dataset of its kind allowing to directly evaluate CCS performance. The chapter demonstrates that SyntaxPT-CCS outperforms traditional keyword-based retrieval methods.
The second part of this thesis applies the SyntaxPT and SyntaxPT-CCS models to two highly relevant tasks in software development, code reuse and identifier quality assessment, and investigates the aforementioned models' utility from a practical perspective. Chapter 6 introduces CodeBuddy, a prototype application for CCS, and introduces enhancements to the pretraining strategy to improve retrieval robustness when interacting with end-users. The chapter validates the effectiveness through two user studies: a controlled experiment with 41 computer science students and a three-month case study with four professional software developers. The final Chapter 7 explores the application of the SyntaxPT model to assess the quality of identifiers in source code. To do so, it introduces novel self-supervised scoring functions based on the likelihood estimated by the LM to detect violations of established identifier naming guidelines. The chapter introduces the first dataset for assessing identifier quality based on coding guidelines and demonstrates that the SyntaxPT model outperforms other state-of-the-art language models on this task.Diese Dissertation befasst sich mit zwei wesentlichen Bestandteilen der Softwareentwicklung: Code-Reuse und Code-Qualität. Dafür untersucht diese Arbeit den Einsatz von maschinellem Lernen (ML), insbesondere von Transformermodellen. Die Transformer-Architektur ist in letzter Zeit zum de facto Standard im Bereich der Verarbeitung natürlicher Sprache (NLP) geworden. Obwohl Code ähnlich wie natürlichsprachlicher Text behandelt werden könnte, bietet er doch einzigartige Möglichkeiten und Herausforderungen. Er besteht aus einer klar definierten Syntax, kombiniert syntaktische mit natürlichsprachlichen Elementen, hat eine operative Semantik (d.h. Code kann ausgeführt werden) und erfordert daher eine andere Art von Verständnis als natürliche Sprache. Daher werden in dieser Arbeit Strategien entwickelt, um die syntaktischen Eigenschaften von Programm-Code in Transformermodellen nutzbar zu machen. Dabei wird versucht die Performance in Anwendungsgebieten zu verbessern, die ein semantisches Codeverständnis von ML-Modellen erfordern, wie beispielsweise automatische Dokumentierung von Code, Code-Suche und Qualitätsschätzung von Bezeichnern im Code. Im ersten Anwendungsgebiet, der Erzeugung von Dokumentationen, werden natürlichsprachliche Beschreibungen für Code-Passagen generiert. Im zweiten Anwendungsgebiet wird eine neuartige Strategie für die Code-Suche untersucht: die kontextualisierte Codesuche (CCS). CCS findet allein basierend auf dem Code im Editor und einer Cursorposition hilfreiche Code-Passagen in einer Codebasis. So ermöglicht CCS eine opportunistische Wiederverwendung von Code und einen niederschwelligen Austausch zwischen Entwicklern. In einem dritten Anwendungsgebiet wird die Nutzung von ML-Modellen zur Schätzung der Qualität von Bezeichnern im Code untersucht, basierend auf etablierten Guidelines. Bezeichner sind ein wesentlicher Faktor für die Lesbarkeit und Wartbarkeit des Codes und daher von großer Bedeutung für die Softwarequalität.
Die Dissertation gliedert sich in zwei Hauptteile: Part I Modelle und Techniken, und Part II Anwendungen. Der erste Teil untersucht neuartige Ansätze, um die syntaktischen Informationen aus Syntaxbäumen (ASTs) in Transformermodellen nutzbar zu machen. Dafür erweitert Kapitel 3 die Transformerarchitektur um relative Positionsembeddings, die es ermöglichen die strukturellen Beziehungen zwischen Knoten im AST zu kodieren und schlägt eine neue Lossfunktion vor, die den kleinsten gemeinsamen Vorfahren (LCA) zweier Knoten vorhersagt. Kapitel 4 verfolgt durch ein syntaxbasiertes Pretraining eine andere Strategie, um die syntaktischen Informationen nutzen zu können. Es wird ein neuer selbstüberwachter struktureller Pretrainingtask vorgestellt, bei dem Teilelemente basierend auf dem Syntaxbaum maskiert werden. Zudem wird ein weiterer struktureller Pretrainingtask verbessert, bei dem Bezeichner maskiert werden. Der Hauptbeitrag ist ein Encoder-Decoder-Sprachmodell (LM), genannt SyntaxPT, das mit verschiedenen strukturellen und regulären Pretrainingtasks trainiert wird und zum Zeitpunkt der Entwicklung herausragende Ergebnisse auf Codeverständnis Benchmarks erzielte. In Kapitel 5 wird schließlich die Anwendung von SyntaxPT für Code-Suche untersucht, insbesondere für kontextualisierte Codesuche (CCS). Hauptbeitrag des Kapitels ist eine selbstüberwachte Pretrainingsstrategie und ein Modell für CCS, genannt SyntaxPT-CCS. Außerdem wird ein Benchmark-Datensatz namens COCOS vorgestellt. COCOS ist der erste verfügbare Datensatz für CCS, der eine direkte Evaluation von CCS-Modellen ermöglicht. Es wird gezeigt, dass das selbstüberwachte SyntaxPT-CCS Modell traditionelle schlagwortbasierte Suchmethoden übertrifft.
Der zweite Teil dieser Arbeit wendet die Modelle SyntaxPT und SyntaxPT-CCS auf den zuvor genannten Themengebieten in der Softwareentwicklung an und untersucht den Nutzen der genannten Modelle aus praktischer Sicht: (1) Wiederverwendung von Code mit CCS und (2) die Bewertung der Qualität von Bezeichnern. Dafür wird in Kapitel 6 CodeBuddy vorgestellt, ein Prototyp für die Interaktion mit dem CCS-Modell. Außerdem werden Verbesserungen der Pretraining-Strategie vorgestellt, um die Robustheit des CCS-Modells bei der Interaktion mit echten Nutzern zu verbessern. Des Weiteren wird in diesem Kapitel die Nützlichkeit anhand zweier Nutzerstudien evaluiert. Dies erfolgt zum einen anhand eines kontrollierten Experiments mit 41 Informatikstudenten und zum anderen anhand einer dreimonatigen Fallstudie mit vier professionellen Softwareentwicklern. Das abschließende Kapitel 7 untersucht die Anwendung des SyntaxPT-Modells für die Schätzung der Qualität von Bezeichnern in Programm-Code. Dafür werden neuartige selbstüberwachte Bewertungsfunktionen vorgestellt, die die Wahrscheinlichkeiten des Sprachmodells nutzen, um Verstöße gegen etablierte Guidelines zur Benamung von Bezeichnern zu erkennen. Das Kapitel stellt den ersten Datensatz zur Bewertung der Qualität von Bezeichnern auf der Grundlage von Guidelines vor und zeigt, dass das SyntaxPT-Modell andere moderne Sprachmodelle bei dieser Aufgabe übertrifft
Geovisuelle Ansätze zur Analyse von Raum-Zeit-Zusammenhängen in urbanen Anwendungsfällen
As urbanization accelerates and urban life evolves, the demand for practical and innovative analytical solutions for urban areas continues to grow. Understanding these changes is crucial for making sustainable, forward-looking urban development decisions. Spatiotemporal data analysis plays a major role in this process by enabling the examination of geodata to identify patterns, correlations, and forecasts.
However, decision-makers often overlook spatiotemporal relationships and instead rely on subjective interpretations rather than data-driven insights. Computer-aided approaches provide an opportunity to objectively analyze these relationships and enhance evidence-based decision-making through geovisual methods. At the same time, domain knowledge is essential for aligning data-driven analyses with domain-specific challenges and ensuring the meaningful interpretation of results.
This dissertation aims to harness the potential of geospatial data and integrate spatiotemporal knowledge into decision-making processes. Using demand-driven, limited services in the mobility sector as case studies, we analyze the measurable impact of geospatial factors on facility utilization and explore existing spatiotemporal relationships. We develop a multi-step geospatial analysis approach that utilizes open-source geodata and applies it to two real-world scenarios. With a novel metric of geospatial impact, we quantify the distribution density of potential destinations, characterize the geospatial environment of mobility facilities, and establish the foundation for spatiotemporal correlation calculations. The results successfully identify key spatiotemporal correlations, validated through plausibility checks with domain experts, and demonstrate the adaptability of our approach to additional use cases.
Building on these findings, our work develops geovisual solutions specifically designed for spatiotemporal visualization, improving upon conventional representations. Effective analysis and understanding of correlations in urban environments require user-oriented visualization and explanation. To address these challenges, we design and develop six new techniques and tools for explanation and interaction, integrating them into two novel geovisual 3D analysis approaches. We implement these approaches as prototypes and evaluate them with expert users. The evaluation results indicate improved effectiveness, efficiency, and user satisfaction in real analysis cases. Additionally, they enhance the understanding of spatiotemporal relationships and support informed, evidence-based decision-making.
Finally, we demonstrate how the developed geospatial analysis processes and geovisualization approaches integrate into existing data analysis workflows, providing targeted support to domain experts in urban applications.
In summary, this research expands the toolset for visualizing spatiotemporal relationships, addressing practical challenges through software-based solutions while advancing theoretical research with innovative methods, techniques, and tools.Angesichts der zunehmenden Urbanisierung und der dynamischen Veränderungen des städtischen Lebens wächst der Bedarf an praxisnahen und innovativen Analyselösungen für urbane Räume. Ein fundiertes Verständnis dieser Veränderungen ist entscheidend, um nachhaltige und zukunftsweisende Entscheidungen zur Stadtentwicklung treffen zu können. In diesem Kontext gewinnen raumzeitliche Datenanalysen an Bedeutung, da sie die Analyse von Geodaten ermöglichen und dabei helfen, Muster, Zusammenhänge und Prognosen abzuleiten.
In der Praxis werden raumzeitliche Zusammenhänge im Entscheidungsprozess von Domänenexperten jedoch häufig nicht vollumfänglich berücksichtigt und stattdessen durch subjektive Erfahrungen oder Annahmen interpretiert. Computergestützte, datengetriebene Ansätze eröffnen die Möglichkeit, diese raumzeitlichen Zusammenhänge objektiv zu analysieren und eine evidenzbasierte Entscheidungsfindung mit geovisuellen Ansätzen zu unterstützen. Gleichzeitig kann Domänenwissen ein entscheidender Faktor sein, um die datengetriebenen Analysen gezielt auf domänenspezifische Fragestellungen auszurichten und Ergebnisse zu interpretieren.
Diese Dissertation zielt darauf ab, das Potenzial von Geodaten auszuschöpfen und raumzeitliches Wissen gezielt in Entscheidungsprozesse einzubinden. An Beispielen nachfrageorientierter, begrenzter Dienstleistungsangebote im Mobilitätssektor wird untersucht, welchen messbaren Einfluss Geofaktoren auf die Auslastung von Mobilitätseinrichtungen haben und welche raumzeitlichen Zusammenhänge dabei bestehen. Hierzu wird ein mehrstufiger Geoanalyseansatz entwickelt, der Open-Source-Geodaten nutzt und in zwei realen Anwendungsszenarien anwendet. Eine neuartige Bewertungsmetrik quantifiziert eine Verteilungsdichte potenzieller Zielorte, charakterisiert damit das räumliche Umfeld von Mobilitätseinrichtungen und bildet die Grundlage für raumzeitliche Korrelationsberechnungen.
Die Ergebnisse zeigen eine erfolgreiche Identifikation raumzeitlicher Zusammenhänge, die durch Plausibilitätsprüfungen mit Domänenexperten gestützt werden. Zudem wird eine Adaptierbarkeit auf weitere Anwendungsfälle nachgewiesen.
Aufbauend auf diesen Erkenntnissen werden verschiedene geovisuelle Lösungsansätze untersucht, die im Vergleich zu bestehenden Darstellungsformen gezielt auf die raumzeitliche Visualisierung ausgerichtet sind. Raumzeitliche Analysen erfordern eine nutzerorientierte Visualisierung und Erklärung, um berechnete Korrelationen in urbanen Räumen effektiv analysieren und nachvollziehen zu können. Hierzu werden kombinierte geovisuelle 3D-Analyseansätze entwickelt, die sechs neu konzipierte Techniken sowie Erklärungs- und Interaktionswerkzeuge integrieren. Diese Ansätze werden prototypisch implementiert und in einer Evaluation mit Fachanwendern bewertet. Die Evaluationsergebnisse zeigen, dass die entwickelten geovisuellen Analyseansätze die Effektivität, Effizienz und Zufriedenheit der Anwender bei der Bearbeitung realer Analysefälle steigern. Darüber hinaus fördern sie das Verständnis raumzeitlicher Zusammenhänge und unterstützen eine fundierte, evidenzbasierte Entscheidungsfindung.
Zur praktischen Nutzbarkeit zeigt die Dissertation abschließend auf, wie die entwickelten Geoanalyseprozesse und Geovisualisierungsansätze in einen bestehenden Datenanalyseprozess integriert werden können, um Domänenexperten – etwa bei der kollaborativen Zusammenarbeit in urbanen Anwendungsfällen – gezielt zu unterstützen.
Zusammenfassend erweitern die Ergebnisse und Erkenntnisse dieser Dissertation das Portfolio zur visuellen Analyse raumzeitlicher Zusammenhänge. Sie verringern nachweislich die Herausforderungen in praktischen Anwendungsszenarien durch implementierte Softwarelösungen und erweitern die theoretische Forschungsdisziplin um neue Methoden, innovative Lösungsansätze sowie Techniken und Werkzeuge
SlimDoc: lightweight distillation of document transformer models
Open Access funding enabled and organized by Projekt DEALPublished Versio
Manual zur Verwendung in Studium und Lehre der (Sozial-)Pädagogik
Fachkräfte der Profession Soziale Arbeit sind in vielen Handlungsfeldern mit Betroffenen und kurz-, mittel- und langfristigen gesundheitlichen, sozialen und ökonomischen Auswirkungen von Partnerschaftsgewalt im (klein)städtischen wie ländlichen Raum konfrontiert. Entsprechend gilt es nicht nur für diejenigen, die sich für eine Tätigkeit in einer Einrichtung des Gewaltschutzes entscheiden, problembezogene Kompetenzen im Studium zu erwerben. Doch gilt es auch hier eine Kluft zwischen dem normativ-rechtlichen Anspruch und der bundesdeutschen Wirklichkeit mit Blick auf die notwendige Qualifizierung von Fachkräften im Studium für eine wissenschaftlich fundierte Professionalität, also der Entwicklung professioneller Kompetenzen und ethisch reflexiver Haltungen angesichts von Ausmaß und Folgen dieses sozialen und gesellschaftlichen Problems zu konstatieren. Doch bleibt bislang in den grundständigen Studiengängen der Sozialen Arbeit / (Sozial-)Pädagogik die Vermittlung von Wissen und Können zu Häuslicher Gewalt kontingent, weil der komplexe Problemzusammenhang in der Regel nicht curricular verankert ist.
An der markierten Lücke hinsichtlich von Partnerschaftsgewalt – fehlende Täterarbeit im ländlich geprägten Raum einerseits und kontingent bleibende Qualifizierung angehender Fachkräfte für die Problematik andererseits - setzt das Planspiel „Sinnvolle Prävention oder Geldverschwendung?" Psychosoziale Täterarbeit bei Partnerschaftsgewalt im ländlichen Raum“ an. Als handlungsorientierte Lehr- und Lernmethode verfolgt es das Ziel, unter Berücksichtigung der Spezifika des ländlichen Raums auf spielerischem Weg Wissen über Gewalt in der Paarbeziehung, über das psychosoziale Hilfe- und Unterstützungssystem sowie politische Prozesse bei dessen Implementierung zu vermitteln und Logiken des Handeln beteiligter Akteur:innen ebenso erlebbar zu machen wie konkurrierende Interessen und notwendige Kompromissbildungen.
Das vorliegende Manual möchte Dozent:innen in Studiengängen der Sozialen Arbeit / (Sozial-)Pädagogik bei der Vorbereitung, Durchführung und Nachbereitung für den Einsatz des Planspiels im Rahmen von Lehrveranstaltungen zum Thema Häusliche Gewalt, hier Gewalt in der Paarbeziehung, unterstützen. Zugleich möchte es dazu motivieren, den Weg eines realitätsnahen Simulationsspiels für die Qualifizierung von Fachkräften der Sozialen Arbeit zu erproben.Published Versio
NePHIM: A Neural Physics‐Based Head‐Hand Interaction Model
Open Access funding enabled and organized by Projekt DEAL.Published Versio
An economic introduction
With their common currency, the Europeans embarked on an experiment in 1999 that is unique in the history of money. It was preceded by numerous attempts to complement the advancing political integration since the 1950s with monetary integration. Today's currency union does not mark the end of this development. As long as the economic policies of the member states do not better support the ECB's monetary policy, European capital markets remain fragmented, and key EU members refrain from adopting the euro, this historic project remains incomplete.Published Versio
Development and testing of an online course on the second victim phenomenon: a three-dimensional evaluation and proof of concept
Published Versio
The Potential of the Sociology of Emotions and Affect Studies for Understanding Ageing Processes
Open Access funding enabled and organized by Projekt DEALPublished Versio
Integrating wearable mobile health technologies into chronic heart failure management: Insights from a mixed-methods study and persona development
This publication is with permission of the rights owner freely accessible due to an alliance licence and a natural licence (funded by the DFG, German Research Foundation) respectively.Published Versio
Zahlungsbereitschaft deutscher Medienkonsumenten für die ökologische Nachhaltigkeit internationaler Sportgroßveranstaltungen
Open Access funding enabled and organized by Projekt DEALPublished Versio