1,721,002 research outputs found
Entwicklung eines bildbasierten Assistenten für chinesisches Schach
In dieser Arbeit wird ein Algorithmus vorgestellt, der auf Basis eines Bildes von einem chinesischen Schachbrett dessen Stellung berechnet und an eine Engine weitergibt, welche den besten Zug zurückgibt. Das Brett wird dabei mittels adaptivem Thresholding und Contour Finding erkannt. Die Figuren werden mithilfe eines neuronalen Netzes auf Basis von ImageNet klassifiziert und zur vorliegenden Stellung in Form eines FEN-Strings zusammengebaut. Dieser wird an die Engine Pikafish gegeben, um den besten Zug für die Seite, aus der das Bild gemacht wurde, über die Konsole auszugeben. Bei Bildern aus der top-down-Perspektive oder aus einem kleinen Winkel wird das Brett in über 95% und die Stellung in über 60% der Fälle korrekt erkannt. Unter optimalen Bedingungen ist die Erfolgsrate noch höher. Für Bilder aus einem flachen Winkel zum Brett sowie bei Bildern mit Gegenlicht oder Licht ecken ist der Algorithmus jedoch noch nicht robust genug und erreicht eine niedrige Genauigkeit.In this thesis, an algorithm is presented which, on the basis of an image of a Chinese chessboard, calculates its position and passes it on to an engine, which returns the best move. The board is detected by means of adaptive thresholding and contour finding. The pieces are classi ed with the help of a neural network based on ImageNet and assembled to represent the position in the form of a FEN string. This is given to the engine Pikafish to output the best move via the console for the side from which the image was taken from. For images taken from the top-down perspective or from a slight angle, the board is correctly recognised more than 95% of the time, the position in more than 60%. For images taken from a low angle to the board and for images with backlighting or light spots, however, the algorithm is not yet robust enough and achieves low accuracy
Adversarial Attacks and Defense based on JPEG Coefficients
Neural networks have been shown to be vulnerable towards small, barely visible alterations of input images that lead to misclassifications, so-called adversarial examples. There has been a lot of research on creating adversarial examples and how to defend nets against them. Usually, those methods perturb images' RGB pixel representations. We propose applying perturbations straight on JPEG coefficients. Our method allows to control the perturbation applied on each YCbCr channel and each DCT frequency. We find that adversarial perturbation is often most efficient when it is applied on medium DCT frequencies, with efficiency being defined as the proportion of success rate and perceived distances. The superiority of medium-frequency perturbations is especially clear when JPEG compression is used in defense. We also show that, for maximum-confidence attacks, perturbing JPEG cofficients is more efficient than the state-of-the-art attacks that mainly apply the alterations in RGB pixel space, which is reasoned in using the YCbCr color model allowing us to limit the perturbation to the luma channel where it is more efficient but also controlling the perturbation applied on each frequency. By weighting multiple JPEG attacks that concentrate their perturbations on different parts of the DCT frequency spectrum during adversarial training, we are able to train a net that is robust against perturbations on the whole frequency spectrum and RGB and YCbCr pixel attacks as well which shows that JPEG coefficients are a representation that is well-suited to achieve more generalizing robustness against unforeseen threat models as well.Kleine, kaum sichtbare Veränderungen, sogenannte Adversarial Examples, können zur falschen Klassifikation durch neuronale Netze führen. Es wurden bereits viele Methoden zur Erstellung solcher Adversarial Examples und zur Verteidigung entworfen. Üblicherweise verändern diese die Bilder in ihrer RGB-Pixelrepräsentation. In dieser Thesis werden diese Veränderungen direkt auf JPEG Koeffizienten durchgeführt. Dabei kann die Stärke der Veränderung auf jedem YCbCr-Kanal sowie jeder DCT-Frequenz einzeln kontrolliert werden. Wir zeigen, dass Veränderungen auf mittleren Frequenzen am effizientesten sind, wobei die Effizienz als Verhältnis von Erfolgsrate und wahrgenommener Distanz definiert ist. Die Überlegenheit der Veränderungen auf mittleren Frequenzen gilt insbesondere dann, wenn JPEG compression zur Verteidigung genutzt wird. Zusätzlich zeigen wir, dass JPEG Koeffizienten grundsätzlich die effizientere Representation für Maximum-Confidence-Attacks als RGB-Pixel sind. Dies ist sowohl durch die Nutzung des YCbCr-Farbmodells begründet, was ermöglicht, nur Luminanz-Informationen zu verändern, als auch durch die Nutzung der DCT Koeffizienten, wodurch die Veränderungen manuell auf das Frequenzspektrum verteilt werden kann. Mithilfe der Gewichtung verschiedener solcher Angriffe, die jeweils unterschiedliche Teile des Frequenzspektrums anvisieren, trainieren wir mit Adversarial Training ein Netz, welches sowohl gegen JPEG Angriffe auf unterschiedlichen Frequenzen als auch gegen Angriffe auf RGB- und YCbCr-Pixeln robust ist
Vergleich und Analyse von kamerabasierten Tracking-Algorithmen für die Implementation einer Personenfolge-Funktionalität eines Roboters im Healthcare Sektor
Diese Thesis beschäftigt sich mit dem Vergleich und der Analyse verschiedener Tracking-Algorithmen zur Implementierung einer Personenfolge-Funktionalität auf einem Roboter und bedient sich zur Evaluation bei typischen Szenarien aus dem Healthcare Sektor. Hierzu wird die Personenfolge auf einem autonomen Roboter simuliert, um dann die modular austauschbaren Tracking-Algorithmen miteinander zu vergleichen.This thesis deals with the comparison and analysis of di erent tracking algorithms for the implementation of a person tracking functionality on a robot and uses typical scenarios from the healthcare sector for the evaluation. For this purpose, the person follow is simulated on an autonomous robot in order to then compare the modular interchangeable tracking algorithms with each other
Detektion von Korkporen an Äpfeln mittels Bildverarbeitung und ggf. Maschinellem Lernen
Die Arbeit befasst sich mit dem Nachweis von Korkporen auf Äpfeln. Dazu werden verschiedene Ansätze verwendet und miteinander verglichen. Es zeigt sich, dass verschiedene Arten von CNNs den klassischen Bildverarbeitungsmethoden wie Blob-Detektor oder Erkennung lokaler Extrema überlegen sind. Zusätzlich wurden fünf Modelle, Faster R-CNN, RetinaNet, SSD, U-Net und YOLO, verglichen. Es zeigt sich, dass der Datensatz, mit dem die Modelle trainiert wurden, zwar groß genug ist, um Kokrporen auf Äpfeln zu erkennen, aber nicht vielfältig genug. So haben viele Modelle Schwierigkeiten mit unbekannten Situationen, wie z.B. fremden Sorten oder Äpfeln im Hintergrund. Die vielversprechendsten Ergebnisse liefern U-Net und YOLO, da sie im Vergleich zu den anderen Modellen robuster sind. Für SSD hingegen war der Datensatz zu klein, so dass das Modell keine Korkporen erkennen konnte. Basierend auf diesen Ergebnissen ist es möglich, eine hohe Erkennungsrate von Korkporen auf Äpfeln zu erreichen, aber es müssen noch einige Optimierungen vorgenommen werden.The work deals with the detection of cork pores on apples. Different approaches are used and compared with each other. It is shown that different types of CNNs are superior to classical image processing methods such as blob detector or detection of local extrema. In addition, five models, Faster R-CNN, RetinaNet, SSD, U-Net and YOLO, were compared. It turns out that the data set used to train the models is large enough to recognise cocrpores on apples, but not diverse enough. For example, many models have difficulties with unknown situations, such as foreign varieties or apples in the background. The most promising results are provided by U-Net and YOLO, as they are more robust compared to the other models. For SSD, on the other hand, the data set was too small, so the model could not recognise cork pores. Based on these results, it is possible to achieve a high detection rate of cork pores on apples, but some optimisations still need to be made
Föderales Lernen am Beispiel der Kategorisierung von Mails
Ziel dieser Arbeit ist es, die praktische Umsetzung von föderalem Lernen zu untersuchen und die Vor- und Nachteile im Vergleich zum zentralisierten maschinellen Lernen zu betrachten. Dazu wird föderales Lernen mit dem Flower Framework anhand der Kategorisierung von Mails als Anwendungsfall umgesetzt. Zur Umsetzung der Kategorisierung werden Naive Bayes-Klassifikatoren, LSTM-Modelle und der Einsatz von Random Forest betrachtet. Zusätzlich zum föderalen Lernen werden Differential Privacy und Secure
Aggregation zum Schutz der Trainingsdaten eingesetzt. Das Training beim föderalen Lernen wird mit dem zentralen Lernen in verschiedenen Szenarien verglichen. Als Resultat der Arbeit wird erfolgreich aufgezeigt, wie die Umsetzung eines Anwendungsfalls beim föderalen Lernen erfolgen kann. Zudem kommt heraus, dass föderales Lernen allgemein Modelle mit ähnlicher Effektivität zu zentral trainierten Modellen trainieren kann, auch unter Einsatz von Differential Privacy und Secure Aggregation, und dass das Training durch die Verteilung des Trainings schneller abläuft.The goal of this thesis is to evaluate the practical implementation of federated learning and to examine the advantages and disadvantages in comparison to centralized machine learning. For this purpose, federated learning is implemented with the Flower Framework using the categorization of mails as a use case. Naive Bayes classifiers, LSTM models and the use of Random Forest are considered for the implementation of the categorization. In addition to federated learning, differential privacy and secure aggregation are used to protect the training data. The training with federated learning is compared with centralized learning in different scenarios. The result of the work is a successful demonstration of how a use case can be implemented in federated learning. It is also shown that federated learning can generally train models with similar effectiveness to centrally trained models, even when using differential privacy and secure aggregation, and that the training is faster due to the distribution of the training
Entwicklung eines binauralen 3D-Sound-Positionierungs-Algorithmus durch Zuhilfenahme von Head-Related Transfer Functions
Binaurale Algorithmen spielen auf dem wachsenden Markt der Augmented- und Virtual- Reality-Anwendungen eine zunehmend wichtige Rolle. Um diese Algorithmen besser einordnen zu können, wird in erster Instanz der auditive Kortex und das räumliche Hören untersucht und bewertet. Dazu wird sich in dieser Arbeit mit der Einführung in die binaurale Ortung und deren Abbildung als Head-Related Transfer Functions (HRTF) in der digitalen Domäne beschäftigt. Im weiteren Verlauf wird die Audiosignalverarbeitung in Computersystemen und der Einsatz von Filtern, insbesondere Finite-Impulse-Response- Filtern (FIR-Filter) betrachtet. Auf Basis der FIR-Filter wird nachgehend ein binauraler Algorithmus entwickelt, der die Komponenten des räumlichen Hörens simulieren und so einen dreidimensionalen virtuellen Raum abbilden kann.Binaural algorithms are playing an increasingly important role in the growing market of augmented and virtual reality applications. In order to classify these algorithms, the auditory cortex and spatial hearing are being studied and evaluated. For this purpose, this thesis will focus on the introduction to binaural localization and its mapping as Head-Related Transfer Functions (HRTF) in the digital domain. Further on, audio signal processing in computer systems and the use of filters, especially finite impulse response
filters (FIR filters) are considered. Based on the FIR filters, an binaural algorithm is subsequently developed, that can simulate the components of spatial hearing in a threedimensional virtual space
Semi-Automated Labeling in the Domain of Bloom Segmentation
Supervised machine learning has experienced rapid growth in recent years, becoming increasingly relevant to various aspects of our lives. However, one of the significant challenges in this domain is the need for labeled data. Traditional data labeling methods involve substantial manual effort, which can be tedious and resource-intensive. This thesis aims to solve this problem by adapting a semi-automated labeling framework to partially automate the data labeling process. The focus is on implementing and testing the framework for the area of semantic segmentation.
The results show that the adapted framework does not achieve the same results as the original paper. The adjustments lead to the appearance of the problem of catastrophic forgetting, which could not be solved with clearly positive results within the scope of this work. After a lot of manual work and many training runs, the framework does not achieve better results than the standard U-Net training after the same number of
epochs.Machine Learning hat in den letzten Jahren ein rasantes Wachstum erfahren und wird zunehmend zu einem festen Bestandteil unseres Lebens. Eine der größten Herausforderungen im Bereich des Supervised Machine Learning ist der hohe Bedarf an gelabelten Daten. Herkömmliche Methoden des Datenlabelns erfordern einen erheblichen manuellen Aufwand, der mühsam und ressourcenintensiv ist. Diese Arbeit zielt darauf ab, dieses Problem durch die Adaption eines semi-automatisierten Labeling-Frameworks zu lösen, welches den Datenlabelingprozess teil-automatisieren soll. Der Fokus liegt auf dem Implementieren und Testen des Frameworks für den Bereich der semantischen Segmentierung.
Die Ergebnisse zeigen, dass das angepasste Frameworks nicht die gleichen Ergebnisse erzielt wie das originale Paper. Die Anpassungen führen zum Auftreten des Problems des catastrophic forgetting, welches im Rahmen dieser Arbeit nicht mit klar positiven Ergebnissen gelöst werden konnte. Das Framework erzielt nach viel manueller Arbeit und vielen Trainingsdurchläufen keine besseren Ergebnisse als das Standard U-Net Training nach der gleichen Anzahl an Epochen
Coaching-oriented teaching : learning together, growing together
In technischen Studiengängen stellen theoretische Grundlagenveranstaltungen häufig eine besondere Herausforderung für Studierende dar. Für diesen Zweck wurde an der HAW Hamburg ein coachingorientiertes Lehrkonzept in einem partizipativen Prozess gemeinsam mit den Studierenden entworfen und weiterentwickelt. Das Konzept setzt auf aktive Begleitung, Selbstbestimmung und intrinsische Motivation. Der Fokus liegt auf kollaborativem Arbeiten, Feedbackkultur und einem Punktesystem, das nicht die Korrektheit von Beiträgen, sondern die aktive Mitarbeit und Reflexion der Studierenden belohnt und Freiheit bei der Wahl verwendeter Lösungswege lässt. Erste Erfahrungen zeigen einen hohen Lernerfolg und eine positive Resonanz der Studierenden ohne Senkung der Anforderungen. Das Konzept bietet vielversprechende Ansätze zur Verbesserung des Lernerfolgs auch in weiteren Lehrveranstaltungen.In technical degree programmes, theoretical foundation courses often pose a particular challenge for students. For this purpose, the author developed a coaching-oriented teaching concept at HAW Hamburg that focuses on active support, self-determination and intrinsic motivation. The focus is on collaborative work, a feedback culture and a points system that does not reward the correctness of contributions, but rather the active participation and reflection of students and allows freedom in the choice of solutions used. Initial experiences show a high level of learning success and a positive response from students without lowering the requirements. The concept offers promising approaches for improving learning success in other courses as well.PeerReviewe
Search for Higgs Boson Production in Association with b-Quarks in Final States with Leptons with Machine Learning Techniques at CMS
Die Erforschung von Objekten und Kategorien in unerforschten Umgebungen auf der Grundlage multimodaler Daten
In abgeschlossenen Umgebungen basieren Objektdetektion und Identifizierung oft auf der Annahme, dass Objektkategorien vorab bekannt sind. Allerdings kann diese Annahme in unbekannten Umgebungen nicht erfüllt werden, da die Art und Anzahl der Objekte unbekannt ist. Aus diesem Grund wäre für die maschinelle Bildverarbeitung in solchen Umgebungen die Fähigkeit wichtig, unabhängig von bereits bekannten Kategorien Objekte im Bild zu detektieren und neue Objektkategorien zu entdecken.
In dieser Arbeit wird eine Reihe neuer Methoden vorgestellt, um Objekte und Kategorien in unbekannten Umgebungen zu erforschen. Den ersten Schritt stellt hierbei die Detektion der Objekte dar. Es folgt die Klassifikation derjenigen Objekte, die zu den
bekannten Kategorien gehören. Wenn unbekannte Objekte existieren, sollen für diese neue Kategorien entdeckt und mit den bereits bekannten Kategorien in Verbindung gebracht werden.
Somit lassen sich die in dieser Arbeit behandelten Methoden in zwei Klassen unterteilen, zum Einen mit dem Ziel der Kategorie-unabhängigen Objekterkennung und zum Anderen mit dem Ziel der Entdeckung neuartiger Objektkategorien. Wenn eine Umgebung erkundet wird, sind neben den 2D-Informationen die 3D-Informationen unverzichtbar. Daher basieren die vorgestellten Methoden auf multimodalten Daten (2D-Bildern und 3D-Punktwolken).
Im Hinblick auf die erste Problemstellung können die meisten bekannten Verfahren entweder nur ein Objekt pro Bild erkennen oder mehrere Objektinstanzen nur beim Erproben einer großen Anzahl von Regionen bestimmen. Diese Arbeit führt zuerst eine Reihe von neuen Kategorie-unabhängigen Objekteigenschaften ein, die ein Objekt unabhängig von dessen Kategorie als eine eigenständige Instanz beschreiben. Basierend auf diesen Merkmalen wird eine ,,intermodale” Segmentierungs-Methode vorgestellt, um gleichzeitig Bilddaten und 3D-Punktwolken zu verarbeiten. Diese werden durch RGB+D-Kameras erzeugt. Somit können mehrere Kategorie-unabhängige Objekt-Instanzen ohne die Erprobung zusätzlicher Regionen erkannt und zu lokalisiert werden. Es wird ein neues Entscheidungs-Modell entwickelt, das ,,Cross-Modal Higher-Order Conditional Random Field Model”. Dieses verwendet sowohl ,,uni-modale” als auch ,,intermodale” Merkmale. ,,Uni-modale” Merkmale beschreiben Potentiale verschiedener Ordnung, die von den entwickelten Kategorie-unabhängigen Merkmalen berechnet werden. ,,Intermodale” Merkmale definieren globale Bedingungen, um die Integrität der Daten im 2D-und 3D-Raum zu sichern. Die Kategorie-unabhängige Objekterkennung wird als Klassifizierungsvorgang der Regionen in drei Klassen (Objekt, Hintergrund und Grenze) behandelt. Unter Ausnutzung dieser Kennzeichnung können einzelne Objektinstanzen effizient aus der resultierenden Karte isoliert werden. Ein Vergleich mit den gängigen Methoden für diese Problemstellung zeigt die Leistungsfähigkeit des entwickelten Verfahrens. Dieser Vergleich erfolgt unter Verwendung eines öffentlich zugänglichen RGB + D Datensatzes.
Im Hinblick auf die zweite Problemstellung wird nach der Lokalisierung von Objekten in einer unbekannten Umgebung eine dynamische Kategorie-Hierarchie zur Verbesserung Objekterkennung und zur Entdeckung neuer Kategorien eingeführt. Die 2D Merkmale werden zur Objektbeschreibung zu multimodalen Objektattributen erweitert, da diese eine sehr gute Generalisierbarkeit versprechen und somit auch neuartige Kategorien formuliert werden können. Die große Anzahl an Kategorien wird in einem ,,supervised hierarchical latent Dirichlet allocation model (shLDA)” organisiert. Eine Kategorie-Hierarchie ist eine inhärente Struktur
des menschlichen Gehirns, die sich dynamisch ändert. Allerdings implementieren die bisherigen Methoden den Aufbau von statischer Kategorie-Hierarchien. In dieser Arbeit wird ein neuartiges Framework vorgestellt, um eine dynamische Hierarchie basiert auf den multimodalen Attributen und dem shLDA Modell zu erzeugen. Das Framework kann die zu bekannten Kategorien gehörenden Objekte effektiv erkennen und kann auch die zu unbekannten
Kategorien gehörenden Objekte erkennen und unterscheiden. Nach der Entdeckung neuer Kategorien kann das Framework diese in die bestehende Hierarchie integrieren und eine neue erzeugen, wodurch eine dynamische Kategorien-Hierarchie entsteht.
Experimente demonstrieren zuerst die Verbesserung der multimodalen Attribute gegenüber 2D-Merkmalen. Die Leistung der Objekterkennung und Entdeckung neuartiger Kategorien wird durch den Vergleich mit gängigen Methoden gezeigt. Darüber hinaus kann dieses neuartige Framwork die relevanten Objektattribute in einer kompakten Form beschreiben.
In einem Fazit werden die Einschränkungen der beschriebenen Verfahren diskutiert und es wird ein Ausblick auf mögliche zukünftige Forschungsrichtungen gegeben.In deterministic environments object detection and recognition are based on the assumption that object categories are known. However, in unexplored environments these assumptions cannot be fulfilled since there is not enough prior information about what kinds of objects and how many objects there are. Thus the execution of computer vision tasks in such environments requires the ability of detecting category-independent objects and discovering novel object categories.
In this thesis, a set of novel methods is presented to explore objects and categories in unexplored environments. The first step to achieve this is to detect objects, then to recognize objects belonging to known categories. If there are unknown objects, these object should be clustered as new categories, and be described and be related to known categories. Thus the proposed methods in this thesis can be separated into two parts that concern the problems of category-independent object detection and novel object category discovery, respectively. When humans explore an environment, 3D information is indispensable in addition to 2D information. Therefore, the presented methods are all based on multimodal data (i.e. the 2D images and 3D point clouds).
Concerning the first problem, most existing methods either can only detect one object per image or need to sample a large number of regions to cover multiple object instances. This thesis first proposes a set of novel category-independent object features that describe an object on a stand-alone instance regardless of its category. Based on these features, a cross-modal co-segmentation method is proposed to simultaneously segment paired images and 3D point clouds which are obtained by RGB+D cameras, and to detect and localize multiple category-independent object instances without sampling extra regions. A new discriminative model is designed, namely cross-modal higher-order Conditional Random Field model, which consists of unimodal and cross-modal terms. Unimodal terms include unary, pair, and higher order potentials, which are computed from the new category-independent features. Cross-modal terms add global constraints that keep the cross-modal spatial consistency in both 2D and 3D space. The category-independent object detection is treated as a labeling process with three kinds of labels (i.e. the object, the background and the boundary). Taking advantage of these labels, single object instances can be separated efficiently from a resulting labeled map. By comparison with state-of-the-art methods, experimental results on a public RGB+D dataset show that the proposed method yields a promising performance.
After localizing objects in an unexplored environment, a dynamic category hierarchy is proposed to improve object recognition and discover novel categories for the second problem. First, multimodal object attributes are extended from 2D ones to describe objects since they have excellent generalizability across categories, by which novel categories can also be depicted. Then a supervised hierarchical latent Dirichlet allocation model (shLDA) is presented to organize a large scale number of categories. A category hierarchy is an inherent structure in the human mind, and more importantly it can dynamically change. However, existing methods concern building static category hierarchies. In this thesis, a novel framework is presented to build such a dynamic hierarchy based on the multimodal attributes and the shLDA model. The framework can effectively recognize objects belonging to known categories and can detect and distinguish objects belonging to unknown categories. After discovering novel categories, the framework can integrate them into the hierarchy and construct a new one, thus forming a dynamic category hierarchy. Experiments first demonstrate the improvement of multimodal attributes with respect to 2D ones. Then they show the promising performance of object recognition and novel category discovery by comparing with state-of-the-art methods. Moreover, this novel framework can find the most representative object attributes to compactly describe objects.
Finally we draw some conclusions, and discuss limitations of the presented work and suggest the directions for future work
- …
