1,721,396 research outputs found

    Synchronization of two independently moving cameras without feature correspondences

    No full text
    In this work, a method that synchronizes two video sequences is proposed. Unlike previous methods, which require the existence of correspondences between features tracked in the two sequences, and/or that the cameras are static or jointly moving, the proposed approach does not impose any of these constraints. It works when the cameras move independently, even if different features are tracked in the two sequences. The assumptions underlying the proposed strategy are that the intrinsic parameters of the cameras are known and that two rigid objects, with independent motions on the scene, are visible in both sequences. The relative motion between these objects is used as clue for the synchronization. The extrinsic parameters of the cameras are assumed to be unknown. A new synchronization algorithm for static or jointly moving cameras that see (possibly) different parts of a common rigidly moving object is also proposed. Proof-of-concept experiments that illustrate the performance of these methods are presented, as well as a comparison with a state-of-the-art approach

    A4NT : Author Attribute Anonymity by Adversarial Training of Neural Machine Translation

    Full text link
    Text-based analysis methods enable an adversary to reveal privacy relevant author attributes such as gender, age and can identify the text's author. Such methods can compromise the privacy of an anonymous author even when the author tries to remove privacy sensitive content. In this paper, we propose an automatic method, called the Adversarial Author Attribute Anonymity Neural Translation (A4NT\text{A}^{4}\text{NT}), to combat such text-based adversaries. Unlike prior works on obfuscation, we propose a system that is fully automatic and learns to perform obfuscation entirely from the data. This allows us to easily apply the A4NT\text{A}^{4}\text{NT} system to obfuscate different author attributes. We propose a sequence-to-sequence language model, inspired by machine translation, and an adversarial training framework to design a system which learns to transform the input text to obfuscate the author attributes without paired data. We also propose and evaluate techniques to impose constraints on our A4NT\text{A}^{4}\text{NT} model to preserve the semantics of the input text. A4NT\text{A}^{4}\text{NT} learns to make minimal changes to the input to successfully fool author attribute classifiers, while preserving the meaning of the input text. Our experiments on two datasets and three settings show that the proposed method is effective in fooling the attribute classifiers and thus improves the anonymity of authors

    Adversarial Content Manipulation for Analyzing and Improving Model Robustness

    Full text link
    The recent rapid progress in machine learning systems has opened up many real-world applications --- from recommendation engines on web platforms to safety critical systems like autonomous vehicles. A model deployed in the real-world will often encounter inputs far from its training distribution. For example, a self-driving car might come across a black stop sign in the wild. To ensure safe operation, it is vital to quantify the robustness of machine learning models to such out-of-distribution data before releasing them into the real-world. However, the standard paradigm of benchmarking machine learning models with fixed size test sets drawn from the same distribution as the training data is insufficient to identify these corner cases efficiently. In principle, if we could generate all valid variations of an input and measure the model response, we could quantify and guarantee model robustness locally. Yet, doing this with real world data is not scalable. In this thesis, we propose an alternative, using generative models to create synthetic data variations at scale and test robustness of target models to these variations. We explore methods to generate semantic data variations in a controlled fashion across visual and text modalities. We build generative models capable of performing controlled manipulation of data like changing visual context, editing appearance of an object in images or changing writing style of text. Leveraging these generative models we propose tools to study robustness of computer vision systems to input variations and systematically identify failure modes. In the text domain, we deploy these generative models to improve diversity of image captioning systems and perform writing style manipulation to obfuscate private attributes of the user. Our studies quantifying model robustness explore two kinds of input manipulations, model-agnostic and model-targeted. The model-agnostic manipulations leverage human knowledge to choose the kinds of changes without considering the target model being tested. This includes automatically editing images to remove objects not directly relevant to the task and create variations in visual context. Alternatively, in the model-targeted approach the input variations performed are directly adversarially guided by the target model. For example, we adversarially manipulate the appearance of an object in the image to fool an object detector, guided by the gradients of the detector. Using these methods, we measure and improve the robustness of various computer vision systems -- specifically image classification, segmentation, object detection and visual question answering systems -- to semantic input variations.Der schnelle Fortschritt von Methoden des maschinellen Lernens hat viele neue Anwendungen ermöglicht – von Recommender-Systemen bis hin zu sicherheitskritischen Systemen wie autonomen Fahrzeugen. In der realen Welt werden diese Systeme oft mit Eingaben außerhalb der Verteilung der Trainingsdaten konfrontiert. Zum Beispiel könnte ein autonomes Fahrzeug einem schwarzen Stoppschild begegnen. Um sicheren Betrieb zu gewährleisten, ist es entscheidend, die Robustheit dieser Systeme zu quantifizieren, bevor sie in der Praxis eingesetzt werden. Aktuell werden diese Modelle auf festen Eingaben von derselben Verteilung wie die Trainingsdaten evaluiert. Allerdings ist diese Strategie unzureichend, um solche Ausnahmefälle zu identifizieren. Prinzipiell könnte die Robustheit “lokal” bestimmt werden, indem wir alle zulässigen Variationen einer Eingabe generieren und die Ausgabe des Systems überprüfen. Jedoch skaliert dieser Ansatz schlecht zu echten Daten. In dieser Arbeit benutzen wir generative Modelle, um synthetische Variationen von Eingaben zu erstellen und so die Robustheit eines Modells zu überprüfen. Wir erforschen Methoden, die es uns erlauben, kontrolliert semantische Änderungen an Bild- und Textdaten vorzunehmen. Wir lernen generative Modelle, die kontrollierte Manipulation von Daten ermöglichen, zum Beispiel den visuellen Kontext zu ändern, die Erscheinung eines Objekts zu bearbeiten oder den Schreibstil von Text zu ändern. Basierend auf diesen Modellen entwickeln wir neue Methoden, um die Robustheit von Bilderkennungssystemen bezüglich Variationen in den Eingaben zu untersuchen und Fehlverhalten zu identifizieren. Im Gebiet von Textdaten verwenden wir diese Modelle, um die Diversität von sogenannten Automatische Bildbeschriftung-Modellen zu verbessern und Schreibtstil-Manipulation zu erlauben, um private Attribute des Benutzers zu verschleiern. Um die Robustheit von Modellen zu quantifizieren, werden zwei Arten von Eingabemanipulationen untersucht: Modell-agnostische und Modell-spezifische Manipulationen. Modell-agnostische Manipulationen basieren auf menschlichem Wissen, um bestimmte Änderungen auszuwählen, ohne das entsprechende Modell miteinzubeziehen. Dies beinhaltet das Entfernen von für die Aufgabe irrelevanten Objekten aus Bildern oder Variationen des visuellen Kontextes. In dem alternativen Modell-spezifischen Ansatz werden Änderungen vorgenommen, die für das Modell möglichst ungünstig sind. Zum Beispiel ändern wir die Erscheinung eines Objekts um ein Modell der Objekterkennung täuschen. Dies ist durch den Gradienten des Modells möglich. Mithilfe dieser Werkzeuge können wir die Robustheit von Systemen zur Bildklassifizierung oder -segmentierung, Objekterkennung und Visuelle Fragenbeantwortung quantifizieren und verbessern

    Semi-supervised learning for image classification

    Full text link
    Object class recognition is an active topic in computer vision still presenting many challenges. In most approaches, this task is addressed by supervised learning algorithms that need a large quantity of labels to perform well. This leads either to small datasets (< 10,000 images) that capture only a subset of the real-world class distribution (but with a controlled and verified labeling procedure), or to large datasets that are more representative but also add more label noise. Therefore, semi-supervised learning is a promising direction. It requires only few labels while simultaneously making use of the vast amount of images available today. We address object class recognition with semi-supervised learning. These algorithms depend on the underlying structure given by the data, the image description, and the similarity measure, and the quality of the labels. This insight leads to the main research questions of this thesis: Is the structure given by labeled and unlabeled data more important than the algorithm itself? Can we improve this neighborhood structure by a better similarity metric or with more representative unlabeled data? Is there a connection between the quality of labels and the overall performance and how can we get more representative labels? We answer all these questions, i.e., we provide an extensive evaluation, we propose several graph improvements, and we introduce a novel active learning framework to get more representative labels.Objektklassifizierung ist ein aktives Forschungsgebiet in maschineller Bildverarbeitung was bisher nur unzureichend gelöst ist. Die meisten Ansätze versuchen die Aufgabe durch überwachtes Lernen zu lösen. Aber diese Algorithmen benötigen eine hohe Anzahl von Trainingsdaten um gut zu funktionieren. Das führt häufig entweder zu sehr kleinen Datensätzen (< 10,000 Bilder) die nicht die reale Datenverteilung einer Klasse wiedergeben oder zu sehr grossen Datensätzen bei denen man die Korrektheit der Labels nicht mehr garantieren kann. Halbüberwachtes Lernen ist eine gute Alternative zu diesen Methoden, da sie nur sehr wenige Labels benötigen und man gleichzeitig Datenressourcen wie das Internet verwenden kann. In dieser Arbeit adressieren wir Objektklassifizierung mit halbüberwachten Lernverfahren. Diese Algorithmen sind sowohl von der zugrundeliegenden Struktur, die sich aus den Daten, der Bildbeschreibung und der Distanzmasse ergibt, als auch von der Qualität der Labels abhängig. Diese Erkenntnis hat folgende Forschungsfragen aufgeworfen: Ist die Struktur wichtiger als der Algorithmus selbst? Können wir diese Struktur gezielt verbessern z.B. durch eine bessere Metrik oder durch mehr Daten? Gibt es einen Zusammenhang zwischen der Qualität der Labels und der Gesamtperformanz der Algorithmen? In dieser Arbeit beantworten wir diese Fragen indem wir diese Methoden evaluieren. Ausserdem entwickeln wir neue Methoden um die Graphstruktur und die Labels zu verbessern

    Richer object representations for object class detection in challenging real world images

    Full text link
    Object class detection in real world images has been a synonym for object localization for the longest time. State-of-the-art detection methods, inspired by renowned detection benchmarks, typically target 2D bounding box localization of objects. At the same time, due to the rapid technological and scientific advances, high-level vision applications, aiming at understanding the visual world as a whole, are coming into the focus. The diversity of the visual world challenges these applications in terms of representational complexity, robust inference and training data. As objects play a central role in any vision system, it has been argued that richer object representations, providing higher level of detail than modern detection methods, are a promising direction towards understanding visual scenes. Besides bridging the gap between object class detection and high-level tasks, richer object representations also lead to more natural object descriptions, bringing computer vision closer to human perception. Inspired by these prospects, this thesis explores four different directions towards richer object representations, namely, 3D object representations, fine-grained representations, occlusion representations, as well as understanding convnet representations. Moreover, this thesis illustrates that richer object representations can facilitate high-level applications, providing detailed and natural object descriptions. In addition, the presented representations attain high performance rates, at least on par or often superior to state-of-the-art methods.Detektion von Objektklassen in natürlichen Bildern war lange Zeit gleichbedeutend mit Lokalisierung von Objekten. Von anerkannten Detektions-Benchmarks inspirierte Detektionsmethoden, die auf dem neuesten Stand der Forschung sind, zielen üblicherweise auf die Lokalisierung von Objekten im Bild. Gleichzeitig werden durch den schnellen technologischen und wissenschaftlichen Fortschritt abstraktere Bildverarbeitungsanwendungen, die ein Verständnis der visuellen Welt als Ganzes anstreben, immer interessanter. Die Diversität der visuellen Welt ist eine Herausforderung für diese Anwendungen hinsichtlich der Komplexität der Darstellung, robuster Inferenz und Trainingsdaten. Da Objekte eine zentrale Rolle in jedem Visionssystem spielen, wurde argumentiert, dass reichhaltige Objektrepräsentationen, die höhere Detailgenauigkeit als gegenwärtige Detektionsmethoden bieten, ein vielversprechender Schritt zum Verständnis visueller Szenen sind. Reichhaltige Objektrepräsentationen schlagen eine Brücke zwischen der Detektion von Objektklassen und abstrakteren Aufgabenstellungen, und sie führen auch zu natürlicheren Objektbeschreibungen, wodurch sie die Bildverarbeitung der menschlichen Wahrnehmung weiter annähern. Aufgrund dieser Perspektiven erforscht die vorliegende Arbeit vier verschiedene Herangehensweisen zu reichhaltigeren Objektrepräsentationen

    Learning from Limited Labeled Data - Zero-Shot and Few-Shot Learning

    Full text link
    Human beings have the remarkable ability to recognize novel visual concepts after observing only few or zero examples of them. Deep learning, however, often requires a large amount of labeled data to achieve a good performance. Labeled instances are expensive, difficult and even infeasible to obtain because the distribution of training instances among labels naturally exhibits a long tail. Therefore, it is of great interest to investigate how to learn efficiently from limited labeled data. This thesis concerns an important subfield of learning from limited labeled data, namely, low-shot learning. The setting assumes the availability of many labeled examples from known classes and the goal is to learn novel classes from only a few~(few-shot learning) or zero~(zero-shot learning) training examples of them. To this end, we have developed a series of multi-modal learning approaches to facilitate the knowledge transfer from known classes to novel classes for a wide range of visual recognition tasks including image classification, semantic image segmentation and video action recognition. More specifically, this thesis mainly makes the following contributions. First, as there is no agreed upon zero-shot image classification benchmark, we define a new benchmark by unifying both the evaluation protocols and data splits of publicly available datasets. Second, in order to tackle the labeled data scarcity, we propose feature generation frameworks that synthesize data in the visual feature space for novel classes. Third, we extend zero-shot learning and few-shot learning to the semantic segmentation task and propose a challenging benchmark for it. We show that incorporating semantic information into a semantic segmentation network is effective in segmenting novel classes. Finally, we develop better video representation for the few-shot video classification task and leverage weakly-labeled videos by an efficient retrieval method.Menschen haben die bemerkenswerte Fähigkeit, neuartige visuelle Konzepte zu erkennen, nachdem sie nur wenige oder gar keine Beispiele davon beobachtet haben. Tiefes Lernen erfordert jedoch oft eine große Menge an beschrifteten Daten, um eine gute Leistung zu erzielen. Etikettierte Instanzen sind teuer, schwierig und sogar undurchführbar, weil die Verteilung der Trainingsinstanzen auf die Etiketten naturgemäß einen langen Schwanz aufweist. Daher ist es von großem Interesse zu untersuchen, wie man effizient aus begrenzten gelabelten Daten lernen kann. Diese These betrifft einen wichtigen Teilbereich des Lernens aus begrenzt gelabelten Daten, nämlich das Low-Shot-Lernen. Das Setting setzt die Verfügbarkeit vieler gelabelter Beispiele aus bekannten Klassen voraus, und das Ziel ist es, neuartige Klassen aus nur wenigen (few-shot learning) oder null (zero-shot learning) Trainingsbeispielen davon zu lernen. Zu diesem Zweck haben wir eine Reihe von multimodalen Lernansätzen entwickelt, um den Wissenstransfer von bekannten Klassen zu neuartigen Klassen für ein breites Spektrum von visuellen Erkennungsaufgaben zu erleichtern, darunter Bildklassifizierung, semantische Bildsegmentierung und Videoaktionserkennung. Genauer gesagt, leistet diese Arbeit hauptsächlich die folgenden Beiträge. Da es keinen vereinbarten Benchmark für die Zero-Shot- Bildklassifikation gibt, definieren wir zunächst einen neuen Benchmark, indem wir sowohl die Evaluierungsprotokolle als auch die Datensplits öffentlich zugänglicher Datensätze vereinheitlichen. Zweitens schlagen wir zur Bewältigung der etikettierten Datenknappheit einen Rahmen für die Generierung von Merkmalen vor, der Daten im visuellen Merkmalsraum für neuartige Klassen synthetisiert. Drittens dehnen wir das Zero-Shot-Lernen und das few-Shot-Lernen auf die semantische Segmentierungsaufgabe aus und schlagen dafür einen anspruchsvollen Benchmark vor. Wir zeigen, dass die Einbindung semantischer Informationen in ein semantisches Segmentierungsnetz bei der Segmentierung neuartiger Klassen effektiv ist. Schließlich entwickeln wir eine bessere Videodarstellung für die Klassifizierungsaufgabe ”few-shot video” und nutzen schwach markierte Videos durch eine effiziente Abrufmethode.Max Planck Institute Informatic

    Improving quality and controllability in GAN-based image synthesis

    Full text link
    The goal of the field of deep learning-based image generation is to synthesize images that are indistinguishable from real ones, and to precisely control the content of these images. Generative adversarial networks (GANs) have been the most popular image synthesis framework in recent years due to their unrivaled image quality. They consist of a generator and discriminator network, where the discriminator is trained to detect synthetic images, while the generator is trained to outsmart the discriminator by synthesizing more realistic images. Much progress has been made in the development of GANs, but there is still a lot of work to be done to further improve the synthesis quality and control. To this end, this work proposes methods to improve the synthesis quality of GANs and increase the control over the image content. First, we propose the idea of segmentation-based adversarial losses to increase the quality of synthetic images. In particular, we redesign the GAN discriminator as a segmentation network that classifies image pixels as real or fake. Further, we propose a regularization made possible by the new discriminator design. The new method improves image quality in unconditional and conditional GANs. Second, we show that segmentation-based adversarial losses are naturally well-suited for semantic image synthesis. Semantic image synthesis is the task of generating images from semantic layouts, which offers precise control over the content. We adapt the approach of a segmentation-based GAN loss to semantic image synthesis and thereby make previously used extra supervision superfluous. In addition, we introduce a noise injection method to increase the synthesis diversity significantly. The effects of the proposed techniques are improved image quality, new possibilities for global and local image editing, better modeling of long-tailed data, the ability to generate images from sparsely-annotated label maps, and a substantial increase in the multi-modality of the synthesized images. In doing so, our model is also conceptually simpler and more parameter-efficient than previous models. Third, we show that our improvement in multi-modality in semantic image synthesis opens the door for controlling the image content via the latent space of the GAN generator. Therefore, we are the first to introduce a method for finding interpretable directions in the latent space of semantic image synthesis GANs. Consequently, we enable additional control of the image content via discovered latent controls, next to the semantic layouts. In summary, this work advances the state of the art in image synthesis for several types of GANs, including GANs for semantic image synthesis. We also enable a new form of control over the image content for the latter.Das Ziel der Deep Learning basierenden Bildgenerierung ist es, Bilder zu synthetisieren, die nicht von echten Bildern zu unterscheiden sind und deren Inhalt genau zu steuern. Generative Adversarial Networks (GANs) waren in den letzten Jahren aufgrund ihrer hohen Bildqualität das beliebteste Framework für die Bildsynthese. GANs setzen sich aus einem Generator- und Diskriminatornetzwerk zusammen, wobei der Diskriminator darauf trainiert wird, synthetische Bilder zu erkennen, während der Generator darauf trainiert wird den Diskriminator zu überlisten indem er realistischere Bilder synthetisiert. Trotz großer Fortschritte in den letzten Jahren ist noch viel Arbeit nötig um die Qualität der Bildsynthese sowie die Kontrolle über den Bildinhalt zu verbessern. Zu diesem Zweck präsentiert diese Arbeit neue Methoden, welche die Qualität und die Kontrolle über den Inhalt von GAN-generierten Bildern verbessern. Zunächst schlagen wir vor segmentierungsbasierte Zielfunktionen für GANs zu benutzen um die Qualität synthetischer Bilder zu verbessern. Zu diesem Zweck gestalten wir den GAN-Diskriminator als Segmentierungsnetzwerk neu das Pixel als echt oder gefälscht klassifiziert. Weiterhin schlagen wir eine Regularisierung vor die durch das neue Diskriminatordesign ermöglicht wird. Unser Verfahren verbessert die Bildqualität in Klassen-konditionierten und unkonditioniert GANs. Zweitens zeigen wir, dass segmentierungsbasierte Zielfunktionen sehr gut für die Semantische Bildsynthese geeignet sind, welche Bilder aus semantischen Karten generiert. Wir wenden eine segmentierungsbasierten GAN-Zielfunktion für die semantische Bildsynthese an und machen dadurch die bisher verwendete zusätzliche Überwachung überflüssig. Darüber hinaus führen wir eine Rauschinjektionsmethode ein welche die Synthesevielfalt erheblich erhöht. Unsere vorgeschlagenen Techniken ermöglichen eine verbesserte Bildqualität, globale und lokalen Bildmanipulation, eine bessere Modellierung von Long-Tail-Daten, die Fähigkeit, Bilder von spärlich annotierten semantischen Karten zu generieren, und eine wesentliche Steigerung der Multimodalität der synthetisierten Bilder. Dabei ist unser Modell auch konzeptionell einfacher und parametereffizienter als bisherige Modelle. Drittens zeigen wir, dass unsere Verbesserung der Multimodalität in der semantischen Bildsynthese die Steuerung des Bildinhalts über die latente Repräsentation des GAN-Generators ermöglicht. Daher stellen wir als erste eine Methode vor, um interpretierbare Richtungen im latenten Raum von GANs zur Semantischer Bildsynthese zu finden. Folglich ermöglichen wir neben den semantischen Karten eine zusätzliche Kontrolle des Bildinhalts über entdeckte latente Steuerungen. Zusammenfassend lässt sich sagen, dass diese Arbeit den Stand der Technik in der Bildsynthese für mehrere Arten von GANs voran bringt, einschließlich GANs für die semantische Bildsynthese. Letzteren ermöglichen wir auch eine neue Form der Kontrolle über den Bildinhalt

    Understanding and improving robustness and uncertainty estimation in deep learning

    Full text link
    Deep learning is becoming increasingly relevant for many high-stakes applications such as autonomous driving or medical diagnosis where wrong decisions can have massive impact on human lives. Unfortunately, deep neural networks are typically assessed solely based on generalization, e.g., accuracy on a fixed test set. However, this is clearly insufficient for safe deployment as potential malicious actors and distribution shifts or the effects of quantization and unreliable hardware are disregarded. Thus, recent work additionally evaluates performance on potentially manipulated or corrupted inputs as well as after quantization and deployment on specialized hardware. In such settings, it is also important to obtain reasonable estimates of the model's confidence alongside its predictions. This thesis studies robustness and uncertainty estimation in deep learning along three main directions: First, we consider so-called adversarial examples, slightly perturbed inputs causing severe drops in accuracy. Second, we study weight perturbations, focusing particularly on bit errors in quantized weights. This is relevant for deploying models on special-purpose hardware for efficient inference, so-called accelerators. Finally, we address uncertainty estimation to improve robustness and provide meaningful statistical performance guarantees for safe deployment. In detail, we study the existence of adversarial examples with respect to the underlying data manifold. In this context, we also investigate adversarial training which improves robustness by augmenting training with adversarial examples at the cost of reduced accuracy. We show that regular adversarial examples leave the data manifold in an almost orthogonal direction. While we find no inherent trade-off between robustness and accuracy, this contributes to a higher sample complexity as well as severe overfitting of adversarial training. Using a novel measure of flatness in the robust loss landscape with respect to weight changes, we also show that robust overfitting is caused by converging to particularly sharp minima. In fact, we find a clear correlation between flatness and good robust generalization. Further, we study random and adversarial bit errors in quantized weights. In accelerators, random bit errors occur in the memory when reducing voltage with the goal of improving energy-efficiency. Here, we consider a robust quantization scheme, use weight clipping as regularization and perform random bit error training to improve bit error robustness, allowing considerable energy savings without requiring hardware changes. In contrast, adversarial bit errors are maliciously introduced through hardware- or software-based attacks on the memory, with severe consequences on performance. We propose a novel adversarial bit error attack to study this threat and use adversarial bit error training to improve robustness and thereby also the accelerator's security. Finally, we view robustness in the context of uncertainty estimation. By encouraging low-confidence predictions on adversarial examples, our confidence-calibrated adversarial training successfully rejects adversarial, corrupted as well as out-of-distribution examples at test time. Thereby, we are also able to improve the robustness-accuracy trade-off compared to regular adversarial training. However, even robust models do not provide any guarantee for safe deployment. To address this problem, conformal prediction allows the model to predict confidence sets with user-specified guarantee of including the true label. Unfortunately, as conformal prediction is usually applied after training, the model is trained without taking this calibration step into account. To address this limitation, we propose conformal training which allows training conformal predictors end-to-end with the underlying model. This not only improves the obtained uncertainty estimates but also enables optimizing application-specific objectives without losing the provided guarantee. Besides our work on robustness or uncertainty, we also address the problem of 3D shape completion of partially observed point clouds. Specifically, we consider an autonomous driving or robotics setting where vehicles are commonly equipped with LiDAR or depth sensors and obtaining a complete 3D representation of the environment is crucial. However, ground truth shapes that are essential for applying deep learning techniques are extremely difficult to obtain. Thus, we propose a weakly-supervised approach that can be trained on the incomplete point clouds while offering efficient inference. In summary, this thesis contributes to our understanding of robustness against both input and weight perturbations. To this end, we also develop methods to improve robustness alongside uncertainty estimation for safe deployment of deep learning methods in high-stakes applications. In the particular context of autonomous driving, we also address 3D shape completion of sparse point clouds.Moderne Methoden des maschinellen Lernens, vor allem basierend auf tiefen neuronalen Netzen, werden zunehmend in sicherheitskritischen Anwendungen wie dem autonomen Fahren oder der medizinischen Diagnose eingesetzt, bei denen falsche Entscheidungen einen signifikanten Einfluss auf das Leben von Menschen haben können. Leider werden neuronale Netze typischerweise nur im Hinblick auf ihre Generalisierungsfähigkeit bewertet, zum Beispiel anhand ihrer Genauigkeit auf einem festen Datensatz. Insbesondere im Hinblick auf potenziell bösartiger Nutzer, eine veränderte Verteilung der Eingaben, sowie Quantisierung und Operation auf unzuverlässiger Hardware ist dies unzureichend, um den sicheren Einsatz zu gewährleisten. Daher wird in aktuellen Arbeiten zusätzlich die Genauigkeit dieser Modelle auf potenziell manipulierten oder verrauschten Eingaben sowie nach entsprechender Quantisierung für anwendungsspezifische Hardware in Betracht gezogen. In solchen Szenarien ist es außerdem wichtig, zuverlässige Schätzungen der Unsicherheit dieser Modelle zu erhalten. Die folgende Arbeit befasst sich mit drei Aspekten der Robustheit sowie der Unsicherheitsschätzung von tiefen neuronalen Netzen: Zunächst befassen wir uns mit sogenannten Adversarial Examples, welche die Genauigkeit von Modellen durch kleine Änderungen der Eingaben erheblich reduzieren können. Daraufhin schauen wir uns Störungen der Gewichte von neuronalen Netzen an, insbesondere bezogen auf Bitfehler in quantisierten Gewichten. Dies ist relevant für den Einsatz dieser Modelle auf spezialisierter Hardware, sogenannten Beschleunigern. Letztendlich nutzen wir Unsicherheitsschätzungen, um die Robustheit solcher Modelle zu verbessern und statistische Garantien für deren sicheren Einsatz zu erhalten. Im Einzelnen studieren wir die Existenz von Adversarial Examples im Bezug auf die zugrunde liegende Mannigfaltigkeit der Daten. In diesem Kontext untersuchen wir zudem das Lernen auf Adversarial Examples, sogenanntes Adversarial Training, was in der Regel zu Genauigkeitsverlust führt. Wir zeigen, dass Adversarial Examples die Mannigfaltigkeit in meist orthogonaler Richtung verlassen. Während wir keinen direkten Zielkonflikt zwischen Genauigkeit und Robustheit gegen Adversarial Examples finden, trägt dies zu einer höheren Beispielkomplexität und Überanpassung von Adversarial Training bei. Mithilfe einer neuen Metrik für die Flachheit der Fehlerfunktion bezüglich Störungen in den Gewichten des Modells zeigen wir, dass Überanpassung durch ein zu scharfes Minimum in der Fehlerfunktion herbeigeführt wird. Tatsächlich finden wir eine klare Korrelation zwischen der gemessenen Flachheit und der Robustheit. Ferner untersuchen wir zufällige sowie zielgerichtete Bitfehler in quantisierten Gewichten von neuronalen Netzen. In Beschleunigern treten Bitfehler zufällig im Speicher auf, wenn die Spannung reduziert wird, um Energie zu sparen. Wir benutzen eine robuste Quantisierungsmethode, beschränken die Größe der Gewichte und injizieren Bitfehler während des Trainings, um die Robustheit gegen derartige Bitfehler zu verbessern und somit die Energieeffizienz ohne Hardwareänderungen zu erhöhen. Im Gegensatz dazu können Bitfehler auch zielgerichtet durch einen Angreifer provoziert werden. Derartige Bitfehler können die Genauigkeit empfindlich reduzieren. Wir entwickeln eine neue Methode, um besonders bösartige Bitfehler zu berechnen und diese Bedrohung besser studieren zu können. Daraufhin verwenden wir diese Attacke während des Lernens, um die Robustheit zu erhöhen und damit die Sicherheit von Beschleunigern zu verbessern. Schließlich betrachten wir die Robustheit von neuronalen Netzen im Kontext von Unsicherheitsquantifizierung. Wir entwickeln ein kalibriertes Adversarial Training, indem wir neuronale Netze dazu zwingen, Adversarial Examples mit höherer Unsicherheit zu klassifizieren. Dadurch können diese sowie verrauschte Eingaben oder Beispiele außerhalb des gelernten Konzepts anhand der assoziierten Unsicherheit detektiert und abgelehnt werden. Das erlaubt es uns, die Robustheit zu erhöhen, ohne signifikante Verluste der Genauigkeit hinnehmen zu müssen. Allerdings bieten auch derart robuste Modelle keine Garantie für entsprechende Genauigkeit in der Praxis. Arbeiten zu Conformal Prediction begegnen diesem Problem durch die Vorhersage mehrerer Klassen pro Eingabe. Zusätzlich wird garantiert, dass die wahre Klasse mit benutzerdefinierter Wahrscheinlichkeit in dieser Menge enthalten ist. Jedoch wird Conformal Prediction nach dem Training angewandt, sodass sich das Modell während des Trainings nicht auf diese Methodik einstellen kann. Durch unser Conformal Training beheben wir dieses Problem, indem wir Conformal Prediction in den Lernprozess integrieren. Dies verbessert nicht nur die entsprechenden Unsicherheitsvorhersagen, sondern erlaubt es uns auch anwendungsspezifische Fehlerfunktionen während des Trainings zu optimieren, ohne die entsprechende Garantie zu verlieren. Neben unserer Arbeit zur Robustheit und Unsicherheit neuronaler Netze befassen wir uns auch mit der Rekonstruktion von 3D-Formen von unvollständigen Punktwolken. Im Kontext von autonomen Fahrzeugen oder Robotern ist es entscheidend, eine vollständige dreidimensionale Repräsentation der Umgebung zu erhalten. In der Praxis wird dies oft durch LiDAR- oder Tiefensensoren ermöglicht. Allerdings ist es schwierig, die für neuronale Netze nötigen Grundwahrheiten, d.h., vollständigen Formen von relevanten Objekten der Umgebung, zu erhalten. Daher entwickeln wir eine Methode, die nur mit Wissen über die Objektkategorie, also mit schwacher Überwachung, die Rekonstruktion solcher Objekte lernen kann. Zusammenfassend trägt diese Arbeit zu unserem Verständnis von Robustheit gegenüber Änderungen in den Eingaben und Gewichten bei. Außerdem schlagen wir Methoden zur Erhöhung der Robustheit und verbesserter Quantifizierung von Unsicherheit vor, die den sicheren Einsatz von neuronalen Netzen in sicherheitskritischen Anwendungen gewährleisten sollen. Im konkreten Fall von autonomen Fahrzeugen entwickeln wir zusätzlich eine Methode für die 3D-Rekonstruktion von Punktwolken mit schwacher Überwachung

    Recovering Location, Shape and Pose of Humans in Images

    Full text link
    AbstractHumans are at the centre of a significant amount of research in computer vision.Endowing machines with the ability to perceive people from visual data is an immensescientific challenge with a high degree of direct practical relevance. Success in automaticperception can be measured at different levels of abstraction, and this will depend onwhich intelligent behaviour we are trying to replicate: the ability to localise persons inan image or in the environment, understanding how persons are moving at the skeletonand at the surface level, interpreting their interactions with the environment includingwith other people, and perhaps even anticipating future actions. In this thesis we tackledifferent sub-problems of the broad research area referred to as "looking at people",aiming to perceive humans in images at different levels of granularity.We start with bounding box-level pedestrian detection: We present a retrospectiveanalysis of methods published in the decade preceding our work, identifying variousstrands of research that have advanced the state of the art. With quantitative exper-iments, we demonstrate the critical role of developing better feature representationsand having the right training distribution. We then contribute two methods basedon the insights derived from our analysis: one that combines the strongest aspects ofpast detectors and another that focuses purely on learning representations. The lattermethod outperforms more complicated approaches, especially those based on hand-crafted features. We conclude our work on pedestrian detection with a forward-lookinganalysis that maps out potential avenues for future research.We then turn to pixel-level methods: Perceiving humans requires us to both separatethem precisely from the background and identify their surroundings. To this end, weintroduce Cityscapes, a large-scale dataset for street scene understanding. This has sinceestablished itself as a go-to benchmark for segmentation and detection. We additionallydevelop methods that relax the requirement for expensive pixel-level annotations, focusingon the task of boundary detection, i.e. identifying the outlines of relevant objects andsurfaces. Next, we make the jump from pixels to 3D surfaces, from localising andlabelling to fine-grained spatial understanding. We contribute a method for recovering3D human shape and pose, which marries the advantages of learning-based and model-based approaches.We conclude the thesis with a detailed discussion of benchmarking practices incomputer vision. Among other things, we argue that the design of future datasetsshould be driven by the general goal of combinatorial robustness besides task-specificconsiderations
    corecore