1,721,088 research outputs found

    Neuronale Netzwerke für die Verarbeitung von Lichtfeldern

    No full text
    In the pursuit of acquiring an immersive visual experience, camera technology has gone through a long evolution process. Modern digital cameras can capture high-resolution high dynamic range images with an extended depth of field. However, capturing just the 2D spatial information of the visual scene is not enough to deceive human perception for an immersive experience. Alternatively, light-field imaging technology allows for capturing the directional information of light rays together on top of the conventional 2D spatial data. This additional angular information in light-field images plays a pivotal role in many applications, including post-capture refocusing, depth estimation, 3D reconstruction, and novel view rendering. The thesis reviews the complete light-field processing pipeline which includes data capturing, depth estimation, and novel view synthesis. Moreover, inspired by the success of deep learning in different computer vision applications, this dissertation proposes to solve multiple issues concerning light-field processing with the help of neural networks. Starting with the data capturing, the first highresolution high dynamic range light-field dataset is captured for the community to develop and test their algorithms. Additionally, an initial study explains the effect of tone-mapping on view rendering quality. Quantitative and qualitative analysis indicates that tone-mapping after view rendering yields better results than applying it before rendering, especially in the presence of non-Lambertian objects. Moreover, disparity estimation is more reliable and accurate from raw HDR light-field than the tonemapped light-field. Apart from HDR light fields, the thesis also presents a recurrent neural network predicting wrong disparity assignments due to the ill-posed nature of the problem. The proposed algorithm estimates a confidence value for each pixel location, filtering out the disparity outliers. The confidence for a given pixel is calculated only from its associated matching costs, without taking into account any additional nearby pixels, in order to keep a low complexity. These low-confidence pixels can then be corrected using reliable pixel values. Experimental results on multiple datasets show the robustness of the proposed method by outperforming state-of-the-art confidence estimation methods. Moreover, the size of the proposed confidence measure network in terms of the number of trainable parameters is almost 10^2-10^4 times less than state-of-the-art methods. Despite filtering and fixing of incorrect disparity assignments, current light-field processing pipelines fail to reconstruct novel views with good quality. The thesis presents a learning-based lightfield view synthesis framework based on an end-to-end attention mechanism proposing a solution to the current pipeline shortcomings. The proposed framework consists of three convolutional neural networks connected sequentially, one network for stereo feature extraction, disparity estimation, and refinement each. The refinement network utilizes convolutional block attention modules in a residual network-style architecture to enhance depth image-based rendering. The initial design of the network renders a single virtual view, further extended by presenting two refinement network strategies to generate multiple light-field views. The proposed method performs better than state-of-the-art light-field rendering approaches, especially in occluded areas. Moreover, introducing the attention mechanism in the refinement stage helps preserving thin structures in the scene. The experimental results show that the proposed method generates consistent performance across diverse test datasets despite training on a content-specific dataset. Novel view synthesis quality depends on the number of light-field perspective views used for the reconstruction. However, the redundant information in different light-field views poses challenges for storage and transmission resources. Motivated by the big advances in the field of image compression via machine learning, a compression of such data with the help of neural networks is desirable. However, neural network-based compression is a relatively new and immature research area lacking many basic functionalities, such as rate control. To close this gap, this thesis makes the first step toward multi-view compression by looking at stereo images with the purpose to reduce complexity and increase understanding. In particular, a novel recurrent neural network-based technique is proposed for stereo image compression with discrete rate control. The main contribution of the proposed method is to investigate how the redundancy between the images can be eliminated. A key technology is state warping between the recurrent units of the stereo image networks to share mutual information. Additionally, a convolutional neural network utilizes compressed information to estimate occlusion maps, tackling discrepancies in the occluded areas. Quantitative and qualitative experimental analysis on two different datasets shows that the proposed technique saves 10-30% of the bit rate for the right image and outperforms conventional image codecs in terms of perceptual quality.In dem Bestreben, ein umfassendes visuelles Erlebnis zu schaffen, hat die Kameratechnologie einen großen Entwicklungsprozess durchlaufen. Moderne Digitalkameras können hochauflösende Bilder mit einem hohen Dynamikumfang und einer großen Schärfentiefe aufnehmen. Die Erfassung der 22D-Information der visuellen Szene alleine reicht jedoch nicht aus, um der menschlichen Wahrnehmung ein wahrhaft immersives Erlebnis vorgaukeln zu können. Die Lichtfeldtechnologie hat das Potential, dies zu ändern. Dazu erfasst sie die Richtungsinformationen der Lichtstrahlen zusätzlich zu den 22D-Bilddaten. Diese zusätzlichen Winkelinformationen spielen bei vielen Anwendungen eine entscheidende Rolle, z. B. bei der Refokussierung nach der Aufnahme, der Tiefenschätzung, der 33D-Rekonstruktion und der Erzeugung neuer Ansichten für ein Objekt oder eine Szene. Die vorliegende Dissertation gibt einen Überblick über die gesamte Lichtfeldverarbeitungspipeline, welche die Datenerfassung, die Tiefenschätzung und die Generierung neuer Zielansichten umfasst. Inspiriert vom Erfolg neuronaler Netze werden in dieser Dissertation verschiedene Ansätze vorgestellt, die Probleme der Lichtfeldverarbeitung mit Hilfe neuronaler Netze lösen. Beginnend mit der Datenerfassung wird der erste hochauflösende Lichtfelddatensatz mit hohem Dynamikumfang vorgestellt, an dem Forscher ihre Algorithmen entwickeln und testen können. Außerdem wird eine erste Studie vorgestellt, in der die Auswirkungen von Tone-Mapping auf die Qualität der Zwischenbildsynthese beleuchtet werden. Quantitative und qualitative Analysen zeigen, dass ein Tone-Mapping nach der Synthese der Zielansichten bessere Ergebnisse liefert als wenn es vor deren Synthese angewandt wird. Dies gilt insbesondere beim Vorhandensein von Objekten mit nicht-Lambertschen Oberflächen. Darüber hinaus ist eine Disparitätsschätzung auf den HDR-Daten zuverlässiger und genauer als auf den dynamikkomprimierten LDR-Daten. Neben der Aufnahme und Verarbeitung von HDR-Lichtfelddatensätzen wird ein rückgekoppeltes neuronales Netz vorgestellt, das falsch geschätzte Disparitätswerte detektieren kann. Der vorgeschlagene Algorithmus schätzt einen Konfidenzwert für jede Pixelposition und entfernt die falschen Disparitätswerte. Um die Komplexität gering zu halten, wird der Konfidenzwert für ein bestimmtes Pixel ausschließlich aus den zugehörigen Korrespondenzkosten („matching costs“) berechnet, ohne zusätzliche benachbarte Pixel zu berücksichtigen. Pixel mit geringer Konfidenz können dann mit zuverlässigen Pixelwerten korrigiert werden. Experimentelle Ergebnisse auf mehreren Datensätzen zeigen die Robustheit der vorgeschlagenen Methode, indem sie bessere Ergebnisse liefert als der Stand der Technik. Darüber hinaus ist die Größe des vorgeschlagenen neuronalen Netzes in Bezug auf die Anzahl der trainierbaren Parameter fast 10^2-10^4 Mal geringer als beim Stand der Technik. Trotz Filterung und Korrektur falscher Disparitätswerte haben heutige Lichtfeldverarbeitungspipelines Schwierigkeiten, neue Ansichten in guter Qualität zu rekonstruieren. Die vorliegende Arbeit präsentiert ein Verfahren zur lernbasierten Lichtfeldbildsynthese basierend auf einem Ende-zu-Ende Aufmerksamkeitsmechanismus („attention mechanism“), um die Defizite in heutigen Lichtfeldverarbeitungspipelines zu kompensieren. Das vorgeschlagene System besteht aus drei neuronalen Faltungsnetzwerken – Stereomerkmalextraktion, Disparitätsschätzung und Nachverarbeitung, die sequentiell miteinander verbunden sind. In der Nachverarbeitung werden sogenannte Convolutional Block Attention-Modules verwendet, welche einen Restwert berechnen, um damit Depth Image-based Rendering zu verbessern. Die ursprünglich vorgeschlagene Architektur rendert nur eine einzelne virtuelle Ansicht; durch zwei Anpassungen kann sie allerdings so erweitert werden, dass mehrere Ansichten auf einmal erzeugt werden. Dies führt zu besseren Ergebnissen als im Stand der Technik , besonders beim Vorhandensein von Aufdeckungen in den Bildern. Außerdem hilft die Einführung des Aufmerksamkeitsmechanismus in der Nachverarbeitungsphase, dünne Strukturen in den Bilddaten besser zu bewahren. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode nach dem Training mit einem Trainingsdatensatz eine konsistente Leistung über verschiedene weitere Testdatensätze erzielt und damit sehr gut generalisiert. Die Qualität der Zwischenbildsynthese hängt von der Anzahl der Bilder im Lichtfeld, die für die Rekonstruktion verwendet werden, ab. Die redundante Information in den einzelnen Lichtfeldbildern stellt jedoch eine Herausforderung für die Speicher- und Übertragungsressourcen dar. Motiviert durch die großen Fortschritte im Bereich der Bildkompression mittels maschinellem Lernen, ist eine Kompression mittels neuronaler Netze wünschenswert. Allerdings ist die auf neuronalen Netzen basierende Kompression ein noch relativ neues und unausgereiftes Forschungsgebiet, in dem viele grundlegende Funktionen, wie z. B. die Ratenkontrolle, noch fehlen. Um diese Lücke zu schließen, wird in dieser Arbeit ein erster Schritt in Richtung Mehrbildkompression unternommen, indem vorerst nur Stereobilder betrachtet werden. Dies gestattet, die Komplexität zu reduzieren und damit ein besseres Verständnis für die Algorithmen zu entwickeln. Insbesondere wird vorgestellt, wie rückgekoppelte neuronale Netze zur Stereobildkompression mit diskreter Ratenkontrolle verwendet werden können. Der Hauptbeitrag der vorgeschlagenen Methode besteht darin, zu untersuchen, wie die Redundanz zwischen den Bildern effektiv beseitigt werden kann. Eine Schlüsselkomponente besteht im Teilen und Weiterreichen der Zustandsinformationen des rückgekoppelten neuronalen Netzes für das linke und das rechte Bild. Dies erfordert ein sogenanntes „Warping“, bei dem die Zustandsinformationen aus dem linken Bild für das rechte „übersetzt“ werden. Zusätzlich nutzt ein neuronales Netz komprimierte Informationen zur Schätzung von Verdeckungskarten („occlusion maps“), um Diskrepanzen in den verdeckten Bereichen zu beseitigen. Quantitative und qualitative experimentelle Analysen an zwei verschiedenen Datensätzen zeigen, dass die vorgeschlagene Technik 10-30% der Bitrate für das rechte Bild einspart und traditionelle Bildcodecs in Bezug auf die subjektive Wahrnehmung übertrifft

    Evrişimsel sinir ağları ile ışık alanlarının süper çözünürlüğü

    No full text
    Light field imaging extends the traditional photography by capturing both spatial and angular distribution of light, which enables new capabilities, including post-capture refocusing, post-capture aperture control, and depth estimation from a single shot. Micro-lens array (MLA) based light field cameras offer a cost-effective approach to capture light field. A major drawback of MLA based light field cameras is low spatial resolution, which is due to the fact that a single image sensor is shared to capture both spatial and angular information. In this thesis, we present a learning based light field enhancement approach. Both spatial and angular resolution of captured light field is enhanced using convolutional neural networks. The proposed method is tested with real light field data captured with a Lytro light field camera, clearly demonstrating spatial and angular resolution improvement.Işık alan görüntüleme, ışığın hem uzamsal hem de açısal dağılımını kaydederek, kayıt sonrası odaklama, kayıt sonrası diyafram kontrolü ve tek bir çekimden derinlik kestirimi gibi geleneksel görüntülemeden daha öte yetenekler sağlar. Mikro-lens dizisi (MLD) tabanlı ışık alan kameraları ışık alanını kaydetmede uygun maliyetli bir yaklaşım sunar. MLD tabanlı ışık alan kameralarının temel sorunu tek bir görüntü sensörünün uzamsal ve açısal bilgiyi kaydetmesi için paylaşılmasından dolayı ortaya çıkan düşük uzamsal çözünürlüktür. Bu tezde, öğrenme temelli ışık alan iyileştirme yaklaşımı sunulmaktadır. Evrişimsel sinir ağları ile kaydedilmiş ışık alanının hem uzamsal hem de çözünürlüğü arttırılmaktadır. Önerilen metod Lytro ışık alan kamerasıyla çekilmiş gerçek ışık alan verisiyle test edilmiş, uzamsal ve açısal iyileştirme açık bir şekilde gösterilmiştir

    Going Beyond Counting First Authors in Author Co-citation Analysis

    Full text link
    The present study examines one of the fundamental aspects of author co-citation analysis (ACA) - the way co-citation counts are defined. Co-citation counting provides the data on which all subsequent statistical analyses and mappings are based, and we compare ACA results based on two different types of co-citation counting - the traditional type that only counts the first one among a cited work's authors on the one hand and a non-traditional type that takes into account the first 5 authors of a cited work on the other hand. Results indicate that the picture produced through this non-traditional author co-citation counting contains more coherent author groups and is therefore considerably clearer. However, this picture represents fewer specialties in the research field being studied than that produced through the traditional first-author co-citation counting when the same number of top-ranked authors is selected and analyzed. Reasons for these effects are discussed

    Variations on the Author

    Full text link
    “Variations on the Author” discusses two of Eduardo Coutinho’s recent films (Um Dia na Vida, from 2010, and Últimas Conversas, posthumously released in 2015) and their contribution to the general question of documentary authorship. The director’s filmography is characterized by a consistent yet self-effacing form of authorial self-inscription: Coutinho often features as an interviewer that rather than express opinions propels discourses; an interviewer that is good at listening. This mode of self-inscription characterizes him as an author who is not expressive but who is nonetheless markedly present on the screen. In Um Dia na Vida, however, Coutinho is completely absent form the image, while Últimas Conversas, on the contrary, includes a confessional prologue that moves the director from the margins to the center of his films. This article examines the ways in which these works stand out in the filmography of a director who offers new insights into the notion of cinematic authorship

    Appropriate Similarity Measures for Author Cocitation Analysis

    Full text link
    We provide a number of new insights into the methodological discussion about author cocitation analysis. We first argue that the use of the Pearson correlation for measuring the similarity between authors’ cocitation profiles is not very satisfactory. We then discuss what kind of similarity measures may be used as an alternative to the Pearson correlation. We consider three similarity measures in particular. One is the well-known cosine. The other two similarity measures have not been used before in the bibliometric literature. Finally, we show by means of an example that our findings have a high practical relevance.information science;Pearson correlation;cosine;similarity measure;author cocitation analysis

    Sodium–Glucose Cotransporter-2 Inhibitors and Heart Failure Prevention in Type 2 Diabetes

    Full text link
    Diabetes and heart failure (HF) are closely linked, with one causing a worse prognosis in the other. The majority of anti-hyperglycaemic agents primarily reduce risk of ischaemic microvascular events without targeting the mechanisms involved for diabetes cardiomyopathy and HF. Sodium–glucose cotransporter-2 (SGLT2) inhibitors have emerged as a novel class of glucose-lowering agents that have consistently reduced HF hospitalisations, unlike other agents. The authors discuss the current evidence and highlight possible future directions for the role of SGLT2 inhibitors in HF prevention

    Dispelling the Myths Behind First-author Citation Counts

    Full text link
    We conducted a full-scale evaluative citation analysis study of scholars in the XML research field to explore just how different from each other author rankings resulting from different citation counting methods actually are, and to demonstrate the capability of emerging data and tools on the Web in supporting more realistic citation counting methods. Our results contest some common arguments for the continued use of first-author citation counts in the evaluation of scholars, such as high correlations between author rankings by first-author citation counts and other citation counting methods, and high costs of using more realistic citation counting methods that are not well-supported by the ISI databases. It is argued that increasingly available digital full text research papers make it possible for citation analysis studies to go beyond what the ISI databases have directly supported and to employ more sophisticated methods
    corecore