1,721,137 research outputs found
A cortical architecture on parallel hardware for motion processing in real time
Walking through a crowd or driving on a busy street requires monitoring your own movement and that of others. The segmentation of these other, independently moving, objects is one of the most challenging tasks in vision as it requires fast and accurate computations for the disentangling of independent motion from egomotion, often in cluttered scenes. This is accomplished in our brain by the dorsal visual stream relying on heavy parallel-hierarchical processing across many areas. This study is the first to utilize the potential of such design in an artificial vision system. We emulate large parts of the dorsal stream in an abstract way and implement an architecture with six interdependent feature extraction stages (e. g., edges, stereo, optical flow, etc.). The computationally highly demanding combination of these features is used to reliably extract moving objects in real time. This way-utilizing the advantages of parallel-hierarchical design-we arrive at a novel and powerful artificial vision system that approaches richness, speed, and accuracy of visual processing in biological systems
Early Cognitive Vision: Using Gestalt-Laws for Task-Dependent, Active Image-Processing
The goal of this review is to discuss different strategies employed by the visual system to limit data-flow and to focus data processing. These strategies can be hard-wired, like the eccentricity-dependent visual resolution or they can be dynamically changing like mechanisms of visual attention. We will ask to what degree such strategies are also useful in a computer vision context. Specifically we will discuss, how to adapt them to technical systems where the substrate for the computations is vastly different from that in the brain. It will become clear that most algorithmic principles, which are employed by natural visual systems, need to be reformulated to better fit to modern computer architectures. In addition, we will try to show that it is possible to employ multiple strategies in parallel to arrive at a flexible and robust computer vision system based on recurrent feedback loops and using information derived from the statistics of natural images
Compact and Accurate Early Vision Processing in the Harmonic Space
The efficacy of anisotropic versus isotropic filtering is analyzed with respect to general phase-based metrics for early vision attributes. We verified that the spectral information content gathered through oriented frequency channels is characterized by high compactness and flexibility, since a wide range of visual attributes emerge from different hierarchical combinations of the same channels. We observed that it is preferable to construct a multichannel, multiorientation representation, rather than using a more compact representation based on an isotropic generalization of the analytic signal. The complete harmonic content is then combined in the phase-orientation space at the final stage, only, to come up with the ultimate perceptual decisions, thus avoiding an "early condensation" of basic features. The resulting algorithmic solutions reach high performance in real-world situations at an affordable computational cost
Studying semantic relationships using electroencephalography
Semantic relationships between words are a key component in the functioning of our semantic memory, our ability to understand and produce language and our ability to reason about the world. For example, dogs have tails, which they wag, but only when they are happy.
Constructing a map of these semantic relationships and their relationship strength (for example in the form of a semantic network) is useful in our quest to understand the aforementioned processes.
There are many ways to construct these maps, for example counting the number of co-occurrences of words in a text, using dictionaries and thesauri or simply asking people to write down word associations. However, if we want to study how the brain processes language, the more useful measures might be those based brain responses themselves. An experimental paradigm that is known to reveal automatic brain responses to semantic relationships is semantic priming. This semantic priming effect occurs when a target stimulus is preceded by one or more priming stimuli that share a semantic relationship with the target. In this case, the priming stimuli create a context that, through various mechanisms, facilitates the processing of the target stimulus by the brain.
To record brain activity, we employed EEG, which is a non-invasive method that is widely used in the neurosciences to study ongoing processes in the living brain. One of its disadvantages is that the conductive properties of tissue between the origin of the signal and the electrodes on the scalp cause each electrode to pick up signals from a large region of the brain. If one is interested in studying one particular brain process, as is usually the case, these signals must be separated in order to isolate the process of interest. A commonly used technique to do so is the construction and analysis of the ERP. During semantic priming experiments, stimuli preceded by a related prime generate a smaller amplitude of the N400 component in the ERP then onces that are preceded by an unrelated one. Because the subject has no voluntary control over his/her N400 amplitude, this component could serve as a proxy measurement of the relationship strength between the representations of the stimuli in the brain.
The major challenge addressed in this thesis is to obtain an accurate measurement of the amplitude of the N400. Averaging EEG responses to hundreds of stimuli and constructing the ERP waveform is less of a problem when one wants to study the properties of the N400 itself. The focus of this thesis lies however on deducing the properties of the stimuli, namely the relationship strength between them. Therefore, averaging across stimuli becomes problematic and other solutions must be found to isolate the N400 from the rest of the signal.
A good way to prevent occlusion of the N400 by other brain processes is to design the experiment in such a way that other strong ERP components do not occur in the time window of interest. A common experimental design for studying semantic priming instructs the subject to perform a speeded decision task and press the correct button. This has the advantage of capturing the response time of the subject as an extra measurement of the semantic priming effect. However, the decision making process and the pressing of the button evoke ERP components that unacceptably obscure the N400. We found that delaying the button response eliminates this overlap.
To further isolate the N400 from the rest of the ongoing EEG signals, a new multivariate approach called a spatio-temporal LCMV beamformer, was introduced. Using both simulated and real EEG signals, the performance of the beamformer was evaluated, next to traditional mean voltage measurement and supervised learning approaches, such as the lSVM. We found that the performance of the beamformer and lSVM were comparable in terms of correlation with actual N400 amplitude, but that the beamformer was more robust against influences from nearby ERP components. Variance in the output of the beamformer that cannot be explained by N400 amplitude, was more likely to be due unstructured noise, which is a desirable property during statistical analysis. It allows the researcher to have confidence that the filter's output is an actual measure of N400 amplitude and not some other component.
The combination of experimental design and the stLCMV beamformer filter resulted in a good measurement of N400 amplitude. This measurement was employed to perform a clustering study in which a list of words were clustered into groups. The groups were based on the notion that words belonging to the same group would produce a small N400 amplitude, when presented as a word-pair, than words belonging to different groups. Starting from an unordered list of 14, we showed that the N400 component could be used to reliably cluster them into their original categories: 7 African animals and 7 furniture items.
The work presented in this thesis clears to way to employ the N400 as a basis for measuring the strength of semantic word relations, as represented in the brain.status: Publishe
Computationeel modelleren van visuele aandacht: neuronale responsmodulatie in het thalamocorticale complex en detectie van onafhankelijke beweging op basis van opvallendheid
Ons visueel systeem wordt geconfronteerd met een enorme hoeveelheid sensoriële informatie. Gezien de beperkte computationele middelen, kan het onmogelijk al zijn functies tegelijkertijd op alle locaties in het visuele veld uitvoeren. Een selectie gebeurt aan de hand van visuele aandacht, dat als een filter relevante informatie versterkt en irrelevante informatie onderdrukt. Ook in computervisie-toepassingen, in het bijzonder deze die gebruik maken van visuele beweging, zijn vaak extra middelen nodig in specifieke gebieden. In deze thesis worden twee studies beschreven die visuele aandacht vanuit verschillende perspectieven behandelen, namelijk ten eerste verklarend, door het formuleren en valideren van hypothesen met betrekking tot de neurale mechanismen van visuele aandacht, en ten tweede applicatiegericht, door gebruik te maken van principes uit het aandachtsonderzoek om de verwerking van realistische video-sequenties te vereenvoudigen.In de eerste studie wordt een model geïntroduceerd voor de verklaring van modulatorische aandachtseffecten in de vroegste stadia van de visuele verwerking. Traditioneel werd de invloed van visuele aandacht relatief laat in de visuele hiërarchie waargenomen, en betrof het voornamelijk een versterking van de metabolische activiteit. Neurofysiologische experimenten uitgevoerd door Vanduffel et al. daarentegen hebben aangetoond dat in de vroegste stadia (voornamelijk in de lateral geniculate nucleus, LGN, en de primaire visuele cortex, V1), aandacht zich manifesteert als een ring van onderdrukte neurale activiteit rond de voorstelling van de stimulus. De huidige modellen zijn niet in staat om dit effect te verklaren. In dit werk formuleren we een hypothese over het onderliggende mechanisme en implementeren we deze als een nieuw computationeel model dat in staat is om dit fenomeen te reproduceren en dus een verklaring te bieden. Ons model voorspelt dat de diffusie van stimulus-gedreven LGN-celactiviteit naar de reticular thalamic nucleus (RTN) (zowel rechtstreeks als via V1) en de daaropvolgende inhibitie van gebieden in de LGN rond de representatie van de stimulus, het voornaamste mechanisme van de modulatie is.Daar waar in de eerste studie het aandachtssignaal volgt uit de taak (oriëntatie-discriminatie), wordt in de tweede studie een complex visueel kenmerk geïntroduceerd dat automatisch de aandacht trekt, namelijk onafhankelijke beweging (beweging ten opzichte van de statische omgeving). Wanneer de waarnemer statisch is, is het relatief eenvoudig te detecteren. Als de waarnemer beweegt echter, genereren zowel de bewegende objecten als de statische omgeving visuele beweging op de retina (optic flow), en is het noodzakelijk om verschillende visuele kenmerken te combineren om de twee van elkaar te scheiden. Deze detectie is vrij eenvoudig voor mensen, en bijkomende middelen (aandacht) worden typisch toegewezen aan die locaties waar onafhankelijke beweging aanwezig is. We introduceren een aantal nieuwe biologisch-geïnspireerde computervisie-technieken die robuust zijn aan de typische storingsfactoren die aanwezig zijn in realistische video-sequenties, geregistreerd door bewegende waarnemers. De combinatie van deze technieken resulteert in een saliency map voor onafhankelijke beweging (een kaart die voor elke locatie de waarschijnlijkheid van onafhankelijke beweging aangeeft).Vooreerst worden twee nieuwe methodes voorgesteld die het mogelijk maken om optic flow te bepalen aan de hand van onstabiele sequenties. In tegenstelling tot bestaande technieken kunnen beide methodes omgaan met de complexiteit van realistische scènes, waar de afstand tot de scène klein is, het bereik van diepte in de scène groot is, en bewegende objecten aanwezig zijn. Vervolgens wordt een algoritme geïntroduceerd voor het bepalen van de zelfbeweging aan de hand van optic flow. Anders dan bestaande methoden is het voorgestelde algoritme niet gevoelig aan lokale minima (die overeenkomen met sub-optimale oplossingen). Deze robuustheid wordt bekomen zonder in te boeten aan precisie. Tenslotte wordt een nieuw stereo-algoritme voorgesteld en samen met de andere visuele kenmerken gecombineerd in een saliency map voor onafhankelijke beweging. Dit gebeurt met behulp van een nieuwe maat voor onafhankelijke beweging die een groter scheidend vermogen heeft dan bestaande maten.status: Publishe
Explorerende methode voor connectiviteitsanalyse in fMRI
Functionele beeldvorming van de hersenen, en meer bepaald functionele magnetische resonantie, is een niet-invasieve techniek die toelaat om, zij het op een onrechtstreekse wijze, neurale activiteit te meten. Het merendeel van de studies die gebruik maken van fMRI hebben als doel om na te gaan op welke plaatsen er activiteit ontstaat wanneer een bepaalde stimulus wordt getoond of wanneer een bepaalde cognitieve taak wordt uitgevoerd. Deze studies worden activatie-studies genoemd. De hersenen werken echter niet als een aantal onafhankelijke en gespecialiseerde eilanden op zichzelf. Hersenfuncties zijn immers ook grotendeels het resultaat van interacties en samenwerking tussen hersengebieden, van connecties tussen hersengebieden. De studies die zich hierop richten worden connectiviteits-studies genoemd.Er wordt vaak een onderscheid gemaakt tussen functionele connectiviteit en effectieve connectiviteit. Het eerste richt zich vooral op het identificeren van welke gebieden samenwerken, en hoe groot hun onderlinge interacties zijn, maar niet zozeer op hoe de gebieden samenwerken. Dit is eerder het onderwerp van effectieve connectiviteitsanalyse. Daarin wordt nagegegaan op welke wijze gebieden samenwerken, langs welke paden er informatie stroomt, in welke volgorde er verschillende hersengebieden betrokken worden, enz.In deze verhandeling worden een aantal methoden ontwikkeld voor connectiviteitsanalyse van fMRI gegevens. In hoofstuk 1 wordt een methode beschreven om het functionele connectiviteitspatroon van een aantal regio's te bekomen. Daarvoor wordt er eerst voor elke regio of hersengebied een representatief signaal opgesteld. Dit gebeurt door de individuele signalen in de voxels van de verschillende regio's een gewicht te geven, zodat deze gewogen gemiddeldes maximaal gecorreleerd zijn. Voxels die niet of weinig kunnen bijdragen tot een algemene maximale correlatie krijgen een laag of nul-gewicht. Door het opstellen van de representatieve signalen worden zo dus ook tegelijkertijd de 'interessante' voxels uit elke regio gevonden.De methode in het eerste hoofdstuk beperkt zich tot de voxels die aanwezig zijn in de gegeven definities van de gebieden. Deze beperking wordt opgeheven in het tweede hoofdstuk. Elk voxel in het brein is kandidaat om toegevoegd te worden in een regio. De eis is wel dat de voxels die tot een regio behoren een gelijkaardig functioneel connectiviteitspatroon hebben ten opzichte van de andere regio's. Er wordt dus expliciet rekening gehouden met hoe voxels zich gedragen tot ander regio's om al dan niet tot dezelfde regio te kunnen behoren.De methodes in de eerste twee hoofdstukken behoren tot de categorie van functionele connectivteitsmethodes. Vanaf hoofdstuk 3 wordt effectieve connectiviteit het onderwerp van deze verhandeling. Meer bepaald richten we ons op explorerende methodes voor effective connectiviteit. Dit wil zeggen dat we geen veronderstellingen aannemen van hoe de regio's met elkaar interageren, maar dat we het onderliggende netwerk proberen af te leiden uit de fMRI gegevens zelf.Er bestaan twee categorieen van methodes om het netwerk af te leiden vanuit de gegevens. Ten eerste, methodes die een netwerk opstellen dat (zo goed mogelijk) voldoet aan de beperkingen die kunnen afgeleid worden uit de data; ten tweede, methodes die alle netwerken, of zoveel mogelijk, individueel evalueren, ze een score geven, en het hoogst-scorende netwerk weerhouden. De beperkingen in de eerst categorie zijn conditionele onafhankelijkheids-beperkingen, die kunnen worden vastgesteld in de gegevens.De correlatiecoefficient tussen twee variabelen (2 fMRI signalen) kan niet bepalen of deze twee signalen rechtstreeks met elkaar interageren dan wel via \'e\'en of meerdere andere tussenliggende knooppunten. Conditionele correlatie, of meer in het algemeen, conditionele (on)afhankelijkheid, kan dit onderscheid wel maken. Dit concept wordt gebuikt bij het leren van casuale netwerken. In hoofdstuk 3 passen we een van de standaardmethodes toe, namelijk de methode van Spirtes, Glymour en Scheines (SGS methode) voor het leren van causale netweken, op een fMRI dataset. De conditionele onafhankelijkheden worden getest door middel van conditionele mutuele informatie. Dit is een informatie-theoretisch principe dat toelaat om niet-lineaire verbanden te testen. In hoofdstuk 4 wordt een methode ontwikkeld die behoort tot de tweede categorie van leeralgoritmes (dus netwerken zoeken en ze een score geven). In de methode in hoofdstuk 4 wordt ook rekening gehouden met de tijdsvolgorde die in de fMRI signalen aanwezig is (dit is niet zo in hoofdstuk 3).De invloed van een regio op een andere wordt bepaald aan de hand van (conditionele) Granger causaliteit. Het idee van Granger causaliteit is dat een oorzaak altijd een gevolg moet voorafgaan in de tijd, dus de oorzaak kan niet komen na het gevolg, en dus kan de tijdsinformatie gebruikt worden om een richting te geven aan het oorzakelijk verband. De praktische implementatie van dit concept komt eigenlijk neer op het opstellen van een regressiemodel waarin ook historische waarden worden opgenomen. We eisen dat de regressiecoefficienten niet negatief kunnen worden. Hierdoor wordt het verloop van de regressiecoefficienten veel meer monotoon dalend wanneer nieuwe variabelen worden toegevoegd. Dit laat ons toe om eerst nog een structuur-identificatie te doen op basis van Totale Conditionering. Zonder de niet-negativiteitsbeperkingen kunnen variabelen die eerst onafhankelijk zijn later afhankelijk worden wanneer meerdere variabelen worden toegevoegd. Totale Conditionering is dus niet mogelijk zonder de niet-negativiteitsbeperkingen (tenzij met extra correctiestappen).Aan de hand van een Dynamische Programmerings- methode wordt in dit hoofdstuk het beste acyclisch netwerk gezocht, waarmee wordt bedoeld dat het de laagste totale voorspellingsfout heeft. De Dynamische Programmeringsmethode maakt het mogelijk om op een efficiente wijze alle netwerken te evalueren. Zo kan het globaal optimum bepaald worden voor netwerken die tot ongeveer 20 knooppunten bevatten, of tot ongeveer 30 knooppunten wanneer voorafgaandeerst nog structuuridentificatie wordt uitgevoerd met de Totale Conditioneringsmethode.status: Publishe
Emotieherkenning met EEG door meerkanaals informatietheoretische metrieken
status: Publishe
Een nieuwe spatio-temporele analyse methode voor fMRI data van primaten
This thesis discusses two new contributions to the analysis of fMRI (functional Magnetic Resonance Imaging) signals. The signals were obtained by scanning the brains of primates using an MRI scanner. The first contribution is an enhanced cluster tool. K-means and Fuzzy Cluster Analysis are often used for fMRI signal analysis to detect activity patterns in the brain, but they are based on linear concepts. Conversely, our novel cluster tool is based on the Procaccia-Grassberger theorem, which is well-known in the field of non-linear state dynamics. The obtained results show that our method is better adapted to handle the non-linear nature of fMRI signals, and that it is less sensitive to noise, which makes that the obtained clusters are more related to brain regions that are responding differentially to the applied stimuli.
The second contribution is an extension to nonparametric statistical tests such as the Mann-Whitney test, the Kolmogorov-Smirnov test (KS) and the Cramèr-von Mises test (CvM). Statistical tests are used to check whether a given brain region is significantly responsive to a (set of) stimuli. Our extension corrects for the omni-present autocorrelations in fMRI signals, which consequently enables the use of these nonparametric tests for fMRI signals analysis. With respect to the current, parametric tests like the Student t-test, which can only detect a difference in the average activation, the KS and CvM tests can detect differences in the nature of the activation. In combination with the traditionally-used statistical tests, this is a source of additional information. Together with the novel cluster tool we developed, this contribution is expected to increase our insight into the functioning of the brain.status: Publishe
Van Multikanaals Visie Naar Actieve Exploratie
This thesis is a collection of three studies investigating the multi-channel processing of visual information in biologically-inspired computer vision systems. These three studies are interconnected and supported by an auxiliary work on object recognition.The first study (Chapter 2) is focused on a biologically-inspired multichannel vision approach to independent motion detection (IMD). The goal is to detect objects that move independently from the moving observer. For example, a video camera mounted in a car "sees" a constantly moving environment while the car is driving. In this case, the motion (perceived by the camera) is caused by the self-motion of the car and the independent motion of other objects (e.g., vehicles or pedestrians). The task then is to differentiate the independently moving object (IMOs) from the motion induced by the moving observer in the (static with respect to Earth) environment. In this chapter we propose an approach for IMD, which uses several channels extracted from the input visual stream to create a so-called independent motion (IM) map, which is a map where the intensity of each pixel encodes the likelihood of the pixel being a part of an IMO. Several extensions of the proposed IMD model are presented and described in this study. All these extended models involve an additional appearance-based object recognition channel, which is used to upgrade the representation of the detected independent motion from the pixel-based formto the object-based (set of IMO locations and descriptions) one.In the second study (Chapter 4) we move from the passive exploration of the surrounding world, addressed in the previous study, towards an active exploration. By the active exploration here we mean the ability of the system to move (or, more precisely, rotate) both cameras of the considered stereo setup. As a first step towards a complete active exploration scenario, we considered its simplified case of horizontal vergence control (VC). The goal of the latter is to verge both cameras on the target object. By vergence here we mean the horizontal (pan) rotation of both cameras in opposite directions, which brings the fixation point (intersection of the cameras' optical axes) onto the surface of the target object. The considered here vergence requires only horizontal rotation of both cameras, which can be easily modeled on the given (pan-tilt) robotic head by a symmetric pan-rotation of both cameras in opposite directions, while keeping the common tilt angle fixed. In Chapter 4 we propose and evaluate two neural models for vergence control. Both models use input stereo images to estimate the desired vergence angle (the angle between cameras' optical axes). The first model assumes that the gaze direction of the robotic head is orthogonal to the baseline and that the stimulus is a frontoparallel plane orthogonal to the gaze direction. The second model goes beyond these assumptions and operates reliably in the general case where all restrictions on the orientation of the gaze, as well as the target position, type and orientation, are dropped.In the third study (Chapter 5) we go to the next level of active exploration hierarchy by considering vergence and version eye movements. By the version eye movement we consider the rotational movements of both eyes in the same direction. In this chapter, we propose a novel model, called vergence-version control with attention effects (VVCA), where object recognition is used as a channel for controlling version/vergence eye movements in a biologically-plausible way. Besides purely theoretical (simulated) results, the proposed VVCA model has a real-world embodiment in the form of a robotic setup, working under real-time control of VVCA model, which was adapted specifically for this case (real-time performance).We have also extensively worked on object recognition, the results of which have been employed in all of the studies mentioned. For appearance-based object recognition (used in IMD and VC studies) we involve the well-known recognition paradigm - the convolutional neural network (CNN). In Chapter 3 we present and describe an extended version of CNN, called myCNN, which can be regarded as a fusion of a conventional CNN with hierarchical cortex-like mechanisms.status: Publishe
- …
