1,721,065 research outputs found

    The efficiency of the human auditory system for the recognition of natural sounds

    No full text
    L'efficacité de la reconnaissance auditive peut être décrite et quantifiée suivant deux aspects différents : la quantité d'information nécessaire pour y parvenir et sa rapidité. L'objectif de cette thèse est d'évaluer expérimentalement ces deux aspects. Dans une première partie expérimentale, nous nous sommes intéressés à la quantité d'information en créant des représentations parcimonieuses de sons naturels originaux appelées esquisses auditives. Nous avons montré qu'une esquisse auditive est reconnue malgré la quantité très limitée d'information auditive présente dans les stimuli. Pour l'analyse des stimuli auditifs, nous avons développé un modèle de distance auditive entre catégories sonores. Pour l'analyse des performances des participants, nous avons développé un modèle pour le calcul de la sensibilité par catégorie sonore et tenant compte du biais, qui s'intègre dans la théorie de détection du signal. Ces analyses nous ont permis de montrer qu'en réalité les résultats ne sont pas équivalents entre les différentes catégories sonores. La voix se démarque des autres catégories testées (e.g. instruments de musique) : la technique de sélection de l'information parcimonieuse ne semble pas adaptée aux indices de la voix. Dans une seconde partie expérimentale, nous avons étudié le décours temporel de la reconnaissance auditive. Afin d'estimer le temps nécessaire au système auditif pour reconnaître un son, nous avons utilisé un récent paradigme de présentation audio séquentielle rapide (RASP, pour Rapid Audio Sequential Presentation). Nous avons montré que moins de 50 ms suffisent pour reconnaître un son naturel court, avec une meilleure reconnaissance pour la pour la voix humaine.The efficacy of auditory recognition relies on two different aspects: the quantity of information necessary and the processing speed. The objective of this thesis was to experimentally evaluate these two aspects. In a first experimental part, we explored the amount of information by creating sparse representations of original natural sounds to form what is called auditory sketches. We showed that an auditory sketch is recognizable despite the very limited quantity of auditory information in the stimuli. To achieve these results, we dedicated an important part of our work on the elaboration of adequate tools in function of the tested sound categories. Thus, for the analysis of auditory stimuli, we have developed an auditory distance model between sound categories. For the analysis of the performances of the participants, we have developed a model to calculate the sensitivity by sound category and taking into account the bias, which falls within the signal detection theory. These analyses allowed us to show that, actually, the results are not equivalent between the different sound categories. Voices stand out from the other categories tested (e.g. musical instruments): the technique of selection of the sparse information does not seem adapted to the voice features. In a second experimental part, we investigated the temporal course of auditory recognition. To estimate the time necessary for the auditory system to recognize a sound, we used a recent paradigm of Rapid Audio Sequential Presentation (RASP). We showed that less than 50 ms are enough to recognize a short natural sound, with a better recognition for the human voice

    Measurement and countermeasure of inattentional deafness

    No full text
    L’analyse des sons nécessite des ressources attentionnelles. Ces ressources étant limitées, un filtrage atténue les stimuli non-pertinents en regard de la tâche. Si ce filtrage permet d’éviter la distraction, il peut amener à manquer des stimuli malgré tout important. En audition ce phénomène est nommé « surdité attentionnelle » et peut mener à manquer des stimuli pourtant très remarquables. Au-delà de l’aspect purement scientifique, la surdité attentionnelle a un intérêt du point de vue de la sécurité puisque de nombreux rapports indiquent qu’elle est à l’origine d’alarmes manquées ayant menées à des incidents, voir accidents.Dans ce cadre, cette thèse avait pour objectif de préciser les conditions dans lesquelles la surdité attentionnelle apparaît ainsi qu’une contre-mesure à ce phénomène. Pour cela, deux expériences ont été menées. La première comprenait une double-tâche consistant à détecter un son pendant la réalisation d’une tâche principale plus ou moins demandeuse en ressources attentionnelles. Elle n’a pas permis d’obtenir de surdité attentionnelle mais a permis l’élaboration d’une seconde expérience réalisée en ligne impliquant une plus forte demande en ressources attentionnelle. En plus d’avoir généré de la surdité attentionnelle, cette seconde expérience a permis de conclure que l’ajout de modulations d’amplitude au son d’alarme pour apporter une caractéristique rugueuse ne réduisait pas le niveau de surdité attentionnelle. En revanche, le niveau de surdité attentionnelle est réduit lorsque le son d’alarme partage sa position avec un autre son cible de notre attention.Sounds analysis require attentional resources that are limited. Therefore, irrelevant sounds are filtered so that their processing is attenuated to avoid distraction. Nevertheless, this filtering can lead to miss important sounds even if they are remarkable, this is “inattentional deafness”. Security issues are linked to this phenomenon. Indeed, missed warning sounds that lead to incidents or accidents were linked to inattentional deafnessThis aim of this thesis was to precise the conditions that causes this phenomenon and to evaluate if the sound characteristics manipulation can be used to reduce inattentional deafness. In this way, two experiments were carried out. The first consisted of a dual-task where participants had to detect sounds during the realization of a main task aimed to induce attentional resources demand. This experiment did not lead to inattentional deafness but helped to elaborate the second experiment. This second one implied a greater attentional resources demand and succeeded to induce inattentional deafness. It also indicated that warning sounds that are amplitude modulated that gave them roughness sensation were not more likely to be detected. In contrast, sharing the same localization as a target sound was an advantage for the detection

    Assessing the quality of experience of audiovisual services in a context of mobility : contribution of sound immersion

    No full text
    Les terminaux mobiles offrent à ce jour des performances de plus en plus élevées (CPU, résolution de l’écran, capteurs optiques, etc.) Cela rehausse la qualité vidéo des services média, que ce soit pour le visionnage de contenu vidéo (streaming, TV, etc.) ou pour des applications interactives telles que le jeu vidéo. Mais cette évolution concernant l'image n'est pas ou peu suivie par l'intégration de systèmes de restitution audio de haute qualité dans ce type de terminal. Or, parallèlement à ces évolutions concernant l'image, des solutions de son spatialisé sur casque, à travers notamment la technique de restitution binaurale basée sur l'utilisation de filtres HRTF (Head Related Transfer Functions) voient le jour.Dans ce travail de thèse, nous nous proposons d’évaluer l’intérêt que peut présenter le son binaural lorsqu'il est utilisé sur une application mobile audiovisuelle. Une partie de notre travail a consisté à déterminer les différents sens que l’on pouvait donner au terme « application mobile audiovisuelle » et parmi ces sens ceux qui d’une part étaient pertinents et d’autre part pouvaient donner lieu à une évaluation comparative avec ou sans son binaural.Le couplage entre son binaural et visuel sur mobile occasionne en premier lieu une question d’ordre perceptive : comment peut-on organiser spatialement une scène virtuelle dont le son peut se déployer tout autour de l’utilisateur, et dont le visuel est restreint à un si petit écran ? La première partie de cette thèse est consacrée à cette question. Nous menons une expérience visant à étudier le découplage spatial possible entre un son binaural et un visuel rendus sur smartphone. Cette expérience révèle une forte tolérance de l’être humain face aux dégradations spatiales pouvant survenir entre les deux modalités. En particulier, l’absence d’individualisation des HRTF, ainsi qu’un très grand découplage en élévation ne semblent pas affecter la perception. Par ailleurs, les sujets semblent envisager la scène « comme si » ils y étaient eux-mêmes directement projetés, à la place de la caméra, et cela indépendamment de leur propre distance à l’écran. Tous ces résultats suggèrent la possibilité d’une association entre son binaural et visuel sur mobile dans des conditions d’utilisation proches du grand public.Dans la seconde partie de la thèse, nous tentons de répondre à la question de l’apport du binaural en déployant une expérience « hors les murs », dans un contexte plausible d’utilisation grand public. Trente sujets jouent dans leur vie quotidienne à un jeu vidéo de type Infinite Runner, développé pour l’occasion en deux versions, une avec du son binaural, et l’autre avec du son monophonique. L’expérience dure cinq semaines, à raison de deux sessions par jour. Ce protocole procède de la méthode dite "Experience Sampling Method", sur l’état de l’art de laquelle nous nous sommes appuyés. Nous calculons à chaque session des notes d’immersion, de mémorisation et de performance, et nous comparons les notes obtenues entre les deux versions sonores. Les résultats indiquent une immersion significativement meilleure pour le binaural. La mémorisation et la performance ne sont en revanche pas soumises à un effet statistiquement significatif du rendu sonore. Au-delà des résultats, cette expérience nous permet de discuter de la question de la validité des données en fonction de la méthode de déploiement, en confrontant notamment bien-fondé théorique et faisabilité pratique.In recent years, smartphone and tablet global performances have been increased significantly (CPU, screen resolution, webcams, etc.). This can be particularly observed with video quality of mobile media services, such as video streaming applications, or interactive applications (e.g., video games). However, these evolutions barely go with the integration of high quality sound restitution systems. Beside these evolutions though, new technologies related to spatialized sound on headphones have been developed, namely the binaural restitution model, using HRTF (Head Related Transfer Functions) filters.In this thesis, we assess the potential contribution of the binaural technology to enhance the quality of experience of an audiovisual mobile application. A part of our work has been dedicated to define what is an “audiovisual mobile application”, what kind of application could be fruitfully experienced with a binaural sound, and among those applications which one could lead to a comparative experiment with and without binaural.In a first place, the coupling of a binaural sound with a mobile-rendered visual tackles a question related to perception: how to spatially arrange a virtual scene whose sound can be spread all around the user, while its visual is limited to a very small space? We propose an experiment in these conditions to study how far a sound and a visual can be moved apart without breaking their perceptual fusion. The results reveal a strong tolerance of subjects to spatial discrepancies between the two modalities. Notably, the absence or presence of individualization for the HRTF filters, and a large separation in elevation between sound and visual don’t seem to affect the perception. Besides, subjects consider the virtual scene as if they were projected inside, at the camera’s position, no matter what distance to the phone they sit. All these results suggest that an association between a binaural sound and a visual on a smartphone could be used by the general public.In the second part, we address the main question of the thesis, i.e., the contribution of binaural, and we conduct an experiment in a realistic context of use. Thirty subjects play an Infinite Runner video game in their daily lives. The game was developed for the occasion in two versions, a monophonic one and a binaural one. The experiment lasts five weeks, at a rate of two sessions per day, which relates to a protocol known as the “Experience Sampling Method”. We collect at each session notes of immersion, memorization and performance, and compare the notes between the monophonic sessions and the binaural ones. Results indicate a significantly better immersion in the binaural sessions. No effect of sound rendering was found for memorization and performance. Beyond the contribution of the binaural, we discuss about the protocol, the validity of the collected data, and oppose theoretical considerations to practical feasibility

    L’application de la réalité virtuelle aux pathologies psychiatriques

    No full text
    cote interne IRCAM: ViaudDelmon08dNone / NoneNational audienceL’application de la réalité virtuelle aux pathologies psychiatrique

    Les effets de soin du virtuel

    No full text
    cote interne IRCAM: ViaudDelmon11aNone / NoneNational audienceLes effets de soin du virtue

    Réalité virtuelle, Entendre dans un monde virtuel

    No full text
    cote interne IRCAM: ViaudDelmon08cNone / NoneNational audienceRéalité virtuelle, Entendre dans un monde virtue

    Corps, action et cognition : la réalité virtuelle au défi des sciences cognitives

    No full text
    cote interne IRCAM: ViaudDelmon07dNone / NoneNational audienceCorps, action et cognition : la réalité virtuelle au défi des sciences cognitive

    Human computer confluence applied in healthcare and rehabilitation

    No full text
    cote interne IRCAM: ViaudDelmon12iNone / NoneNational audienceHuman computer confluence applied in healthcare and rehabilitatio

    Emotion, multisensory integration and space perception: when space is felt too small or too big

    No full text
    cote interne IRCAM: ViaudDelmon12cNone / NoneNational audienceEmotion, multisensory integration and space perception: when space is felt too small or too bi

    The role of object categories in auditory-visual object recognition

    No full text
    cote interne IRCAM: Suied08fNone / NoneNational audienceThe influence of semantic congruence on auditory-visual object recognition was studied in a go/no-go task. We compared the effect of different object categories (animals and man-made objects) on reaction times. Experiments were run under a realistic virtual environment including 3D images and free-field audio. Participants were asked to react as fast as possible to a target object presented in the visual and/or the auditory modality, and to inhibit their response to a distractor object. Reaction times were significantly shorter for semantically congruent bimodal stimuli than would be predicted by independent processing of information about the auditory and the visual targets presented unimodally. Moreover, reaction times were significantly shorter for semantically congruent bimodal stimuli (i.e., visual and auditory targets) than for semantically incongruent bimodal stimuli (i.e. target represented in only one sensory modality and distractor presented in the other modality). A comparison of the interference effect across the various object different categories is then detailed. These experiments bring new elements about the influence of object categories on the rules of auditory-visual integration
    corecore