1,721,114 research outputs found

    Human behavior analysis from video using motion orientation

    No full text
    La reconnaissance du comportement et la prédiction des activités des personnes depuis la vidéo sont des préoccupations majeures dans le domaine de la vision par ordinateur. L'objectif principal de mon travail de thèse est de proposer des algorithmes qui permettent d'analyser des objets en mouvement à partir de la vidéo pour extraire des comportements humains. Cette analyse est effectuée dans des environnements intérieurs ou extérieurs filmés par des simples webcams ou par des caméras plus sophistiquée. La scène analysée peut être de deux types en fonction du nombre de personnes présentes. On distingue les scènes de foule où le nombre de personnes est important. Dans ce type de scène, nous nous intéressons aux problèmes de la détection d'évènements de foule, à l'analyse des flux et à l'extraction des motifs de mouvement. Le deuxième type de scène se caractérise par la présence d'une seule personne à la fois dans le champ de la caméra. Elle est appelée scène individuelle. Nous y traitons le problème de reconnaissance d'actions humaines. Pour atteindre ces objectifs, nous proposons une approche basée sur trois niveaux d'analyse. Le premier est l'extraction des caractéristiques de bas niveau récupérés les images constituant un flux vidéo (ex. les zones en mouvement). Le deuxième construit des descripteurs pour l’analyse du comportement humain (ex. la direction et la vitesse de mouvement moyennes). Le niveau le plus haut se sert des descripteurs de l'étape intermédiaire afin de fournir aux utilisateurs des résultats concrets sur l'analyse du comportement humain (ex. telle personne marche, une autre court, etc.). Des expérimentations sur des benchmarks connus ont validé nos approches, avec un positionnement très intéressant par rapport à l'état de l'art.The recognition and prediction of people activities from videos are major concerns in the field of computer vision. The main objective of my thesis is to propose algorithms that analyze human behavior from video. This problem is also called video content analysis or VCA. This analysis is performed in outdoor or indoor environments using simple webcams or more sophisticated surveillance cameras. The video scene can be of two types depending on the number of people present. The first type is characterized by the presence of only one person at a time in the video. We call this an individual scene where we will tackle the problem of human action recognition. The second type of scene contains a large number of persons. This is called a crowd scene where we will address the problems of motion pattern extraction, crowd event detection and people counting. To achieve our goals, we propose an approach based on three levels of analysis. The first level is the detection of low-level descriptors retrieved from the images of the video (e.g. areas in motion). The second level retrieves descriptors for modeling human behavior (e.g. average speed and direction of movement). The top level uses the descriptors of the intermediate step to provide users with concrete results on the analysis of behavior (e.g. this person is running, that one is walking, etc.). Experimentation on well-known benchmarks have validated our approaches, with very satisfying results compared to the state of the art

    Surveillance Event Detection and Monitoring

    No full text
    Dans les systèmes de vidéosurveillance, les algorithmes de vision assistée par ordinateur ont joué un rôle crucial pour la détection d’événements liés à la sûreté et la sécurité publique. Par ailleurs, l’incapacité de ces systèmes à gérer plusieurs scènes de foule est une lacune bien connue. Dans cette thèse, nous avons développé des algorithmes adaptés à certaines difficultés rencontrées dans des séquences vidéo liées à des environnements de foule d’une ampleur significative comme les aéroports, les centres commerciaux, les rencontres sportives etc. Nous avons adopté différentes approches en effectuant d’abord une analyse globale du mouvement dans les régions d’intérêt de chaque image afin d’obtenir des informations sur les comportements multimodaux de la foule sous forme de structures spatio-temporelles complexes. Ces structures ont ensuite été utilisées pour détecter des événements de surveillance inhabituels au sein-même de la foule. Pour réaliser nos expériences, nous nous sommes principalement appuyés sur trois ensembles de données qui ont suscité notre réflexion. Les résultats reflètent à la fois la qualité et les défauts de ces approches. Nous avons également développé une distance pseudo-euclidienne.Pour démontrer son utilité, une méthodologie qui lui est propre a été utilisée pour la détection de plusieurs événements de surveillance standards issus de la base TRECVID2008. Certains résultats montrent la robustesse de cette méthodologie tandis que d’autres soulignent la difficulté du problème. Les principaux défis portent, entre autres, sur le flux massif de personnes, l’importance de l’occlusion, la réflexion, les ombres, les fluctuations, les variations de la taille de la cible, etc. Cependant, nos idées et nos expériences de ces problèmes d’ordre pratique ont été particulièrement utiles. De plus, cette thèse développe un algorithme permettant de suivre une cible individuelle dans le cadre de plusieurs scènes de foule. Les séquences vidéo de la base de PETS2009 Benchmark ont été prises en compte pour évaluer les performances de cet algorithme. Si on analyse ses avantages et ses inconvénients, celui-ci fait toujours preuve d’une grande exactitude et sensibilité vis-à-vis des effets de variationde la lumière, ce qui atteste de sa grande efficacité même lorsque la luminosité baisse, que la cible entre ou sort d’une zone d’ombre ou en cas de lueur soudaine.Computer vision algorithms have played a vital role in video surveillance systems to detect surveillance events for public safety and security. Even so, a common demerit among these systems is their unfitness to handle divers crowded scenes. In this thesis, we have developed algorithms which accommodate some of the challenges encountered in videos of crowded environments (e.g., airports, malls, sporting events) to a certain degree. We have adopted approaches by first performing a global-level motion analysis within each frame’s region of interest that provides the knowledge of crowd’s multi-modal behaviors in the form of complex spatiotemporal structures. These structures are then employed in the detection of unusual surveillance events occurred in the crowds. To conduct experiments, we have heavily relied on three thought-provoking datasets. The results reflect some unique global excellences of the approaches. We have also developed a pseudo Euclidian distance. To show its usage, a methodology based on it has been employed in the detection of various usual surveillance events from theTRECVID2008. Some results report the robustness of the methodology, while the rest gives evidence of the difficulty of the problem at hand. Big challenges include, but are not limited to, massive population flow, heavy occlusion, reflection, shadow, fluctuation, varying target sizes, etc. Notwithstanding, we have got much useful insights and experience to the practical problems. In addition, the thesis explores an individual target tracking algorithm within miscellaneous crowded scenes. Video sequences from the PETS2009 Benchmark data have been used to evaluate its performance. Viewing its pros and cons, the algorithm is still highly accurate and its sensitivity to the effects of diversity in noise and lighting, which ascertains its high-quality performance on disappearances, targets moving in and out of the shadow, and flashes of light

    Estimation of the visual gaze in a controlled environment

    No full text
    L’objectif principal de mon travail de thèse est l’extraction de la direction du regard (attention visuelle) d’une personne à partir de la vidéo. Cette analyse est effectuée dans un environnement composé d’une scène cible et d’une zone d’observation. La scène cible est une région d’intérêt définie pour être analysée (e.g. un écran plasma large, une image projetée sur un mur, une affiche publicitaire, un linéaire dans un magasin, ou la vitrine d’un magasin). La zone surveillée quant à elle est l’emplacement d’où les personnes regardent la scène cible (e.g. la rue, un couloir ou bien les allées d’un supermarché). Les connaissances qui sont extraites sont alors utilisées pour comprendre le comportement visuel de personnes ainsi que pour la réorganisation de la scène cible. Pour atteindre cet objectif, nous proposons une approche basée sur l’estimation de l’orientation de la tête et la projection du champ visuel pour localiser la région d’intérêt. Nous avons utilisé une méthode d’estimation de l’orientation de la tête basée sur l’apparence globale et sur un modèle cylindrique, et une méthode de projection géométrique pour extraire les régions d’intérêts basée sur les données physiologiques de la vision humaine. L’analyse du comportement visuel des personnes a été effectuée à l’aide d’un ensemble de métriques. Les méthodes proposées ont été validées sur des données vidéos et images.The aim of this thesis is to analyze the behaviour of the people passing in front of a target scene. We consider an environment composed of a so-called target scene (a specific scene under analysis, such as a large plasma screen, a projected image, an advertising poster, a shop window, etc.) and a monitored area (place from which people look at the target scene, such as a street or shopping mall). Computer vision provides promising techniques enabling to obtain such information by analyzing videos captured by cameras monitoring this area. Such information are useful in order to simplify technologies that uses the output of the studies about a target scene. In this thesis, we propose an approach that estimates the visual gaze of a person in a controlled environment. The visual gaze of a person is estimated from the head pose. It is followed by its projection on the target scene that allows to estimate the approximate location of interest. Finally, an analysis of the region of interest allows an accurate explanation of the human activity and interest

    Model definition and analysis of users'behavior using video data

    No full text
    Nous proposons dans ce travail d'analyser le comportement des utilisateurs exploitant des données vidéo. Notre objectif est de contribuer à comprendre pourquoi et comment chacune des séquences vidéo est visionnée par les utilisateurs. Pour cela, nous présentons une approche qui combine usage intra-vidéo et usage inter-vidéo. Au niveau intra-vidéo, nous définissons le visionnage d'une vidéo comme unité de comportement. Au niveau inter-vidéo, nous introduisons la session (enchaînement des vidéos visionnées) comme unité de comportement. Un comportement intra-vidéo est modélisé par un modèle de Markov construit en utilisant les différentes actions réalisées lors des vision nages que nous regroupons à l'aide d'une nouvelle méthode de regroupement (K-models). Cette méthode est dérivée de la technique des K-moyennes adaptée à l'utilisation de modèles. Nous caractérisons ainsi plusieurs comportements type qui permettent d'estimer quelle fut l'utilité ou d'une séquence vidéo lors d'une session. Un comportement inter-vidéo est modélisé par une session. Cette session est une séquence ordonnée des vision nages des séquences vidéo. Pour regrouper ces sessions, nous proposons une technique de regroupement hiérarchique qui présente la particularité de traiter des classes représentées par plusieurs sous-séquences enrichies par les comportements intra-vidéo. Les résultats obtenus sur des ensembles de test permettent d'identifier les comportements observés et d'en tirer des suppositions sur la pertinence des vidéos. Nous proposons également un modèle d'intégration dans un moteur de recherche permettant de détecter les erreurs d'indexation et de proposer des recherches alternatives.Our work proposes to analyze users' behavior using video data. Our objective is to contribute understanding how and why users view each video sequence. We present an approach combining intra-video and inter-video behavior analysis. The intra-video level represents the viewing of a video sequence. The inter-video level represents the sessions (linkage between videos viewed by users). An intra-video behavior is defined by a Markov model built using the actions performed during viewings. We cluster these behavior with a new method derived from K-Means adapted to the use of Models (K-Models). We then characteriz several typical behaviors that allows to estimate the level of interest of each video. An inter-video behavior is defined by a session. This session is an ordered sequence of viewings performed by the users. ln order to cluster these sessions, we propose a hierarchical technique, representing clusters by a set of common subsequences enriched by intra-video behaviors. Results from test sets allow to identify observed behaviors and to conclude on the interest of the videos. We also propose a framework on how to integrate our approach in a search engine in order to detect indexing errors and to propose altemate searches to the users

    Multimedia metadata integration system

    No full text
    Ma thèse porte sur la réalisation de l’interopérabilité des métadonnées au niveau des schémas et de langages de description. Cela est fait d’une manière automatique via le développement d’un outil de matching des schémas. Pour cela, j’ai proposé dans ma thèse une nouvelle approche de matching, baptisée MuMIe (Multilevel Metadata Integration). Elle a pour but de réaliser l’interopérabilité sur les deux niveaux (schémas et langages de description). La technique proposée transforme les schémas provenant de différents langages en graphes, en capturant uniquement quelques concepts basiques. Une méthodologie de matching est ensuite effectuée sur ces graphes permettant de trouver les correspondances entre leurs noeuds. Cela est fait via l’utilisation de plusieurs informations sémantiques et structurelles. La deuxième partie de ma thèse était consacrée à la modélisation sémantique des informations dédiées au multimédia (profiles des utilisateurs, caractéristiques des réseaux de transmission, terminaux, etc).J’ai développé un métamodèle nommé CAM4Home (Collaborative Aggregated Multimedia for Digital Home) pour la fusion des métadonnées. La spécification de ce métamodèle a été faite avec le langage RDFS.The recent growth of multimedia requires an extensive use of metadata for their management. However, a uniform access to metadata is necessary in order to take advantage of them. In this context, several techniques for achieving metadata interoperability have been developed. These intégration techniques are made by domain experts which is costly and time-consuming. The topic of my thesis is to develop an automatic integration techniques based on schema marching. We have proposed a new schema matching algorithm callad MuMIe (Multilevel Metadata Integration). MuMIe supports schemas from different description languages (XML Schema, RDS Schema, OWL) and makes use of several types of information (linguistic, semantic and structural) in a manner that increases the matching accuracy

    Bimodal face recognition by fusion of visual and depth features

    No full text
    Ce travail s’inscrit dans la thématique de la reconnaissance de visages. Il s’agit de décider de manière automatique de l’identité d’une personne en fonction des traits caractéristiques de son visage. Nous présentons une approche bimodale 2D-3D qui combine des caractéristiques visuelles et de profondeur, afin d’améliorer la précision et la robustesse de la reconnaissance par rapport aux approches monomodales classiques. Dans un premier temps, une méthode d’acquisition 3D par reconstruction stéréoscopique dédiée aux visages est proposée. Cette méthode s’appuie sur un modèle actif de forme permettant de tenir compte de la topologie du visage. Ensuite, un nouveau descripteur DLBP (Depth Local Binary Patterns) est défini pour caractériser les informations de profondeur. Ce descripteur étend aux images de profondeur les LBP traditionnels utilisés pour décrire les textures. Enfin, une stratégie de fusion bi-niveaux est proposée, permettant une combinaison à la fois précoce et tardive des deux modalités. Des expérimentations menées sur différentes collections publiques de tests, ainsi que sur une collection spécialement élaborée pour les besoins de l’évaluation, ont permis de valider les contributions proposées dans le cadre de ce travail. En particulier, les résultats ont montré d’une part la qualité des données obtenues à l’aide de la méthode de reconstruction, et d’autre part un gain de précision obtenu en utilisant le descripteur DLBP et la fusion bi-niveaux.This work lies in the domain of face recognition. The objective is to automatically decide about a person identity by analyzing his/her facial features. We introduce a 2D-3D bimodal approach that combines visual and depth features in order to provide better recognition accuracy and robustness than classical monomodal approaches. First, a 3D acquisition method dedicated to faces, based onstereoscopic reconstruction, is proposed. It is based on an active shape model to take into account the topology of the face. Then, a novel descriptor named DLBP (Depth Local Binary Patterns) is defined in order to characterize the depth information. This descriptor extends to the depth images the traditional LBP originally used for texture description. Finally, a two-stage fusion strategy isproposed, that combines the modalities using both early and late fusions. The experiments conducted with different public datasets, as well as with a new dataset elaborated specifically for the evaluation purposes, allowed to validate the contributions introduced throughout this work. In particular, results have shown the quality of the data obtained using the reconstruction method, and also a gain in precision obtained by using the DLBP descriptor and the two-stage fusion

    Facial expression recognition under partial occlusions

    No full text
    La reconnaissance automatique des expressions faciales peut s'avérer très utile pour diverses applications dans des domaines variés tels que la santé, la sécurité routière ou encore le marketing. Bien que des algorithmes permettent aujourd'hui une très bonne reconnaissance des expressions faciales dans un environnement contraint (pose frontale, pas d'occultation, bonne luminosité), la reconnaissance automatique des expressions faciales reste encore complexe dans un cadre naturel où l'on se retrouve confronté à certains défis. Parmi ces défis, les occultations rendent la tâche particulièrement difficile car elles ajoutent du bruit aux images et masquent une partie de l'information. Pour répondre à cette problématique, différentes solutions ont été proposées. Ces solutions peuvent être regroupées sous deux catégories : les solutions qui se concentrent sur les régions visibles du visage et celles qui reconstruisent les zones cachées. Les solutions de l'état de l'art sont principalement basées sur des éléments de texture, certaines solutions s'intéressent à la géométrie du visage mais très peu s'intéressent au mouvement. Or, le mouvement semble particulièrement adapté grâce à ses différentes propriétés : sa propagation et sa cohérence locale. Les travaux proposés dans ce manuscrit démontrent l'intérêt du mouvement pour reconnaître les expressions faciales en présence d'occultations partielles du visage.Automatic facial expression recognition is useful to create applications in various domains such as health, road safety or marketing where feedback on user state is relevant. Despite very good results in controlled settings (frontal face, no occlusion, good illumination), facial expression recognition is still today challenging under unconstrained environment. Among the different challenges, occlusions are particularly difficult to handle as they add noisy elements on the images and hide parts of the information. Several solutions have been proposed to address this issue. These solutions can be roughly categorized in two : those which focus on visible regions of the face and those which try to reconstruct the hidden part. State-of-the-art solutions are mainly based on texture or, sometimes, geometry and few are based on movement. However, movement seems to be particularly adapted under occlusions thanks to different motion properties such as close range propagation and local coherency. In this manuscript, we show the interest of using movement to overcome the issue of occlusions for the task of facial expression recognition

    Data mining from multimedia

    No full text
    International audienc

    Multimedia Mining: A Highway to Intelligent Multimedia Documents

    No full text
    International audienceThe conjunction of knowledge discovery and multimedia documents presents a very important challenge. This new field of knowledge discovery in multimedia documents, dealing with non-structured information such as texts, images, videos, audio and virtual data, requires the collaboration of experts in many areas of interest revolving around document management systems, data mining, visual computing, signal processing, multimedia data and machine learning. Multimedia Mining: A Highway to Intelligent Multimedia Documents will bring together experts in digital media content analysis, state-of-art data mining and knowledge discovery in multimedia database systems, knowledge engineers and domain experts from diverse applied disciplines. Multimedia documents are ubiquitous and often required, if not essential, in many applications today. This phenomenon has made multimedia documents widespread and extremely large. There are tools for managing and searching within these collections, but the need for tools to extract hidden useful knowledge embedded within multimedia objects is becoming pressing and central for many decision-making applications. The tools needed today are tools for discovering relationships between objects or segments within multimedia document components, such as classifying images based on their content, extracting patterns in sound, categorizing speech and music, and recognizing and tracking objects in video streams. Multimedia Mining: A Highway to Intelligent Multimedia Documents is designed to meet the needs of a professional audience composed of researchers and practitioners in industry and graduate-level students in computer science and engineering
    corecore