1,721,085 research outputs found
Multivariate time series clustering for advanced driving-assistance system validation based on massive simulation
La validation des systèmes avancés d’aide à la conduite reste l’un des plus grands défis que les constructeurs automobiles doivent relever pour fournir des voitures autonomes sûres. La validation fiable de ces systèmes nécessite d’évaluer la qualité et la cohérence de leur réaction dans un large éventail de scénarios de conduite. Dans ce contexte, les systèmes de simulation à grande échelle contournent les limites de la validation physique et produisent d’importantes quantités de séries temporelles en haute dimension. Le défi est de trouver des informations utiles dans ces ensembles de données multivariées non étiquetées qui peuvent contenir des variables bruitées, parfois corrélées ou non informatives. Cette thèse propose plusieurs outils basés sur des modèles probabilistes pour le regroupement non-supervisé de séries temporelles univariées et multivariées, basés sur une approche Dictionnaire ou dans un cadre bayésien non paramétrique. L’objectif est de trouver automatiquement des groupes pertinents et naturels de comportements de conduite et, dans le cas multivarié, d’effectuer une sélection de modèles et une réduction de la dimension des séries temporelles multivariées. Les méthodes sont expérimentées sur des jeux de données simulés et appliquées à des cas d’usage industriels du Groupe Renault.Advanced driving-assistance systems validation remains one of the biggest challenges car manufacturers must tackle to provide safe driverless cars. The reliable validation of these systems requires to assess their reaction’s quality and consistency to a broad spectrum of driving scenarios. In this context, large-scale simulation systems bypass the physical «on-tracks» limitations and produce important quantities of high-dimensional time series data. The challenge is to find valuable information in these multivariate unlabelled datasets that may contain noisy, sometimes correlated or non-informative variables. This thesis propose several model-based tool for univariate and multivariate time series clustering based on a Dictionary approach or Bayesian Non Parametric framework. The objective is to automatically find relevant and natural groups of driving behaviors and, in the multivariate case, to perform a model selection and multivariate time series dimension reduction. The methods are experimented on simulated datasets and applied on industrial use cases from Groupe Renault Coclustering
Massively distributed learning in a Big Data environment
Lors de ces dernières années les volumes de données analysées par les entreprises et les laboratoires de recherches ont fortement augment´es ouvrant ainsi l’`ere du BigData. Cependant ces données brutes sont fréquemment non catégorisées et difficilement exploitables. Cette thèse vise à améliorer et faciliter le pré-traitement et la comprehension de grands volumes de données en fournissant des algorithmes d’apprentissage non supervisés. La première partie de cette thèse est consacrée à un état de l’art des algorithmes de partitionnement et bi-partitionnement ainsi qu’une présentation des technologies du Big Data. La première contribution de cette thèse est dédiée à la conception de l’algorithme de clustering Self-Organizing Map ou carte auto-organisatrice [Kohonen,2001] dans un environnement Big data. Notre algorithme (SOM-MR) fournit les mêmes avantages que l’algorithme de base, à savoir la création de partition de données et leur visualisation sous la forme de carte. De plus il utilise la plateforme Spark, ce qui lui permet à la fois de traiter de grands volumes de données en peu de temps. De part la popularité de cette plateforme il s’intègre facilement dans dans de nombreux environnements de traitement de données. C’est ce que nous avons démontré dans notre projet “Square Predict” réalisé en partenariat avec l’assurance Axa. Ce projet avait pour objectif de fournir une plateforme d’analyse de données en temps r´eel afin d’évaluer la sévérité d’une catastrophe naturelle ou d’améliorer la connaissance des risques résidentiels. Durant ce projet nous avons démontré l’efficacité de notre algorithme pour analyser et fournir des visualisations à partir de grands volumes de données provenant des réseaux sociaux et d’Open data. La deuxième contribution de cette thèse est consacrée à un nouvel algorithme de BiClustering. Le BiClustering consiste `a réaliser un clustering simultanément sur les observations et les variables. Dans cette contribution nous proposons une nouvelle approche de biclustering bas´e sur l’algorithme self-organizing maps capable de passer `a l’échelle sur de grands volumes de données (BiTM-MR). Pour ce faire il est également basé sur la plateforme des technologies Big data. Mais il apporte davantage d’informations que notre algorithme SOM-MR car en plus de produire des groupes d’observations il associe des variables à ces groupes, formant ainsi des bi-groupes d’observations et variables.In recent years, the amount of data analysed by companies and research laboratories increased strongly, opening the era of BigData. However, these raw data are frequently non-categorized and uneasy to use. This thesis aims to improve and ease the pre-treatment and comprehension of these big amount of data by using unsupervised machine learning algorithms.The first part of this thesis is dedicated to a state-of-the-art of clustering and biclustering algorithms and to an introduction to big data technologies. The first part introduces the conception of clustering Self-Organizing Map algorithm [Kohonen,2001] in big data environment. Our algorithm (SOM-MR) provides the same advantages as the original algorithm, namely the creation of data visualisation map based on data clusters. Moreover, it uses the Spark platform that makes it able to treat a big amount of data in a short time. Thanks to the popularity of this platform, it easily fits in many data mining environments. This is what we demonstrated it in our project \Square Predict" carried out in partnership with Axa insurance. The aim of this project was to provide a real-time data analysing platform in order to estimate the severity of natural disasters or improve residential risks knowledge. Throughout this project, we proved the efficiency of our algorithm through its capacity to analyse and create visualisation out of a big volume of data coming from social networks and open data.The second part of this work is dedicated to a new bi-clustering algorithm. BiClustering consists in making a cluster of observations and variables at the same time. In this contribution we put forward a new approach of bi-clustering based on the self-organizing maps algorithm that can scale on big amounts of data (BiTM-MR). To reach this goal, this algorithm is also based on a the Spark platform. It brings out more information than the SOM-MR algorithm because besides producing observation groups, it also associates variables to these groups,thus creating bi-clusters of variables and observations
Apprentissage non supervisé pour les tenseurs d'ordre trois : l'approche du clustering
Plusieurs méthodes d'apprentissage non supervisé de clusterings de données multidimensionnelles nécessitent la spécification du nombre souhaité de clusters ou le nombre d'éléments des clusters. Ces paramètres introduisent donc un certain degré d'arbitrarité qui remet en question la qualité du clustering. Pour résoudre ce problème, nous introduisons une nouvelle approche adaptée aux ensembles de données tensorielles d'ordre 3 et qui étudient les tranches matricielles de ces données tensorielles. Nous présentons différentes méthodes, notamment, le Clustering Multi-Tranches (Multi-Slice Clustering - MSC), son extension pour la détermination de plusieurs clusters, et le Clustering Multi-Directionnel via Matrice d'Affinité (Multiway Clustering via Affinity Matrix - MCAM). La méthode MSC vise à trouver les tranches signal qui se trouvent dans un sous-espace de dimension inférieure, et qui modélise ces tranches similaires. Notre algorithme MSC pour les tenseurs de rang-1 est corroboré par une preuve théorique. Nous analysons chaque dimension, ou chaque mode des données, indépendamment les unes des autres, et effectuons une décomposition spectrale de chaque tranche de notre tenseur. Puis, nous définissons une mesure de similarité entre les tranches. Cette mesure sera bornée par un seuil de précision à partir duquel nous identifierons un cluster. Le produit cartésien de deux clusters de deux differents modes fournit le biclustering et le produit cartesien de tous les clusters des trois modes fournit le triclustering. L'efficacité de cet algorithme est démontrée sur des ensembles de données synthétiques et réelles. Une deuxième résultat à signaler est la méthode MSC-DBSCAN qui est une version améliorée de la méthode MSC. Elle estplus performante pour les ensembles de données qui ont des rangs quelconques (r = 1) selon la décomposition dite CP (restant sur des tenseurs d'ordre 3). L'algorithme est capable d'identifier plusieurs clusters parmi les tranches signal. La méthode MCAM recherche la partition complète des données tensorielles d'ordre 3, en traitant chaque mode indépendamment. Une fois de plus, le modèle est basé sur la similarité entre les tranches du tenseur en étudiant l'étalement des données de chaque tranche. La méthode construit une matrice d'affinité/similarité sur laquelle nous appliquonsdes méthodes avancées de clustering. Il existe plusieurs algorithmes performants de clustering qui peuvent être appliqués à la matrice de similarité pour y identifier des groupes similaires. La combinaison des clusters des trois modes permet d'obtenir le clustering multidirectionnel souhaité. Notre algorithme est testé sur des ensembles de données synthétiques et réelles. Nous comparons ses performances avec d'autres algorithmes connus et prouvons sa pertinence.Pour le passage à l'échelle, nous introduisons la version parallèle de l'algorithme MSC avec un système de mémoire distribuée. En raison de la manière particulière dont il est mis en oeuvre, le MSC s'adapte bien à ces calculs de performances en utilisant Messages-Passing Interface (MPI) pour la communication entre les processeurs. Nous trouvons une méthodepour distribuer les jeux de données tensorielles qui nous permet d'avoir une performance significative. Nos expériences confirment alors un strict gain de temps/performance pour des données de grandes tailles. Ceci est un autre point fort de notre travail. La nouvelle méthode devrait s'exporter à nos autres algorithmes qui s'avèrent également tous adaptésau passage à l'échelle, et pourrait s'appliquer sûrement à d'autres encore au-delà de notre schéma.Several unsupervised learning methods of clustering of multidimensional datasets require the specification of the desired number of clusters, or the set of cluster sizes. They therefore introduce a certain degree of arbitrariness which questions the clustering quality. To address this issue, we introduce novel approaches tailored for 3rd-order tensor datasets and which deal with matrix slices of data within the tensors. We present several methods, including Multi-Slice Clustering (MSC) and its extension to address multiple clusters, as well as Multiway Clustering via Affinity Matrix (MCAM). The MSC method aims to find the signal slices that lie in a low dimensional subspace with a cluster modeling these similar slices. The resulting MSC algorithm stands with a theoretical proof for rank-1 tensors. We analyse each dimension or tensor mode, and perform a spectral decomposition of each tensor slice, i.e. a matrix. Then, we define a similarity measure between matrix slices. This measure will be bounded by a threshold (precision) parameter, and we will identify a cluster based on that. The Cartesian product of two partial clusters provides the desired tensor biclustering, and the Cartesian product of all clustersgives the triclustering. The effectiveness of this algorithm is shown on both synthetic and real-world data sets. A second result to report consists in the MSC-DBSCAN method which improves the MSC. It has high performance for datasets that are sums of r > 1 rank-1 tensors (still of 3rd-order). The ensuing algorithm finds multiple clusters among the signal slices. The MCAM method seeks the full partition of 3rd-order datasets, treating each mode independently. Once again, the model is based on the similarity between the tensor slices and the spread of information of each slice. The method builds an affinity/similarity matrix on which we apply advanced clustering methods. There are several advanced clusteringalgorithms that can be applied to the similarity matrix for identifying similar groups. Combining the three mode clusters delivers the desired multiway clustering. Our algorithm is tested on both synthetics and real-world datasets. We compare its performance with other known algorithms and prove its significance.In order to achieve scalability, we introduce a parallel version of the MSC algorithm with a distributed memory system. The MSC fits well with such performance calculations because of the way it is implemented, which uses Message-Passing Interface (MPI) for communication between processors. We find a method to distribute the tensorial datasets that allows us to achieve relevant performance. Our experiments confirm a strict performance gain for large data sets. This is yet another strength of our work. The new method should be exported to our other scalable algorithms which are also all suited to scaling, and could surely be applied to others beyond our scheme
Unsupervided learning of massive data streams : application to Big Data in insurance
Le travail de recherche exposé dans cette thèse concerne le développement d'approches à base de growing neural gas (GNG) pour le clustering de flux de données massives. Nous proposons trois extensions de l'approche GNG : séquentielle, distribuée et parallèle, et une méthode hiérarchique; ainsi qu'une nouvelle modélisation pour le passage à l'échelle en utilisant le paradigme MapReduce et l'application de ce modèle pour le clustering au fil de l'eau du jeu de données d'assurance. Nous avons d'abord proposé la méthode G-Stream. G-Stream, en tant que méthode "séquentielle" de clustering, permet de découvrir de manière incrémentale des clusters de formes arbitraires et en ne faisant qu'une seule passe sur les données. G-Stream utilise une fonction d'oubli an de réduire l'impact des anciennes données dont la pertinence diminue au fil du temps. Les liens entre les nœuds (clusters) sont également pondérés par une fonction exponentielle. Un réservoir de données est aussi utilisé an de maintenir, de façon temporaire, les observations très éloignées des prototypes courants. L'algorithme batchStream traite les données en micro-batch (fenêtre de données) pour le clustering de flux. Nous avons défini une nouvelle fonction de coût qui tient compte des sous ensembles de données qui arrivent par paquets. La minimisation de la fonction de coût utilise l'algorithme des nuées dynamiques tout en introduisant une pondération qui permet une pénalisation des données anciennes. Une nouvelle modélisation utilisant le paradigme MapReduce est proposée. Cette modélisation a pour objectif de passer à l'échelle. Elle consiste à décomposer le problème de clustering de flux en fonctions élémentaires (Map et Reduce). Ainsi de traiter chaque sous ensemble de données pour produire soit les clusters intermédiaires ou finaux. Pour l'implémentation de la modélisation proposée, nous avons utilisé la plateforme Spark. Dans le cadre du projet Square Predict, nous avons validé l'algorithme batchStream sur les données d'assurance. Un modèle prédictif combinant le résultat du clustering avec les arbres de décision est aussi présenté. L'algorithme GH-Stream est notre troisième extension de GNG pour la visualisation et le clustering de flux de données massives. L'approche présentée a la particularité d'utiliser une structure hiérarchique et topologique, qui consiste en plusieurs arbres hiérarchiques représentant des clusters, pour les tâches de clustering et de visualisation.The research outlined in this thesis concerns the development of approaches based on growing neural gas (GNG) for clustering of data streams. We propose three algorithmic extensions of the GNG approaches: sequential, distributed and parallel, and hierarchical; as well as a model for scalability using MapReduce and its application to learn clusters from the real insurance Big Data in the form of a data stream. We firstly propose the G-Stream method. G-Stream, as a “sequential" clustering method, is a one-pass data stream clustering algorithm that allows us to discover clusters of arbitrary shapes without any assumptions on the number of clusters. G-Stream uses an exponential fading function to reduce the impact of old data whose relevance diminishes over time. The links between the nodes are also weighted. A reservoir is used to hold temporarily the distant observations in order to reduce the movements of the nearest nodes to the observations. The batchStream algorithm is a micro-batch based method for clustering data streams which defines a new cost function taking into account that subsets of observations arrive in discrete batches. The minimization of this function, which leads to a topological clustering, is carried out using dynamic clusters in two steps: an assignment step which assigns each observation to a cluster, followed by an optimization step which computes the prototype for each node. A scalable model using MapReduce is then proposed. It consists of decomposing the data stream clustering problem into the elementary functions, Map and Reduce. The observations received in each sub-dataset (within a time interval) are processed through deterministic parallel operations (Map and Reduce) to produce the intermediate states or the final clusters. The batchStream algorithm is validated on the insurance Big Data. A predictive and analysis system is proposed by combining the clustering results of batchStream with decision trees. The architecture and these different modules from the computational core of our Big Data project, called Square Predict. GH-Stream for both visualization and clustering tasks is our third extension. The presented approach uses a hierarchical and topological structure for both of these tasks
Contributions en apprentissage non supervisé à partir de données complexes
The research presented in this thesis concerns the analysis of complex data for which the representation of numeric variables always encounters limits. All the approaches presented in this document are part of the unsupervised learning method. There is currently a significant number of clustering methods, but they do not take into account certain types of data (binary, mixed, sequences). For each type of data we propose an adapted unsupervised learning algorithm. There are two main families of clustering models: probabilistic models and deterministic models. In this thesis, a particular emphasis is given to models of self-organizing maps. Two models are proposed for the clustering of mixed data (continuous and categorical). In the first model, we propose to modify the distance in order to take into account the variable type. The second model, described in this work, is a new learning algorithm of topological map dedicated to binary data and mixed data using the Gaussian distribution and Bernoulli. This approach allows probability map interpretation and offers the possibility to take advantage of local distribution associated with continuous and categorical variables. Another eld studied in this thesis is the learning with sequence data (not iid). A close link is shown between the hidden Markov chains and self-organized maps based on mixture models. Finally, a review of the work is presented and general perspectives are provided.Ce mémoire de synthèse est consacré à l'analyse des données complexes pour lesquelles la représentation des variables qui est toujours numérique rencontre des limites. L'ensemble des travaux présentés dans ce mémoire s'inscrit dans le cadre de l'apprentissage non supervisé dont la problématique consiste à construire des représentations simplifiées de données sans connaissance a priori des classes. Il existe actuellement un nombre conséquent de méthodes de partitionnement, mais elles ne s'adaptent pas toujours aux particularités de certains types de données (binaires, mixtes, séquences). On peut distinguer deux grandes familles de modèles de classification non supervisée : les modèles probabilistes et les modèles déterministes ou tout simplement les modèles de quantification. Dans ce mémoire, une importance particulière est accordée aux modèles des cartes topologiques auto-organisatrices. Deux modèles sont proposés pour le traitement des données mixtes (continues et qualitatives). Dans le premier modèle, des modifications de la distance sont apportées pour prendre en compte le type de variables. Dans le deuxième modèle, des cartes topologiques dédiées aux données binaires et mixtes sont proposées, utilisant la distribution gaussienne et de Bernoulli. Un autre axe étudié dans ce mémoire est celui de l'apprentissage de données structurées en séquences (non i.i.d). Un lien étroit est montré entre les chaînes de Markov cachées et les cartes à base de modèles de mélanges. En n, un bilan des travaux est présenté tout en fournissant des perspectives générales
Going Beyond Counting First Authors in Author Co-citation Analysis
The present study examines one of the fundamental aspects of author co-citation analysis (ACA) - the way co-citation
counts are defined. Co-citation counting provides the data on which all subsequent statistical analyses and mappings
are based, and we compare ACA results based on two different types of co-citation counting - the traditional type that
only counts the first one among a cited work's authors on the one hand and a non-traditional type that takes into
account the first 5 authors of a cited work on the other hand. Results indicate that the picture produced through this non-traditional author co-citation counting contains more coherent author groups and is therefore considerably clearer. However, this picture represents fewer specialties in the research field being studied than that produced through the traditional first-author co-citation counting when the same number of top-ranked authors is selected and analyzed. Reasons for these effects are discussed
Carte topologique pour données qualitatives: application à la reconnaissance automatique de la densité du trafic routier
This research concerns the qualitative data processing with neuronal methods. Various not supervised models of training are proposed. This thesis was done In the research departement of RENAULT. The Work was focused on the development of traffic recognition model.The first model suggested in this thesis is dedicated to binary data 'BTM'. It is a model of vectorial quantization of topological map. This model takes the principal characteristics of the topological map. For this new model, in order to take into account specificities of the binary data, we chose to change the usual metric used in the topological map by the Hamming distance.The second model is the first probabilistic model of topological map dedicated to the binary data. This model is inspired from work which models a distribution by a mixture of mixture of Bernoulli laws.The third model is a new model of topological map called CTM (Categorical topological Map) adapted to the not supervised classification of the multidimensional qualitative data. This new model preserves the principal characteristics of the two preceding models. In order to maximize the likelihood, CTM uses in a traditional way algorithm EM.In this memory, we introduce the applicability for the work undertaken at RENAULT. We will detail the original contribution of our work: use of qualitative information to treat the traffic recognition. We will expose the various analyses done with the application of the algorithms proposed.Le travail de recherche concerne le traitement des données qualitatives par des méthodes neuronales. Différents modèles d'apprentissage non supervisés sont proposés.Ce travail de thèse a été réalisé à la direction de la recherche de RENAULT. Le travail s'est focalisé sur le développement d'un modèle de reconnaissance de trafic.Le premier modèle proposé dans cette thèse est dédié aux données binaires ''BTM''. C'est un modèle de quantification vectorielle de type carte topologique. Ce modèle prend les caractéristiques principales des cartes topologiques. Pour ce nouveau modèle, afin de prendre en compte les spécificités des données binaires, on a choisi de changer la métrique usuelle utilisée dans les modèles de cartes topologiques et d'utiliser la distance Hamming.Le second modèle est le premier modèle probabiliste de cartes topologiques dédié aux données binaires. Ce modèle s'inspire de travaux antérieurs qui modélisent une distribution par un mélange de mélange de lois de Bernoulli.Le troisième modèle est un nouveau modèle de carte topologique appelé CTM (Categorical topological Map) adapté à la classification non supervisée des données qualitatives multi-dimensionnelles. Ce nouveau modèle conserve cependant les principales caractéristiques des deux modèles précédents. Afin de maximiser les vraisemblance des données, CTM utilise de manière classique l'algorithme EM.Dans ce mémoire, on introduit le domaine d'application propre au travail mené chez RENAULT. Nous détaillerons l'apport original de notre travail: utilisation de l'information catégorielle pour traiter de la reconnaissance du trafic. Nous exposerons les différentes analyses effectuées sur l'application des algorithmes proposés
Variations on the Author
“Variations on the Author” discusses two of Eduardo Coutinho’s recent films (Um Dia na Vida, from 2010, and Últimas Conversas, posthumously released in 2015) and their contribution to the general question of documentary authorship. The director’s filmography is characterized by a consistent yet self-effacing form of authorial self-inscription: Coutinho often features as an interviewer that rather than express opinions propels discourses; an interviewer that is good at listening. This mode of self-inscription characterizes him as an author who is not expressive but who is nonetheless markedly present on the screen. In Um Dia na Vida, however, Coutinho is completely absent form the image, while Últimas Conversas, on the contrary, includes a confessional prologue that moves the director from the margins to the center of his films. This article examines the ways in which these works stand out in the filmography of a director who offers new insights into the notion of cinematic authorship
Appropriate Similarity Measures for Author Cocitation Analysis
We provide a number of new insights into the methodological discussion about author cocitation analysis. We first argue that the use of the Pearson correlation for measuring the similarity between authors’ cocitation profiles is not very satisfactory. We then discuss what kind of similarity measures may be used as an alternative to the Pearson correlation. We consider three similarity measures in particular. One is the well-known cosine. The other two similarity measures have not been used before in the bibliometric literature. Finally, we show by means of an example that our findings have a high practical relevance.information science;Pearson correlation;cosine;similarity measure;author cocitation analysis
- …
