1,720,998 research outputs found
Multiclass methods in the analysis of metabolomic datasets: The example of raspberry cultivar volatile compounds detected by GC-MS and PTR-MS
Multiclass sample classification and marker selection are cutting-edge problems in metabolomics. In the present study we address the classification of 14 raspberry cultivars having different levels of gray mold (Botrytis cinerea) susceptibility. We characterized raspberry cultivars by two headspace analysis methods, namely solid-phase microextraction/gas chromatography-mass spectrometry (SPME/GC-MS) and proton transfer reaction-mass spectrometry (PTR-MS). Given the high number of classes, advanced data mining methods are necessary. Random Forest (RF), Penalized Discriminant Analysis (PDA), Discriminant Partial Least Squares (dPLS) and Support Vector Machine (SVM) have been employed for cultivar classification and Random Forest-Recursive Feature Elimination (RF-RFE) has been used to perform feature selection. In particular the most important GC-MS and PTR-MS variables related to gray mold susceptibility of the selected raspberry cultivars have been investigated. Moving from GC-MS profiling to the more rapid and less invasive PTR-MS fingerprinting leads to a cultivar characterization which is still related to the corresponding Botrytis susceptibility level and therefore marker identification is still possible.Fil: Cappellin, Luca. Fondazione Edmund Mach. Research and Innovation Centre; ItaliaFil: Aprea, Eugenio. Fondazione Edmund Mach. Research and Innovation Centre; ItaliaFil: Granitto, Pablo Miguel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y Sistemas; ArgentinaFil: Romano, Andrea. Fondazione Edmund Mach. Research and Innovation Centre; ItaliaFil: Gasperi, Flavia. Fondazione Edmund Mach. Research and Innovation Centre; ItaliaFil: Biasioli, Franco. Fondazione Edmund Mach. Research and Innovation Centre; Itali
Adaptación de arquitecturas profundas a problemas no estacionarios
En Aprendizaje Automatizado, la mayoría de los métodos de análisis de datos utilizados asumen como premisa básica la estacionaridad de los mismos (es decir, que el fenómeno bajo análisis no cambia en el tiempo). Sin embargo, muchos sistemas reales de gran interés práctico son claramente no estacionarios como por ejemplo cualquier propiedad relacionada a la meteorología o el problema de detección temprana de fallas en líneas de producción.
Otra característica que presentan estos métodos es que se basan en lo que puede definirse como arquitecturas poco profundas (Redes Neuronales con una capa oculta, SVM, Árboles de Decisión, etc.), aunque desde hace bastante tiempo se sabe que las arquitecturas profundas, como las Stacked Restricted Boltzmann Machines (SRBM), pueden ser mucho más eficientes a la hora de representar ciertas funciones.
En este trabajo se estudia el rendimiento de estas arquitecturas en el ámbito de los problemas no estacionarios y su adaptación a los mismos. Para ello se propone una forma en que se puede integrar la información aportada por los datos antiguos al entrenamiento de un modelo de mayor profundidad que al mismo tiempo sea capaz de adaptarse rápidamente a cambios observados. Para validar la nueva técnica se compara su desempeño con métodos tradicionales sobre problemas no estacionarios diseñados a partir de dos datasets ampliamente usados y conocidos, MNIST y NORB
Selección de variables en problemas multiclase
La selección de variables es una técnica de preprocesado comúnmente usada en conjuntos de datos de alta dimensionalidad. Tiene como propósito reducir la dimensión del espacio de variables, eliminar variables irrelevantes o redundantes, mejorar la eficiencia de los algoritmos de aprendizaje e incrementar la interpretabilidad de los modelos construidos.
En este trabajo se introduce una nueva técnica de selección de variables para problemas multiclase. La técnica es una extensión del popular algoritmo RFE, consistente en resolver el problema de clasificación multiclase con una combinación One Vs. All de clasificadores binarios, y seleccionar luego variables en cada uno de los subproblemas creados por el OVA usando RFE.
Usando datos reales de genómica y espectrometría de masa, y varios clasificadores para construir los rankings, se analiza en detalle la performance y estabilidad del nuevo método y se lo compara con el método RFE tradicional
Selección de variables en problemas anchos con alta correlación
El aprendizaje automatizado es un área de la inteligencia artificial que ha estado en auge desde hace ya varios años. Su utilidad en la creación de modelos de predicción en base a observaciones ha generado el surgimiento de múltiples métodos de entrenamiento. Sin embargo, la complejidad de los problemas de hoy en día los hace impracticables por el mero número de variables en juego (problemas anchos). Los métodos de selección de variables ayudan a corregir esto eliminando de la ecuación variables irrelevantes y redundantes que dificultan tanto el modelado como su interpretación.
En esta tesina se analiza la problemática de la correlación entre variables en problemas anchos considerando algoritmos recientes y se presenta uno propio, teniendo no sólo en cuenta la selección de variables independientes y relevantes sino también la estabilidad de la misma
Predicción de Sistemas Dinámicos con Redes Neuronales Profundas
Existe una diversidad de series temporales que son objeto de estudio en múltiples disciplinas, por ejemplo en la meteorología, la geofísica, la biología, la medicina y la sociología. En esta Tesina se aborda el problema de predicción de series temporales caracterizadas por su naturaleza determinística no-lineal. Se presenta una técnica basada en redes neuronales profundas para la predicción de sistemas dinámicos a partir de una serie temporal. Se sabe que las arquitecturas profundas pueden ser mucho más eficientes a la hora de representar ciertas funciones. Por otro lado, recientemente se han publicado trabajos en los que se encuentra evidencia del beneficio en construir un modelo con salida-múltiple, de manera que este aprenda y preserve las dependencias entre los valores de la predicción. Se evalúa el rendimiento de arquitecturas profundas frente a las redes neuronales convencionales y a su vez el uso de salida-múltiple frente a las redes de salida-simple, en un modelo de predicción para múltiples horizontes. Los resultados muestran un mejor desempeño de las arquitecturas profundas sobre las series temporales consideradas
Algoritmo divisivo de clustering con determinación automática de componentes
Cluster analysis es el estudio de algoritmos y métodos cuyo objetivo es encontrar una forma conveniente y válida de organizar un conjunto de datos en grupos.
Entre sus múltiples aplicaciones se encuentran la segmentación de imágenes, la clasificación automática de documentos o archivos multimedia, la detección de comunidades en redes sociales y la identificación de genes con funciones similares, por nombrar algunas.
En este trabajo exploramos soluciones a problemas abiertos del área de cluster analysis y como resultado desarrollamos un nuevo algoritmo de clustering, DHclus, que descubre clusters con formas arbitrarias en los datos, determina automáticamente la cantidad de componentes presentes en los datos (incluso cuando hay clusters a diferentes escalas en un mismo problema) y además selecciona los parámetros que afectan su performance.
Además implementamos el algoritmo como un paquete de software libre para el entorno de programación R y se encuentra disponible para toda la comunidad
Going Beyond Counting First Authors in Author Co-citation Analysis
The present study examines one of the fundamental aspects of author co-citation analysis (ACA) - the way co-citation
counts are defined. Co-citation counting provides the data on which all subsequent statistical analyses and mappings
are based, and we compare ACA results based on two different types of co-citation counting - the traditional type that
only counts the first one among a cited work's authors on the one hand and a non-traditional type that takes into
account the first 5 authors of a cited work on the other hand. Results indicate that the picture produced through this non-traditional author co-citation counting contains more coherent author groups and is therefore considerably clearer. However, this picture represents fewer specialties in the research field being studied than that produced through the traditional first-author co-citation counting when the same number of top-ranked authors is selected and analyzed. Reasons for these effects are discussed
Reconocimiento de Escritura Manuscrita (Online Handwriting Recognition)
Este trabajo tiene como objetivo reconocer escritura manuscrita obtenida digitalmente como secuencias de puntos de una manera robusta; ésto es, reconocer trazos indistintamente de que sean dígitos, letras o símbolos matemáticos. Se probaron diferentes métodos basados en la misma idea: tratar las secuencias de puntos como curvas continuas, lo cual es posible aproximando los trazos mediante bases de polinomios ortogonales. Se probará que dichas aproximaciones caracterizan muy bien a los trazos, permitiendo alcanzar una alta precisión en el reconocimiento, y eficiencia computacional. Se obtuvieron buenos resultados en dos bases de datos diferentes, una de dígitos y otra de letras
Variations on the Author
“Variations on the Author” discusses two of Eduardo Coutinho’s recent films (Um Dia na Vida, from 2010, and Últimas Conversas, posthumously released in 2015) and their contribution to the general question of documentary authorship. The director’s filmography is characterized by a consistent yet self-effacing form of authorial self-inscription: Coutinho often features as an interviewer that rather than express opinions propels discourses; an interviewer that is good at listening. This mode of self-inscription characterizes him as an author who is not expressive but who is nonetheless markedly present on the screen. In Um Dia na Vida, however, Coutinho is completely absent form the image, while Últimas Conversas, on the contrary, includes a confessional prologue that moves the director from the margins to the center of his films. This article examines the ways in which these works stand out in the filmography of a director who offers new insights into the notion of cinematic authorship
- …
