INANOE Repositorio (Inst- Nacional de Astrofísica, Óptica y Electrónica
Not a member yet
2571 research outputs found
Sort by
CMOS Circuit Design for Bio-Impedance Spectroscopy Applications
The analysis of bioimpedance spectroscopy (BIS) is based on measuring the passive electrical properties of biological tissues and their frequency-dependent response to alternating current. This non-invasive characterization technique has become a fundamental tool for obtaining diagnostic information about the physiological properties of the human body. The non-invasiveness, continuous monitoring capability, portability, and versatility of BIS systems have become increasingly relevant in the development of new healthy applications and measurement techniques. Additionally, the advancements in CMOS technology, these factors highlight the need to optimize analog and digital blocks to enable precise voltage measurements across a broad frequency range while meeting requirements for noise, power consumption, and area efficiency in both front-end and back-end stages. This work presents proposed analog and digital blocks for BIS applications designed using UMC 180nm technology. For signal generation in the backend stage, a QFGT-modified ring oscillator topology operating in weak inversion is proposed to generate kilohertz-range signals. The oscillator incorporates dual control mechanisms: one based on a feedback factor, β, and other based on a tuning voltage, VT une . As an digital alternative, a Direct Digital Synthesizer (DDS) with signal compression is introduced, reducing the memory consumption of the ROM used to store the discretized sine wave. Finally, the design of a front-end signal conditioning circuit is presented, comprising and high-performance instrumentation amplifier with a gain range of 26–76 dB and an associated CMRR of 130–189 dB
Análisis y clasificación de señales EEG: ojos cerrados, parpadeos, mordida y gestos faciales para su potencial implementación en sistemas BCI
Como seres humanos, debemos ser capaces de comunicarnos con nuestro entorno. Esto puede lograrse de dos formas: una es modificando nuestro entorno mediante mecanismos musculares, y la otra es expresando sentimientos, deseos y/o ideas. Gracias a los avances tecnológicos, esta comunicación también puede darse mediante la interacción entre humanos y computadoras, utilizando hardware, software y aplicaciones apropiadas. Estas pueden ser de gran ayuda para aquellas personas que, por algún motivo, se ven privadas de alguna de estas formas de comunicarse con su entorno. Para esto es necesario recurrir a sistemas que puedan apoyar a estas personas en sus actividades diarias. Estos sistemas se denominan interfaces cerebro-computadora (BCI, por sus siglas en inglés). Los sistemas BCI se basan en el registro de señales de la actividad cerebral mediante electroencefalogramas (EEG). Estas BCI cuentan con una gran cantidad de investigaciones que se basan en señales de control, abordando diversos neuro-paradigmas (Potenciales Evocados, potencial P300, imaginación motora y habla imaginada), que suelen ser muy complejos y requieren una gran cantidad de tiempo para su entrenamiento y uso, llegando a ser específicos para cada usuario. En consecuencia, la presente tesis explora un método alternativo que se basa en las señales EEG de los movimientos oculares verticales, acción de morder, así como los gestos faciales y los ojos cerrados. El objetivo de este trabajo es analizar y clasificar las señales EEG registradas durante la ejecución de estas acciones mencionadas, para asociarlas a comandos y su posible uso en sistemas BCI. La investigación se basa en el reconocimiento de estas acciones en las señales EEG para los comandos de avanzar, izquierda, derecha y encender. Se registraron las señales EEG de 25 sujetos, después de la eliminación de señales no aptas para el estudio, quedaron 21 sujetos, y el problema fue abordado con un algoritmo de clasificación supervisada. La selección de los canales con los que se trabajó fue mediante un análisis visual, en el cual se tomaron los canales donde se apreciaban mejor las acciones deseadas, obteniendo un total de 6 canales. Se cortaron secciones de 5 segundos donde se encontraba la acción deseada. Se obtuvieron 21 cortes por cada acción, en cada uno de los 6 canales, obteniendo un total de 126 cortes por acción por sujeto, y un total de 2646 cortes de señales por acción.As human beings, we need to be able to communicate with our environment. This can be achieved in two ways: one is by modifying our environment through muscular mechanisms, and the other is by expressing feelings, desires and/or ideas. Thanks to technological advances, this communication can also take place through humancomputer interaction, using appropriate hardware, software, and applications. These can greatly help people who, for whatever reason, are deprived of one of these ways of communicating with their environment. This requires the use of systems that can assist these people in their daily activities. These systems are called Brain-Computer Interfaces (BCI). BCI systems are based on the recording of brain activity signals using electroencephalograms (EEG). These BCIs have been the subject of a great deal of research based on control signals, addressing different neuro-paradigms (evoked potentials, P300 potential, motor imagery and imagined speech), which are usually very complex and require a great deal of time for training and use, becoming user-specific. Therefore, this thesis explores an alternative method based on EEG signals from vertical eye movements, biting, facial gestures, and closed eyes. This work aims to analyze and classify the EEG signals recorded during the execution of these actions, to associate them with commands, and to consider their possible use in BCI systems. The research is based on the recognition of these actions in the EEG signals for the commands forward, left, right and on. The EEG signals of 25 subjects were recorded, and after eliminating signals unsuitable for the study, 21 subjects remained, and the problem was approached with a supervised classification algorithm. The selection of the channels to work with was done by visual analysis, taking the channels where the desired actions were best appreciated, resulting in a total of 6 channels. Segments of 5 seconds were cut where the desired action was found. A total of 21 slices were obtained for each action, in each of the 6 channels, giving a total of 126 slices per action per subject, and a total of 2646 signal slices per action
Investigation on focusing of Bessel beams
This work is a detailed analysis of the focusing characteristics of the Bessel beam, that gathers and expands on all the concepts required to fully understand the formalism based on the traveling conical waves that form these beam-like light structures. In Chapters 2 and 3, we review in three coordinate systems the general solution to the wave equation, the one is represented by the sum of two traveling waves in opposite directions. Furthermore, we demonstrate the relation between the phase of a light wave and its wavefront, which helps us have a prediction of the shape the wavefront takes as the wave travels in space. In Chapter 4 we present a revisitation of the diffraction subject. We discuss conditions such as Sommerfeld’s radiation condition that have to be satisfied to consider valid the results obtained with the diffraction integrals, otherwise, it can lead to inaccurate descriptions of these. The most striking part of this section is the emphasis made on the definition of diffraction, which ultimately states that any element that modifies the amplitude and/or phase of the propagating wave will result in diffraction. Here, we are only concerned with apertures (and obstacles), therefore we provide numerous examples that prove we cannot talk about diffraction if there are no transverse limitations applied to the diffraction integrals. Finally, Chapter 5 starts with a brief section dedicated to the focal shift effect and the Gaussian beam focusing case, which helps to explain the former is a diffraction effect related to the geometry of the aperture. Later, an analytical expression for the apertured Bessel beam at the focal plane is presented, this solution is described as the product of Bessel functions that represent an annular ring function. Additionally, we explain the nature of the Bessel beams in terms of its constituent conical waves, as well as the axial and transversal behavior of these beams when focused, the axial intensity is characterized by a Lorentzian curve and a “pseudo-focal” point. The transverse case section provides a method to calculate the transversal wavevector of the Bessel beam for each point along the axis. Lastly, we analyze two apodization functions to reduce the oscillations on the focused Bessel beam caused by diffraction: the Super Gaussian and the Flattened Gaussian beams. We employ theorems of energy conservation to obtain the relations between the parameters that modulate the functions and the radius of their waist.Este trabajo es un análisis detallado acerca de las características de enfocamiento de un haz Bessel, que reúne y expande todos los conceptos necesarios para tener un entendimiento completo del formalismo basado en las ondas cónicas viajeras que forman estos haces estructurados. En los capítulos 2 y 3, hacemos un repaso de la solución general de la ecuación de onda, representada por la suma de dos ondas viajando en direcciones opuestas. Además, demostramos la relación entre la fase de la onda de luz y su frente de onda, la cual nos ayuda a tener una predicción de la forma que el frente de onda toma mientras la onda se propaga. En el capítulo 4 revisitamos el tema de difracción, y discutimos las condiciones, tal como la Condición de Radiación de Sommerfeld, que tienen que ser satisfechas para obtener resultados validos con el uso de las integrales de difracción, porque de no ser así esto puede llevar a interpretaciones erróneas de estos resultados. Pero, el punto más importante de esta sección es el énfasis hecho en la definición de difracción, la cual nos dice que cualquier elemento que modifique y/o la fase de la onda propagándose causará difracción. Además, se dan ejemplos que prueban que no se puede hablar de difracción si no existen límites transversales en las integrales de difracción. Por último, el capítulo 5 comienza con una breve sección dedicada al efecto de desplazamiento focal y al caso de enfocamiento del haz Gaussiano, que ayuda a explicar que el primero es un efecto de difracción relacionado con la geometría de la apertura. Posteriormente, se presenta una expresión analítica para el haz de Bessel limitado por una apertura en el plano focal, esta solución se describe como el producto de funciones de Bessel que representan un patrón de anillo. Además, explicamos la naturaleza de los haces de Bessel en términos de sus ondas cónicas fundamentales, así como el comportamiento axial y transversal de estos haces cuando se enfocan. La intensidad axial se caracteriza por una curva Lorentziana y un punto "pseudo-focal", mientras que la sección del caso transversal proporciona un método para calcular el vector de onda transversal del haz de Bessel para cada punto a lo largo del eje. Finalmente, analizamos dos funciones apodizadoras para reducir las oscilaciones en el haz de Bessel enfocado causadas por la difracción: la Super Gaussiana y la Gaussiana Aplanada
Aprendizaje Profundo Localmente Ponderado para el Reconocimiento de Emociones
En este trabajo de tesis se presenta un esquema llamado aprendizaje profundo localmente ponderado o también llamado Locally Weighted Deep Learning (LWDL). LWDL trata de adaptar una técnica de aprendizaje local en un modelo de aprendizaje profundo (deep learning) enfocado a tareas de clasificación de imágenes. La finalidad del LWDL es adaptar el aprendizaje local en la fase predictiva del modelo profundo para mejorar el desempeño en la tarea de clasificación. La idea se enfoca en tomar las mejores ventajas de los dos enfoques del aprendizaje profundo y el aprendizaje local para combinarlos y crear un modelo profundo más robusto. Los modelos locales tienen la capacidad de crear funciones de aproximación que se basan en considerar únicamente aquellas instancias del conjunto de entrenamiento que son relevantes para una instancia de punto de consulta. Para el caso del aprendizaje profundo, la ventaja más atractiva es que son modelos complejos capaces de extraer de manera automática las características de los datos de entrada y de manera conjunta llevar el proceso de clasificación. Uno de los enfoques del aprendizaje profundo que particularmente ha tenido éxito en el procesamiento de imágenes son las redes neuronales convolucionales (CNN). Se considera que las CNNs contienen dos fases: la extracción de características y la fase de clasificación. La solución que proponemos para mejorar la fase predictiva del modelo es adaptar un método incremental basado en el aprendizaje local para que la fase predictiva del modelo profundo construya su función de decisión basándose en información local. La razón es que un método incremental cuenta con fase de entrenamiento y prueba; así la función de decisión se construye basándose en aquellas instancias relacionadas entre sı. El LWDL se evalúa en conjuntos de datos de referencia usados para el reconocimiento de objetos, dígitos y emociones. Los resultados alcanzados demuestran que el LWDL mejora el rendimiento del modelo profundo en tareas de clasificación de imágenes y reconocimiento de emociones; que en comparativa con el estado del arte, se demostró tener resultados competitivos contra modelos complejos usados para el reconocimiento de emociones en imágenes.In this thesis work, we present a schema called Locally Weighted Deep Learning (LWDL). It integrates a local learning technique into a deep learning model. The aim is to adapt the local learning into the predictive phase in the model of a deep network to improve the performance of the classification task. The idea is to take the best advantages of the two approaches of deep learning and local learning to combine them and create a more robust deep model. A local model has the capability to create a decision boundary for the training dataset considering only the instances nearest to the query point. This kind of learning is not applied to a deep model; usually, deep networks are based on global learning, but its most attractive advantage is that they are complex models capable of automatically extracting features from the input data. One of the models with great success in image processing is the convolutional neural networks (CNNs). We can establish that the CNN contains two phases: feature extraction and classification or the predictive phase. The feature extraction is formed by convolutional layers that apply convolution operation over the input image to obtain feature maps that are processed by the predictive model phase. The advantage lies in both phases are worked jointly. The predictive phase contains one or several fully connected dense layers and an output layer. The layers contain neurons that, like a classifier based on a multi-layer neural network, use the entire data set to build the decision function. This type of learning is called global learning. Our solution consists to improve the predictive phase of the model by adapting an incremental method (based on local learning) on a deep learning model. The reason is that an incremental method has a training and testing phase; thus the decision function is built based on instances close to the query point. We evaluated the model in the reference data set used for object recognition, digit recognition, and emotion recognition. The results achieved show that the LWDL improves the performance of the deep model for some image classification tasks and in its comparison with the state of the art, it showed competitive results against complex models used for emotion recognition in images
Análisis acústico para la identificación de degradación estructural en las hélices de vehículos aéreos no tripulados de configuración cuadricóptero
En el contexto actual, el aumento significativo en la utilización de drones en una variedad de campos, como la agricultura, la seguridad, la logística, la entrega de bienes, actividades recreativas, cartografía, investigación, publicidad y aplicaciones militares, ha resaltado la necesidad imperante de abordar la cuestión de la integridad del componente más vulnerable de estos dispositivos, para este caso en concreto, las hélices. Estas piezas son con frecuencia sujetas a daños considerables y, a su vez, desempeñan un papel fundamental en el vuelo eficiente de las vehículos aéreos no tripulados. Para abordar esta problemática, se plantea el diseño de un sistema para llevar a cabo un análisis acústico y determinar los posibles daños que puedan presentarse en las hélices. Este análisis se beneficiaría de técnicas avanzadas de inteligencia artificial, las cuales permitirían clasificar de manera precisa las señales de audio generadas por las hélices durante su operación. El sistema propuesto no solo tendría la capacidad de determinar si la aeronave no tripulada presenta algún tipo de fallo en sus hélices, sino que también sería capaz de evaluar la magnitud de los daños en caso de que estos estén presentes. Esto proporcionaría a los operadores y usuarios una comprensión más detallada y cuantitativa sobre la condición del vehículo aéreo, lo que a su vez contribuiría a una toma de decisiones más informada en cuanto a su operación y mantenimiento. Por lo tanto, la implementación de este sistema de análisis de daño de hélices en drones representa un paso significativo hacia la mejora de la seguridad, eficiencia y durabilidad de vehículos aéreos no tripulados en diversos sectores de aplicación
Multifrequency study of Very High Energy emitting Active Galactic Nuclei observed with HAWC
An important fraction of the gamma-ray sources are classified as Active Galactic Nuclei (AGN), which are among the most energetic persistent phenomena in the Universe. Most gamma-ray emitting AGN are categorized as blazars (BL Lac objects or FSRQ) or radio galaxies. They present, as in the rest of the electromagnetic spectrum, a high gamma-ray variability. In the case of the very high energy bands (VHE, ≳ 0.1 TeV), AGN observations are usually biased to high-activity (flaring) periods due to the low duty cycle of the imaging atmospheric Cherenkov telescopes (IACT). Therefore, the average VHE emission of gamma-ray emitting AGN is often poorly characterized. An important challenge associated with the VHE observations of AGN is the attenuation by photon-photon interactions with the Extragalactic Background Light (EBL). The EBL comprises all the emissions produced by galaxies along the history of the Universe, and its photons interact with gamma-ray photons by γγ → e +e−. This effect increases with energy and redshift, which is why VHE gamma-ray emission cannot be detected for sources at z ≳ 0.3. In the case of an object at z = 0.1, the maximum detectable photon energy (EBL cut) would be ≈ 1 TeV. Due to its long duty cycle (> 95%) the High Altitude Water Cherenkov (HAWC) gamma-ray observatory can help to characterized average VHE emission of AGN. This facility is located in Mexico, at 4100 m above sea level. It comprises an array of 300 water Cherenkov detectors (WCD), which consist of a water tank (7.3 meters in diameter and 5 meters high) filled with purified water with four photomultiplier tubes (PMT) inside. This instrument can detect gamma rays in a range of ∼ 0.1 − 100 TeV. In this work, three different analyses were carried out to study the VHE emission of AGN observed by HAWC. A set of 1523 days of HAWC data from a survey of active galaxies [1] was used to study the average VHE emission of M87. According to previous works, the gamma-ray spectrum of this source could have two different physical origins. Multiwavelength Spectral Energy Distributions (SED) were constructed to study this source using archival data from radio to gamma rays and HAWC data. Then, physical models were fit to the SED.Una fracción importante de las fuentes de rayos gamma se clasifican como núcleos galácticos activos (AGN, por sus siglas en inglés), las cuales se encuentran entre los fenómenos persistentes más energéticos en el Universo. La mayoría de los AGN emisores emisores en altas energías se categorizan como blazares (objectos tipo BL Lac o FSRQ) o radiogalaxias. Estos presentan, como en el resto del espectro electromagnético, una alta variabilidad en rayos gamma. En el caso de las bandas a muy altas energías (≳ 0.1 TeV), las observaciones de los AGN suelen estar sesgadas a periodos de alta actividad (flares) debido al corto ciclo de operación de los telescopios Cherenkov atmosféricos (IACT, por sus siglas en ingles). Por lo tanto, la emisión promedio a muy altas energías de los AGN emisores en rayos gamma no suele estar bien caracterizada. Un desafío importante asociado con las observaciones a muy altas energías de los AGN es la atenuación por interacciones fotón-fotón con la luz de fondo extragaláctica (EBL, por sus siglas en ingles). La EBL comprende todas las emisiones producidas por las galaxias a lo largo de la historia del Universo, y sus fotones interactúan con los fotones de rayos gamma mediante γγ → e+e−. Este efecto aumenta con la energía y el corrimiento al rojo, por lo que no se puede detectar la emisión de rayos gamma a muy alta energía para fuentes a z ≳ 0.3. En el caso de un objeto a z = 0, 1, la máxima energía detectable de los fotones (corte de EBL) sería de ≈ 1 TeV. Debido a su largo ciclo de operación (> 95%) el observatorio de rayos gamma High Altitude Water Cherenkov (HAWC) puede ayudar a caracterizar la emisión promedio a muy altas energías de núcleos galácticos activos. Esta instalación está ubicada en México, a 4100 m sobre el nivel del mar. Comprende un arreglo de 300 detectores Cherenkov de agua (WCD, por sus siglas en ingles), que consisten en un tanque de agua (de 7.3 metros de diámetro por 5 metros de alto) lleno de agua purificada con cuatro tubos fotomultiplicadores (PMT) en su interior. Este instrumento puede detectar rayos gamma en un rango de ∼ 0.1 − 100 TeV. En este trabajo, se llevaron a cabo tres análisis diferentes para estudiar la emisión a muy altas energías de los AGN observados por HAWC. Se utilizó un conjunto de 1523 días de datos de HAWC de un survey de galaxias activas [1] para estudiar la emisión promedio a muy altas energías de M87
Geometría analítica en acción: exploración, contextualización y aplicación en el nivel medio superior
En el contexto de la educación media superior en México, surge el proyecto "Geometría analítica en acción: exploración, contextualización y aplicación en el nivel medio superior", una iniciativa centrada en redefinir la enseñanza de esta disciplina mediante la integración de estrategias pedagógicas. La propuesta se fundamenta en la premisa de que la geometría analítica, lejos de ser una abstracción teórica, puede ser aprendida de manera más efectiva cuando se conecta con la realidad cotidiana de los estudiantes. La génesis de este proyecto se encuentra en la identificación de retos específicos que enfrentan los estudiantes de geometría analítica en su entorno. La investigación inicial reveló brechas en la comprensión y aplicación de conceptos clave. En respuesta, se diseñó una metodología, que busca no solo enseñar la geometría analítica, sino también demostrar su aplicabilidad práctica en el mundo que rodea a los estudiantes. Este proyecto se despliega en dos grupos paralelos, un "grupo de prueba" y un "grupo de control", ambos compuestos por estudiantes de tercer semestre de la Preparatoria Emiliano Zapata (BUAP). La metodología abarca desde el diagnóstico inicial hasta la implementación de estrategias pedagógicas, evaluación formativa y aplicación práctica en el entorno escolar. Los resultados de este proyecto han sido reveladores y altamente alentadores. La implementación de estrategias pedagógicas, centradas en la contextualización de los contenidos y respaldadas por el uso de tecnologías educativas, ha generado un impacto positivo y tangible en el desempeño académico de los estudiantes. El grupo de prueba, que experimentó un enfoque de enseñanza contextualizado y apoyado por herramientas digitales, exhibió un desempeño académico superior en comparación con el grupo de control. La conexión de los conceptos abstractos de la geometría analítica con situaciones prácticas en el entorno de los estudiantes ha demostrado ser un detonante para un aprendizaje más profundo y duradero. Para enriquecer la comprensión y evaluar la efectividad de las estrategias, se realiza una comparativa con investigaciones previas relacionadas con la enseñanza de las ciencias, el uso de tecnologías educativas y la percepción de profesores en contextos educativos similares. La discusión de estos hallazgos se integra en el proyecto, aportando perspectivas adicionales y enriqueciendo la propuesta metodológica.In the context of higher secondary education in Mexico, the project "Analytical Geometry in action: exploration, contextualization and application at the upper secondary level" is an initiative focused on redefining the teaching of this discipline through the integration of innovative pedagogical strategies. The proposal is based on the premise that analytic geometry, far from being a theoretical abstraction, can be apprehended more effectively when it is connected to the daily reality of students. The genesis of this project lies in the identification of specific challenges faced by analytic geometry students in their environment. Initial research revealed gaps in the understanding and application of key concepts. In response, an innovative methodology based on didactic engineering was designed, which seeks not only to teach analytic geometry, but also to demonstrate its practical applicability in the world around students. This project is deployed in two parallel groups, a "test group" and a "control group", both composed of third semester students of the Emiliano Zapata High School (BUAP). The methodology covers from the initial diagnosis to the implementation of innovative pedagogical strategies, formative evaluation and practical application in the school environment. The results of this project have been revealing and highly encouraging. The implementation of innovative pedagogical strategies, focused on the contextualization of content and supported by the use of educational technologies, has generated a positive and tangible impact on students' academic performance. The test group, which experienced a contextualized teaching approach supported by digital tools, exhibited superior academic performance compared to the control group. Connecting the abstract concepts of analytic geometry to practical situations in the students' environment has proven to be a trigger for deeper and more lasting learning. To enrich the understanding and evaluate the effectiveness of the strategies, a comparison is made with previous research related to science teaching, the use of educational technologies and the perception of teachers in similar educational contexts. The discussion of these findings is integrated into the project, providing additional perspectives and enriching the methodological proposal
Desarrollo de un bloque ADC de 12 bits en un proceso CMOS de 65 nm
Este trabajo de tesis se centra en el diseño de un convertidor analógico digital (ADC) con una resolución de 12 bits y una tasa de muestreo de 10 MS/s, implementado en tecnología CMOS comercial de 65 nm. De acuerdo con el estado del arte, la topología Pipeline elegida para este desarrollo se destaca por ofrecer el mejor rendimiento para alcanzar las especificaciones establecidas. El proceso de diseño del convertidor implicó un análisis de desempeño de la topología y dadas las especificaciones deseadas, se determinaron los parámetros de meta necesarios del circuito electrónico, permitiendo su diseño a nivel transistor tanto en el esquemático como a nivel del layout. Además, el diseño garantiza su robustez al considerar en la simulación post-layout las variaciones inherentes al proceso de fabricación.This thesis work focuses on the design of an analog-to-digital converter (ADC) with a resolution of 12 bits and a sampling rate of 10 MS/s, implemented in 65 nm commercial CMOS technology. According to the state of the art, the Pipeline topology chosen for this development stands out for offering the best performance to achieve the established specifications. The design process of the converter involved a performance analysis of the topology and, given the desired specifications, the definition of the necessary target parameters of the electronic circuit were determined, allowing its design both at the schematic and layout level. In addition, the design guarantees its robustness by considering in the post-layout simulations the variations inherent to the manufacturing process
Language and Generative Models to Recognise Unknown Places for Autonomous Drones
The e-commerce sector has seen a significant rise in package deliveries, presenting logistical challenges, particularly in what is known as the last-mile delivery problem. Urban disorganisation, absent customers at the target location, and difficulty in locating addresses contribute to inefficiencies. While couriers often rely on textual descriptions to find destinations, storing images of every location is impractical and raises privacy concerns. On the other hand, inspired by Amazon Prime Air, researchers have explored the use of drone delivery solutions. However, these systems are likely to face the same problems found in last-mile delivery; hence, it is of paramount importance to investigate novel methods to enable these drone couriers to become robust and effective when carrying out a drone delivery task autonomously. Motivated by the latter, in this thesis, we investigate the application of generative models to assist artificial agents, such as delivery drones or service robots, in visualising unfamiliar destinations solely based on textual descriptions. We explore the use of generative models, such as Stable Diffusion, and embedding representations, such as CLIP and VisualBERT, to compare generated images obtained from textual descriptions of target scenes with images of those scenes. Our research encompasses three key strategies: image generation, text generation, and text enhancement, the latter involving tools such as ChatGPT attempting to create concise textual descriptions for evaluation. The findings of this study contribute to an understanding of the impact of combining generative tools with multi-modal embedding representations to enhance the artificial agent’s ability to recognise unknown scenes that have not been visited previously. In addition, we propose a methodology aimed to compare, in real-time, generated images with the aforementioned methodology against images captured with a camera on board a drone, thus achieving an operation frequency between 4 to 7 Hz for online image processing, demonstrating the system’s feasibility for real-life drone delivery applications.El sector del comercio electrónico ha experimentado un aumento significativo en la entrega de paquetes, presentando desafíos logísticos, particularmente en el problema de la entrega de última milla. La desorganización urbana, la ausencia de clientes en el lugar de entrega y la dificultad para localizar direcciones contribuyen a las ineficiencias. Aunque los mensajeros a menudo dependen de descripciones textuales para localizar destinos, almacenar imágenes de cada ubicación es impráctico y genera preocupaciones de privacidad. Por otro lado, inspirados por Amazon Prime Air, los investigadores han explorado el uso de soluciones de entrega con drones. Sin embargo, es probable que estos sistemas enfrenten los mismos problemas que se encuentran en la entrega de última milla; por lo tanto, es de suma importancia investigar métodos novedosos para permitir que estos mensajeros con drones sean robustos y efectivos al realizar una tarea de entrega con drones de manera autónoma. Motivados por esto, en esta tesis, investigamos la aplicación de modelos generativos para asistir a agentes artificiales, como drones de entrega o robots de servicio, en la visualización de destinos desconocidos basándose únicamente en descripciones textuales. Exploramos el uso de modelos generativos, como Stable Diffusion, y embeddings visuales (como se conoce el término en inglés) definidos como una función que mapea puntos de datos a un espacio de primitivas visuales que preserve de manera mensurable las estructuras de los datos, como CLIP y VisualBERT, para comparar imágenes generadas a partir de descripciones textuales de escenas objetivo con imágenes de esas escenas. Nuestra investigación abarca tres estrategias clave: generación de imágenes, generación de texto y mejora de texto, esta última utilizando herramientas como ChatGPT en un intento por crear descripciones textuales concisas para la evaluación. Los hallazgos de este estudio contribuyen a la comprensión del impacto de combinar herramientas generativas con representaciones de incrustaciones multimodales para mejorar la capacidad del agente artificial de reconocer escenas desconocidas que no han sido visitadas previamente. Además, proponemos una metodología destinada a comparar, en tiempo real, imágenes generadas con la metodología mencionada anteriormente contra imágenes capturadas con una cámara a bordo de un dron, logrando así una frecuencia de operación promedio de 18 Hz para el procesamiento de imágenes en línea
Detection of signs of depression based on a multimiodal approach
La depresión es un trastorno mental común que afecta a aproximadamente 800 millones de personas en todo el mundo, siendo solo una fracción las que reciben tratamiento adecuado. La detección de la depresión es un desafío debido a diversas razones como la disposición del paciente para buscar ayuda, la opinión de expertos y la diversidad de síntomas. Estudios han demostrado que las personas con depresión pueden presentar indicadores del trastorno a través de características verbales y no verbales. En los últimos años, se han desarrollado técnicas para detectar y diagnosticar la depresión, incluyendo cuestionarios y modelos de aprendizaje automático. La mayoría de los trabajos en aprendizaje automático para la detección de la depresión utilizan datos de redes sociales, los cuales pueden carecer de la fiabilidad y validez necesarias para una evaluación precisa de la depresión. La información compartida en línea podría ser incompleta, exagerada o engañosa, dificultando la confianza en los datos con fines diagnósticos. Además, la mayoría de los trabajos se centran en utilizar solo una modalidad para la detección de la depresión, ignorando los diferentes indicadores depresivos que pueden presentarse. Debido a esto, la integración de datos multimodales, que incluyen voz, texto y señales no verbales, puede mejorar la precisión y el alcance diagnóstico. Esta investigación se centra en detectar la depresión utilizando datos multimodales, incluyendo audio, video y texto de entrevistas clínicas basadas en el cuestionario PHQ-8. Proponemos una solución que aprovecha la evidencia psicológica para extraer ”puntos de interés”, utilizando información tanto verbal como no verbal. El enfoque busca capturar la naturaleza multifacética de la depresión, abordando la complejidad inherente del problema. Los hallazgos subrayan la importancia de priorizar puntos de interés basados en el soporte psicológico. Además, los resultados preliminares demuestran la viabilidad y novedad de su solución propuesta, aunque la efectividad de priorizar puntos de interés basados en el soporte psicológico y adoptar un enfoque simple para modelar entrevistas.Depression is a common mental disorder affecting around 800 million people world-wide, with only a fraction receiving adequate treatment. Detection of depression is challenging due to different reasons like: patient’s disposition to seek help, expert opinion, and the diversity of symptoms. Studies have shown that people with depression can present indicators of the disorder through verbal and non-verbal features. In recent years, techniques have been developed to detect and diagnose depression, including questionnaires and machine learning models. Most of the works in machine learning for depression detection use data from social networks, this data may lack the reliability and validity required for accurate depression assessment. The information shared online might be incomplete, exaggerated, or misleading, making it difficult to trust the data for diagnostic purposes. Also, most of the works are focused on using only one modality for depression detection, ignoring the different depression indicators that can be presented. Due that, integrating multimodal data, including speech, text, and non-verbal cues, can enhance diagnostic accuracy and scope. This research focuses on detecting depression using multimodal data, including audio, video, and text from clinical interviews based on the PHQ-8 questionnaire. We propose a solution that leverages psychological evidence to extract ”interest points,” using both verbal and non-verbal information. The approach seeks to capture the multifaceted nature of depression, addressing the inherent complexity of the problem. The findings underscore the importance of prioritizing interest points based on psychological support. Also the preliminary results demonstrate the feasibility and novelty of their proposed solution, but the effectiveness of prioritizing interest points based on psychological support and adopting a simple approach to model interviews