1,721,021 research outputs found

    An Experimental Paradigm for Inducing Emotions in a Real World Driving Scenario: Evidence from Self-Report, Annotation of Speech Data and Peripheral Physiology

    Full text link
    Empathic vehicles are a promising concept to increase the safety and acceptance of automated vehicles. However, on the way towards empathic vehicles a lot of research in the area of automated emotion recognition is necessary. Successful methods to detect emotions need to be trained on realistic data that contain the target emotion and come from a setting close to the final application. At the moment, data sets fulfilling these requirements are lacking. Therefore, the goal of this work is to present an experimental paradigm that induces four different emotional states (neutral, positive, frustration and mild anxiety) in a real-world driving setting using a combination of secondary tasks and conversation-based emotional recall. An evaluation of the paradigm using self-report data, annotation of speech data and peripheral physiology indicates that the methods to induce the target emotions were successful. Based on the insights of the experiment, finally a list of recommendations for the induction of emotions in real world settings is given

    Efficient deep learning algorithms for securing Industrial Control Systems from cyberattacks

    Full text link
    Modern Industrial Control System (ICS) represent a wide variety of networked infrastructure connected to the physical world. Depending on the application, these control systems are termed as Process Control Systems (PCS), Supervisory Control and Data Acquisition (SCADA) systems, Distributed Control Systems (DCS) or Cyber Physical Systems (CPS). Nowadays, the internet has been evolved as a universal communication platform in many domains, including ICS. The major technical background of the latest industrial revolution (Industrie 4.0 or Smart Factories) is the introduction of internet technologies into the industry making the field devices, machines, plants and factories connected to a network. As ICS is designed for reliability; but security especially against cyber threats is also a critical need. Despite several measures, every day a new attack against the ICS is being identified. Therefore, a proper measure is necessary to identify those novel attacks and ensure security. Cybersecurity through detection of malicious activities in ICS by efficiently configuring the deep learning algorithms is the main research foci of this thesis. Through research, the cyber-attacks on ICS can be broadly classified as network attacks or injection attacks. In order to develop the deep learning-based cybersecurity, a proper dataset providing the possible attacks on an ICS is necessary. For network attacks, different datasets do exist. Out of them, NSL-KDD is popularly used by many researchers and is selected for the development of Intrusion Detection System (IDS) in ICS for network attacks. As no proper dataset exists for injection attacks, a dataset for injection attacks is simulated using the data from process control plant in the institute. In order to identify the novel or unknown attack, anomaly-based intrusion detection technique is developed using different deep learning algorithms for classification of normal to anomalous behaviour and a proof-of concept was implemented. The implementations are done in MATLAB using different deep learning libraries originally from MATLAB and also from other sources such as Theano, Tensorflow. Despite classifying the malicious behaviour, this thesis also concentrates on the classification of multiple attack classes. The use of deep learning algorithms for cyber security improves the detection accuracies and are efficient in the identification of novel attacks when compared to the existing approaches. Hybrid deep learning approaches are also proposed and found to be good in identifying the attacks more accurately and improve the detection accuracy during identification of multiple attack classes. The contribution of this thesis is as follows: identification and configuration of different deep learning algorithms for drawing hidden complex relations between the input dataset and multi-class attack classification were performed and assessed using famous NSL-KDD dataset for network attacks. Deep learning algorithms are also used to identify complex relations between traditional features and use them to identify injection attacks possible on ICS and their detection accuracies was assessed. Finally, with the outcome of thesis results, development of special injection attack toolbox is developed so that in future researchers can use this toolbox in development of more complex defence in depth strategies for injection attacks against ICS.Moderne Industrial Control System (ICS) repräsentieren eine Vielfalt von vernetzten Infrastrukturen, die mit der physikalischen Welt verbunden sind. Je nach Anwendung werden diese Control Systeme als Process Control Systems (PCS), Supervisory Control and Data Acquisition (SCADA) Systeme, Distributed Control Systems (DCS) oder Cyber Physical Systems (CPS) bezeichnet. Der wichtigste technische Hintergrund der neuesten industriellen Revolution (Industrie 4.0 oder Smart Factories) ist die Einführung von Internet-Technologien in der Industrie, die die Feldgeräte, Maschinen, Anlagen und Fabriken mit einem Netzwerk verbinden können. Da ICS auf Zuverlässigkeit ausgelegt sind, ist aber auch die Sicherheit, insbesondere gegen Cyberangriffe, ein kritisches Erfordernis. Trotz mehrerer Maßnahmen, wird täglich ein neuer Angriff auf das ICS identifiziert. Daher ist eine angemessene Maßnahme ist notwendig, um diese neuartigen Angriffe zu identifizieren und die Sicherheit zu gewährleisten. Cybersicherheit durch Erkennung bösartiger Aktivitäten im ICS durch effiziente Konfiguration der Deep-Learning-Algorithmen ist der Schwerpunkt in dieser Arbeit. Durch Forschung können die Cyber-Angriffe auf das ICS allgemein als Netzwerkangriffe oder Injektionsangriffe klassifiziert werden. Um die auf Deep Learning basierende Cybersicherheitsstrategie zu entwickeln, ist ein geeigneter Datensatz notwendig, der die möglichen Angriffe auf ein ICS bereitstellt. Für Netzwerkangriffe gibt es verschiedene Datensätze. Aus diesen wird NSL-KDD von vielen Wissenschaftlern gerne verwendet und für die Entwicklung des Intrusion Detection System (IDS) im ICS für Netzwerkangriffe ausgewählt. Da es keinen eigenen Datensatz für Injektionsangriffe gibt, wird ein Datensatz für Injektionsangriffe mit den Daten aus der Prozesskontrollanlage im Institut simuliert. Um den neuen oder unbekannten Angriff zu identifizieren, wird eine Anomalie basierte Intrusion Detection-Technik entwickelt, die durch verschiedene Deep-Learning-Algorithmen zur Klassifizierung von normalem und anomalem Verhalten verwendet und ein Proof-of-Konzept implementiert. Die Implementierungen in MATLAB erfolgten mit verschiedenen Deep-Learning-Bibliotheken, die ursprünglich aus MATLAB und auch aus anderer Herkunft wie Theano, Tensorflow sind. Trotz der Klassifizierung des bösartigen Verhaltens, diese Arbeit konzentriert sich auch auf die Klassifizierung mehrerer Angriffsklassen. Der Einsatz von Deep-Learning-Algorithmen für die Cybersicherheit verbessert die Erkennungsgenauigkeit und ist im Vergleich zu den bestehenden Ansätzen effizient bei der Identifizierung neuer Angriffe. Hybride Deep-Learning-Ansätze werden ebenfalls vorgeschlagen und als gut befunden, um die Angriffe genauer zu identifizieren und die Erkennungsgenauigkeit bei der Identifizierung mehrerer Angriffsklassen zu verbessern. Der Beitrag dieser Arbeit sind wie folgt: Identifizierung und Konfiguration von verschiedenen Deep-Learning-Algorithmen für die Zeichnung versteckter komplexer Beziehungen zwischen dem Input-Datensatz und Multi-Class-Angriff Klassifizierung wurde durchgeführt und bewertet mit Hilfe der berühmten NSL-KDD Datensatz für Netzwerk-Angriffe. Deep-Learning-Algorithmen werden auch verwendet, um komplexe Zusammenhänge zwischen traditionellen Merkmalen zu identifizieren und sie zu nutzen, um mögliche Injektionsangriffe auf das ICS zu identifizieren, und ihre Erkennungsgenauigkeiten wurden bewertet. Abschließend, mit dem Ergebnis der Arbeits, wird eine Entwicklung einer speziellen Injektionsangriffs-Toolbox getan wird, so dass in Zukunft Wissenschaftler diese Toolbox bei der Entwicklung komplexerer Defence-in-Depth Strategien für Injektionsangriffe gegen ICS verwenden können

    Going Beyond Counting First Authors in Author Co-citation Analysis

    Full text link
    The present study examines one of the fundamental aspects of author co-citation analysis (ACA) - the way co-citation counts are defined. Co-citation counting provides the data on which all subsequent statistical analyses and mappings are based, and we compare ACA results based on two different types of co-citation counting - the traditional type that only counts the first one among a cited work's authors on the one hand and a non-traditional type that takes into account the first 5 authors of a cited work on the other hand. Results indicate that the picture produced through this non-traditional author co-citation counting contains more coherent author groups and is therefore considerably clearer. However, this picture represents fewer specialties in the research field being studied than that produced through the traditional first-author co-citation counting when the same number of top-ranked authors is selected and analyzed. Reasons for these effects are discussed

    Emotion recognition within spoken dialog systems

    Full text link
    Magdeburg, Univ., Fak. für Elektrotechnik und Informationstechnik, Diss., 2011von Bogdan Vlasenk

    Driver affect recognition from real-world speech data in in-vehicle driving environments

    Full text link
    In der heutigen Zeit der zunehmenden Autonomie im Straßenverkehr, gewinnen Systeme zur Erkennung des Fahrerzustandes immer mehr an Bedeutung. Über die Anaylse des Lenkverhaltens und des Blickverhaltens des Fahrers können einige Zustände bereits zum Stand der Technik in der Automobilindustrie gezählt werden. Der tatsächliche intrinsische Zustand des Fahrers, der z.B. durch Feedbacksignale aus Sprache, Mimik oder Gestik wiedergegeben werden kann, wird momentan noch vollständig außer Acht gelassen. Ziel dieser Arbeit ist es, diese Forschungslücke weiter zu schließen, indem die Emotionalität des Fahrers anhand seiner Sprache erkannt und systemseitig berücksichtigt werden kann. Um dieses Ziel zu erreichen, muss die vollständige Prozesskette von der Datenerhebung, über die Datenvoranalyse und ggf. die Durchführung digitaler Signalverarbeitungs-Schritte, bis hin zur Datenklassifizierung und schlussendlich der Bewertung der erhaltenen Ergebnisse im Vergleich zu anderen Forschungsergebnissen aus diesem Bereich, berücksichtigt werden. Die Gesamtheit jedes einzelnen Prozessschrittes muss hierzu dem Leser nähergebracht werden. Dies begründet auch den Umfang der vorliegenden Arbeit. Zu Beginn der Arbeit werden dem Leser folgende drei Forschungshypothesen vorgestellt, die im Laufe der Arbeit wiederholt aufgegriffen werden: 1. Hypothese: Es ist möglich dem Fahrer während der Fahrt naturalistische Emotionen zu induzieren. 2. Hypothese: Es ist möglich Störungen des Sprachsignales zu kompensieren. 3. Hypothese: Falls Hypothese 1 und 2 bestätigt werden, ist es möglich automatisch den emotionalen Zustand des Fahrers anhand prosodischer Sprachmerkmale zu erkennen. Durch die sehr geringe Datenlage in diesem Forschungsgebiet wurden zwei Datenaufnahmen durchgeführt (simuliert und real). Anhand erster simulierter emotionaler Sprachdaten im Fahrzeug konnten erste Erkenntnisse über die Beschaffenheit der Daten und das Potential zur Erkennung des emotionalen Zustandes, erlangt werden. Anhand einer weiteren Datenaufnahme, induzierter Emotionen unter realen Fahrbedingungen, konnten Detailinformationen zur Erkennung von vier Fahrerzuständen ermittelt werden (neutral, positiv, verärgert und ängstlich). Die aufgenommenen Daten wurden, anhand der Selbsteinschätzung des Fahrers (unter Verwendung des Geneva Emotional Wheel und den Self-Assessment Manikins) und einer Auswertung ihrer bio-physiologischen Daten, auf ihre emotionalen Inhalte und ihre Verwendbarkeit validiert. Da realitätsnahe verrauschte Sprachdaten sehr zeitaufwändig in ihrer Generierung sind und zu Beginn der Arbeit noch nicht vorlagen, wurden erste Untersuchungen anhand komprimierter Sprachdaten durchgeführt. Anhand dieser Daten wurde der Effekt digitaler Signalverarbeitungs-Algorithmen auf das Sprachsignal, die Sprach- und Signalqualität und die Erkennung der Emotionen analysiert. Es konnte festgestellt werden, dass die angewendeten Audio-Codecs je nach ihrem designierten Einsatzgebiet unterschiedliche Einflüsse auf die Sprach- und Signalqualität und die Erkennungsleistung der Emotionen haben. Vor allem Codecs, die für die Komprimierung von Musik entwickelt wurden, haben einen geringeren Einfluss auf die Emotionserkennung als Codecs, die für die Telekommunikation entwickelt wurden. Im Fall der Anwendung von Musik-Codecs konnte sogar eine Verbesserung der Erkennungsleistung im Vergleich zu unkomprimierten Sprachdaten erzielt werden. Ähnliche Untersuchungen wurden anhand der simulierten emotionalen Sprache im Fahrzeug durchgeführt, indem die im Original unverrauschten Sprachdaten mit ihren künstlich verrauschten Versionen verglichen wurden. Diese Untersuchung zeigte, dass die Natürlichkeit der Emotionen in der Sprache und die Natürlichkeit der Datenaufnahmen selbst, den Effekt der Fahrgeräusche auf die Signalqualität beeinflusst. Des Weiteren konnte ein eindeutiger Rückgang der Erkennungsleistung im Zusammenhang mit der Abnahme der Signalqualität erkannt werden. Zur weiteren Nutzung der Datenaufnahmen im realen Fahrzeugumfeld wurde eine Annotation der Daten durchgeführt. Dies beinhaltete eine dimensionale und kategoriale Bewertung, die in sich eine hohe Übereinstimmung aufwiesen. Die Ergebnisse zeigen, dass die Emotionen des Fahrers auch in seiner Sprache widergespiegelt wurden und somit als Datenbasis für die automatische Erkennung natürlicher Emotionen im Fahrzeugumfeld genutzt werden können. Aus der (automatischen) Sprachverarbeitung ist bekannt, dass die Anwendung von Sprachverbesserungs-Verfahren (engl. speech enhancement) zu einer bemerkenswerten Erhöhung der Erkennungsraten und des Sprachverständnisses führen kann. Um zu untersuchen, ob dieser Effekt auch einen Einfluss auf die Erkennungsrate der Emotionen hat, wurden Untersuchungen zur Anwendbarkeit dieser Algorithmen auf verrauschter emotionaler Sprache durchgeführt. Es konnte festgestellt werden, dass die Anwendung dieser Verfahren zu einer starken Manipulation des Merkmalsraums führt, die im Vergleich zu verrauschter Sprache jedoch keine Verbesserung der Erkennungsleistung mit sich bringt. Um die Manipulation des Merkmalsraum nicht als zusätzlichen Freiheitsgrad in die Prozesskette mit einfließen zu lassen, wird die Anwendung eines solchen Verfahrens nicht empfohlen. Unter Berücksichtigung der vorangegangenen Ergebnisse wurden schlussendlich zwei unterschiedliche Klassifikationsverfahren angewandt (Support Vector Machines und Random Forests), um die Emotion des Fahrers anhand realer Fahrzeugdaten zu erkennen. Die Klassifizierer wurden dazu in einem leave one speaker out Kreuzvalidierungsverfahren trainiert, optimiert und getestet. Die Optimierung erfolgte dabei durch die Anwendung eines random search-Verfahrens zur Hyper-Parameter- Optimierung, einer wrapper basierten Feature Auswahl und einer gezielten Reduzierung/ Auswahl der verwendeten Sprachdaten aus dem Datensatz. Unter Berücksichtigung all dieser Aspekte, konnte als bester Klassifizierer ein Random Forest entworfen werden, der dazu in der Lage ist, den emotionalen Zustand des Fahrers, im vorliegenden 4-Klassenproblem, mit einer precision von über 52% und einem recall von über 35% zu erkennen.With an increase of autonomy in vehicles, also the importance of driver state detection systems is becoming more relevant. By analyzing the driver’s steering behaviour and her/ his gaze direction, the modern automotive industry is able to detect a limited number of driver states (e.g. tiredness or attention). The true intrinsic state of the driver, which is, for example, communicated through feedback signals in her/ his speech, facial expressions or gestures, is still being neglected. The goal of this Thesis is to close this research gap by considering the driver’s speech data to detect her/ his emotional state. This does not only include the design of a classifier, but the whole process chain of performing a suitable data collection, pre-processing of said data, implementation of relevant signal processing steps (e.g. speech enhancement) and finally also validating the designed classifier. This broad field of research also reasons the size of the Thesis. At the beginning of the Thesis the following three research hypotheses are introduced to the reader and will accompany her/ him throughout the Thesis: 1. Hypothesis: It is possible to induce naturalistic emotions in the driver, while driving in a real vehicle. 2. Hypothesis: It is possible to compensate effects of speech distortion. 3. Hypothesis: Under the assumption that hypotheses 1 and 2 apply, it is possible to automatically detect the emotional state of the driver by only considering the speech signal of the driver and its prosodic features. Because of the relatively low amount of freely available emotional speech data in in-vehicle environments, two data collections focusing on this noise environment (simulated and real-world) were performed. The simulated data was used to receive first insights on the noisy speech characteristics and its potential to be used to detect the driver’s emotional state. A second real-world data collection was performed afterwards, and used to gain detailed information on the four most relevant emotional states occurring while driving (neutral, positive, angry and anxious). By using the drivers’ self-reports (obtained by utilizing the Geneva Emotional Wheel and the Self-Assessment Manikins) and the recordings of their bio-physiological parameters, it was possible to validate the emotion inducement method and the usability of the collected real-world data. The just mentioned data collections are highly time consuming to conduct and were not available at the start of the Thesis. Therefore, the first investigation presented in this Thesis, was performed on compressed speech data. This degraded data was used to analyze the effects signal-processing can have on the speech signal itself, the signal quality and the ability to correctly classify the emotional state of a speaker. It was identified that, especially for speech emotion recognition, codecs developed for music compression are more suitable than codecs developed for speech compression. In some cases it was even possible to increase the recognition performance by applying music compression algorithms, compared to the recognition performance on uncompressed speech. Similar investigations on noisy speech were performed on the simulated in-vehicle speech data. By comparing the original emotional speech samples with their degraded noisy counter parts, it was possible to identify that the naturalness of the original speech samples plays a decisive role on the effect invehicle noises have on the signal quality. Furthermore, with decreasing signal quality also the recognition performance of the classifier decreased. To verify the usability of the real-world driving data, a further annotation of the speech samples considering their emotional content was needed. This annotation was done utilizing a dimensional (valence vs. arousal) and a categorial (4 considered emotional states) labeling approach. In this process both approaches showed a high consistency in their results. These results show that the emotional state of the driver is also mirrored in the speech signal and that the recorded data is suitable for automatic speech emotion recognition in a real-world driving environment. In case of noisy speech data and (automatic) speech recognition, it is known that by applying speech enhancement algorithms, significant increases in recognition rate and speech understanding can be achieved. To identify if these effects also occur in case of speech emotion recognition, suitable speech enhancement algorithms were applied to the simulated in-vehicle data. It was identified that by applying this method of signal processing steps to the noisy speech samples, the features used for the speech emotion recognition task were altered significantly but the recognition performance was not improved. To prevent this additional factor from influencing the emotion recognition task, it was decided to not apply speech enhancement in the further scope of the Thesis. Finally, by considering and utilizing the above findings, two classification approaches (Support Vector Machines and Random Forest) were used to identify the driver’s emotional state in a real-world driving scenario. By utilizing a leave one speaker out cross-validation scheme the classifiers were trained, optimized and tested. The optimization step included a hyper-parameter optimization using random search, a wrapper based feature selection and an adjusted of the data set, by reducing the data set to a tailored selection of speech samples. With regard to this approach, as best performing classifier for the present four class classification task, a random forest with a precision of over 52% and a recall of over 35% was designed

    Contributions to Automatic Interaction Analysis of Meetings

    Full text link
    Psychological interaction analyses (IAs) of face-to-face meetings are typically based on a large number of audio and video recordings that must be carefully annotated manually before the actual analysis can start. Since this process is very time-consuming and costly, it limits not only the amount of data that can be taken into account but also the level of detail that can be reached in the analysis. Therefore, the automatic interaction analysis (AIA) of meetings has become a vital research topic, which aims to facilitate psychological interaction studies by developing methods for the automatic processing and analysis of meeting data. For an AIA of meetings based on acoustic data, high-quality audio recordings of each meeting participant are required. This is best achieved by multichannel audio recordings, where each meeting participant is equipped with a close-talk microphone and recorded in an individual target microphone channel. However, so-called crosstalk is a common problem with such audio recordings and describes the effect that a target speech signal of an active speaker does not only couple into his assigned microphone but also into the microphones of all other participants. Consequently, the speech signals of the participants are disturbed by each other, which significantly complicates the processing of the audio signals and also strongly affects the performance of speech analysis methods for an AIA. To solve this issue, this thesis presents innovative contributions to the automatic processing and analysis of multichannel close-talk audio recordings of meetings suffering from crosstalk. For this purpose, an overall meeting emotion analysis system (OMEAS) is presented, which is able to deal with high-level crosstalk. It consists of three novel methods that in combination reduce the crosstalk in the target microphone signals, detect all utterances of the target speakers, and estimate the emotions of the speakers in each detected utterance. Each method is developed individually regarding its respective research field, thereby advancing the state of the art as comparisons with respective baseline approaches show. For the evaluation w.r.t. different crosstalk levels, a realistic meeting scenario is simulated based on the acoustic characteristics of a real meeting room. The conducted investigations – based on objective evaluation metrics – demonstrate experimentally that the proposed OMEAS is robust against crosstalk and that the performance of automatic speech analysis methods can be significantly improved by applying the developed speech enhancement component of the OMEAS. Moreover, based on the provided output signals of the OMEAS, further analyses can be performed, so that the OMEAS already represents an important step to facilitate the time-consuming annotation process for psychological IAs.Psychologische Interaktionsanalysen von Meetings basieren typischerweise auf einer Vielzahl von Audio- und Videoaufzeichnungen, die vor der eigentlichen Analyse sorg- fältig per Hand annotiert werden müssen. Da dieser Prozess sehr zeitaufwendig und kostspielig ist, limitiert er nicht nur die Datenmenge, die betrachtet werden kann, sondern auch den erreichbaren Detailgrad der Analyse. Aus diesem Grund hat sich die automati- sche Interaktionsanalyse von Meetings zu einem wichtigen Forschungsthema entwickelt, welches das Ziel verfolgt, psychologische Interaktionsstudien durch die Entwicklung von Methoden zur automatischen Verabeitung und Analyse von Meeting-Daten zu erleichtern. Für eine automatische Interaktionsanalyse von Meetings basierend auf akustischen Da- ten wird für jeden Teilnehmer eine qualitativ hochwertige Audioaufnahme benötigt. Dies wird am besten mit einer mehrkanaligen Audioaufnahme erzielt, bei der jeder Teilnehmer mit einem Nahbesprechungsmikrofon ausgestattet und in einem separaten Zielmikrofon- kanal aufgenommen wird. Ein bekanntes Problem hierbei ist allerdings das sogenannte „Übersprechen“, welches den Effekt beschreibt, dass das Zielsprachsignal eines aktiven Sprechers nicht nur in das ihm zugeordnete, sondern auch in alle anderen Mikrofone als Übersprechsignal einkoppelt. Folglich stören sich die Sprachsignale der einzelnen Sprecher gegenseitig, wodurch die Verarbeitung von Audiosignalen deutlich erschwert, und auch die Leistung von Sprachanalysemethoden der automatischen Interaktionsana- lyse stark beeinträchtigt werden. Um dieses Problem zu lösen, werden in dieser Arbeit innovative Beiträge für die automatische Verarbeitung und Analyse von mehrkanaligen, durch Übersprechsignale gestörte Nahbesprechungsaufnahmen von Meetings präsentiert. Hierzu wird ein Gesamtsystem zur sprachbasierten Emotionsanalyse in Meetings vorge- stellt, welches mit lauten Übersprechsignalen umgehen kann. Das System besteht aus drei neuartigen Methoden, die in Kombination die Übersprechanteile im Zielmikrofonsignal reduzieren, alle Äußerungen der Zielsprecher detektieren, und die Sprecher-Emotionen in jeder detektierten Äußerung schätzen. Jede Methode wurde individuell bezüglich ihres je- weiligen Forschungsfelds entwickelt und konnte den Stand der Technik vorantreiben, wie Vergleiche mit jeweiligen Referenzverfahren zeigen. Für die Auswertung bezüglich ver- schiedener Übersprechsignalstärken wurde ein realistisches Meeting-Szenario basierend auf den akustischen Eigenschaften eines realen Meeting-Raumes simuliert. Die auf objek- tiven Metriken basierenden Untersuchungen zeigen, dass das präsentierte Gesamtsystem robust gegen Übersprechsignale ist und die entwickelte Sprachverbesserungsmethode die Leistung von automatischen Sprachanalysen deutlich verbessert. Darüber hinaus können aufbauend auf den Ausgangssignalen des Gesamtsystems weitere Analysen durchgeführt werden, sodass das System einen wesentlichen Schritt zur Erleichterung des zeitaufwen- digen Annotationsprozesses von psychologischen Interaktionsanalysen darstellt

    Accessing the interlocutor : recognition of interaction-related interlocutor states in multiple modalities

    Full text link
    The research in the field of human-computer interaction aims at enabling technical systems to interact with humans in the same way that humans do among themselves. One aspect of natural human interaction is implicitly communicating the internal state, such as the current emotions, using voice, gestures and facial expressions. Gaining access to this information is one of the central topics addressed in affective computing. This thesis focuses on the automatic recognition of three internal interlocutor states highly relevant for the domain of human-computer interaction – namely trouble, satisfaction and cooperativeness – using different interlocutor signals, such as speech or acoustic signals, physiological signals and spatial upper-body movements. Three existing corpora of interaction data provide the empirical base for the investigations. The aim of the thesis is to enhance the understanding of interaction-related interlocutor states by developing approaches for their automatic recognition. Furthermore, this thesis contributes to the current state of the art by discussing three methodological challenges: finding appropriate data and developing general data requirements, selecting appropriate modalities and features, and implementing appropriate classification and performance evaluation methods. As a main objective, three recognition tasks were accomplished: the recognition of trouble, satisfaction, and cooperativeness. For these tasks, existing machine learning techniques were applied: random forests, support vector machines and naïve Bayes classification. All three tasks were performed as binary classification tasks. The evaluation of all three classification approaches was done in a subject-independent way to ensure the generalisation ability of the classifiers. The conducted research leads to the conclusion that the three investigated interlocutor states can be accessed using features obtained from the considered behavioural signals. Depending on data and setting, the recognition accuracy varies between 64% and 87% f-measure. The physiological signals provided the best recognition results, but it can be argued that for certain applications, especially when other signals are not available, speech enables sufficient recognition performance to create systems adapting to their users’ current states. In order to further improve the ability of technical systems to access these states, it is necessary to expand the current understanding of both, the expression of human interaction behaviour and its processing.Die Forschung auf dem Gebiet der Mensch-Computer-Interaktion hat das Ziel, Systeme zu entwickeln, die mit Menschen auf die gleiche Art interagieren können, wie Menschen es untereinander tun. Ein Aspekt von natürlicher menschlichen Interaktion ist die implizite Vermittlung des inneren Zustandes, beispielsweise der Emotionen, mit Hilfe von Stimme, Gestik, Mimik, etc. Der Zugang zu diesen Informationen ist eines der zentralen Themen von Affective Computing. Diese Arbeit konzentriert sich auf die automatische Erkennung von drei Gesprächspartner-Zuständen, die für die Mensch-Computer-Interaktion von großer Bedeutung sind – nämlich Anstrengung, Zufriedenheit und Kooperativität. Dabei werden unterschiedliche Gesprächspartner-Signale benutzt, wie Sprache oder akustische Signale, physiologische Signale und Bewegungen des Oberkörpers. Drei bestehende Korpora liefern die empirische Grundlage für diese Untersuchungen. Das Ziel der Arbeit ist es, das Verständnis von interaktionsrelevanten Gesprächspartner-Zuständen durch Entwicklung von Ansätzen zu ihrer automatischen Erkennung zu verbessern. Weiterhin trägt diese Arbeit zum aktuellen Stand der Wissenschaft in drei methodischen Herausforderungen bei: die Suche nach geeigneten Daten und die Entwicklung von allgemeinen Datenanforderungen, die Auswahl von geeigneten Modalitäten und Merkmalen und die Implementierung von geeigneten Klassifikations- und Evaluationsmethoden. Zur Erreichung des Ziels wurden drei Erkennungsaufgaben bewerkstelligt: die Erkennung von Anstrengung, Zufriedenheit und Kooperativität. Dabei wurden existierende Methoden des maschinellen Lernens angewandt: Random Forests, Support Vector Machines und Naïve Bayes Klassifikation. Alle drei Aufgaben wurden als binäre Klassifikationsaufgaben aufgefasst. Die Evaluierung aller drei Klassifikationsansätze erfolgte personenunabhängig, um die Generalisierungsfähigkeit der Klassifikatoren zu garantieren. Die durchgeführte Forschungsarbeit lässt den Schluss zu, dass die untersuchten Gesprächspartner-Zustände mit Hilfe der aus den betrachteten Verhaltenssignalen extrahierten Merkmale erkannt werden können. Dabei variiert die Erkennungsgenauigkeit in Abhängigkeit von Daten und Setting zwischen 64% und 87% F-Measure. Die physiologischen Signale liefern die besten Erkennungsergebnisse, jedoch kann argumentiert werden, dass für bestimmte Anwendungen, insbesondere bei Nichtverfügbarkeit von anderen Signalen, Sprache eine ausreichende Erkennungsleistung ermöglicht, um Systeme zu entwickeln, die sich auf den aktuellen Nutzerzustand einstellen können. Um die Fähigkeit von technischen Systemen zu verbessern, diesen Zustand zu erfassen, ist es notwendig, das derzeitige Verständnis sowohl von Ausdruck menschlichen Verhaltens als auch von dessen Verarbeitung auszubauen

    Variations on the Author

    Full text link
    “Variations on the Author” discusses two of Eduardo Coutinho’s recent films (Um Dia na Vida, from 2010, and Últimas Conversas, posthumously released in 2015) and their contribution to the general question of documentary authorship. The director’s filmography is characterized by a consistent yet self-effacing form of authorial self-inscription: Coutinho often features as an interviewer that rather than express opinions propels discourses; an interviewer that is good at listening. This mode of self-inscription characterizes him as an author who is not expressive but who is nonetheless markedly present on the screen. In Um Dia na Vida, however, Coutinho is completely absent form the image, while Últimas Conversas, on the contrary, includes a confessional prologue that moves the director from the margins to the center of his films. This article examines the ways in which these works stand out in the filmography of a director who offers new insights into the notion of cinematic authorship
    corecore