1,721,021 research outputs found
An Experimental Paradigm for Inducing Emotions in a Real World Driving Scenario: Evidence from Self-Report, Annotation of Speech Data and Peripheral Physiology
Empathic vehicles are a promising concept to increase the safety and acceptance of automated vehicles. However, on the way towards empathic vehicles a lot of research in the area of automated emotion recognition is necessary. Successful methods to detect emotions need to be trained on realistic data that contain the target emotion and come from a setting close to the final application. At the moment, data sets fulfilling these requirements are lacking. Therefore, the goal of this work is to present an experimental paradigm that induces four different emotional states (neutral, positive, frustration and mild anxiety) in a real-world driving setting using a combination of secondary tasks and conversation-based emotional recall. An evaluation of the paradigm using self-report data, annotation of speech data and peripheral physiology indicates that the methods to induce the target emotions were successful. Based on the insights of the experiment, finally a list of recommendations for the induction of emotions in real world settings is given
Efficient deep learning algorithms for securing Industrial Control Systems from cyberattacks
Modern Industrial Control System (ICS) represent a wide variety of networked infrastructure connected to the physical world. Depending on the application, these control systems are termed as Process Control Systems (PCS), Supervisory Control and Data Acquisition (SCADA) systems, Distributed Control Systems (DCS) or Cyber Physical Systems (CPS). Nowadays, the internet has been evolved as a universal communication platform in many domains, including ICS. The major technical background of the latest industrial revolution (Industrie 4.0 or Smart Factories) is the introduction of internet technologies into the industry making the field devices, machines, plants and factories connected to a network. As ICS is designed for reliability; but security especially against cyber threats is also a critical need. Despite several measures, every day a new attack against the ICS is being identified. Therefore, a proper measure is necessary to identify those novel attacks and ensure security.
Cybersecurity through detection of malicious activities in ICS by efficiently configuring the deep learning algorithms is the main research foci of this thesis. Through research, the cyber-attacks on ICS can be broadly classified as network attacks or injection attacks. In order to develop the deep learning-based cybersecurity, a proper dataset providing the possible attacks on an ICS is necessary. For network attacks, different datasets do exist. Out of them, NSL-KDD is popularly used by many researchers and is selected for the development of Intrusion Detection System (IDS) in ICS for network attacks. As no proper dataset exists for injection attacks, a dataset for injection attacks is simulated using the data from process control plant in the institute.
In order to identify the novel or unknown attack, anomaly-based intrusion detection technique is developed using different deep learning algorithms for classification of normal to anomalous behaviour and a proof-of concept was implemented. The implementations are done in MATLAB using different deep learning libraries originally from MATLAB and also from other sources such as Theano, Tensorflow. Despite classifying the malicious behaviour, this thesis also concentrates on the classification of multiple attack classes. The use of deep learning algorithms for cyber security improves the detection accuracies and are efficient in the identification of novel attacks when compared to the existing approaches. Hybrid deep learning approaches are also proposed and found to be good in identifying the attacks more accurately and improve the detection accuracy during identification of multiple attack classes.
The contribution of this thesis is as follows: identification and configuration of different deep learning algorithms for drawing hidden complex relations between the input dataset and multi-class attack classification were performed and assessed using famous NSL-KDD dataset for network attacks. Deep learning algorithms are also used to identify complex relations between traditional features and use them to identify injection attacks possible on ICS and their detection accuracies was assessed. Finally, with the outcome of thesis results, development of special injection attack toolbox is developed so that in future researchers can use this toolbox in development of more complex defence in depth strategies for injection attacks against ICS.Moderne Industrial Control System (ICS) repräsentieren eine Vielfalt von vernetzten Infrastrukturen, die mit der physikalischen Welt verbunden sind. Je nach Anwendung werden diese Control Systeme als Process Control Systems (PCS), Supervisory Control and Data Acquisition (SCADA) Systeme, Distributed Control Systems (DCS) oder Cyber Physical Systems (CPS) bezeichnet. Der wichtigste technische Hintergrund der neuesten industriellen Revolution (Industrie 4.0 oder Smart Factories) ist die Einführung von Internet-Technologien in der Industrie, die die Feldgeräte, Maschinen, Anlagen und Fabriken mit einem Netzwerk verbinden können. Da ICS auf Zuverlässigkeit ausgelegt sind, ist aber auch die Sicherheit, insbesondere gegen Cyberangriffe, ein kritisches Erfordernis. Trotz mehrerer Maßnahmen, wird täglich ein neuer Angriff auf das ICS identifiziert. Daher ist eine angemessene Maßnahme ist notwendig, um diese neuartigen Angriffe zu identifizieren und die Sicherheit zu gewährleisten.
Cybersicherheit durch Erkennung bösartiger Aktivitäten im ICS durch effiziente Konfiguration der Deep-Learning-Algorithmen ist der Schwerpunkt in dieser Arbeit. Durch Forschung können die Cyber-Angriffe auf das ICS allgemein als Netzwerkangriffe oder Injektionsangriffe klassifiziert werden. Um die auf Deep Learning basierende Cybersicherheitsstrategie zu entwickeln, ist ein geeigneter Datensatz notwendig, der die möglichen Angriffe auf ein ICS bereitstellt. Für Netzwerkangriffe gibt es verschiedene Datensätze. Aus diesen wird NSL-KDD von vielen Wissenschaftlern gerne verwendet und für die Entwicklung des Intrusion Detection System (IDS) im ICS für Netzwerkangriffe ausgewählt. Da es keinen eigenen Datensatz für Injektionsangriffe gibt, wird ein Datensatz für Injektionsangriffe mit den Daten aus der Prozesskontrollanlage im Institut simuliert.
Um den neuen oder unbekannten Angriff zu identifizieren, wird eine Anomalie basierte Intrusion Detection-Technik entwickelt, die durch verschiedene Deep-Learning-Algorithmen zur Klassifizierung von normalem und anomalem Verhalten verwendet und ein Proof-of-Konzept implementiert. Die Implementierungen in MATLAB erfolgten mit verschiedenen Deep-Learning-Bibliotheken, die ursprünglich aus MATLAB und auch aus anderer Herkunft wie Theano, Tensorflow sind. Trotz der Klassifizierung des bösartigen Verhaltens, diese Arbeit konzentriert sich auch auf die Klassifizierung mehrerer Angriffsklassen. Der Einsatz von Deep-Learning-Algorithmen für die Cybersicherheit verbessert die Erkennungsgenauigkeit und ist im Vergleich zu den bestehenden Ansätzen effizient bei der Identifizierung neuer Angriffe. Hybride Deep-Learning-Ansätze werden ebenfalls vorgeschlagen und als gut befunden, um die Angriffe genauer zu identifizieren und die Erkennungsgenauigkeit bei der Identifizierung mehrerer Angriffsklassen zu verbessern.
Der Beitrag dieser Arbeit sind wie folgt: Identifizierung und Konfiguration von verschiedenen Deep-Learning-Algorithmen für die Zeichnung versteckter komplexer Beziehungen zwischen dem Input-Datensatz und Multi-Class-Angriff Klassifizierung wurde durchgeführt und bewertet mit Hilfe der berühmten NSL-KDD Datensatz für Netzwerk-Angriffe. Deep-Learning-Algorithmen werden auch verwendet, um komplexe Zusammenhänge zwischen traditionellen Merkmalen zu identifizieren und sie zu nutzen, um mögliche Injektionsangriffe auf das ICS zu identifizieren, und ihre Erkennungsgenauigkeiten wurden bewertet. Abschließend, mit dem Ergebnis der Arbeits, wird eine Entwicklung einer speziellen Injektionsangriffs-Toolbox getan wird, so dass in Zukunft Wissenschaftler diese Toolbox bei der Entwicklung komplexerer Defence-in-Depth Strategien für Injektionsangriffe gegen ICS verwenden können
Going Beyond Counting First Authors in Author Co-citation Analysis
The present study examines one of the fundamental aspects of author co-citation analysis (ACA) - the way co-citation
counts are defined. Co-citation counting provides the data on which all subsequent statistical analyses and mappings
are based, and we compare ACA results based on two different types of co-citation counting - the traditional type that
only counts the first one among a cited work's authors on the one hand and a non-traditional type that takes into
account the first 5 authors of a cited work on the other hand. Results indicate that the picture produced through this non-traditional author co-citation counting contains more coherent author groups and is therefore considerably clearer. However, this picture represents fewer specialties in the research field being studied than that produced through the traditional first-author co-citation counting when the same number of top-ranked authors is selected and analyzed. Reasons for these effects are discussed
Emotion recognition within spoken dialog systems
Magdeburg, Univ., Fak. für Elektrotechnik und Informationstechnik, Diss., 2011von Bogdan Vlasenk
Driver affect recognition from real-world speech data in in-vehicle driving environments
In der heutigen Zeit der zunehmenden Autonomie im Straßenverkehr, gewinnen Systeme
zur Erkennung des Fahrerzustandes immer mehr an Bedeutung. Über die
Anaylse des Lenkverhaltens und des Blickverhaltens des Fahrers können einige Zustände
bereits zum Stand der Technik in der Automobilindustrie gezählt werden.
Der tatsächliche intrinsische Zustand des Fahrers, der z.B. durch Feedbacksignale
aus Sprache, Mimik oder Gestik wiedergegeben werden kann, wird momentan noch
vollständig außer Acht gelassen.
Ziel dieser Arbeit ist es, diese Forschungslücke weiter zu schließen, indem die Emotionalität
des Fahrers anhand seiner Sprache erkannt und systemseitig berücksichtigt
werden kann. Um dieses Ziel zu erreichen, muss die vollständige Prozesskette von
der Datenerhebung, über die Datenvoranalyse und ggf. die Durchführung digitaler
Signalverarbeitungs-Schritte, bis hin zur Datenklassifizierung und schlussendlich
der Bewertung der erhaltenen Ergebnisse im Vergleich zu anderen Forschungsergebnissen
aus diesem Bereich, berücksichtigt werden. Die Gesamtheit jedes einzelnen
Prozessschrittes muss hierzu dem Leser nähergebracht werden. Dies begründet auch
den Umfang der vorliegenden Arbeit.
Zu Beginn der Arbeit werden dem Leser folgende drei Forschungshypothesen vorgestellt,
die im Laufe der Arbeit wiederholt aufgegriffen werden:
1. Hypothese: Es ist möglich dem Fahrer während der Fahrt naturalistische Emotionen
zu induzieren.
2. Hypothese: Es ist möglich Störungen des Sprachsignales zu kompensieren.
3. Hypothese: Falls Hypothese 1 und 2 bestätigt werden, ist es möglich automatisch
den emotionalen Zustand des Fahrers anhand prosodischer Sprachmerkmale
zu erkennen.
Durch die sehr geringe Datenlage in diesem Forschungsgebiet wurden zwei Datenaufnahmen
durchgeführt (simuliert und real). Anhand erster simulierter emotionaler
Sprachdaten im Fahrzeug konnten erste Erkenntnisse über die Beschaffenheit der
Daten und das Potential zur Erkennung des emotionalen Zustandes, erlangt werden.
Anhand einer weiteren Datenaufnahme, induzierter Emotionen unter realen Fahrbedingungen,
konnten Detailinformationen zur Erkennung von vier Fahrerzuständen
ermittelt werden (neutral, positiv, verärgert und ängstlich). Die aufgenommenen Daten
wurden, anhand der Selbsteinschätzung des Fahrers (unter Verwendung des Geneva
Emotional Wheel und den Self-Assessment Manikins) und einer Auswertung
ihrer bio-physiologischen Daten, auf ihre emotionalen Inhalte und ihre Verwendbarkeit
validiert. Da realitätsnahe verrauschte Sprachdaten sehr zeitaufwändig in ihrer Generierung
sind und zu Beginn der Arbeit noch nicht vorlagen, wurden erste Untersuchungen
anhand komprimierter Sprachdaten durchgeführt. Anhand dieser Daten wurde
der Effekt digitaler Signalverarbeitungs-Algorithmen auf das Sprachsignal, die
Sprach- und Signalqualität und die Erkennung der Emotionen analysiert. Es konnte
festgestellt werden, dass die angewendeten Audio-Codecs je nach ihrem designierten
Einsatzgebiet unterschiedliche Einflüsse auf die Sprach- und Signalqualität
und die Erkennungsleistung der Emotionen haben. Vor allem Codecs, die für die
Komprimierung von Musik entwickelt wurden, haben einen geringeren Einfluss auf
die Emotionserkennung als Codecs, die für die Telekommunikation entwickelt wurden.
Im Fall der Anwendung von Musik-Codecs konnte sogar eine Verbesserung
der Erkennungsleistung im Vergleich zu unkomprimierten Sprachdaten erzielt werden.
Ähnliche Untersuchungen wurden anhand der simulierten emotionalen Sprache
im Fahrzeug durchgeführt, indem die im Original unverrauschten Sprachdaten mit
ihren künstlich verrauschten Versionen verglichen wurden. Diese Untersuchung zeigte,
dass die Natürlichkeit der Emotionen in der Sprache und die Natürlichkeit der
Datenaufnahmen selbst, den Effekt der Fahrgeräusche auf die Signalqualität beeinflusst.
Des Weiteren konnte ein eindeutiger Rückgang der Erkennungsleistung im
Zusammenhang mit der Abnahme der Signalqualität erkannt werden.
Zur weiteren Nutzung der Datenaufnahmen im realen Fahrzeugumfeld wurde eine
Annotation der Daten durchgeführt. Dies beinhaltete eine dimensionale und kategoriale
Bewertung, die in sich eine hohe Übereinstimmung aufwiesen. Die Ergebnisse
zeigen, dass die Emotionen des Fahrers auch in seiner Sprache widergespiegelt wurden
und somit als Datenbasis für die automatische Erkennung natürlicher Emotionen
im Fahrzeugumfeld genutzt werden können.
Aus der (automatischen) Sprachverarbeitung ist bekannt, dass die Anwendung von
Sprachverbesserungs-Verfahren (engl. speech enhancement) zu einer bemerkenswerten
Erhöhung der Erkennungsraten und des Sprachverständnisses führen kann. Um
zu untersuchen, ob dieser Effekt auch einen Einfluss auf die Erkennungsrate der
Emotionen hat, wurden Untersuchungen zur Anwendbarkeit dieser Algorithmen auf
verrauschter emotionaler Sprache durchgeführt. Es konnte festgestellt werden, dass
die Anwendung dieser Verfahren zu einer starken Manipulation des Merkmalsraums
führt, die im Vergleich zu verrauschter Sprache jedoch keine Verbesserung der Erkennungsleistung
mit sich bringt. Um die Manipulation des Merkmalsraum nicht
als zusätzlichen Freiheitsgrad in die Prozesskette mit einfließen zu lassen, wird die
Anwendung eines solchen Verfahrens nicht empfohlen.
Unter Berücksichtigung der vorangegangenen Ergebnisse wurden schlussendlich zwei
unterschiedliche Klassifikationsverfahren angewandt (Support Vector Machines und
Random Forests), um die Emotion des Fahrers anhand realer Fahrzeugdaten zu
erkennen. Die Klassifizierer wurden dazu in einem leave one speaker out Kreuzvalidierungsverfahren trainiert, optimiert und getestet. Die Optimierung erfolgte
dabei durch die Anwendung eines random search-Verfahrens zur Hyper-Parameter-
Optimierung, einer wrapper basierten Feature Auswahl und einer gezielten Reduzierung/
Auswahl der verwendeten Sprachdaten aus dem Datensatz. Unter Berücksichtigung
all dieser Aspekte, konnte als bester Klassifizierer ein Random Forest
entworfen werden, der dazu in der Lage ist, den emotionalen Zustand des Fahrers,
im vorliegenden 4-Klassenproblem, mit einer precision von über 52% und einem
recall von über 35% zu erkennen.With an increase of autonomy in vehicles, also the importance of driver state detection
systems is becoming more relevant. By analyzing the driver’s steering behaviour
and her/ his gaze direction, the modern automotive industry is able to detect a limited
number of driver states (e.g. tiredness or attention). The true intrinsic state
of the driver, which is, for example, communicated through feedback signals in her/
his speech, facial expressions or gestures, is still being neglected.
The goal of this Thesis is to close this research gap by considering the driver’s speech
data to detect her/ his emotional state. This does not only include the design of
a classifier, but the whole process chain of performing a suitable data collection,
pre-processing of said data, implementation of relevant signal processing steps (e.g.
speech enhancement) and finally also validating the designed classifier. This broad
field of research also reasons the size of the Thesis.
At the beginning of the Thesis the following three research hypotheses are introduced
to the reader and will accompany her/ him throughout the Thesis:
1. Hypothesis: It is possible to induce naturalistic emotions in the driver, while
driving in a real vehicle.
2. Hypothesis: It is possible to compensate effects of speech distortion.
3. Hypothesis: Under the assumption that hypotheses 1 and 2 apply, it is possible
to automatically detect the emotional state of the driver by only considering
the speech signal of the driver and its prosodic features.
Because of the relatively low amount of freely available emotional speech data in
in-vehicle environments, two data collections focusing on this noise environment (simulated
and real-world) were performed. The simulated data was used to receive
first insights on the noisy speech characteristics and its potential to be used to detect
the driver’s emotional state. A second real-world data collection was performed
afterwards, and used to gain detailed information on the four most relevant emotional
states occurring while driving (neutral, positive, angry and anxious). By using
the drivers’ self-reports (obtained by utilizing the Geneva Emotional Wheel and the
Self-Assessment Manikins) and the recordings of their bio-physiological parameters,
it was possible to validate the emotion inducement method and the usability of the
collected real-world data.
The just mentioned data collections are highly time consuming to conduct and were
not available at the start of the Thesis. Therefore, the first investigation presented
in this Thesis, was performed on compressed speech data. This degraded data was
used to analyze the effects signal-processing can have on the speech signal itself, the signal quality and the ability to correctly classify the emotional state of a speaker.
It was identified that, especially for speech emotion recognition, codecs developed
for music compression are more suitable than codecs developed for speech compression.
In some cases it was even possible to increase the recognition performance by
applying music compression algorithms, compared to the recognition performance
on uncompressed speech. Similar investigations on noisy speech were performed on
the simulated in-vehicle speech data. By comparing the original emotional speech
samples with their degraded noisy counter parts, it was possible to identify that
the naturalness of the original speech samples plays a decisive role on the effect invehicle
noises have on the signal quality. Furthermore, with decreasing signal quality
also the recognition performance of the classifier decreased.
To verify the usability of the real-world driving data, a further annotation of the
speech samples considering their emotional content was needed. This annotation
was done utilizing a dimensional (valence vs. arousal) and a categorial (4 considered
emotional states) labeling approach. In this process both approaches showed a high
consistency in their results. These results show that the emotional state of the driver
is also mirrored in the speech signal and that the recorded data is suitable for
automatic speech emotion recognition in a real-world driving environment.
In case of noisy speech data and (automatic) speech recognition, it is known that
by applying speech enhancement algorithms, significant increases in recognition rate
and speech understanding can be achieved. To identify if these effects also occur in
case of speech emotion recognition, suitable speech enhancement algorithms were
applied to the simulated in-vehicle data. It was identified that by applying this
method of signal processing steps to the noisy speech samples, the features used for
the speech emotion recognition task were altered significantly but the recognition
performance was not improved. To prevent this additional factor from influencing
the emotion recognition task, it was decided to not apply speech enhancement in
the further scope of the Thesis.
Finally, by considering and utilizing the above findings, two classification approaches
(Support Vector Machines and Random Forest) were used to identify the driver’s
emotional state in a real-world driving scenario. By utilizing a leave one speaker
out cross-validation scheme the classifiers were trained, optimized and tested. The
optimization step included a hyper-parameter optimization using random search, a
wrapper based feature selection and an adjusted of the data set, by reducing the
data set to a tailored selection of speech samples. With regard to this approach,
as best performing classifier for the present four class classification task, a random
forest with a precision of over 52% and a recall of over 35% was designed
Multimodal automatic user disposition recognition in human-machine interaction
von Ronald Böc
Contributions to Automatic Interaction Analysis of Meetings
Psychological interaction analyses (IAs) of face-to-face meetings are typically based on a large number of audio and video recordings that must be carefully annotated manually before the actual analysis can start. Since this process is very time-consuming and costly, it limits not only the amount of data that can be taken into account but also the level of detail that can be reached in the analysis. Therefore, the automatic interaction analysis (AIA) of meetings has become a vital research topic, which aims to facilitate psychological interaction studies by developing methods for the automatic processing and analysis of meeting data. For an AIA of meetings based on acoustic data, high-quality audio recordings of each meeting participant are required. This is best achieved by multichannel audio recordings, where each meeting participant is equipped with a close-talk microphone and recorded in an individual target microphone channel. However, so-called crosstalk is a common problem with such audio recordings and describes the effect that a target speech signal of an active speaker does not only couple into his assigned microphone but also into the microphones of all other participants. Consequently, the speech signals of the participants are disturbed by each other, which significantly complicates the processing of the audio signals and also strongly affects the performance of speech analysis methods for an AIA. To solve this issue, this thesis presents innovative contributions to the automatic processing and analysis of multichannel close-talk audio recordings of meetings suffering from crosstalk. For this purpose, an overall meeting emotion analysis system (OMEAS) is presented, which is able to deal with high-level crosstalk. It consists of three novel methods that in combination reduce the crosstalk in the target microphone signals, detect all utterances of the target speakers, and estimate the emotions of the speakers in each detected utterance. Each method is developed individually regarding its respective research field, thereby advancing the state of the art as comparisons with respective baseline approaches show. For the evaluation w.r.t. different crosstalk levels, a realistic meeting scenario is simulated based on the acoustic characteristics of a real meeting room. The conducted investigations – based on objective evaluation metrics – demonstrate experimentally that the proposed OMEAS is robust against crosstalk and that the performance of automatic speech analysis methods can be significantly improved by applying the developed speech enhancement component of the OMEAS. Moreover, based on the provided output signals of the OMEAS, further analyses can be performed, so that the OMEAS already represents an important step to facilitate the time-consuming annotation process for psychological IAs.Psychologische Interaktionsanalysen von Meetings basieren typischerweise auf einer Vielzahl von Audio- und Videoaufzeichnungen, die vor der eigentlichen Analyse sorg- fältig per Hand annotiert werden müssen. Da dieser Prozess sehr zeitaufwendig und kostspielig ist, limitiert er nicht nur die Datenmenge, die betrachtet werden kann, sondern auch den erreichbaren Detailgrad der Analyse. Aus diesem Grund hat sich die automati- sche Interaktionsanalyse von Meetings zu einem wichtigen Forschungsthema entwickelt, welches das Ziel verfolgt, psychologische Interaktionsstudien durch die Entwicklung von Methoden zur automatischen Verabeitung und Analyse von Meeting-Daten zu erleichtern. Für eine automatische Interaktionsanalyse von Meetings basierend auf akustischen Da- ten wird für jeden Teilnehmer eine qualitativ hochwertige Audioaufnahme benötigt. Dies wird am besten mit einer mehrkanaligen Audioaufnahme erzielt, bei der jeder Teilnehmer mit einem Nahbesprechungsmikrofon ausgestattet und in einem separaten Zielmikrofon- kanal aufgenommen wird. Ein bekanntes Problem hierbei ist allerdings das sogenannte „Übersprechen“, welches den Effekt beschreibt, dass das Zielsprachsignal eines aktiven Sprechers nicht nur in das ihm zugeordnete, sondern auch in alle anderen Mikrofone als Übersprechsignal einkoppelt. Folglich stören sich die Sprachsignale der einzelnen Sprecher gegenseitig, wodurch die Verarbeitung von Audiosignalen deutlich erschwert, und auch die Leistung von Sprachanalysemethoden der automatischen Interaktionsana- lyse stark beeinträchtigt werden. Um dieses Problem zu lösen, werden in dieser Arbeit innovative Beiträge für die automatische Verarbeitung und Analyse von mehrkanaligen, durch Übersprechsignale gestörte Nahbesprechungsaufnahmen von Meetings präsentiert. Hierzu wird ein Gesamtsystem zur sprachbasierten Emotionsanalyse in Meetings vorge- stellt, welches mit lauten Übersprechsignalen umgehen kann. Das System besteht aus drei neuartigen Methoden, die in Kombination die Übersprechanteile im Zielmikrofonsignal reduzieren, alle Äußerungen der Zielsprecher detektieren, und die Sprecher-Emotionen in jeder detektierten Äußerung schätzen. Jede Methode wurde individuell bezüglich ihres je- weiligen Forschungsfelds entwickelt und konnte den Stand der Technik vorantreiben, wie Vergleiche mit jeweiligen Referenzverfahren zeigen. Für die Auswertung bezüglich ver- schiedener Übersprechsignalstärken wurde ein realistisches Meeting-Szenario basierend auf den akustischen Eigenschaften eines realen Meeting-Raumes simuliert. Die auf objek- tiven Metriken basierenden Untersuchungen zeigen, dass das präsentierte Gesamtsystem robust gegen Übersprechsignale ist und die entwickelte Sprachverbesserungsmethode die Leistung von automatischen Sprachanalysen deutlich verbessert. Darüber hinaus können aufbauend auf den Ausgangssignalen des Gesamtsystems weitere Analysen durchgeführt werden, sodass das System einen wesentlichen Schritt zur Erleichterung des zeitaufwen- digen Annotationsprozesses von psychologischen Interaktionsanalysen darstellt
Accessing the interlocutor : recognition of interaction-related interlocutor states in multiple modalities
The research in the field of human-computer interaction aims at enabling technical
systems to interact with humans in the same way that humans do among
themselves. One aspect of natural human interaction is implicitly communicating
the internal state, such as the current emotions, using voice, gestures
and facial expressions. Gaining access to this information is one of the central
topics addressed in affective computing.
This thesis focuses on the automatic recognition of three internal interlocutor
states highly relevant for the domain of human-computer interaction – namely
trouble, satisfaction and cooperativeness – using different interlocutor signals,
such as speech or acoustic signals, physiological signals and spatial upper-body
movements. Three existing corpora of interaction data provide the empirical
base for the investigations.
The aim of the thesis is to enhance the understanding of interaction-related
interlocutor states by developing approaches for their automatic recognition.
Furthermore, this thesis contributes to the current state of the art by discussing
three methodological challenges: finding appropriate data and developing
general data requirements, selecting appropriate modalities and features, and
implementing appropriate classification and performance evaluation methods.
As a main objective, three recognition tasks were accomplished: the recognition
of trouble, satisfaction, and cooperativeness. For these tasks, existing
machine learning techniques were applied: random forests, support vector machines
and naïve Bayes classification. All three tasks were performed as binary
classification tasks. The evaluation of all three classification approaches was
done in a subject-independent way to ensure the generalisation ability of the
classifiers.
The conducted research leads to the conclusion that the three investigated interlocutor
states can be accessed using features obtained from the considered
behavioural signals. Depending on data and setting, the recognition accuracy
varies between 64% and 87% f-measure. The physiological signals provided
the best recognition results, but it can be argued that for certain applications,
especially when other signals are not available, speech enables sufficient recognition
performance to create systems adapting to their users’ current states. In
order to further improve the ability of technical systems to access these states,
it is necessary to expand the current understanding of both, the expression of
human interaction behaviour and its processing.Die Forschung auf dem Gebiet der Mensch-Computer-Interaktion hat das Ziel,
Systeme zu entwickeln, die mit Menschen auf die gleiche Art interagieren können,
wie Menschen es untereinander tun. Ein Aspekt von natürlicher menschlichen
Interaktion ist die implizite Vermittlung des inneren Zustandes, beispielsweise
der Emotionen, mit Hilfe von Stimme, Gestik, Mimik, etc. Der Zugang zu
diesen Informationen ist eines der zentralen Themen von Affective Computing.
Diese Arbeit konzentriert sich auf die automatische Erkennung von drei
Gesprächspartner-Zuständen, die für die Mensch-Computer-Interaktion von
großer Bedeutung sind – nämlich Anstrengung, Zufriedenheit und Kooperativität.
Dabei werden unterschiedliche Gesprächspartner-Signale benutzt, wie
Sprache oder akustische Signale, physiologische Signale und Bewegungen des
Oberkörpers. Drei bestehende Korpora liefern die empirische Grundlage für
diese Untersuchungen.
Das Ziel der Arbeit ist es, das Verständnis von interaktionsrelevanten
Gesprächspartner-Zuständen durch Entwicklung von Ansätzen zu ihrer automatischen
Erkennung zu verbessern. Weiterhin trägt diese Arbeit zum aktuellen
Stand der Wissenschaft in drei methodischen Herausforderungen bei: die
Suche nach geeigneten Daten und die Entwicklung von allgemeinen Datenanforderungen,
die Auswahl von geeigneten Modalitäten und Merkmalen und die
Implementierung von geeigneten Klassifikations- und Evaluationsmethoden.
Zur Erreichung des Ziels wurden drei Erkennungsaufgaben bewerkstelligt: die
Erkennung von Anstrengung, Zufriedenheit und Kooperativität. Dabei wurden
existierende Methoden des maschinellen Lernens angewandt: Random Forests,
Support Vector Machines und Naïve Bayes Klassifikation. Alle drei Aufgaben
wurden als binäre Klassifikationsaufgaben aufgefasst. Die Evaluierung aller
drei Klassifikationsansätze erfolgte personenunabhängig, um die Generalisierungsfähigkeit
der Klassifikatoren zu garantieren.
Die durchgeführte Forschungsarbeit lässt den Schluss zu, dass die untersuchten
Gesprächspartner-Zustände mit Hilfe der aus den betrachteten Verhaltenssignalen
extrahierten Merkmale erkannt werden können. Dabei variiert die Erkennungsgenauigkeit
in Abhängigkeit von Daten und Setting zwischen 64%
und 87% F-Measure. Die physiologischen Signale liefern die besten Erkennungsergebnisse,
jedoch kann argumentiert werden, dass für bestimmte Anwendungen,
insbesondere bei Nichtverfügbarkeit von anderen Signalen, Sprache
eine ausreichende Erkennungsleistung ermöglicht, um Systeme zu entwickeln,
die sich auf den aktuellen Nutzerzustand einstellen können. Um die Fähigkeit
von technischen Systemen zu verbessern, diesen Zustand zu erfassen, ist es notwendig, das derzeitige Verständnis sowohl von Ausdruck menschlichen
Verhaltens als auch von dessen Verarbeitung auszubauen
Variations on the Author
“Variations on the Author” discusses two of Eduardo Coutinho’s recent films (Um Dia na Vida, from 2010, and Últimas Conversas, posthumously released in 2015) and their contribution to the general question of documentary authorship. The director’s filmography is characterized by a consistent yet self-effacing form of authorial self-inscription: Coutinho often features as an interviewer that rather than express opinions propels discourses; an interviewer that is good at listening. This mode of self-inscription characterizes him as an author who is not expressive but who is nonetheless markedly present on the screen. In Um Dia na Vida, however, Coutinho is completely absent form the image, while Últimas Conversas, on the contrary, includes a confessional prologue that moves the director from the margins to the center of his films. This article examines the ways in which these works stand out in the filmography of a director who offers new insights into the notion of cinematic authorship
- …
