Theory of Mind and Emotion Recognition
The Influence of Authenticity on the Perception of Emotional Prosody
by Matthis Drolet
Date of Examination:2013-05-08
Date of issue:2013-05-28
Advisor:Prof. Dr. Julia Fischer
Referee:Prof. Dr. Julia Fischer
Referee:Prof. Dr. Christiane Thiel
Files in this item
Name:Drolet_Dissertation_FINAL_REV_noCV.pdf
Size:13.3Mb
Format:PDF
Description:Web-ready version
Name:Drolet_Dissertation_FINAL_REV_noCVHQ.pdf
Size:13.3Mb
Format:PDF
Description:High-quality version for printing
Abstract
English
Perceiving and understanding social stimuli, including facial expressions, body language and vocalizations, is essential to human interactions. The ability to correctly identify internal states of others through such stimuli, also called social cognition, is necessary for understanding and predicting the behaviors of others. The identification of internal states through stimulus information and previous experiences is known as a “Theory of Mind” (ToM). ToM, or mentalising, is the ability to attribute specific mental states (e.g. desires, beliefs, and intentions) to others. Emotional expressions are a particularly important category of stimuli in social interactions. In this project, I focus specifically on vocal expressions of emotion. The recognition of emotion in the voice relies on the nonverbal component of vocal expressions, also called intonation or prosody. However, the recognition of emotional prosody has been found to depend on a variety of other factors, such as context or the cultural background of the speaker or perceiver. Here I investigate the recognition of emotional expression and authenticity to examine interactions between vocal expression and context. The difference between authentic and play-acted emotional expressions provides an ideal platform to examine these interactions. These categories differ in context due to the different intentional states of the individuals expressing the emotion. The authentic recordings used in this project came from radio interviews and were internally initiated, while the play-acted ones were produced by actors who were told the text, context, and emotion to be expressed and were, therefore, externally initiated. Because the recording categories were characterized by differences in the mental state of the speakers, I expected that the detection of authenticity and its effect on emotion recognition would depend on ToM processing. One goal of this dissertation was to determine whether stimulus authenticity influences emotion recognition and modulates activity in the neuronal substrates involved in that recognition. Experimentally, participants judged either the authenticity or emotional content (anger, fear, joy, or sadness) of the recordings while being scanned by way of functional magnetic resonance imaging (fMRI). Authenticity affects emotion recognition, such that anger was recognized best when play-acted and sadness when authentic, and the ToM network in the brain was recruited for explicit judgments of authenticity. In addition, authentic recordings were found to enhance activity in the medial prefrontal cortex. This demonstrates the necessity of ToM processes in the recognition of authenticity, the concurrent influence on the perception of emotional expressions, and the recruitment of additional cognitive resources for perception of authentic expressions. To clarify the nature of the effect of authenticity, I additionally compared the findings across three countries to examine the influence of universals and cultural-specificities. Participants from Germany, Romania, and Indonesia were tested on a similar behavior-only recognition experiment. Participants in all three countries were equally poor at distinguishing the authenticity of expressions. Nevertheless, the effect of authenticity on emotion recognition was nearly identical across all three cultural groups. Although German subjects revealed a slight advantage in recognizing emotions overall, differential cultural effects became particularly apparent through differential biases in emotion attribution. German participants exhibited a bias towards choosing anger for all stimuli, while Romanian and Indonesian participants were biased differently for authentic expressions, preferentially categorizing these as sadness. This suggests that complex interactions between human universals and cultural specificities influence emotion and authenticity recognition. Further examination of the effect of authenticity was focused on understanding the proximate reasons for both the behavioral and brain effects. To do this, I tested the direct stimulus-induced influence of authenticity on brain activation and whether top-down knowledge about authenticity would interfere with the stimulus effect. While participants were tasked only with emotion recognition, two-thirds of stimulus playbacks were cued as either authentic or play-acted, and either congruent or incongruent to the stimulus. During uncued trials, play-acted stimuli spontaneously up-regulate activity in the auditory cortex and areas associated with processing of emotional prosody, but the stimulus-driven effect of authenticity in the medial prefrontal cortex was not replicated. While cueing did not affect emotion recognition, cue and stimulus interaction did up-regulate activation in the posterior superior temporal sulcus and the anterior cingulate cortex. When a play-acted stimulus followed a cue indicating an authentic stimulus, activation in the temporoparietal junction also increased, indicating additional perspective-taking in ToM processes. What remained unclear, however, is how authenticity is perceived acoustically. Examining the effect of fundamental frequency contour, which varies more in play-acted expressions than authentic ones, I wished to determine whether contour affects not only authenticity but also emotion recognition and correlated brain activation. Stimuli with lower contour were preferentially categorized as either sad or authentic, while activation in the primary auditory cortex was up-regulated task-independently by increased contour. Contour and task additionally interacted in a network including medial prefrontal cortex, with increased activity related to low-contour stimuli during explicit perception of authenticity versus an increase for high-contour stimuli during explicit perception of emotion. Contour-induced effects appear to be purely stimulus-driven in early auditory and intonation perception, while being strongly task-dependent in regions involved in higher cognition. The behavioral and functional results show that authenticity of emotional prosody is an important property that influences human responses to such stimuli, with implications for studies using play-acted emotions. The effect of stimulus authenticity on brain activity suggests that perceiving intention influences the recognition of vocally expressed emotions. This effect can be simultaneously task-dependent, as seen in parts of the ToM network, and stimulus-driven, as seen in early auditory and intonation processing. In addition, contextual information can further modulate the brain response to differences in the authenticity of emotionally expressive speech. In combination with the cross-cultural data this supports the view that the influence of speaker intention on emotion recognition relies on complex interactions of universals and cultural-specificities in emotion expression.
Keywords: emotion; theory of mind; speech; intonation; prosody; authenticity; mentalize; recognition
Other Languages
In zwischenmenschlichen Interaktionen sind die Wahrnehmung und das Verstehen von sozialen Äußerungen, zu denen Gesichtsausdrücke, Körpersprache und Lautgebung gehören, unentbehrlich. Die Fähigkeit den mentalen Zustand anderer Personen identifizieren zu können, auch als soziale Kognition bekannt, ist notwendig um das Verhalten anderer verstehen und interpretieren zu können. Diese Identifikation des mentalen Zustandes durch die Kombination von Reizinformation und eigener Erfahrung ist als "Theory of Mind" (ToM) bekannt. ToM ist die Fähigkeit anderen Personen bestimmte mentale Zustände (Wünsche, Glauben, Absichten und Emotionen) zuzuschreiben. Emotionale Ausdrücke stellen dabei besonders wichtige Reize in sozialen Interaktionen dar, wobei sich diese Arbeit spezifisch auf vokale emotionale Ausdrücke beschränkt. Das Erkennen von Emotionen in der Stimme geschieht durch nicht-verbale Komponenten, die bei der Lautproduktion entstehen und u.a. als Intonation oder Prosodie bekannt sind. Allerdings wird die Erkennung von emotionaler Prosodie stark von anderen Faktoren beeinflusst, so wie Kontext oder Kultur des Sprechers und Zuhörers.
Um die Interaktion zwischen emotionalem Ausdruck und Kontext weiter aufzuklären, habe ich die Erkennung von Ausdrücken in der Stimme in Zusammenhang mit der Authentizität untersucht. Der Unterschied zwischen authentischen und gespielten emotionalen Ausdrücken bietet eine ideale Grundlage für die Erforschung dieser Interaktion. Beide Stimulus-Arten unterscheiden sich im Kontext der Produktion durch die unterschiedliche Intention des jeweiligen Sprechers. Die in diesem Projekt verwendeten authentischen Tonaufnahmen stammen aus Radiointerviews und waren intern initiiert, während die gespielten Tonaufnahmen von Schauspielern produziert wurden, die den Text, den Kontext der Aufnahme und die jeweilige Emotion zugewiesen bekamen, und daher extern initiiert waren. Meine Erwartung war, dass die Erkennung der Authentizität durch eine ToM Verarbeitung geschehen würde, da die unterschiedlichen Tonaufnahmen durch einen Unterschied im mentalen Zustand des Sprechers charakterisiert sind.
Ich wollte feststellen, ob die Erkennung der emotionalen Ausdrücke und die damit einhergehende Gehirnaktivierung von der Authentizität des Stimulus Materials beeinflusst werden. Experimentell sollten Individuen, die in einem Magnetresonanztomographen lagen, entweder die Authentizität oder die Emotion (Wut, Angst, Freude, Trauer) der Tonaufnahmen identifizieren. Authentizität hatte einen deutlichen Einfluss auf die Erkennung von Emotionen, wobei Wut bei gespielten Aufnahmen besser erkannt wurde, Trauer hingegen bei authentischen. Im Gehirn wurde dabei das ToM Netzwerk für die explizite Bewertung der Authentizität rekrutiert. Zusätzlich wiesen die Versuchspersonen bei authentischen Aufnahmen, anders als bei gespielten, eine erhöhte Aktivierung im medialen prefrontalen Cortex auf. Dies weist auf die Notwendigkeit von ToM bei der Erkennung von Authentizität, den gleichzeitigen Einfluss auf die Wahrnehmung von emotionalen Ausdrücken, und die erhöhte Rekrutierung kognitiver Ressourcen für authentische Ausdrücke hin.
Um die Eigenschaften des Effekts von Authentizität zu verdeutlichen, habe ich diesen Befund auf universelle und kultur-spezifische Einflüsse in drei unterschiedlichen Ländern geprüft. Individuen aus Deutschland, Rumänien und Indonesien wurden in einem ähnlichen Experiment, aber nur auf Verhalten, getestet. Obwohl Teilnehmer aus den unterschiedlichen Ländern die Authentizität der Aufnahmen nur schwer erkennen konnten, war der Authentizitätseffekt auf die Emotionserkennung für alle Kulturen sehr ähnlich. Die wichtigsten Unterschiede kamen durch Neigungen für bestimmte Emotionen zustande. Die deutschen Versuchspersonen waren bei den gespielten wie auch bei den authentischen Aufnahmen eher dazu geneigt Wut zu wählen, während Versuchspersonen aus Rumänien und Indonesien sich bei den authentischen Emotionen, im Gegenteil zu den Deutschen, vermehrt für Trauer entschieden. Dies weist auf eine komplexe Interaktion universeller und kultur-spezifischer Effekte bei der Authentizitäts- und Emotionserkennung hin.
Für weitere Aufklärung des Authentizitäteffektes konzentrierte ich mich schließlich auf die proximalen Ursachen des Verhaltens und der Verarbeitung im Gehirn. Zunächst habe ich untersucht, ob der Authentizitätseffekt durch vorheriges Wissen beeinflusst werden kann, indem den Teilnehmern in Zwei-Dritteln der Versuche durch Hinweisung mitgeteilt wurde, ob die vorgespielten Aufnahmen authentisch oder gespielt waren. Diese Aussage war entweder richtig (kongruent) oder falsch (nicht-kongruent). Ganz ohne Hinweise verursachten gespielte Reize eine erhöhte Aktivierung im primären auditorischen Cortex und in Arealen, die wichtig für die Verarbeitung von Prosodie sind. Der Effekt im medialen prefrontalen Cortex war hingegen nicht mehr zu erkennen. Obwohl die Erkennung der emotionalen Ausdrücke durch die gegebenen Hinweise („gespielt“ oder „echt“) nicht beeinflusst wurden, hatten die Hinweise einen klaren Einfluss auf die Gehirnaktivierung. Die allgemeine Interaktion von Hinweis und Authentizität des Reizes verursachten eine erhöhte Aktivierung im superioren temporalen Sulcus und im anterioren Cingulum. Wenn auf den Hinweis eines authentischen Ausdruckes eine gespielte Aufnahme folgte, erhöhte sich die Aktivierung im temporoparietalen Cortex, was auf eine Komponente der ToM Fähigkeit, der gesteigerten Perspektivenübernahme, hindeutet.
Unklar blieb, wie Authentizität akustisch wahrgenommen wird. Die Kontur der Grundfrequenz weist eine größere Variabilität bei gespielten als bei authentischen Aufnahmen auf. Durch eine Analyse des Effektes der Kontur-Variabilität wollte ich feststellen, ob dieser Faktor einen Einfluss auf die Erkennung der emotionalen Ausdrücke und auf die Gehirnaktivierung hat. Aufnahmen mit niedriger Kontur-Variabilität wurden bevorzugt als Trauer oder authentisch kategorisiert, während die Aktivierung im Gehirn durch eine höhere Kontur-Variabilität im primären auditorischen Cortex aufgabenunabhängig erhöht wurde. Hinzu kam, dass die Kontur und die Aufgabe der Versuchsperson (Emotionserkennung versus Authentizitätserkennung) im medialen prefrontalen Cortex interagierten. Eine erhöhte Aktivierung fand bei der Emotionserkennung statt, wenn die Kontur-Variabilität niedrig war, während bei der Authentizitätserkennung eine erhöhte Aktivierung festgestellt wurde, wenn die Variabilität der Kontur hoch war. Der Authentizitätseffekt im Verhalten und in der Gehirnaktivierung scheint also durch Kontur-Variabilität beeinflusst zu sein, ist aber stark aufgabenbedingt in Arealen, die für soziale Kognition wichtig sind.
Die Verhaltens- und Aktivierungsdaten zeigen, dass Authentizität ein wichtiger Faktor bei der Emotionserkennung ist, das auch Auswirkungen auf Studien hat, die gespielte emotionale Ausdrücke benutzen. Die Effekte zur Gehirnaktivierung des ToM Netzwerkes suggerieren, dass die Erkennung von Intention einen Einfluss auf die Wertung von emotionalen Ausdrücken in der Stimme hat. Der Einfluss der Authentizität des Stimulus kann gleichzeitig aufgabenabhängig, beispielsweise in Teilen des ToM Netzwerkes, und Stimulus-angetrieben, im primären auditorischen Cortex, sein. Weiterhin können Kontextinformationen die Gehirnaktivierung, die durch Authentizität moduliert wird, zusätzlich beeinflussen. Wenn diese Ergebnisse gemeinsam mit den Unterschieden zwischen den getesteten Kulturen betrachtet werden, wird deutlich, dass der Einfluss der Intention des Sprechers auf die Erkennung von Emotionen auf einer komplexen Interaktion von universellen und kultur-spezifischen Effekten beruht.