Leveraging Deep Learning Approaches for Predicting Social Ties, Sharing Audience, and Content Sensitivity in Online Social Media Networks
English
In an era where digital communication and content sharing proliferate, managing and protecting users' privacy becomes increasingly challenging and crucial. This particularly intensifies with the fast-paced adoption of social media networks. By promoting connectivity and information sharing, social media networks offer to users numerous benefits including boosting their self-esteem and their personal well-being. These positive outcomes are however counterbalanced with the risks of privacy breaches. In particular, sharing sensitive content online with an inappropriate audience can endanger users' privacy and may have severe consequences, such as job dismissals and reputation damage.
While current social media networks offer privacy settings intended to help users control the visibility of their content being shared, these settings require manual adjustments with each post. This is a time-consuming and complex process, which leads to under-utilization and being unable to suit users' needs.
To address this issue, this dissertation investigates novel information privacy prediction approaches by leveraging machine learning and deep learning techniques to assist users in their online sharing decisions.
In more details, we first delve into the prediction of users' social ties through the metadata of mobile communication channels. We consider calls, SMS, emails, and instant messages (i.e., from WhatsApp, Telegram, Facebook Messenger, and Threema) collected from smartphones. To achieve this, we design and implement a mobile application to extract the aforementioned metadata. We utilize the mobile application to conduct a one-month longitudinal study and allow participants to annotate their contacts between friends, family, colleagues, and acquaintances. Based on the user study, we build a dataset and design feature sets to train different machine learning models such as Random Forest. Our evaluation demonstrates that our approach can accurately classify interpersonal relationships into family, friends, colleagues, and acquaintances classes. We also demonstrate that the classification of social ties can be further improved when considering three classes, namely, (acquaintances ∪ friends), family, and colleagues, respectively two of them, namely, family vs. (acquaintances ∪ friends ∪ colleagues).
Secondly, we also conduct another annotation study to label images according to their sensitivity. We then construct the SensitivAlert dataset derived from our second annotation study with a carefully designed selection of annotators and images labeled between different degrees of perceived sensitivity, ranging from clearly sensitive to clearly non-sensitive. We first investigate the image sensitivity prediction on our German-based cohort, by utilizing this dataset and by leveraging recent transformer-based deep learning models. We fine-tune several pre-trained models, namely, BEiT, EVA-02, BERT, and ALBEF among others, to classify images based on content sensitivity. In addition to investigating the performance of the models across annotated images which reached a consensus by the majority of annotators for either sensitive or non-sensitive classes, we also examine individuals' image privacy prediction by fine-tuning based on their individual privacy preferences. Our prediction approaches yield fine-tuned models that accurately reflect broad user privacy perceptions across different cohorts along with our particular German-based cohort. Our BEiT classification-based approach led to a 77.48% f1 on our dataset and 79.03% respectively 82.98% f1 on related datasets. Our proposed approaches thus enable assisting users with image sensitivity sharing suggestions in the context of sharing content online. Moreover, our dataset challenges the image privacy prediction field by offering a robust benchmark.
Additionally, we investigate the feasibility of predicting the appropriate sharing audience based on the content being shared. We introduce the Image Sharing Audience (ISA) dataset derived from the aforementioned image annotation study, where we additionally asked annotators to select the sharing audience given the images. We propose several prediction approaches. We fine-tune pre-trained (1) BEiT and SigLIP vision resp. (2) BERT textual-based models combined with EVA-02 for inference. To this end, we are able to accurately identify intended audience groups based on the content being shared, namely, family, friends, colleagues, acquaintances, no-one, and everyone. This proposed line combined with the image sensitivity prediction, and prediction of one's interpersonal relationship with others pave the way to preserve users' privacy by alerting them about sensitive content, as well as, suggesting appropriate social tie-sharing audience supported with the contacts-grained listing in specific social ties. We show that our methods enable us to accurately determine the social tie audience groups of the content, achieving an f1-micro score of 0.83.
Moreover, we examine the prediction of textual content by fine-tuning the BERT transformer model not only on content sensitivity alone but also by introducing a pipeline that utilizes our sentiment prediction model to enhance the content sensitivity, which in turn outperforms other existing solutions. We show that integrating sentiment features into sensitivity analysis enhances our method, resulting in approximately a 3% f1 rise compared to utilizing our basic sensitivity classification. Specifically, the f1 score improves from 83.96% to 87.01%. To a similar line, we integrate XGBoost, Latent Dirichlet Allocation, and Generalized Additive Models to investigate the non-linear relationships between tweet topics and sensitivity. First, we introduce our extended dataset of sensitive and non-sensitive tweets.
We further investigate different sensitive topics and terms along with highlighting the significance of different variables, especially, posted time, and negative/positive sentiment in content sensitivity.
Jointly, our privacy prediction approaches underscore the benefit of leveraging machine learning and in particular deep learning methods to assist users in the context of sharing content online on social media networks. In summary, our approaches are four-fold. They address (1) the prediction of social ties using communication metadata, (2) the prediction of image sensitivity, and respectively (3) the prediction of an appropriate image-sharing audience, both based on the content and/or associated image user tags, as well as, (4) modeling of textual content sensitivity. This includes (4a) the prediction of textual content sensitivity, along with (4b) the relationships modeling between content topics and sensitivity.
By employing our solutions from social tie prediction to content sensitivity and content sharing audience predictions, our research paves the way for better assisting users in the digital information age.
Keywords: Image Privacy Prediction; Textual Privacy Prediction; Access Control Prediction; Deep Learning; Machine Learning; Social Network Sites
German
In einer Ära, in der sich die digitale Kommunikation und der Austausch von Informationen ausbreiten, wird die Verwaltung und der Schutz der Privatheit der Nutzer immer schwieriger und wichtiger. Dies gilt insbesondere für die rasche Verbreitung sozialer Mediennetzwerke. Durch die Förderung der Vernetzung und des Informationsaustauschs bieten soziale Mediennetzwerke den Nutzern zahlreiche Vorteile, darunter die Stärkung ihres Selbstwertgefühls und ihres persönlichen Wohlbefindens. Diesen positiven Effekten stehen jedoch die Risiken der Verletzung der Privatheit gegenüber. Insbesondere das Teilen sensibler Inhalte im Internet mit einem unangemessenen Publikum kann die Privatheit der Nutzer gefährden und schwerwiegende Folgen haben, z. B. Entlassungen und Rufschädigung.
Die derzeitigen sozialen Netzwerke bieten zwar Privatheiteinstellungen an, die den Nutzern helfen sollen, die Sichtbarkeit der von ihnen geteilten Inhalte zu kontrollieren, doch müssen diese Einstellungen bei jedem Beitrag manuell angepasst werden. Dies ist ein zeitaufwändiger und komplexer Prozess, der dazu führt, dass die Einstellungen nicht ausreichend genutzt werden und nicht den Bedürfnissen der Nutzer entsprechen.
Um dieses Problem anzugehen, untersucht diese Dissertation neuartige Ansätze zur Vorhersage der Privatheit von Informationen durch den Einsatz von Techniken des maschinellen Lernens und von Deep Learning, um die Nutzer bei ihren Entscheidungen über das Teilen von Informationen online zu unterstützen.
Im Einzelnen befassen wir uns zuerst mit der Klassifizierung der zwischenmenschlichen Beziehungen der Nutzer anhand der Metadaten von mobilen Kommunikationskanälen. Wir betrachten Anrufe, SMS, E-Mails und Sofortnachrichten (d. h. von WhatsApp, Telegram, Facebook Messenger und Threema), die von Smartphones gesammelt werden. Zu diesem Zweck entwickeln und implementieren wir eine mobile Applikation, um die oben genannten Metadaten zu extrahieren. Wir nutzen die mobile Applikation, um eine einmonatige Längsschnittstudie durchzuführen und ermöglichen den Teilnehmern, ihre Kontakte zwischen Freunden, Familie, Kollegen und Bekannten zu annotieren. Auf der Grundlage der Nutzerstudie erstellen wir einen Datensatz und entwerfen Merkmalssätze, um verschiedene maschinelle Lernmodelle wie Random Forest zu trainieren. Unsere Auswertung zeigt, dass unser Ansatz zwischenmenschliche Beziehungen akkurat zwischen Familie, Freunden, Kollegen und Bekannten klassifizieren kann. Wir demonstrieren auch, dass die Klassifizierung von sozialen Beziehungen weiter verbessert werden kann, wenn drei Klassen betrachtet werden, nämlich (Bekannte ∪ Freunde), Familie und Kollegen, bzw. zwei davon, nämlich Familie vs. (Bekannte ∪ Freunde ∪ Kollegen).
Zweitens führen wir zunächst eine weitere Annotationsstudie durch, um Bilder nach ihrer Empfindlichkeit zu labeln. Anschließend erstellen wir den SensitivAlert-Datensatz, der aus unserer zweiten Annotationsstudie stammt, mit einer sorgfältig konzipierten Auswahl von Annotatoren und Bildern, die mit verschiedenen Graden der wahrgenommenen Empfindlichkeit gelabelt wurden, die von eindeutig empfindlich bis eindeutig nicht empfindlich reichen. Wir untersuchen zunächst die Klassifizierung der Empfindlichkeit von Bildern in unserer deutschen Kohorte, indem wir diesen Datensatz verwenden und die neuesten transformerbasierten Deep-Learning-Modelle einsetzen. Wir trainieren mehrere vortrainierte Modelle, unter anderem BEiT, EVA-02, BERT und ALBEF, um Bilder anhand ihrer Empfindlichkeit zu klassifizieren. Neben der Untersuchung der Leistung der Modelle für annotierte Bilder, die von der Mehrheit der Annotatoren entweder als sensibel oder als nicht sensibel eingestuft wurden, untersuchen wir auch die Klassifizierung der Privatheit von Bildern durch eine Feinabstimmung auf der Grundlage der individuellen Privatheitsvorlieben. Unsere Klassifizierungsansätze führen zu trainierten Modellen, die die breite Wahrnehmung der Privatheit von Nutzern über verschiedene Kohorten hinweg akkurat widerspiegeln, ebenso wie unsere spezielle in Deutschland ansässige Kohorte. Unser BEiT-Klassifizierungsansatz führte zu einem 77,48% f1 in unserem Datensatz und 79,03% bzw. 82,98% f1 in verwandten Datensätzen. Unsere vorgeschlagenen Ansätze ermöglichen es also, den Nutzern mit Vorschlägen für das Teilen von sensiblen Bildern im Zusammenhang mit dem Teilen von Online-Inhalten zu helfen. Darüber hinaus stellt unser Datensatz eine Herausforderung für die Vorhersage der Privatheit von Bildern dar, indem er ein robustes Benchmarking bietet.
Zusätzlich untersuchen wir die Möglichkeit der Vorhersage der geeigneten Zielgruppe auf der Grundlage des geteilten Inhalts. Wir stellen den Datensatz Image Sharing Audience (ISA) vor, der aus der oben erwähnten Annotationsstudie stammt, bei der wir die Annotatoren zusätzlich gebeten haben, die Zielgruppe für das Teilen von Bildern zu bestimmen. Wir schlagen mehrere Klassifizierungsansätze vor. Wir trainieren vortrainierte (1) BEiT und SigLIP visuelle bzw. (2) BERT textbasierte Modelle in Kombination mit EVA-02 zur Inferenz. Zu diesem Zweck sind wir in der Lage, die beabsichtigten Zielgruppen auf der Grundlage des geteilten Inhalts genau zu identifizieren, nämlich Familie, Freunde, Kollegen, Bekannte, niemand und jeder. Diese vorgeschlagene Linie in Kombination mit der Vorhersage der Bildempfindlichkeit und der Klassifizierung der zwischenmenschlichen Beziehung einer Person zu anderen ebnet den Weg, die Privatheit der Nutzer zu schützen, indem sie vor sensiblen Inhalten gewarnt werden, und schlägt geeignete Zielgruppen vor, die durch die Auflistung der Kontakte in bestimmten sozialen Beziehungen unterstützt werden. Wir zeigen, dass unsere Methoden es uns ermöglichen, die Zielgruppen der Inhalte genau zu bestimmen und einen f1-micro-Wert von 0,83 zu erreichen.
Weiterhin untersuchen wir die Klassifizierung von Textinhalten, indem wir das BERT- Transformer-Modell nicht nur auf der Grundlage der reinen Inhaltssensitivität trainieren, sondern auch eine Pipeline einführen, die unser Sentiment-Klassifizierungsmodell nutzt, um die Inhaltssensitivität zu verbessern und anschließend andere bestehende Lösungen zu übertreffen. Wir zeigen, dass die Integration von Stimmungsmerkmalen in die Empfindlichkeitsanalyse unsere Methode verbessert, was zu einer ungefähren f1-Steigerung von 3% im Vergleich zur Verwendung unserer grundlegenden Empfindlichkeitsklassifizierung führt. Konkret verbessert sich der f-1-Score von 83,96% auf 87,01%. In ähnlicher Weise integrieren wir XGBoost, Latent Dirichlet Allocation und Generalized Additive Models, um die unlinearen Beziehungen zwischen Tweet-Themen und Empfindlichkeit zu untersuchen. Zuerst stellen wir unseren erweiterten Datensatz mit sensiblen und nicht sensiblen Tweets vor. Wir untersuchen auch verschiedene empfindliche Themen und Begriffe und heben die Bedeutung verschiedener Variablen hervor, insbesondere die gepostete Zeit und die negative/positive Stimmung bei der Empfindlichkeit von Inhalten.
Zusammengenommen unterstreichen unsere Methoden zur Klassifizierung von Privatheit den Nutzen des maschinellen Lernens und insbesondere von Deep-Learning-Methoden, um Nutzer bei ihren Entscheidungen beim Teilen von Online-Inhalten in Social-Media-Netzwerken zu unterstützen. Zusammenfassend lassen sich unsere Ansätze in vier Richtungen einteilen. Sie befassen sich mit (1) der Klassifizierung von zwischenmenschlichen Beziehungen anhand von Kommunikations-Metadaten, (2) der Klassifizierung der Bildempfindlichkeit bzw. (3) der Klassifizierung eines geeigneten Bild-geteilten Publikums, sowohl basierend auf dem Inhalt und/oder den zugehörigen Bild-Nutzer-Tags, als auch (4) der Modellierung der Sensitivität von Textinhalten. Dies umfasst (4a) die Klassifizierung der Empfindlichkeit von Textinhalten sowie (4b) die Modellierung der Beziehungen zwischen Inhaltsthemen und Empfindlichkeit.
Durch den Einsatz unserer Lösungen, die die zwischenmenschlichen Beziehungen, die Empfindlichkeit der Inhalte und das Zielpublikum beim Teilen von Inhalten klassifizieren, ebnet unsere Forschung den Weg für eine bessere Nutzerunterstützung im digitalen Informationszeitalter.