SOCIÉTÉ — Détecter la personnalité sur les réseaux sociaux

Frédéric Piedboeuf — Programme de doctorat en informatique

SOCIÉTÉ — Détecter la personnalité sur les réseaux sociaux

De nombreuses informations peuvent être recueillies grâce à ce que les gens publient sur les réseaux sociaux. Parmi ces données subtiles se trouve le type de personnalité de l’utilisateur. Cette détection de la personnalité a de nombreuses utilités, non seulement pour les entreprises privées, mais également pour l’amélioration de la compréhension du comportement humain. Depuis les années 2000, de nombreux experts en intelligence artificielle travaillent à fournir à l’ordinateur cette capacité de détection de la personnalité. Comment, toutefois, les ordinateurs peuvent-ils détecter quelque chose d’aussi complexe ? Regard sur une technologie qui observe l’usager sans même qu’il le sache.

Même au cours d’une journée banale, des conflits émergent souvent entre deux personnes, uniquement parce qu’elles n’arrivent pas à se comprendre. Ces conflits ne se produisent cependant pas parce que ces personnes manquent d’habiletés sociales : probablement ont-elles simplement des personnalités différentes. Dans ce contexte, comprendre pourquoi l’autre agit ainsi demande une grande capacité d’empathie et une bonne dose de perspicacité.

Si les êtres humains ont de la difficulté à comprendre la personnalité de leurs pairs, les machines peuvent-elles vraiment y arriver, elles qui n’en sont qu’aux balbutiements de leur apprentissage des relations interpersonnelles ? Une communauté internationale de chercheurs en intelligence artificielle tente pourtant, depuis une vingtaine d’années, de détecter automatiquement la personnalité des individus. Ce type de recherche, regroupée sous la dénomination de détection de la personnalité, donne souvent des résultats plus précis que lorsque les humains tentent de faire cette même tâche. Les algorithmes développés ne sont cependant pas pourvus d’habiletés sociales supérieures ; ils s’appuient plutôt sur des indicateurs et des corrélations statistiques pour pouvoir déterminer la personnalité. Réussir à donner aux machines une capacité de compréhension de la personnalité est une étape essentielle pour avancer vers une intelligence artificielle plus complète, et pour mieux comprendre le comportement humain.

Définir la personnalité

Pour pouvoir détecter automatiquement la personnalité des utilisateurs, une compréhension de celle-ci est d’abord requise. Bien que sa définition ait beaucoup évolué, la communauté scientifique s’entend aujourd’hui largement sur « l’organisation mentale des dimensions d’une personne, où les dimensions sont l’ensemble des attributs stables de l’individu[1] » (notre traduction). Autrement dit, la personnalité est l’ensemble de caractéristiques qui, au cours de la vie d’un individu, ne devraient varier que très peu.

Afin de pouvoir mesurer la personnalité, et initialement en collaboration avec diverses industries pour augmenter l’efficacité au travail, des psychologues ont créé des « modèles de personnalité ». Le premier, le Woodworth’s Personal Data Sheet, remonte à 1917 : il servait à l’armée américaine à cibler les soldats qui démontreraient une bonne résilience au stress des bombardements ennemis[2]. Après cet effort initial américain, les modèles de personnalité ont rapidement évolué et été repris partout dans le monde. Ces modèles tentent de diviser les comportements d’une personne en dimensions, qui seraient alors les caractéristiques fondamentales de l’individu et devraient être les attributs stables de celui-ci. Dans un modèle parfait, une compréhension du comportement des personnes grâce à leurs résultats dans ce modèle de personnalité serait possible.

Un des modèles de personnalité souvent utilisés, à la fois en psychologie et dans le domaine de la détection de la personnalité, est le Big-5, qui sépare la personnalité d’une personne en cinq dimensions : l’ouverture aux expériences, le caractère consciencieux, l’extraversion, l’agréabilité et le névrotisme[3]. Ce modèle est basé sur l’hypothèse que les traits fondamentaux des humains se retrouvent naturellement définis par des adjectifs dans le langage, et sa construction vient d’une longue évolution et d’une fusion de plusieurs modèles existant auparavant.

L’ouverture aux expériences représente le degré auquel une personne est prête à essayer de nouvelles choses. Le caractère consciencieux est le degré d’organisation d’une personne dans sa vie. L’extraversion est reliée au niveau d’engagement avec le monde extérieur, et l’agréabilité au niveau auquel une personne recherche l’harmonie sociale. Finalement, le névrotisme est le degré auquel une personne a tendance à ressentir des émotions négatives.

Le Big-5 n’est qu’un des modèles de personnalité qui existent, et bien d’autres ont leur place dans l’imaginaire populaire et en science, tels que le Myers-Briggs Type Indicator[4] (aussi appelé « MBTI », un modèle qui tente de décrire la même chose que le Big-5, mais avec moins de dimensions) ou la triade noire[5] (modèle de personnalité plus spécialisé, axé sur les dimensions de narcissisme, de machiavélisme et de psychopathie). Ces modèles ne sont évidemment pas parfaits et ne représentent qu’une manière simplifiée de voir le comportement humain[6]. En pratique, cependant, ils ont acquis une certaine validité dans la communauté scientifique au cours des années[7].

La théorie derrière la machine

Dans le domaine de la détection de la personnalité, plusieurs points de départ sont possibles, mais récemment, la communauté s’est surtout concentrée sur les réseaux sociaux, tels que Twitter ou Facebook, comme sources d’information. Pour pouvoir détecter la personnalité des utilisateurs, l’ordinateur se base sur des micro-indicateurs, aussi appelés « traits », que les gens laissent souvent de manière inconsciente dans leurs écrits ou dans leurs profils en général.

Bien que la tâche ne soit pas aisée, les ordinateurs sont dans certains cas plus efficaces pour détecter la personnalité basée sur les modèles de personnalité que les humains[8], car ils sont spécifiquement très bons à la détection et à l’utilisation de ces traits. L’étude qui a analysé ces données, intitulée Computer-based personality judgments are more accurate than those made by humans et publiée en 2015 par une équipe de l’Université de Cambridge dirigée par Wu Youyou, montre qu’un algorithme entraîné sur les « J’aime » d’une personne sur Facebook arrive à déterminer sa personnalité aussi efficacement qu’un partenaire de vie. Afin d’apprendre aux algorithmes à utiliser ces traits, les chercheurs du domaine suivent un protocole bien établi.

La première étape est de recueillir un corpus, c’est-à-dire un nombre considérable de profils de réseaux sociaux pour lesquels les chercheurs peuvent obtenir la personnalité de l’usager. « Considérable » signifie ici de quelques centaines de profils[9] à quelques milliers[10]. Pour collecter ce type de corpus, deux méthodes sont utilisées. Soit que les chercheurs trouvent des volontaires et leur font passer un test de personnalité, lequel estime le score sur un modèle de personnalité (souvent le Big-5), soit qu’ils cherchent des gens qui ont, par eux-mêmes, rempli un test de personnalité et qui ont ensuite mis les résultats sur leur profil public[11]. 

Après le corpus, la deuxième étape est d’extraire des traits qui pourraient être des indicateurs de la personnalité de l’utilisateur, comme le nombre d’amis sur Facebook ou le nombre de gens qui suivent un utilisateur sur Twitter. Ces deux traits particuliers ont, dans des études antérieures, montré une corrélation négative à la dimension d’introversion[12]. À ce point-ci de la construction du module de détection de la personnalité, les chercheurs ne savent généralement pas quels traits seront indicateurs de quels types de personnalité. Ils essaient donc d’extraire le plus de traits possibles qui pourraient potentiellement être utiles à leur recherche.

Finalement, les chercheurs utilisent un algorithme d’intelligence artificielle, auquel ils demandent de trouver des relations entre les traits extraits et le score de l’utilisateur. Un algorithme d’intelligence artificielle, dont le réseau neuronal* est sans doute l’exemple le plus connu, est simplement un moyen de trouver des relations complexes entre les traits et l’objectif sans avoir à essayer toutes les combinaisons possibles manuellement. Bien que généralement ces relations soient impossibles à mettre en mots, un exemple fictif serait : Si la personne a plus de 500 amis et plus de 1 000 statuts publiés, alors elle est extravertie. L’étude Using linguistic cues for the automatic recognition of personality in conversation and text, réalisée par François Mairesse de l’Université de Sheffield, a trouvé entre autres la relation moins évidente selon laquelle les gens extravertis ont tendance à utiliser moins de ponctuation que les gens introvertis[13].

D’autres recherches peuvent utiliser les modules de détection de la personnalité. Par exemple, la personnalisation des chatbots* permet de mieux répondre selon la personnalité de l’utilisateur et donc de lui d’offrir une expérience plus agréable[14]. Autre exemple : la détection d’émotions (comme être en mesure de déterminer si un statut est positif ou négatif, ce qui est utile pour l’analyse des critiques de films ou autres) peut aussi bénéficier de la détection de la personnalité pour prendre en compte comment les différents types de personnalité expriment leurs émotions[15].

Plusieurs types de traits

Les traits extraits se retrouvent au cœur même de ce type de recherche. En supplément des traits généraux tel le nombre d’amis, des traits textuels peuvent également être extraits, comme la fréquence de certains types de mots (par exemple, le nombre de fois que les gens utilisent des adjectifs) ou des informations sémantiques. Les traits sémantiques sont souvent particulièrement utiles pour la détection de la personnalité, et peuvent être extraits automatiquement ou à l’aide de dictionnaires construits manuellement. Les dictionnaires comme le H4LVD ou le General Inquirer[16] définissent des catégories telles que l’argent, la famille ou le bonheur, et ils ont été construits par des experts indiquant quels mots font référence à quelles catégories. Les méthodes automatiques, quant à elles, se servent généralement du contexte des mots pour essayer d’extraire une signification sémantique. Par exemple, les mots chat et chien, souvent utilisés dans des phrases similaires, seraient considérés dans ce cas comme sémantiquement proches. Pour les réseaux sociaux tels Instagram et YouTube, une extraction de traits provenant directement des images et des vidéos est possible, par exemple en se basant sur les objets présents dans les photos et les vidéos[17].

Le tableau 1 indique plusieurs relations entre les traits du Big-5 et différents réseaux sociaux.

Tableau 1. Relations entre différents traits et les dimensions du Big-5 pour trois réseaux sociaux

 

Facebook

Twitter

Instagram

Ouverture aux expériences

Mots reliés à la faiblesse physique ou mentale, à la richesse ; ponctuation ; nombre de groupes.

Nombre de fois que l’utilisateur a été mis dans une liste d’écoute.

Présence d’instruments musicaux.

Caractère consciencieux

Mots reliés à la vulnérabilité, aux relations sociales, à la soumission à l’autorité, à la dépendance aux autres.

Popularité (calculée à partir du nombre d’abonnés sur Twitter et Facebook).

 

Présence de vêtements, d’activités sportives.

Extraversion

Nombre d’amis ; ponctuation ; utilisation d’adjectifs ; utilisation de verbes.

Nombre d’abonnés et d’abonnements.

Présence d’appareils électroniques.

Agréabilité

Mots reliés à la honte, aux qualités ; ponctuation ; utilisation du mot to [en anglais].

L’étude n’a montré aucune corrélation pour les traits étudiés.

Présence de vêtements ou d’objets de loisirs.

Névrotisme

Mots reliés aux sentiments positifs, à l’acceptation, à l’appréciation, etc. ; nombre d’amis ; nombre de groupes.

Nombre d’abonnés et d’abonnements.

Absence de vêtements ; présence de bijoux.

 

Le tableau 1 montre bien que les traits qui sont corrélés ne sont pas toujours évidents à détecter et qu’ils ne sont pas toujours instinctifs. Par exemple, la présence de bijoux se retrouve reliée à la dimension de névrotisme sur Instagram, un lien qui n’est pas forcément évident à faire. De la même façon, le mot to en anglais semble relié à la dimension d’agréabilité sur Facebook, une relation que les humains auraient probablement de la difficulté à trouver. De plus, bien que chacun de ces traits soit relié aux différentes dimensions, les algorithmes doivent les prendre en compte tous en même temps pour pouvoir déterminer la personnalité de l’individu. Ce n’est donc pas parce qu’un utilisateur a beaucoup d’amis qu’il est extraverti, mais parce qu’il a beaucoup d’amis et a tendance à utiliser plus de ponctuation, d’adjectifs, de verbes, etc.

La détection de la personnalité à travers les réseaux sociaux est un sujet qui commence à peine à être étudié, mais déjà les résultats sont prometteurs. Cette capacité de l’ordinateur pourrait améliorer la compréhension du comportement humain et les techniques des ressources humaines, en dispensant du besoin de faire un test de personnalité, ce qui est souvent long et parfois coûteux. Dans un futur proche, et avec des analyses informatiques poussées, l’ordinateur pourrait même être capable de proposer des modifications aux tests de personnalité existants afin de les rendre plus efficaces. Dans ce type d’étude, cependant, la protection de la vie privée des utilisateurs deviendra sans doute un enjeu majeur pour les chercheurs, ce qui pourrait être compliqué étant donné le manque de législation claire sur le sujet, du moins à ce jour[18].

 

Lexique :

Réseau neuronal : algorithme permettant de trouver automatiquement des relations complexes entre les traits en entrée (les données) et la sortie désirée (l’objet de la recherche).

Chatbot : algorithme tentant de simuler la conversation humaine.

 

Références

[1] Kaushal, V. et Patwardhan, M. (2018). Emerging trends in personality identification using online social networks—a literature survey. ACM Transactions on Knowledge Discovery from Data (TKDD), 12(2), 15.

[2] Gibby, R. E. et Zickar, M. J. (2008). A history of the early days of personality testing in American industry: An obsession with adjustment. History of Psychology, 11(3), 164.

[3] Goldberg, L. R. (1993). The structure of phenotypic personality traits. American Psychologist, 48(1), 26.

[4] Furnham, A. (1996). The big five versus the big four: The relationship between the Myers-Briggs Type Indicator (MBTI) and NEO-PI five factor model of personality. Personality and Individual Differences, 21(2), 303-307.

[5] Paulhus, D. L. et Williams, K. M. (2002). The dark triad of personality: Narcissism, machiavellianism, and psychopathy. Journal of Research in Personality, 36(6), 556-563.

[6] Paunonen, S. V. et Jackson, D. N. (2000). What is beyond the big five? Plenty! Journal of Personality, 68(5), 821-835.

[7] Gnambs, T. (2014). A meta-analysis of dependability coefficients (test–retest reliabilities) for measures of the Big Five. Journal of Research in Personality, 52, 20-28.

[8] Youyou, W., Kosinski, M. et Stillwell, D. (2015). Computer-based personality judgments are more accurate than those made by humans. Proceedings of the National Academy of Sciences, 112(4), 1036-1040.

[9] Celli, F., Pianesi, F., Stillwell, D. et Kosinski, M. (2013, juin). Workshop on computational personality recognition: Shared task. Communication présentée au Seventh International AAAI Conference on Weblogs and Social Media.

[10] Park, G., Schwartz, H. A., Eichstaedt, J. C., Kern, M. L., Kosinski, M., Stillwell, D. J., … Seligman, M. E. (2015). Automatic personality assessment through social media language. Journal of Personality and Social Psychology, 108(6), 934.

[11] Plank, B. et Hovy, D. (2015, septembre). Personality traits on Twitter—or—how to get 1,500 personality tests in a week. Dans A. Balahur, E. van der Goot, P. Vossen et A. Montoyo (dir.), Proceedings of the 6th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis (p. 92-98). Lisbonne, Portugal : Association for Computational Linguistic.

[12] Quercia, D., Kosinski, M., Stillwell, D. et Crowcroft, J. (2011, octobre). Our Twitter profiles, our selves: Predicting personality with Twitter. Dans 2011 IEEE third international conference on privacy, security, risk and trust and 2011 IEEE third international conference on social computing (p. 180-185). Boston, Mass. : IEEE.

[13] Mairesse, F., Walker, M. A., Mehl, M. R. et Moore, R. K. (2007). Using linguistic cues for the automatic recognition of personality in conversation and text. Journal of Artificial Intelligence Research, 30, 457-500.

[14] Zhou, M., Chen, W., Xiao, Z., Yang, H., Chi, T. et Williams, R. (2019, March). Getting virtually personal: Chatbots who actively listen to you and infer your personality. Dans W. Fu et A. Pan (dir.), Proceedings of the 24th International Conference on Intelligent User Interfaces: Companion (p. 123-124). New York, N. Y. : ACM.

[15] Celli, F. et Zaga, C. (2013). Be conscientious, express your sentiment! training, 5747(495), 5252.

[16] Stone, P. J., Dunphy, D. C. et Smith, M. S. (1966). The General Inquirer: A Computer Approach to Content Analysis.Oxford, Royaume-Uni : M.I.T. Press.

[17] Ferwerda, B. et Tkalcic, M. (2018, juillet). Predicting users’ personality from Instagram pictures: Using visual and/or content features? Dans T. Mitrovic et J. Zhang (dir.), Proceedings of the 26th Conference on User Modeling, Adaptation and Personalization (p. 157-161). Singapour : ACM.

[18] Zimmer, M. (2010). “But the data is already public”: On the ethics of research in Facebook. Ethics and Information Technology, 12(4), 313-325.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *