Innovation Pédagogique et transition
Institut Mines-Telecom

Une initiative de l'Institut Mines-Télécom avec un réseau de partenaires

Une esquisse d’anatomie des réseaux sociaux

18 mai 2020 par binaire Coopérer 200 visites 0 commentaire

Un article repris de https://www.lemonde.fr/blog/binaire...

Les sites de réseaux sociaux tels Facebook, Twitter, Youtube, LinkediIn, etc., reposent sur une panoplie de techniques mises au point par la science et l’ingénierie informatique. Pour les découvrir, commençons par une balade de l’utilisateur jusqu’aux data centers, ou centres de données.

Un article de Serge Abiteboul et Pierre Senellart, repris du blog binaire, une publication sous licnece CC by

De l’utilisateur aux data centers

Pour accéder à un réseau social, l’utilisateur utilise un ordinateur (ordinateur de bureau, ordinateur portable, ou, de plus en plus souvent, un de ces mini-ordinateurs que sont les smartphones). L’utilisateur se sert d’une interface graphique (site Web ou application pour smartphone) pour accéder aux services du réseau social. Cette interface lui permet de consulter, concevoir, ou réagir à des contenus, et bien plus encore. Suivant les réseaux sociaux, l’accès à tout ou partie du contenu est protégé par une phase d’authentification.

L’épine dorsale du système est le réseau mondial de communication Internet et des protocoles de communication tels que HTTPS, utilisés pour contacter et échanger des informations entre l’ordinateur de l’utilisateur et les ordinateurs hébergeant le réseau social. HTTPS est un protocole chiffré de bout en bout, garantissant que ces échanges ne puissent être interceptés ou modifiés. Pour améliorer la vitesse d’accès aux données, celles-ci sont également comprimées : avec en général un algorithme de compression générique tel que LZ77 pour le texte, et dans des formats de compression spécialisés pour les contenus multimédias (par exemple, JPEG pour les photos).

Les réseaux sociaux sont souvent développés par de grandes entreprises américaines. Pour les utilisateurs européens, ces entreprises ont implanté des centres de données en Europe, contenant une copie des mêmes données, afin de pouvoir les fournir plus rapidement. Cette affectation des clients à un centre de données en fonction de leur emplacement géographique peut par exemple se faire via le système de noms de domaine, DNS, qui transforme un nom comme twitter.com en une adresse de la machine à contacter sur le réseau Internet.

Les centres de données peuvent regrouper des centaines ou milliers d’ordinateurs dédiés à fournir des services (des serveurs, donc), qui, eux-mêmes hébergent les composants logiciels et les données du réseau social : cela représente, pour les plus populaires des réseaux sociaux, potentiellement des millions de ligne de code, des pétaoctets de données (un pétaoctet, c’est de l’ordre de millions de fois ce que peut contenir un disque dur classique) et de gigantesques puissances de calcul. Au cœur de ces systèmes, on trouve des bases de données qui stockent les contenus produits par les utilisateurs, mais également des données acquises sur ces utilisateurs, leur profil, leur historique de consultation, des données de personnalisation des services, etc. Grâce à un récent règlement européen (RGPD, article 20), les sites de réseaux sociaux doivent tous fournir un mécanisme (souvent accessibles dans les options du site) pour qu’un utilisateur récupère l’ensemble des données qui le concernent.

La recommandation et la recherche d’information

Une fonction des réseaux sociaux est la sélection et le classement des contenus destinés à un utilisateur particulier. Parmi tous les contenus qui ont été publiés, le système doit choisir lesquels présenter en premier à chacun. Comme l’attention de l’utilisateur est la valeur essentielle pour que cet utilisateur reste et revienne sur un site, cette fonction de classement est primordiale pour le réseau. Chaque réseau décide de sa propre fonction selon ses particularités, ses intérêts commerciaux, ses choix éditoriaux, etc.

Les paramètres utilisés sont nombreux, mais intègrent généralement tout ou partie des composants suivants : (i) l’origine du contenu, un contenu d’un « ami » ayant plus de valeur ; (ii) la fraîcheur, un contenu récent étant plus prometteur ; (iii) la popularité, un contenu très partagé étant préféré ; (iv) la nature, un contenu plus long ou intégrant une vidéo pouvant être préféré ; (v) les intérêts de l’utilisateur, explicitement décrits par une requête ou inférés de son historique de consultation ; (vi) sa localisation, un commerce de proximité étant plus pertinent qu’un autre situé au bout du monde ; et surtout (vii) l’intérêt commercial du service, les contenus sponsorisés ou que le service monétise plus facilement étant prioritaires. On peut facilement imaginer la difficulté à sélectionner les bons paramètres et ce, en ne mobilisant qu’un volume raisonnable de calculs, car le système doit produire un tel classement pour chaque utilisateur en un temps très bref. Les réseaux sociaux communiquent en général très peu sur cette fonction qui est pourtant clé pour comprendre comment les contenus sont poussés.

La publicité

La publicité est le revenu principal, voir quasi-exclusif, de la plupart des sites de réseaux sociaux (en 2019, par exemple, 98,5 % du chiffre d’affaires de 71 milliards de dollars de Facebook proviennent de la publicité). C’est l’objet d’une partie importante de leurs logiciels. Les véritables clients des réseaux sociaux ainsi monétisés, ce sont les entreprises qui achètent des espaces publicitaires, pas les utilisateurs pour qui les services sont en général gratuits. Les réseaux sociaux proposent à ces clients toute une palette d’outils de marketing : photos, vidéos, diaporama, etc. Ils leurs fournissent également des outils pour cibler des segments du marché, par exemple les hommes de 30 à 35 ans vivant en région bordelaise et s’intéressant à l’haltérophilie, et pour analyser l’efficacité des campagnes de pub. Chaque réseau social essaie de se distinguer par des modes de publicité différents, et bien sûr par son public.

Les publicités sont choisies pour les réseaux sociaux les plus importants à partir de systèmes sophistiqués d’enchères. Quand nous sommes sur un des réseaux les plus populaires et qu’un message publicitaire nous est présenté, ce n’est pas par hasard, mais le résultat d’une vente aux enchères qui a eu lieu en une fraction de secondes. Les annonceurs ont placé au préalable des propositions de publicité en définissant leurs objectifs et leurs budgets. Le gagnant pour ce message publicitaire spécifique sera le message qui maximise une certaine valeur qui tient compte à la fois du budget de l’annonceur (ce qu’il est prêt à payer) et de l’impact estimé (comme la probabilité que l’utilisateur clique sur un lien). Le paiement peut se faire au nombre de « clics » ou même d’achats que l’annonce va générer. Des milliards de telles ventes aux enchères ont lieu chaque jour sur les réseaux sociaux, et sur l’ensemble du Web.

La modération

Avec la montée en puissance du ressentiment des utilisateurs contre les contenus toxiques, message de haine, fakenews, etc., la détection algorithmique de tels contenus a pris une grande place dans les logiciels des réseaux sociaux. Dans certains cas comme les contenus terroristes, une détection algorithmique est indispensable pour réagir quasi-instantanément ce que le recours à des modérateurs humains ne permet pas. Avec la crise du Covid-19, une partie de ces modérateurs humains se sont retrouvés au chômage quand les centres de modération ont fermé et que le télétravail était impossible pour des questions de protection des données personnelles, RGPD oblige. En temps normal, les modérations humaines et algorithmiques collaborent souvent dans les réseaux sociaux, la décision de bloquer un contenu détecté comme nocif par un algorithme étant, sauf rares exceptions, systématiquement soumise à une validation humaine.

Selon des sources non officielles d’ingénieurs de réseaux sociaux, la détection de contenus nocifs serait de « moins mauvaise » qualité par les algorithmes que par des humains. On peut imaginer que les algorithmes continueront à s’améliorer. Reste que le problème est très complexe. Par exemple, pour le texte, il faut gérer l’humour, l’ironie, l’argot… et surtout l’ambiguïté et la complexité de la langue. Les algorithmes ont aussi difficilement accès au contexte qui peut faire que la même expression peut prendre des sens différents selon qu’elle est utilisée par un homophobe patenté ou par un militant LGBT. Enfin, en dehors des temps de crise, une modération purement algorithmique serait-elle acceptable pour les citoyens ? Cela ne serait certainement pas le cas si les algorithmes sont opaques, décidés de façon autoritaire et unilatérale par le réseau social (entendre ici l’entreprise) sans être discutés par le réseau social (entendre ici le réseau des utilisateurs). Un vrai sujet est bien la participation de la société à la conception des algorithmes et des règles qui les guident.

Big data et apprentissage

Les algorithmes les plus sophistiqués posent des problèmes particuliers. C’est le cas de l’analyse de données massives (big data) souvent à la base des recommandations. Par exemple, un service de vidéo à la demande utilise le big data pour découvrir des proximités de goût entre des utilisateurs, ce qui lui sert pour suggérer des films à ses clients. C’est aussi le cas de l’apprentissage automatique qu’on utilise quand on ne sait pas décrire pas à pas un algorithme qui résolve un problème particulier, mais qu’on a des exemples de résultats attendus. On utilise alors un algorithme d’apprentissage. L’algorithme utilise un corpus d’instances du problème posé et les réponses humaines qui y ont été apportées, comme par exemple un corpus de contenus et leurs classements par des modérateurs humains : message de haine, harcèlement, pornographie, etc. Quand on lui donne un nouveau contenu, l’algorithme d’apprentissage va rechercher les contenus du corpus qui s’en approchent le plus et proposer un classement en se basant sur les choix que des humains pour ces contenus. On voit bien que, dans les deux cas, big data et apprentissage, la qualité des résultats va dépendre de façon critique de la qualité des données. Dans le cas de l’apprentissage automatique, une difficulté supplémentaire est que la technologie actuelle ne permet pas d’expliquer les résultats.

Vérification et analyse des biais

Comment savoir ce qui se passe dans les logiciels des réseaux sociaux, souvent d’une réelle complexité et le plus souvent d’une totale opacité ? De telles analyses sont essentielles, par exemple, si on veut vérifier que le réseau social ne discrimine pas entre ses utilisateurs pour les offres d’emploi qu’il leur propose, ou qu’il ne promeut pas les contenus les plus extrêmes au détriment d’autres plus équilibrés mais moins « sexy ».

Pour analyser une fonctionnalité de réseau sociale, on peut le faire de l’extérieur, en mode « boîte noire ». Cela consiste à l’étudier comme un phénomène complexe, comme on étudie le climat ou le cœur humain. Pour mettre en évidence une discrimination basée sur le genre, on peut par exemple (et ce n’est pas simple), créer deux profils quasi-identiques sauf pour une variable (l’un d’une femme, l’autre d’un homme) et observer les différences de recommandations.

On peut aller plus loin si on a accès au code, voire aux données d’entraînement dans le cas d’algorithmes d’apprentissage automatique, en réalisant en interne un « audit » du système.

Que l’on soit dans l’analyse en boîte noire ou dans l’audit, il s’agit de vérifier si le logiciel respecte les lois (légalité), s’il est conforme aux déclarations du réseau social (loyauté), et s’il ne nuit pas à la société (responsabilité).

Conclusion

Nous avons vu la diversité des techniques et disciplines informatiques convoquées par les réseaux sociaux les plus populaires (réseaux, algorithmique, systèmes distribués, gestion de données, recherche d’information, apprentissage automatique, vérification, etc.). Il faut insister sur l’utilisation de la distribution des calculs entre l’ordinateur de l’utilisateur, et ceux de souvent plusieurs data centers. C’est encore plus vrai pour des réseaux sociaux décentralisés comme Mastondon, dont le logiciel est libre ; dans ce système, différentes instances du logiciel interopèrent (fonctionnent ensemble) pour offrir collectivement les fonctionnalités d’un réseau social. Les principes des réseaux sociaux se retrouvent également dans des luttes citoyennes en mode « sous-marin » sur les réseaux traditionnels, ou cachées sur le dark web. Elles peuvent alors s’appuyer sur une technique que nous n’avons pas encore rencontrée ici, la blockchain, c’est-à-dire un grand registre géré de manière distribuée basé sur la cryptographie.

Serge Abiteboul, Inria & ENS Paris, et Pierre Senellart, ENS Parie & Inria

Licence : CC by

Répondre à cet article

Qui êtes-vous ?
[Se connecter]
Ajoutez votre commentaire ici

Ce champ accepte les raccourcis SPIP {{gras}} {italique} -*liste [texte->url] <quote> <code> et le code HTML <q> <del> <ins>. Pour créer des paragraphes, laissez simplement des lignes vides.

Suivre les commentaires : RSS 2.0 | Atom