En science de l’intelligence collective, il existe deux grandes familles de méthodes :
- celles qui incluent des interactions sociales (comme le débat, la discussion ou des formes d’influences plus subtiles)
- et celles qui sont construites sans aucun interactions entre les individus.
C’est cette deuxième catégorie qui va nous intéresser aujourd’hui.
Dans cette classe de méthodes, l’idée est de collecter un grand nombre de jugements indépendants au sujet d’un problème, puis de les fusionner pour former un unique jugement collectif. Pour cela, on utilise ce qu’on appelle techniquement une fonction d’agrégation. Par exemple, si les jugements sont des valeurs numériques (pour une question comme “Quelle est la hauteur de la tour Eiffel ? “), la fonction d’agrégation pourrait être un calcul de moyenne ou de médiane. Si le problème prend la forme d’un choix entre plusieurs options (un QCM donc), on peut utiliser la règle de la majorité.
Mais les possibilités sont infinies ! On peut imaginer des fonctions d’agrégations bien plus complexe comme une majorité pondérée par le degré de confiance ou par la vitesse de la réponse, un vote par approbation, un vote par élimination, etc… La littérature scientifique abonde de méthodes différentes, et chaque variantes a ses forces et ses limites.
Le vrai défi d’intelligence collective consiste à comprendre quelle méthode fonctionne le mieux selon (1) le contexte, (2) la composition du groupe, et (3) la nature du problème. Faut-il, par exemple, utiliser la même méthode pour résoudre un QCM de logique et pour élire un président ? Probablement pas… C’est le genre de recherches que nous conduisons dans nos laboratoires.
Pour aller plus loin, intéressons-nous ici à un domaine particulier : les QCM de culture générale.
Le Qui veut gagner des millions collectif
Pour vulgariser ces recherches, j’ai imaginé une vidéo pour ma chaine Youtube : réunir 100 personnes sur un plateau de tournage pour jouer à Qui veut gagner des millions… en version collective. Pour chaque question, les participants votent et je teste différentes fonctions d’agrégation pour voir laquelle produit le meilleur résultat – un super cadre pour vous expliquer comment ça marche, tout en restant fun et accessible.
Le 26 novembre dernier, je fouillais sur le web pour préparer ce tournage et travailler sur un projet de recherche lié à l’intelligence collective. En chemin, je suis tombé sur une vidéo culte d’une candidate, Marie, qui a décroché le million d’euros au jeu télé en répondant à une question particulièrement difficile (vous pouvez revoir l’extrait complet ici).
Cela m’a donné une idée : Et si je posais cette même question à ma communauté sous forme de quizz ? Je voulais attirer l’attention sur le fait que la majorité n’est pas toujours la meilleure façon de faire. Eh oui, car je pensais que la majorité allait se tromper… Mais, surprise : 51 % des votants ont trouvé la bonne réponse !
Ça m’a fait réaliser que mes intuitions n’étaient peut-être pas aussi solides que je le pensais. Pour le tournage de ma vidéo, comme pour mes recherches scientifiques, je me suis rendu compte que je manquais de base expérimentale solide pour tester mes hypothèses sur l’intelligence collective.
J’ai donc décidé de lancer un test grandeur nature. Un Qui veut gagner des millions collectif, mais en ligne avec quelques milliers de participants. J’ai sélectionné 12 questions, avec une difficulté croissante. J’ai mis en place un formulaire Google Forms pour récolter les votes et, après avoir passé un peu de temps sur Photoshop (parce qu’on aime bien soigner la présentation), j’ai lancé le jeu sur trois plateformes simultanément : BlueSky, LinkedIn et l’onglet Communauté de YouTube (mais pas Twitter, car je craignais les trolls).
Et c’est parti :
- Une question par jour.
- Interdit de chercher la réponse sur Google.
- Interdit de partager sa réponse dans les commentaires (car je vous rappelle que nous travaillons sans influence sociale)
Voici les douze question que j’ai posées et les pourcentages de réponse que j’ai obtenus :
La foule contre l’individu
La première question que l’on peut se poser est la suivante : le collectif fait-il mieux que les individus qui le composent ?
Dans notre expérience, la foule a atteint le niveau 11 sur 12, un résultat impressionnant. Mais quelles auraient été les performances individuelles moyennes ? Les données n’étant pas nominatives, impossible de savoir précisément quel palier chaque participant aurait atteint (d’autant plus que tout le monde n’a pas répondu à toutes les questions).
Par contre, on peut calculer une approximation statistique. La méthode est simple : Pour chaque question, je connais la probabilité globale de donner la bonne réponse (par exemple 81% pour la première question). Je peux donc simuler un joueur artificiel qui répond à chaque question en respectant ces probabilités.
Par exemple, si la probabilité de répondre correctement à la première question est de 80 %, ce joueur fictif aura 80 % de chances de réussir et de passer à la suivante. Pour la deuxième question, s’il reste dans le jeu, ses chances de réussite seront celles observées pour la communauté sur cette question, et ainsi de suite jusqu’à ce qu’il échoue. En répétant cette simulation plusieurs milliers de fois, on obtient une estimation fiable du palier moyen qu’un individu seul aurait atteint :
Comme vous pouvez le voir, le joueur moyen aurait eu beaucoup de mal à dépasser le niveau 6 ou 7. Au 11ème palier, la simulation montre que seul 0.9% des joueurs individuels seraient encore en compétition, tandis qu’un tout petit 0.05% aurait réussi à décrocher le million.
On peut donc dire que le collectif, qui chute au niveau 11, fait mieux que 99% des individus qui le compose. D’ailleurs je ne serais pas étonné que la production de Qui veut gagner des millions utilise une méthode statistique similaire pour estimer à l’avance à quel niveau un candidat moyen va tomber et donc de gérer le budget de l’émission avec moins d’incertitude.
D’ailleurs, ça me permet de vous dire que j’ai eu quelques problèmes de calibration des questions. Au début, j’ai sélectionné mes questions à la louche, en me basant sur ce que je trouvais moi-même facile ou difficile. Sur les 4 premières questions le crescendo de difficulté que j’avais estimé n’était pas du tout adapté pour l’ensemble des participants. J’ai donc dû m’adapter et à partir de la question 5 j’ai fait des “beta-test” sur 100 volontaires dans le Discord de Fouloscopie (eh oui il y a un Discord, mais pas très actif). Ces courageux testeurs m’ont aidé à évaluer la difficulté réelle des questions, ce qui m’a permis de :
- Reclasser les questions dans un ordre plus cohérent.
- M’assurer que le crescendo de difficulté était plus progressif et équilibré.
Ces bêta-tests m’ont aussi offert une preuve inattendue de votre honnêteté. Pourquoi ? Parce que les proportions de réponses observées pendant le jeu en ligne sont quasi identiques à celles des tests sur Discord. Cela signifie qu’il n’y a pas d’anomalie statistique qui aurait trahi une triche. Merci pour votre honnêteté 🙂
Le débat : faut-il s’abstenir quand on n’est pas sûr ?
La grosse question qui a agité les commentaires (et que je n’avais pas vu venir) est la suivante : est-il préférable pour le collectif de ne pas voter si l’on est pas sûr de la réponse ? Le débat était passionnant à suivre, parfois même un peu houleux…
Certains soutenaient qu’un vote basé sur une pure intuition risquait de brouiller les résultats, tandis que d’autres estimaient qu’il valait mieux participer, même sans certitude. Pour essayer d’y voir plus clair, faisons encore une petite simulation. Imaginons une question où :
- 20% participants connaissent la réponse
- 80% n’ont aucune idée.
Les 80% doivent-ils essayer quand même ou s’abstenir ? La simulation est simple : imagions que ceux qui savent sélectionnent la bonne réponse et que les autres répondent au hasard.
Résultat : avec un petit groupe de 100 personnes (20 qui savent et 80 qui répondent au hasard), la majorité donnera la bonne réponse… 99.4% du temps. Autrement dit, les 80 réponses hasardeuses ne réduisent les chances de victoire que de 0.6%.
Et avec un groupe plus conséquent de 1 000 personnes (200 qui savent et 800 qui répondent au hasard), il n’y a plus aucun doute, la majorité sera systématiquement bonne. On peut aussi varier la proportion de joueurs qui connaissent la bonne réponse (que se passe-t-il si on a 5% de participants qui connaissent la bonnes réponse et 95% qui répondent au hasard ? ). On obtient ce graphique :
Si la proportion d’experts est vraiment faible (par exemple 5%) et que le groupe est de petite taille, alors effectivement, les réponses hasardeuses peuvent affecter le choix collectif. Mais dans le cadre de notre expérience, avec près de 10 000 votants. (l’échelle du graphique ci-dessus ne monte qu’à 1 000 votants), le fait que 95% des gens répondent au hasard n’aura aucun impact sur le choix majoritaire.
Derrière ce phénomène se cache la loi des grands nombres : plus le groupe est grand, plus les réponses aléatoires vont se répartir équitablement entre toutes les options, et ceux qui savent vont donner un avantage majoritaire à la bonne réponse. Statistiquement, ceux qui votent au hasard, c’est comme s’ils n’avaient pas existé. Donc, que vous soyez sûr ou non, vous pouvez voter sans crainte : cela ne changera rien à la réponse collective. En revanche, moins il y a de participants, plus il y a un risque que la malchance fasse basculer le vote vers une mauvaise réponse.
Mais en réalité, c’est un peu plus compliqué que ça. Il y a un élément qui va venir parfois semer le trouble : les questions pièges 😱
Comment être sûr ?
Sur la simulation précédente, on imagine que ceux qui sont sûr de la bonne réponse vont effectivement… donner la bonne réponse. Mais c’est loin d’être toujours le cas ! Pour les questions pièges, par exemple, ceux qui se laissent avoir sont souvent certains de leur mauvaise réponse. Exemple avec la conjugaison du verbe acquérir :
Dire “j’acquérirai” est une erreur courante, mais de nombreuses personnes sont persuadées que c’est la bonne réponse. Plusieurs commentaires me l’ont confirmé : “J’étais pourtant sûr de ma réponse !”. Autrement dit, la règle “ne répondez que si vous êtes sûrs” ne va pas non plus fonctionner dans ces cas-là car la confiance n’est pas corrélée à la précision.
Petite parenthèse : ce phénomène ne se limite pas aux quizz. Dans un scrutin politique, par exemple, un candidat manipulateur et démagogue peut donner l’illusion d’être la « bonne réponse » grâce à des techniques rhétoriques ou des promesses séduisantes. Beaucoup d’électeurs, convaincus d’avoir fait le bon choix, tomberont alors dans un piège collectif. La démagogie, donc, est à mon sens un vrai danger pour la démocratie, car elle exploite ce décalage entre confiance perçue et réalité objective. Et certains politiciens sont de véritables virtuoses de cette manipulation…
Revenons à nos moutons… Tous les pièges ne sont pas aussi évidents qu’une erreur de conjugaison. Par exemple, dans la question où vous avez chuté, l’option “Les Olympiens” a reçu le plus de votes. Pourquoi ? Probablement parce qu’elle était sensiblement plus attirante que les autres. L’astronomie est souvent associée à la Grèce antique, à ses dieux, et à la mythologie. Ce lien logique mais erroné a renforcé la confiance des participants dans une mauvaise réponse. En appliquant la règle “ne votez que si vous êtes sûrs”, une grande partie des participants aurait jugé cette association suffisamment solide pour voter avec assurance, même si elle était incorrecte.
Le problème, c’est que “être sûr” est une sensation subjective, qui varie d’une personne à l’autre et peut être complètement fausse. De nombreuses études en psychologie montrent que la corrélation entre confiance et précision est faible, voire inexistante. Pour aller plus loin, je vous recommande les travaux d’Asher Koriat, un psychologue qui a conduit des recherches fascinantes sur la question.
Désolé Jean-Pierre, mais…
Jean-Pierre Foucault adore le rappeler : “Ne votez que si vous êtes sûrs !”, lorsque le candidat utilise son joker public. Mais cette règle, si bien intentionnée, n’a que très peu d’effet bénéfique pour le choix collectif.
- soit il n’y a pas de piège et ça ne change rien statistiquement
- soit il y a un gros piège et les gens tomberont de toute façon dedans avec certitude
- soit il y a un petit piège et le résultat sera assez imprévisible car la confiance est une notion trop subjective.
Bref, désolé Jean-Pierre…
Conclusion
Cette expérience aura au moins eu le mérite de nous faire passer un bon moment ensemble, tout en explorant certains concepts d’intelligence collective. Mais gardez bien en tête que tout cela ne concerne qu’une méthode en particulier : la majorité simple.
Comme je vous le disais en début d’article, il existe de nombreuses autres façons de prendre une décision collective. Voici quelques exemples de fonctions d’agrégation que nous aurions pu expérimenter ensemble à la place d’une majorité simple :
- La majorité pondérée par la vitesse de réponse : ceux qui répondent plus vite ont un poids plus important dans le vote.
- La majorité pondérée par le degré de confiance : Vous votez pour une option et indiquez en parallèle votre niveau de confiance sur une échelle de 1 à 5. Les votes les plus confiants pèsent alors plus lourd dans le calcul.
- Le vote alternatif : On élimine le choix le moins populaire à chaque tour, jusqu’à ce qu’il ne reste qu’une seule option.
- Le vote par approbation : Chaque participant vote pour toutes les options qu’il considère plausibles (plusieurs choix par personne). L’option qui reçoit le plus de votes gagne.
- Le vote par élimination : On attribue des mentions comme “certainement”, “possible”, “probablement pas”, “certainement pas”, et l’option avec la meilleure mention majoritaire l’emporte.
- La méta-majorité : Vous votez pour une réponse et pour ce que vous pensez que la majorité va choisir. Si les deux choix ne correspondent pas, c’est un indicateur qu’il pourrait y avoir un piège. Dans ce cas, on choisit l’option qui arrive en deuxième position.
Une vidéo sur ma chaine Youtube ?
Dans la vidéo que j’aimerais faire avec vous, j’ai prévu de tester ces différentes méthodes dans le contexte de Qui veut gagner des millions. Donc ce sera comme on a fait, mais en testant différentes approche et en vous expliquant à chaque fois comment ça fonctionne et pourquoi elles donnent parfois des résultats très différents.
Et cerise sur le gateau : Les participants pourront voter pour des jokers comme le 50-50 ou d’autres outils stratégiques, ce qui ajoutera une bonne dose de suspense au jeu. Pour l’instant, la série n’est pas encore complètement financée : on est à 98 % de l’objectif ! Encore un petit effort, et on y sera !
Si vous souhaitez contribuer et faire partie de cette aventure, je vous redonne le lien du financement participatif :
👉 https://www.kisskissbankbank.com/fr/projects/fouloscopie-100x-saison2
J’espère vous retrouver bientôt pour le tournage de cette vidéo, qui promet d’être aussi ludique qu’instructive. Un immense merci pour votre participation et votre soutien ! 🚀
Il y a un facteur qui rentre inévitablement en compte dans les conditions réelles de l’émission c’est bien entendu l’argent. Quand on joue pour de l’argent, on aura plus tendance à se réfréner, car la perspective de perdre 10 000 ou 40 000 € si on se trompe, incite inévitablement à la prudence. Dans le cas de ton expérience, nous n’avions rien à gagner ou à perdre de nous abstenir ou de répondre si l’on était pas sûr de nous.
On pourrait également parler du stress ou des insinuations du présentateur, qui dans notre cas était inexistante, mais qui sont parfois très lourdes dans l’émission télé et peuvent influencer le choix d’un candidat.
Quoi qu’il en soit c’est toujours un plaisir de participer à tes expériences sociales.
Pour le poste YouTube du début (avec 50 % pour la question à un million d’euros), il faut savoir que souvent, les utilisateurs changent leur vote. Dans mon cas, je ne savais pas la réponse, j’ai cliqué au pif, j’ai appris quelque chose, et j’ai mis la bonne réponse, car ça n’avait aucune importance.
Les seules fois où les sondages peuvent être fiables sur Youtube, c’est si c’est demandé de laisser sa première réponse, et si on ne peut savoir la vraie réponse.
Bref, de mon expérience, le sondage YouTube n’est pas un bon argument.
Bonne journée. 👋
Merci pour cette formidable expérience, j’ai adoré et j’ai hâte de participer à la prochaine.
Super article!
« Le vrai défi d’intelligence collective consiste à comprendre quelle méthode fonctionne le mieux selon (1) le contexte, (2) la composition du groupe, et (3) la nature du problème »
En ce qui concerne la composition du groupe, étant donné qu’il s’agit de ton audience qui s’intéressent aux expériences collectives, ça serait intéressant de faire un ultime vote pour connaître la proportion de gens qui ont joué :
– que s’ils ne connaissaient la réponse à 100%
– s’ils étaient plutôt sûrs
– même s’ils ne connaissaient pas la réponse
Super intéressant, merci pour cette expérience !
À propos des fonctions d’agrégation proposées (majorité pondérée par la vitesse de réponse, majorité pondérée par le degré de confiance, vote alternatif, vote par approbation, vote par élimination, méta-majorité), je pense qu’il y en a une qui a de bonnes chances de fonctionner : la majorité pondérée par la « maîtrise du sujet autodéclarée ».
L’idée est tout simplement transformer le degré de confiance en une métrique de maîtrise du sujet plus objective, en étiquetant les différents scores.
Ce degré pourrait par exemple aller de 0 (« je n’en ai jamais entendu parler ») à 5 (« je travaille sur le sujet ») en passant par 1 (« il me semble connaître la réponse »), 2 (« je tiens la réponse d’une source en laquelle j’ai confiance »), 3 (« je tiens la réponse d’un journaliste ou d’un connaisseur ») et 4 (« j’ai lu des articles scientifiques ou effectué des recherches extensives sur le sujet »).
On pourrait ensuite soit pondérer, soit utiliser un vote par élimination.
Il me semble que ceci aurait l’effet visé par ceux qui proposent d’utiliser un degré de confiance, sans les problèmes constatés en pratique.
Une dernière note : il est vrai qu’un score de 11/12 est assez joli, mais je relativiserais, car le score me semble dépendre beaucoup des questions posées. Je suis convaincu que d’autres approches pourraient apporter des améliorations considérables à la qualité des réponses, en mettant à contribution des experts réduits à un vote perdu dans la masse. Si je devais imaginer une fonction d’agrégation idéale comme point de comparaison, cette fonction donnerait une réponse consensuelle chez les répondants les plus experts du sujet – et je pense qu’on est loin d’en être là ^^