Accéder au contenu principal

Présidentielle française : pourquoi le big data s’est trompé en prédisant un duel Fillon-Le Pen

L'algorithme Predict the President avait envoyé, à tort, François Fillon au deuxième tour.
L'algorithme Predict the President avait envoyé, à tort, François Fillon au deuxième tour. Christophe Archambault, AFP

Le deuxième tour entre Emmanuel Macron et Marine Le Pen n’était pas celui prévu par les prévisionnistes qui s’appuient sur le big data et Twitter. Les auteurs de l’algorithme Predict the President expliquent les raisons de cet échec.

Publicité

Big data, big plantade. Les prédictions électorales pour le premier tour de la présidentielle française, basées sur l’analyse de données issues des réseaux sociaux, ont eu tort. La majorité de ces sondeurs 2.0 misaient sur François Fillon au second tour et plaçaient Marine Le Pen loin devant. Depuis l’annonce des résultats du premier tour, ils ont, pour la plupart, gardé le silence sur les raisons de cet échec.

Sauf les étudiants en master spécialisé big data de l’école d’ingénieurs Télécom ParisTech, responsables de l’algorithme Predict the President. Quelques jours avant le premier tour, ils avaient expliqué à France 24 pourquoi leur modèle prévoyait un face-à-face Fillon-Le Pen au deuxième tour et pourquoi ils étaient confiants. Comme les autres, ils se sont trompés. Mais ils ont accepté de revenir sur ce couac par souci "de transparence".

>> À lire aussi sur France 24 : Quand le big data prédit un deuxième tour entre François Fillon et Marine Le Pen

François Fillon et le "sentiment Twitter"

Le ver était principalement dans Twitter, estiment les étudiants. Le poids des données issues du royaume des 140 caractères a trop pesé sur le résultat de leur algorithme, reconnaît ainsi l'un d'entre eux, Bertrand de Véricourt. Pourtant, Predict the President dépend moins du "bruit médiatique" sur Internet que d’autres concurrents qui, comme la firme canadienne Filteris ou l’application participative Gov, ne fondent leur analyse que sur le "sentiment" (un ensemble de critères pour évaluer la popularité des candidats) sur les réseaux sociaux. L’algorithme de Télécom ParisTech intègre aussi des données plus traditionnelles, comme les résultats des élections passées dans tous les départements français et les sondages de l'élection 2017. La prise en compte de Twitter et la popularité des candidats dans les recherches Google devait permettre de nuancer les résultats.

Ce lissage a cependant desservi l’algorithme. Il n’a été conçu que pour retenir les tweets positifs pour chaque candidat, ce qui a eu pour conséquence de donner une fausse image de la popularité réelle de François Fillon. Les messages hostiles au candidat du parti Les Républicains étant très nombreux, notamment à cause de sa mise en examen, ils ont "généré en réaction beaucoup de tweets positifs, ce qui a certainement surévalué les points pour lui dans notre modèle", confirment les apprentis ingénieurs.

Un certain nombre de ces gazouillis de soutiens provenait de "militants trop actifs qui ont cherché à noyer le réseau social sous le flot des messages positifs", ajoute Raphaël Vignes, un autre des étudiants contacté par France 24. Sans compter la présence avérée de bots - des comptes automatisés - qui tweetent pour l’un ou l’autre des candidats. "Nous les avions recherchés, sans pourtant trouver quoi que ce soit de significatif pour changer le résultat", explique Raphaël Vignes qui reconnaît qu’il y a peut-être des améliorations à apporter sur cet aspect.

Big data sans data

Faut-il pour autant rejeter Twitter comme source pour les prévisions politiques ? Certains en sont convaincus, arguant que ce réseau social est trop volatile et ne représente qu’une fraction du corps électoral. Bertrand de Véricourt reconnaît qu’il faudrait probablement minorer son importance dans l’algorithme, mais juge qu’il est encore trop tôt pour éliminer Twitter. "L’approche basée sur les réseaux sociaux n’est pas encore mature et nécessite des ajustements", soutient-il. Il se demande notamment si les critères retenus ont bien été pertinents ou s’il ne faudrait pas les compléter. "On pourrait par exemple prendre en compte le taux de retweet d’un message", note-t-il.

Mais Predict the President n’a pas été trompé que par le sentiment Twitter. Le cas Le Pen a aussi montré les limites du big data… quand la data manque à l’appel. L’algorithme a fait de la candidate frontiste la favorite du premier tour en analysant l’historique des votes, par département, pour l’extrême droite. Mais ce qu’il n’a pas pris en compte, soulignent les étudiants, c’est le possible transfert de voix du bloc d’extrême droite vers d’autres candidats. "Il existe des données pour modéliser le fait que des électeurs qui votent traditionnellement à l’extrême droite peuvent changer d’opinion ou s’abstenir, mais nous ne les avions pas intégrés", note Davy Bensoussan, un troisième étudiant de Télécom ParisTech impliqué dans le projet. Sur Twitter, Marine Le Pen n’était pas aussi populaire que les autres favoris du premier tour, ce qui aurait pu pousser l’algorithme à baisser sa prévision en faveur du Front national. Mais, sans les données passées, il n’a pas su à qui redistribuer ces voix.

C’est aussi le manque de données qui empêche l’équipe de Télécom ParisTech de faire une prévision pour un deuxième tour inédit. Difficile, en effet, de trouver des points de référence dans l’histoire politique française à l’affrontement entre un candidat qui n’appartient à aucun parti établi et refuse les clivages gauche-droite habituels et un parti qui n’a été présent qu’une seule fois au deuxième tour, en 2002.

Page non trouvée

Le contenu auquel vous tentez d'accéder n'existe pas ou n'est plus disponible.