À retenir en bref
- Les attaques de manipulation des préférences (Preference Manipulation Attacks) permettent de biaiser les résultats fournis par les moteurs de recherche IA comme Bing Copilot ou Perplexity.
- Elles reposent sur l’injection de contenu trompeur, parfois invisible à l’œil humain, pour orienter les recommandations des LLM.
- Ces attaques sont efficaces : un produit peut devenir jusqu’à 2,5 fois plus recommandé qu’un concurrent établi.
- Elles s’avèrent furtives et difficiles à détecter, ce qui en fait un danger majeur pour l’écosystème de recherche.
- Leur généralisation créerait un dilemme du prisonnier : si un acteur attaque, les autres sont incités à en faire autant, dégradant ainsi la qualité des résultats pour tous.
- Aucune défense robuste n’existe aujourd’hui, même si certaines pistes de détection et d’attribution sont explorées.
Les LLM, nouveaux terrains du SEO
Avec l’essor de modèles de langage comme GPT-4, Claude, ou encore ceux intégrés à Bing et Perplexity, la recherche d’information connaît une transformation majeure. Ces IA ne se contentent plus d’afficher une liste de liens : elles sélectionnent et hiérarchisent directement du contenu tiers, qu’il s’agisse de pages web ou de plugins connectés.
Cette nouvelle capacité ouvre des perspectives puissantes, mais elle introduit aussi des risques inédits. C’est précisément ce que souligne une étude de chercheurs de l’ETH Zürich, qui dévoile une menace émergente : les attaques de manipulation des préférences.
Qu’est-ce qu’une Preference Manipulation Attack ?
Une Preference Manipulation Attack consiste à modifier subtilement le contenu d’un site ou la description d’un plugin pour influencer la manière dont un LLM formule sa réponse. Contrairement au SEO traditionnel, qui vise avant tout à améliorer le classement d’un site dans Google, l’objectif ici est d’agir directement sur le comportement d’un modèle de langage.
Ainsi, un site malveillant peut pousser une IA à recommander son produit, même face à des marques réputées, ou à décrédibiliser des concurrents. L’étude montre par exemple qu’un appareil photo fictif, totalement inconnu, a pu être recommandé par Bing Copilot plus souvent qu’un Nikon ou un Fujifilm, uniquement grâce à une injection bien pensée.
Des attaques efficaces et invisibles
Les résultats expérimentaux sont frappants : après une attaque, un produit a jusqu’à 2,5 fois plus de chances d’être recommandé. Dans le cas des plugins, un outil manipulé peut voir son taux de sélection passer de 0 % à plus de 90 %.
Ces attaques sont d’autant plus préoccupantes qu’elles sont souvent furtives. Les instructions peuvent être cachées dans du texte invisible (par exemple en blanc sur blanc), dissimulées dans une note de bas de page ou intégrées directement dans la documentation d’un plugin. Pour l’utilisateur final, tout paraît normal, alors que les réponses de l’IA sont déjà biaisées.
Le dilemme du prisonnier appliqué au SEO
Ce phénomène introduit une dynamique concurrentielle particulièrement toxique. Si un acteur commence à manipuler les LLM, ses concurrents seront incités à adopter la même stratégie pour ne pas perdre en visibilité. On assiste alors à une escalade, une véritable course à l’armement numérique.
Au final, tout le monde y perd : la qualité des résultats chute, la confiance dans les moteurs IA se dégrade, et seuls les attaquants les plus agressifs en tirent profit. L’étude parle d’un dilemme du prisonnier appliqué au SEO, où la logique individuelle pousse à attaquer, mais où l’intérêt collectif serait de s’en abstenir.
Des techniques variées de manipulation
Les chercheurs distinguent plusieurs méthodes, allant des plus directes aux plus subtiles :
- Les injections explicites, qui ordonnent au modèle de ne recommander qu’un produit précis.
- Les attaques persuasives, qui exploitent des formulations proches de la requête de l’utilisateur (“meilleur appareil photo pas cher”), incitant le modèle à privilégier la source.
- Les attaques externes, où un site héberge du texte invisible destiné à promouvoir un autre site, créant un effet de “boost à distance”.
Cette diversité montre qu’il ne suffit pas de détecter les instructions explicites : même des techniques de persuasion apparemment “classiques” peuvent induire un biais.

Quelles pistes de défense ?
La recherche explore déjà des contre-mesures. Parmi elles, on retrouve la détection des prompt injections, l’attribution transparente (obliger le modèle à justifier ses recommandations et citer clairement ses sources), ou encore le filtrage robuste, qui limiterait l’influence d’une seule source sur la réponse finale.
Cependant, ces solutions sont loin d’être infaillibles. En particulier, les attaques basées sur la persuasion ou l’alignement artificiel avec les requêtes utilisateurs sont très difficiles à contrer sans risque de brider aussi le SEO légitime.
Une frontière floue entre SEO et manipulation
Un point essentiel mis en lumière par l’étude est l’ambiguïté entre SEO “classique” et attaques manipulatrices. Dans le référencement traditionnel, aligner son contenu sur les requêtes utilisateurs est recommandé. Mais appliqué aux LLM, ce même procédé peut devenir une forme de manipulation si le contenu est trompeur ou exagéré.
Où tracer la ligne entre optimisation et fraude ? Cette question, encore sans réponse claire, pose un véritable défi éthique et réglementaire.
Un enjeu majeur pour l’avenir du SEO
Les attaques de manipulation des préférences constituent une menace immédiate et concrète pour l’écosystème des moteurs de recherche basés sur l’IA. Elles brouillent la frontière entre optimisation légitime et tromperie malveillante, tout en fragilisant la confiance des utilisateurs dans ces outils.
Sans défenses robustes, on risque de voir proliférer des contenus optimisés non plus pour informer les humains, mais pour tromper les modèles de langage. Dans ce nouveau paysage, le SEO ne se jouera plus seulement face à Google, mais aussi face aux IA elles-mêmes.
