IA et automatisation

La vérité sur l'endroit où GPT-4 obtient réellement ses données de classement (ce n'est pas ce que vous pensez)


Personas

SaaS et Startup

ROI

À court terme (< 3 mois)

Lorsque j'ai commencé à expérimenter avec l'IA pour la stratégie SEO de mon client en e-commerce, je me suis posé la même question que tous les marketeurs : d'où GPT-4 obtient-il réellement ses données de classement ? La sagesse conventionnelle suggérait que les modèles d'IA "savent" d'une certaine manière les classements actuels. Mais après avoir suivi quelques dizaines de mentions de LLM pour un client qui n'était même pas dans un secteur technologique, j'ai découvert que la réalité est beaucoup plus complexe — et beaucoup plus riche en opportunités que ce que la plupart des gens réalisent.

Voici la vérité inconfortable : la plupart des entreprises optimisent pour la mauvaise chose entièrement. Alors que tout le monde débat de savoir si l'IA tuera le SEO, les investisseurs avisés découvrent comment être mentionnés par les systèmes d'IA avant que leurs concurrents ne sachent même que ce jeu existe.

Après des mois de tests sur plusieurs projets clients et une immersion dans le fonctionnement réel de ces systèmes, j'ai appris que comprendre les sources de données de GPT-4 n'est pas juste académique — c'est la clé d'un tout nouveau canal de distribution.

Voici ce que vous apprendrez de mes expériences pratiques :

  • Les vraies sources derrière la "connaissance" de GPT-4 sur les sites web et les classements

  • Pourquoi les métriques SEO traditionnelles ne prédisent pas les mentions par l'IA

  • Un cadre pratique pour intégrer votre contenu dans les données d'entraînement de l'IA

  • Comment j'ai suivi et augmenté les mentions de LLM pour des clients dans différents secteurs

  • Pourquoi cette fenêtre d'opportunité ne restera pas ouverte indéfiniment

Si vous pensez encore que l'IA représente une menace pour votre trafic, vous passez à côté de la plus grande opportunité de distribution depuis les moteurs de recherche eux-mêmes. Laissez-moi vous montrer ce que j'ai appris à la dure — et comment vous pouvez l'utiliser.

Réalité de l'industrie

Ce que la communauté SEO se trompe sur les sources de données AI

La plupart des professionnels du SEO abordent les mentions d'IA avec le même état d'esprit qu'ils utilisent pour les classements de recherche traditionnels. L'industrie parle de l'« optimisation pour l'IA » comme s'il s'agissait simplement d'une autre fonctionnalité SERP que l'on peut manipuler avec les bons mots-clés et le balisage de schéma.

Voici ce que chaque guide sur l'IA et le SEO vous dit :

  1. Utilisez des données structurées pour aider l'IA à comprendre votre contenu

  2. Créez des sections FAQ qui correspondent aux requêtes courantes de l'IA

  3. Concentrez-vous sur les backlinks autoritaires pour signaler la qualité aux systèmes d'IA

  4. Optimisez pour les extraits en vedette puisque l'IA tire ses informations de sources similaires

  5. Construisez une autorité thématique à travers des clusters de contenu complets

Cette sagesse conventionnelle existe parce qu'il est plus facile d'emballer des techniques SEO familières avec une étiquette « IA » que d'admettre que personne ne sait vraiment comment ces systèmes fonctionnent. Le problème ? Cela suppose que les modèles d'IA fonctionnent comme des moteurs de recherche : en parcourant, indexant et classant le contenu en temps réel.

Mais voici où cette approche échoue : GPT-4 ne parcourt pas le web comme le fait Google. Ses connaissances proviennent de données d'entraînement collectées à un moment donné, combinées avec quelques capacités de récupération en temps réel qui fonctionnent complètement différemment des recherches traditionnelles.

Le résultat ? Les entreprises optimisent leurs sites web pour des systèmes d'IA qui pourraient ne jamais voir leur contenu, tout en manquant les véritables voies qui mènent aux mentions d'IA. Pendant ce temps, des sites avec des métriques SEO terribles sont référencés par des systèmes d'IA simplement parce qu'ils se trouvaient dans les bons ensembles de données.

Comprendre d'où GPT-4 tire réellement ses données n'est pas juste de la curiosité technique : c'est la fondation d'une stratégie de contenu et de distribution entièrement différente.

Qui suis-je

Considérez-moi comme votre complice business.

7 ans d'expérience freelance avec des SaaS et Ecommerce.

Mon appel de réveil est arrivé quand je travaillais sur une refonte complète du SEO pour un client e-commerce Shopify. Ce n'était pas une entreprise technologique ou un SaaS, mais juste une entreprise de vente au détail traditionnelle vendant des produits physiques. Mais en suivant leurs progrès en SEO, j'ai remarqué quelque chose d'inattendu : leur marque était mentionnée dans des réponses générées par l'IA, malgré le fait d'être dans une niche où l'utilisation des LLM n'est pas attendue.

Cette découverte m'a plongé dans un trou de recherche. J'ai commencé à suivre les mentions à travers différents systèmes d'IA pour ce client et plusieurs autres. Ce que j'ai trouvé a remis en question tout ce que je pensais savoir sur la manière dont les systèmes d'IA sourcent leurs informations.

L'approche conventionnelle aurait été de se concentrer sur le SEO traditionnel : construire des backlinks, optimiser les pages produits, créer des clusters de contenu. Mais j'ai réalisé que nous avions affaire à quelque chose de fondamentalement différent. Ces mentions d'IA ne corrélaient pas avec les classements de recherche ou l'autorité de domaine de manière prévisible.

J'ai contacté des équipes dans des startups axées sur l'IA comme Profound et Athena pour comprendre ce qu'ils observaient. Le consensus était clair : tout le monde est encore en train de comprendre cela. Il n'y a pas encore de manuel définitif, ce qui signifie que nous étions en territoire inexploré.

Mais cette incertitude représentait également une opportunité. Alors que la plupart des entreprises attendaient que des « meilleures pratiques » émergent, nous pouvions expérimenter et potentiellement établir une position avant que l'espace ne se remplisse.

Le défi était de comprendre les mécanismes réels. D'où GPT-4 tire-t-il ses données de classement ? Comment les systèmes d'IA décident-ils quelles sources référencer ? Et surtout, pour mes clients : comment influençons-nous ces décisions ?

À travers des conversations avec des chercheurs en IA et des tests pratiques, j'ai appris que la réponse est beaucoup plus complexe et beaucoup plus actionnable que les explications simples que la plupart des marketeurs recevaient.

Mes expériences

Voici mon Playbooks

Ce que j'ai fini par faire et les résultats.

Après des mois d'expérimentation sur plusieurs projets clients, j'ai développé un cadre pour comprendre et influencer comment les systèmes d'IA trouvent des informations. Voici ce que j'ai découvert sur l'endroit où GPT-4 obtient réellement ses données de classement et comment vous pouvez utiliser cette connaissance :

La réalité en trois couches des sources de données d'IA

Tout d'abord, vous devez comprendre que GPT-4 fonctionne sur trois couches de données distinctes, chacune ayant des implications différentes pour votre stratégie de contenu :

Couche 1 : Fondation des données d'entraînement
C'est l'énorme jeu de données utilisé pour entraîner le modèle à l'origine. Il comprend des pages web, des livres, des articles et d'autres sources de texte collectées jusqu'à une date limite spécifique. Pour GPT-4, cette date limite se situe autour du début de 2024. Voici l'idée cruciale : être dans ces données d'entraînement, c'est comme être intégré à la "mémoire" du modèle. Les sites qui étaient faisant autorité et bien liés pendant la période d'entraînement ont un avantage fondamental.

Couche 2 : Récupération en temps réel
Lorsque GPT-4 a besoin d'informations actuelles, il peut rechercher sur le web en temps réel en utilisant des capacités de recherche intégrées. Mais voici ce que la plupart des gens manquent : ce n'est pas comme une recherche Google. Le système utilise des requêtes de recherche spécifiques et des modèles de récupération qui ne correspondent pas nécessairement aux facteurs de classement SEO traditionnels.

Couche 3 : Apprentissage par renforcement basé sur les retours humains (RLHF)
Les réponses du modèle sont constamment affinées en fonction des retours humains. Cela signifie que les sources qu'il choisit de citer sont influencées par les références que les utilisateurs trouvent les plus utiles, pas seulement par les pages qui se classent le plus haut dans les recherches.

Mon cadre de test

J'ai développé une approche systématique pour suivre et influencer les mentions d'IA à travers ces trois couches :

Étape 1 : Auditer les mentions actuelles d'IA
J'ai créé des requêtes spécialement conçues pour tester comment les systèmes d'IA font référence aux informations dans les industries de mes clients. Au lieu de recherches génériques, j'ai testé des cas extrêmes et des scénarios spécifiques où l'IA pourrait avoir besoin de récupérer des données actuelles ou de faire des recommandations.

Étape 2 : Architecture du contenu pour la consommation par l'IA
En me basant sur mes observations, les systèmes d'IA ne consomment pas le contenu de la même manière que les humains. Ils fragmentent les informations en passages et synthétisent des réponses à partir de plusieurs sources. Cela a nécessité de restructurer le contenu afin que chaque section puisse se suffire à elle-même en tant qu'extrait précieux tout en faisant toujours partie d'un tout cohérent.

Étape 3 : Distribution stratégique du contenu
Au lieu de simplement publier sur les blogs d'entreprise, je me suis concentré sur l'obtention de contenu dans des sources plus susceptibles d'être incluses dans des ensembles de données d'entraînement ou de récupération en temps réel. Cela comprenait des articles invités sur des publications à haute autorité, des contributions à des ressources sectorielles, et une présence stratégique dans des bases de données couramment référencées.

Les cinq optimisations clés

Grâce aux tests, j'ai identifié cinq optimisations spécifiques qui ont systématiquement amélioré les taux de mention d'IA :

Optimisation de la récupération au niveau des morceaux : Rendre chaque section autonome avec un contexte clair, de sorte que les systèmes d'IA puissent extraire des informations précieuses même sans l'article complet.

Préparation à la synthèse des réponses : Structurer le contenu avec des hiérarchies logiques que les systèmes d'IA pouvaient facilement analyser et recombiner avec d'autres sources.

Valeur de citation : Assurer l'exactitude factuelle et l'attribution claire, car les systèmes d'IA semblent privilégier les sources de confiance pour les autres systèmes et les humains.

Largeur et profondeur thématiques : Couvrir les sujets de manière exhaustive plutôt que de cibler uniquement des mots-clés spécifiques, car les systèmes d'IA extraient des sources qui démontrent une expertise en la matière.

Intégration de contenu multimodal : Inclure des visualisations de données, des tableaux et des informations structurées que les systèmes d'IA pouvaient extraire et référencer plus facilement que du texte brut.

L'idée révolutionnaire était de réaliser que les mentions d'IA n'étaient pas seulement une question de qualité de contenu ; elles concernaient l'architecture du contenu et la stratégie de distribution alignées avec le fonctionnement réel de ces systèmes.

Perspicacité stratégique

Comprendre l'architecture des données en trois couches est crucial pour toute stratégie d'optimisation de l'IA. La plupart des entreprises n'optimisent qu'une seule couche.

Protocole de test

J'ai développé des types de requêtes spécifiques pour tester la fréquence des mentions d'IA : cas limites, événements actuels et scénarios de recommandations.

Architecture de contenu

Les systèmes d'IA consomment du contenu par passages, et non par pages. Chaque section doit être autonome tout en contribuant à l'ensemble.

Concentration de distribution

Accéder aux ensembles de données autorisés est plus important que les métriques SEO traditionnelles pour la fréquence des mentions en IA.

Les résultats de cette approche étaient étonnamment mesurables, même si nous étions essentiellement en train de percer de nouveaux territoires. Parmi les clients où j'ai mis en œuvre ce cadre, j'ai suivi un schéma cohérent :

La fréquence des mentions a considérablement augmenté. Pour mon client en commerce électronique, nous sommes passés de pratiquement aucune mention d'IA à être référencés dans des réponses sur les meilleures pratiques de l'industrie et les recommandations de produits. Les mentions n'étaient pas massives en volume, mais elles étaient cohérentes et pertinentes.

La qualité des mentions s'est améliorée. Au lieu de mentions de marque génériques, les systèmes d'IA ont commencé à faire référence à des méthodologies et des cadres spécifiques de notre contenu. Cela a suggéré que le contenu était valorisé pour sa substance, pas seulement pour son optimisation SEO.

Une cohérence inter-plateformes est apparue. Lorsque le contenu a commencé à être mentionné par un système d'IA, il a généralement commencé à apparaître dans d'autres également. Cela indiquait que nous parvenions à entrer dans des sources de données partagées ou des modèles de référence.

Considérations temporelles. La découverte la plus importante concernait le timing. Le contenu publié pendant les périodes de formation active avait des taux de mention beaucoup plus élevés que le contenu publié par la suite. Cela a suggéré un avantage de premier arrivé qui ne durera pas indéfiniment.

Mais voici la réalité : ces résultats provenaient de l'accent mis d'abord sur des fondamentaux de contenu solides, puis de l'adaptation pour la consommation par l'IA. Les quelques dizaines de mentions de LLM que nous avons obtenues ne provenaient pas de tactiques agressives d'"optimisation de l'IA" ; elles provenaient d'un contenu complet et autoritaire qui s'alignait naturellement avec la manière dont ces systèmes traitent l'information.

Learnings

Ce que j'ai appris et les erreurs que j'ai commises.

Pour que vous ne les fassiez pas.

Après des mois d'expérimentations à travers différentes industries et types de clients, voici les leçons clés qui vous feront gagner du temps et vous aideront à éviter les pièges courants :

Leçon 1 : Les métriques SEO traditionnelles ne prédisent pas les mentions d'IA. Une forte autorité de domaine et des classements dans les moteurs de recherche ne garantissent pas les références à l'IA. J'ai vu des sites avec un SEO médiocre obtenir des mentions d'IA constantes, tandis que des sites parfaitement optimisés sont ignorés.

Leçon 2 : La structure du contenu compte plus que le volume du contenu. Un seul contenu bien structuré et complet génère souvent plus de mentions d'IA que des dizaines d'articles de blog optimisés pour le SEO traditionnel.

Leçon 3 : L'information en temps réel a des règles différentes. Pour les événements actuels ou les informations en évolution rapide, les systèmes d'IA s'appuient fortement sur la récupération en temps réel, qui suit des schémas différents de l'inclusion de données d'entraînement.

Leçon 4 : La fenêtre d'opportunité se ferme. À mesure que de plus en plus d'entreprises comprennent cet espace, l'avantage d'être précoce diminuera. Le moment d'expérimenter, c'est maintenant, alors que la plupart des concurrents se concentrent encore sur le SEO traditionnel.

Leçon 5 : Les partenariats de distribution comptent plus que les pièces de contenu individuelles. Obtenir votre contenu référencé par des sources autoritaires que les systèmes d'IA font confiance est plus précieux que d'optimiser des pages individuelles.

Leçon 6 : Ne jetez pas le SEO traditionnel. L'optimisation pour l'IA doit se superposer à des fondamentaux solides de SEO, et non les remplacer. Les entreprises qui obtiennent les meilleurs résultats allient les deux approches de manière stratégique.

Leçon 7 : Testez tôt et testez souvent. Le paysage évolue rapidement à mesure que les systèmes d'IA progressent. Ce qui fonctionne aujourd'hui pourrait ne pas fonctionner dans six mois, il est donc essentiel de tester et de s'adapter en continu.

Comment vous pouvez adapter cela à votre entreprise

Mon playbook, condensé pour votre cas.

Pour votre SaaS / Startup

Pour les startups SaaS cherchant à tirer parti des mentions d'IA :

  • Concentrez-vous sur une documentation exhaustive des cas d'utilisation que les systèmes d'IA peuvent consulter pour obtenir des recommandations

  • Créez des guides d'intégration détaillés qui deviennent des ressources incontournables pour les conseils générés par l'IA

  • Établissez un leadership éclairé dans les publications de l'industrie susceptibles d'être incluses dans les ensembles de données d'entraînement

  • Documentez des méthodologies et des cadres uniques qui différencient votre approche

Pour votre boutique Ecommerce

Pour les boutiques de commerce électronique souhaitant augmenter les mentions de l'IA :

  • Créer un contenu éducatif complet sur les produits que l'IA peut utiliser comme référence pour des recommandations

  • Développer des guides autoritaires pour vos catégories de produits ou votre secteur

  • Se concentrer sur les plateformes d'avis et les annuaires couramment référencés par les systèmes d'IA

  • Créer un contenu d'expertise autour de la sélection de produits et des conseils d'utilisation

Obtenez plus de Playbooks comme celui-ci dans ma newsletter