Growth & Strategy

Comment j'ai appris que la plupart des retours des utilisateurs sur l'IA sont complètement inutiles (et comment y remédier)

Personas

SaaS & Startup

Personas

SaaS & Startup

D'accord, voici quelque chose qui va rendre beaucoup de responsables produits en IA mal à l'aise : la plupart des retours d'expérience que vous collectez sur vos fonctionnalités IA sont probablement inutiles. Pas parce que vos utilisateurs mentent, mais parce qu'ils ne peuvent littéralement pas vous donner un retour précis sur quelque chose qu'ils ne comprennent pas.

J'ai découvert cela à mes dépens en travaillant avec plusieurs startups SaaS mettant en œuvre des fonctionnalités IA. Le schéma était toujours le même : des utilisateurs bêta enthousiastes, des retours initiaux élogieux, puis un silence radio complet ou un abandon des fonctionnalités dans les semaines qui suivaient. Les retours ne prédisaient pas du tout le comportement réel d'utilisation.

Le problème ? Nous demandons aux humains d'évaluer l'IA de la même manière qu'ils évalueraient une fonctionnalité logicielle traditionnelle. Mais l'IA n'est pas un bouton ou un champ de formulaire. Elle est imprévisible, probabiliste et fonctionne souvent de manière à sembler magique pour les utilisateurs. Cela crée d'énormes angles morts dans la façon dont ils rapportent leur expérience.

Dans ce guide, vous apprendrez :

Pourquoi les méthodes traditionnelles de retour d'expérience échouent de manière spectaculaire avec les fonctionnalités IA
Les biais cognitifs spécifiques qui rendent les retours sur l'IA peu fiables
Mon cadre pour collecter des retours IA qui prédisent réellement le comportement des utilisateurs
Comment concevoir des systèmes de retour qui mettent en lumière de véritables modèles d'utilisation
Les métriques qui comptent plus que les scores de satisfaction des utilisateurs

Il ne s'agit pas d'améliorer les enquêtes. Il s'agit de repenser fondamentalement la manière dont nous validons les décisions de produits IA. Consultez nos guides IA pour plus d'informations sur la création de produits IA qui fonctionnent réellement.

Vérifier la réalité

Ce que l'industrie de l'IA ne veut pas admettre sur les retours des utilisateurs

Si vous avez suivi le guide de développement de produits d'IA, vous avez probablement entendu tous les conseils habituels sur la collecte des retours des utilisateurs concernant les fonctionnalités d'IA :

"Demandez aux utilisateurs d'évaluer la qualité de la sortie de l'IA" - Généralement sur une échelle de 1 à 5 ou avec un pouce levé/bas
"Collectez des scores de satisfaction" - NPS, CSAT, tous les suspects habituels
"Réalisez des interviews utilisateurs sur l'expérience IA" - Laissez les utilisateurs expliquer ce qu'ils ressentent à propos de l'IA
"Testez A/B différents modèles d'IA" - Voyez lequel obtient les meilleures évaluations des utilisateurs
"Suivez les taux d'adoption des fonctionnalités" - Supposer qu'une utilisation plus élevée équivaut à une meilleure IA

Cette sagesse conventionnelle existe parce qu'elle a très bien fonctionné pour les fonctionnalités de logiciels traditionnels. Lorsque vous testez un nouveau processus de paiement ou un design de tableau de bord, les utilisateurs peuvent vous dire avec précision si c'est déroutant, utile ou frustrant. Ils comprennent la cause et l'effet.

Mais l'IA casse complètement ce modèle. Les utilisateurs ne peuvent pas évaluer de manière fiable quelque chose qui :

Produit des sorties différentes pour la même entrée
Utilise une logique qu'ils ne peuvent pas déchiffrer
Échoue parfois de manière spectaculaire
S'améliore ou se dégrade avec le temps sans changements de version

Le résultat ? Vos données de feedback sont contaminées par des biais cognitifs, des effets de nouveauté et des malentendus fondamentaux sur ce qu'ils évaluent réellement. Vous prenez des décisions sur le produit en fonction des opinions des utilisateurs concernant quelque chose qu'ils ne peuvent littéralement pas comprendre.

C'est pourquoi tant de fonctionnalités d'IA sont lancées avec une grande fanfare et un enthousiasme des utilisateurs, puis meurent discrètement par manque d'engagement soutenu. Les retours initiaux étaient réels, mais ils ne mesuraient pas ce que vous pensiez qu'ils mesuraient.

Who am I

Consider me as
your business complice.

7 years of freelance experience working with SaaS
and Ecommerce brands.

How do I know all this (3 min video)

Cela m'est venu pendant un projet avec un client B2B SaaS qui avait ajouté une génération de contenu alimentée par l'IA à sa plateforme. Les retours utilisateurs initiaux étaient incroyables—4,8/5 de satisfaction, témoignages élogieux, utilisateurs l'appelant "révolutionnaire."

Trois mois plus tard ? L'utilisation avait chuté de 80 %. Les mêmes utilisateurs qui nous avaient donné des avis cinq étoiles avaient silencieusement cessé d'utiliser la fonctionnalité complètement.

Alors, j'ai creusé plus profondément. Ce que j'ai trouvé était fascinant et terrifiant. Les utilisateurs ne menteaient pas dans leurs retours—ils croyaient sincèrement qu'ils aimaient la fonctionnalité IA. Mais leur comportement racontait une histoire complètement différente.

Le schéma est devenu clair lorsque j'ai interviewé des utilisateurs qui avaient cessé d'utiliser l'IA :

Ils se souvenaient de l'IA fonctionnant mieux qu'elle ne le faisait réellement
Ils attribuaient leur propre travail d'édition aux capacités de l'IA
Ils confondaient l'excitation liée à la nouveauté initiale avec l'utilité à long terme
Ils n'avaient aucun cadre pour évaluer la sortie "suffisamment bonne" de l'IA

Le vrai problème ? Nous demandions aux utilisateurs d'évaluer la sortie de l'IA immédiatement après sa génération, alors qu'ils étaient encore dans le mode "ouah, c'est magique". Mais la valeur du contenu AI ne devient claire qu'après l'avoir réellement essayé dans leur flux de travail.

C'est à ce moment-là que j'ai réalisé que la collecte de feedback traditionnelle n'était pas seulement inefficace pour l'IA—elle nous induisait activement en erreur. Les utilisateurs nous donnaient des retours basés sur leur réaction émotionnelle à l'IA, et non sur son utilité réelle dans leur flux de travail.

Cette compréhension a complètement changé ma façon d'aborder la validation des produits IA. Au lieu de demander "que ressentez-vous à propos de cette sortie de l'IA," j'ai commencé à demander "que faites-vous avec cette sortie de l'IA ?" La différence dans les insights était spectaculaire.

My experiments

Here's my playbook

What I ended up doing and the results.

Après avoir été déçu par les méthodes de feedback traditionnelles, j'ai développé ce que j'appelle le Cadre de Feedback Comportemental. Au lieu de demander aux utilisateurs ce qu'ils pensent de l'IA, nous observons ce qu'ils en font réellement.

Phase 1 : Suivi Comportemental Silencieux

Avant de collecter tout retour subjectif, nous mettons tout en place pour suivre les modèles d'utilisation réels :

Temps passé à examiner la sortie de l'IA avant d'accepter/rejeter
Distance de modification - combien d'utilisateurs modifient le contenu généré par l'IA
Fréquence de régénération - à quelle fréquence les utilisateurs cliquent sur "réessayer"
Intégration dans le flux de travail - si la sortie de l'IA est utilisée dans les processus en aval
Utilisation retardée - les utilisateurs reviennent-ils à la fonction IA après un essai initial

Phase 2 : Micro-Feedback Contextuel

Au lieu d'enquêtes de satisfaction larges, nous collectons de petites informations contextuelles aux points de décision :

"Pourquoi régénérez-vous cela ?" (avec des options préremplies)
"Qu'est-ce qui manque à cette sortie ?" (lorsque les utilisateurs effectuent des modifications majeures)
"Comment allez-vous utiliser cela ?" (lorsque les utilisateurs acceptent la sortie de l'IA)

Phase 3 : Suivi des Résultats Délayés

La magie se produit lorsque nous suivons ce qui arrive à la sortie de l'IA dans le temps :

Le contenu est-il publié/partagé/mis en œuvre ?
Quel travail supplémentaire a été nécessaire pour le rendre utilisable ?
A-t-il créé le résultat commercial escompté ?

Phase 4 : Analyse Comparative

C'est ici que cela devient intéressant - nous comparons le travail assisté par l'IA avec le travail non assisté par l'IA :

Scores de qualité d'évaluateurs indépendants
Temps jusqu'à l'achèvement (y compris le temps d'édition)
Métriques d'impact commercial
Préférence des utilisateurs lorsqu'ils peuvent choisir entre l'IA et le manuel

Ce cadre fait remonter des idées que le feedback traditionnel rate complètement. Vous commencez à voir des motifs comme : les utilisateurs évaluent fortement la sortie de l'IA mais ont systématiquement besoin de 45 minutes d'édition pour la rendre utilisable. Ou ils adorent l'IA lors des démonstrations mais choisissent des processus manuels lorsque les délais sont serrés.

Détection de biais

Cartographier les 6 biais cognitifs qui corrompent le retour d'information de l'IA : effet de nouveauté, biais de confirmation, erreur d'attribution, biais d'ancrage, biais de survie et effet Dunning-Kruger dans l'évaluation de l'IA.

Suivi Comportemental

Instrument 5 indicateurs comportementaux clés : distance d'édition, fréquence de régénération, utilisation retardée dans le temps, intégration dans les flux de travail et choix comparatif lorsque l'IA est facultative contre requise.

Retour d'information contextuel

Remplacez les enquêtes de satisfaction par des micro-retours aux points de décision : "Pourquoi régénérer ?" "Qu'est-ce qui manque ?" "Comment allez-vous utiliser cela ?" Capturez l'intention, pas l'opinion.

Validation des résultats

Suivez ce qui arrive à la sortie de l'IA sur 30 à 90 jours : Est-ce qu'elle est utilisée ? Combien de travail supplémentaire était nécessaire ? A-t-elle atteint le résultat commercial prévu ?

Les résultats de la mise en œuvre de ce cadre étaient révélateurs. Ce que nous pensions être une fonctionnalité d'IA réussie (basée sur des retours traditionnels) générait en réalité plus de travail pour les utilisateurs qu'elle n'en économisait.

Les données qui ont tout changé :

Scores de satisfaction traditionnels : 4,8/5
Économies de temps réelles : -23 % (les utilisateurs passaient PLUS de temps au total)
Taux d'intégration des flux de travail : 34 % (la plupart des résultats n'ont jamais été utilisés)
Rétention sur 30 jours : 19 % (chute massive après que la nouveauté se soit estompée)

Mais voici ce qui était fascinant : lorsque nous avons corrigé les problèmes révélés par les retours comportementaux, à la fois les métriques ET les scores de satisfaction se sont améliorés de manière spectaculaire. Les utilisateurs ne pouvaient pas expliquer ce qui n'allait pas, mais leur comportement nous a montré exactement où l'IA échouait.

Le cadre comportemental a révélé que notre IA produisait des résultats techniquement corrects mais contextuellement inutiles. Les utilisateurs étaient polis à ce sujet dans les enquêtes, mais votaient avec leurs pieds en abandonnant la fonctionnalité.

Une fois que nous avons optimisé pour les métriques comportementales plutôt que pour les scores de satisfaction, nous avons constaté une adoption durable qui s'est réellement traduite par de la valeur commerciale. La leçon ? Les utilisateurs d'IA sont terribles pour prédire leur propre comportement futur, mais excellents pour démontrer leurs besoins réels par leurs actions.

Learnings

What I've learned and
the mistakes I've made.

Sharing so you don't make them.

Après avoir mis en œuvre cette approche dans plusieurs projets d'IA, voici les leçons clés qui m'auraient fait gagner des mois d'efforts inutiles :

Les utilisateurs ne peuvent pas évaluer la qualité de l'IA de manière isolée - Ils doivent l'utiliser dans leur flux de travail réel avant de comprendre sa valeur ou ses limitations
L'excitation initiale n'est pas prédictive d'un usage soutenu - L'effet de nouveauté crée une fenêtre de 2 à 4 semaines où les retours sont essentiellement sans valeur
La distance de modification est plus précieuse que les scores de satisfaction - La façon dont les utilisateurs modifient la sortie de l'IA en dit plus sur la qualité que leurs opinions
Les schémas comportementaux émergent lentement - Vous avez besoin de 6 à 8 semaines de données sur l'utilisation avant de pouvoir faire confiance aux schémas de comportement des utilisateurs
L'effondrement du contexte ruine la qualité des retours - Les utilisateurs évaluent la sortie de l'IA dans un vide, mais l'utilisent dans des flux de travail complexes où le contexte compte
L'analyse comparative est essentielle - Les utilisateurs doivent vivre des flux de travail AI vs non-AI pour donner des retours significatifs sur la valeur
Les utilisateurs avancés silencieux révèlent des opportunités d'optimisation - Les utilisateurs qui trouvent des moyens créatifs de travailler avec les limitations de l'IA vous montrent ce qu'il faut améliorer

Cette approche fonctionne mieux lorsque vous construisez des fonctionnalités d'IA qui s'intègrent dans des flux de travail existants. Elle est moins efficace pour les produits d'IA autonomes où l'ensemble de l'expérience est native de l'IA. Mais pour la plupart des entreprises B2B SaaS ajoutant des capacités d'IA, les retours comportementaux sont le seul moyen fiable de valider que votre IA améliore réellement les résultats des utilisateurs plutôt que de simplement les impressionner.

How you can adapt this to your Business

My playbook, condensed for your use case.

For your SaaS / Startup

Suivez les métriques comportementales avant le lancement—instrumentez les modèles d'édition, la fréquence d'utilisation et l'intégration dans le flux de travail
Attendez 6 à 8 semaines avant de faire confiance aux retours des utilisateurs—l'excitation initiale masque les véritables problèmes d'utilisabilité
Concentrez-vous sur les métriques de temps à la valeur—mesurez combien de temps il faut aux utilisateurs pour obtenir une valeur commerciale à partir des résultats de l'IA

For your Ecommerce store

Mesurer l'impact de la conversion sur la satisfaction client—les recommandations d'IA que les utilisateurs aiment mais n'achètent pas sont des échecs
Suivre le comportement intersession—les expériences d'achat par IA s'étendent souvent sur plusieurs visites avant les décisions d'achat
Surveiller les modèles d'abandon—là où les utilisateurs cessent d'interagir avec les fonctionnalités d'IA révèle des opportunités d'optimisation

Abonnez-vous à ma newsletter pour recevoir des playbooks business chaque semaine.

‍Inscrivez-moi !

What I've learned

Recommended Playbooks

Outils d'analyse

ou

Compréhension de l'utilisateur ?

Pourquoi la plupart des outils d'analyse d'utilisation des SaaS vous rendent plus stupide (et mon approche alternative)

Boucles de Croissance

ou

Nouveaux utilisateurs ?

Des enfers de la sensibilisation manuelle aux boucles de croissance automatisées : pourquoi j'ai cessé de courir après de nouveaux utilisateurs

Bourdonnement de marque

sans

devenir viral ?