Growth & Strategy

Comment j'ai appris que la meilleure validation des modèles d'IA signifie parfois rompre avec son propre processus

Personas

SaaS & Startup

Personas

SaaS & Startup

Le mois dernier, j'ai eu l'un de ces moments qui vous fait remettre en question tout ce que vous pensez savoir sur la construction de systèmes d'IA. Je consultais pour une startup B2B qui voulait mettre en œuvre des workflows de Lindy.ai pour automatiser ses opérations de support client.

Le client était enthousiaste à propos de l'automatisation par l'IA mais n'avait aucune expérience en validation de modèles. Leur approche était essentiellement "construisez-le, expédiez-le, espérez le meilleur." Ça vous semble familier ? Je vois ce schéma partout—les fondateurs se laissent prendre par l'excitation des outils d'IA comme Lindy.ai sans comprendre comment évaluer correctement si leurs modèles fonctionnent vraiment.

Voici ce que j'ai appris au cours de cette expérience douloureuse mais éducative : la plupart des processus de validation de modèles d'IA sont à l'envers. Alors que tout le monde se concentre sur des indicateurs techniques et des ensembles de données de validation parfaits, ils passent à côté de la question la plus importante : est-ce que cette chose résout réellement des problèmes commerciaux ?

Ce manuel couvre ce que j'ai découvert sur la mise en œuvre de l'IA qui fonctionne réellement :

Pourquoi la validation traditionnelle des modèles échoue pour les applications commerciales d'IA
L'approche de validation contre-intuitive qui a sauvé ce projet
Comment concevoir des tests de validation qui prédisent la performance dans le monde réel
Quand faire confiance à votre instinct plutôt qu'à vos mesures
Le cadre simple qui fonctionne pour les projets d'automatisation SaaS

Vérifier la réalité

Ce que la plupart des équipes ne comprennent pas sur la validation de l'IA

Si vous avez lu un quelconque guide sur la validation des modèles d'IA, vous avez probablement vu le même conseil répété partout. Le processus standard se déroule généralement comme suit :

Divisez vos données en ensembles d'entraînement, de validation et de test en utilisant le sacro-saint ratio 70/20/10
Choisissez vos métriques - exactitude, précision, rappel, scores F1, tout ce qui vous fait vous sentir intelligent
Effectuez une validation croisée pour vous assurer que votre modèle ne surajuste pas
Testez sur des données non utilisées pour obtenir des estimations de performance "non biaisées"
Déployez si les métriques sont bonnes et priez pour que tout fonctionne en production

Cette approche existe parce que c'est ce qui fonctionne dans la recherche académique et les compétitions de science des données. C'est clair, mesurable et fait que tout le monde a l'impression d'être scientifique dans le développement de l'IA.

Mais voici le problème : les applications IA en entreprise ne sont pas des compétitions Kaggle. Vos clients se moquent de votre score F1. Ils se soucient de savoir si votre IA résout réellement leurs problèmes sans en créer de nouveaux.

La sagesse conventionnelle est insuffisante car elle optimise la performance statistique au lieu des résultats commerciaux. Un modèle peut avoir une exactitude parfaite sur votre ensemble de test et être complètement inutile dans le monde réel s'il ne prend pas en compte les cas extrêmes, le comportement des utilisateurs ou les conditions commerciales changeantes.

La plupart des processus de validation supposent également que vous disposez de données propres et représentatives. En réalité, les données commerciales sont désordonnées, biaisées et évoluent constamment. Votre ensemble de validation du mois dernier pourrait être complètement irrélevant aujourd'hui.

Who am I

Consider me as
your business complice.

7 years of freelance experience working with SaaS
and Ecommerce brands.

How do I know all this (3 min video)

Lorsque ce client m'a contacté pour mettre en œuvre Lindy.ai pour leur automatisation du support client, j'ai pensé que ce serait simple. Ils avaient un cas d'utilisation clair : catégoriser automatiquement les tickets de support entrants et les acheminer vers les bons membres de l'équipe.

Le contexte commercial était parfait pour l'automatisation. Ils étaient une entreprise SaaS B2B en croissance, gérant environ 200 tickets de support par jour. Leur équipe de support était submergée, les temps de réponse devenaient de plus en plus longs, et la satisfaction client était en baisse. Une opportunité classique d'automatisation.

J'ai commencé avec ce que je pensais être l'approche "correcte". Nous avons collecté six mois de données historiques sur les tickets, tout étiqueté avec soin, et construit un ensemble de validation. Le modèle Lindy.ai que nous avons entraîné avait l'air super sur le papier - 94 % de précision, d'excellents scores de précision et de rappel dans toutes les catégories.

Mais lorsque nous l'avons déployé pour gérer de vrais tickets, tout s'est écroulé. Le modèle catégorisait avec confiance des problèmes de facturation urgents comme des "demandes générales". Il ne pouvait pas gérer les tickets avec plusieurs sujets. Les clients commençaient à se frustrer parce que leurs problèmes urgents étaient envoyés aux mauvaises équipes.

Les métriques disaient que notre modèle fonctionnait parfaitement. La réalité était qu'il aggravait l'expérience client, au lieu de l'améliorer. C'est alors que j'ai réalisé que nous résolvions le mauvais problème.

Le véritable défi n'était pas de construire un modèle capable de catégoriser les tickets avec précision. C'était de construire un système capable d'améliorer l'expérience de support réelle tout en gérant toutes les façons désordonnées et imprévisibles dont les vrais clients communiquent.

My experiments

Here's my playbook

What I ended up doing and the results.

Après l'échec initial, j'ai complètement changé mon approche de la validation. Au lieu de commencer par des données et des métriques, j'ai commencé par les résultats commerciaux et l'expérience utilisateur.

Étape 1 : Définir le succès en termes commerciaux

Nous avons redéfini les métriques de succès autour des résultats commerciaux : temps de réponse moyen, scores de satisfaction client et efficacité de l'équipe de support. L'exactitude technique est devenue une métrique de soutien, pas l'objectif principal.

Étape 2 : Construire la validation autour des cas particuliers

Au lieu d'utiliser un échantillon aléatoire de données historiques, nous avons spécifiquement collecté des exemples des tickets les plus étranges et les plus difficiles. Clients mécontents, litiges de facturation, problèmes techniques décrits dans un anglais approximatif. Ces cas limites ont révélé où notre modèle allait réellement échouer en production.

Étape 3 : Tester en mode simulation

Nous avons déployé le modèle Lindy.ai en mode "shadow" - il faisait des prédictions sur des tickets en direct mais ne les dirigeait pas réellement. Cela nous a permis de comparer les décisions du modèle avec ce que faisaient les agents humains, révélant des lacunes que nous n'aurions jamais détectées avec des données de validation statiques.

Étape 4 : Validation progressive

Au lieu de valider une fois et de déployer, nous avons mis en œuvre une validation continue. Le modèle a commencé à traiter uniquement les catégories de tickets les plus évidentes et à faible risque. Alors qu'il s'est avéré fiable, nous avons progressivement élargi son champ d'application.

Étape 5 : Retour d'information humain

Nous avons créé des boucles de rétroaction où les agents de support pouvaient rapidement signaler lorsque le modèle prenait de mauvaises décisions de routage. Ce retour d'information en temps réel est devenu plus précieux que n'importe quelle métrique de validation hors ligne.

L'idée clé était de considérer la validation comme un processus continu, et non comme une porte d'entrée unique. Nous validions constamment le modèle face à des conditions commerciales en évolution, de nouveaux types de tickets et des schémas de comportement des clients en évolution.

Métriques commerciales

Concentrez-vous sur des résultats comme le temps de réponse et la satisfaction client, pas seulement sur des scores d'exactitude technique.

Test de cas limite

Construisez des ensembles de données de validation spécifiquement à partir de vos scénarios réels les plus étranges et les plus difficiles.

Déploiement en ombre

Testez les décisions du modèle par rapport aux choix humains sur des données en direct avant le déploiement complet.

Apprentissage continu

Mettre en œuvre des boucles de rétroaction pour une validation continue au fur et à mesure que les conditions commerciales changent.

Les résultats de cette approche de validation étaient radicalement différents de notre première tentative. Au lieu de scores de précision élevés qui ne signifiaient rien, nous avons réalisé des améliorations commerciales mesurables.

Les scores de satisfaction des clients ont augmenté de 23 % au cours du premier mois. Le temps de réponse moyen pour les tickets correctement classés est passé de 4 heures à 45 minutes. L'équipe de support a signalé qu'elle se sentait plus confiante dans le système car elle pouvait voir exactement comment et pourquoi les décisions de routage ont été prises.

Surtout, nous avons détecté et corrigé des cas particuliers avant qu'ils n'impactent les clients. Le déploiement en ombre a révélé que notre modèle avait du mal avec les tickets contenant à la fois des problèmes techniques et de facturation. Nous avons pu résoudre cela avant que cela ne provoque une frustration chez les clients.

L'approche de validation progressive signifiait que nous n'avions jamais un déploiement

Learnings

What I've learned and
the mistakes I've made.

Sharing so you don't make them.

Cette expérience m'a appris que la validation n'est pas une question de prouver que votre modèle est parfait - il s'agit de comprendre exactement comment et quand il échouera, puis de concevoir des systèmes pour gérer ces échecs avec grâce.

Les résultats commerciaux l'emportent sur les mesures techniques - Un modèle avec 80% de précision qui améliore l'expérience client est meilleur qu'un modèle avec 95% de précision qui frustre les utilisateurs
Les cas particuliers révèlent la véritable qualité du modèle - Vos points de données les plus étranges sont plus précieux pour la validation que vos points les plus propres
La validation est un processus, pas un événement - La validation continue détecte les problèmes que les tests ponctuels manquent
Le déploiement en ombre préserve les relations - Tester sur des données en direct sans impacter les utilisateurs vous permet de trouver des problèmes sans brûler les ponts
Les retours humains l'emportent sur les métriques automatisées - Les personnes qui utilisent votre système quotidiennement repéreront les problèmes plus rapidement que n'importe quel tableau de bord
Commencez petit et prouvez la valeur de manière incrémentielle - Personne ne fait confiance à l'IA qui promet de tout résoudre d'un coup
Concevez pour l'échec - Supposez que votre modèle fera des erreurs et construisez des solutions de repli élégantes dès le premier jour

How you can adapt this to your Business

My playbook, condensed for your use case.

For your SaaS / Startup

Pour les équipes SaaS mettant en œuvre les flux de travail de Lindy.ai :

Commencez par vos processus les plus répétitifs et à faible risque
Définissez des indicateurs de réussite liés aux résultats clients
Intégrez des boucles de rétroaction dans le flux de travail de votre produit
Testez des cas limites avec des scénarios d'utilisateurs réels

For your Ecommerce store

Pour les entreprises de commerce électronique automatisant leurs opérations :

Mettez l'accent sur les indicateurs d'expérience client plutôt que sur les gains d'efficacité
Testez avec vos interactions client les plus difficiles
Implémentez des déploiements progressifs par segment de client
Surveillez les changements dans les scores de satisfaction client

Abonnez-vous à ma newsletter pour recevoir des playbooks business chaque semaine.

‍Inscrivez-moi !

What I've learned

Recommended Playbooks

Outils d'analyse

ou

Compréhension de l'utilisateur ?

Pourquoi la plupart des outils d'analyse d'utilisation des SaaS vous rendent plus stupide (et mon approche alternative)

Boucles de Croissance

ou

Nouveaux utilisateurs ?

Des enfers de la sensibilisation manuelle aux boucles de croissance automatisées : pourquoi j'ai cessé de courir après de nouveaux utilisateurs

Bourdonnement de marque

sans

devenir viral ?