Arnaud Dumont (Algocat) : « Avec ChatGPT, les acteurs du retail ont pris conscience de l’intérêt de l’IA pour optimiser leurs catalogues produits »

Près d’un tiers des consommateurs abandonnent leur achat en ligne à cause d’une mauvaise information ou d’une information manquante sur un produit. Les technologies d’intelligence artificielle (IA) offrent des solutions inédites d’amélioration des catalogues produits en ligne en améliorant l’exhaustivité et la qualité de l’information disponible. Actu Retail a interrogé à ce propos Arnaud Dumont, fondateur d’Algocat, une plateforme SaaS qui automatise les tâches d’audit, de création et de mise à jour des données produits.

Quels sont vos constats de départs ? Pourquoi avoir souhaité vous lancer dans cette aventure Algocat ?

Arnaud Dumont : Il s’agit de ma deuxième société. La première concernait aussi une solution d’intelligence artificielle, mais dans le domaine de la presse. C’est en découvrant le secteur de l’e-commerce que j’ai identifié des problématiques similaires. Ce secteur génère un grand volume de données, avec un nombre important de traitements manuels et donc des problèmes de qualité. En parallèle, la taille des catalogues ne cesse d’augmenter. Cela s’explique par le souhait des consommateurs d’avoir une offre importante lorsqu’ils naviguent sur un site internet, et par le développement du format marketplace. L’apparition de pratiques d’économie circulaire, avec des échanges de consommateur à consommateur, augmente aussi la taille des catalogues et amène de nouveaux enjeux sur les données. 

J’observe deux grandes thématiques relatives aux données dans le e-commerce. Il y a les données clients et les données produits. Les données clients ont été beaucoup étudiées par les e-commerçants ces dernières années, et il existe désormais de nombreuses solutions d’IA pour les traiter. En revanche, les données produits n’en sont qu’au stade de la prise de conscience, alors qu’elles deviennent de plus en plus nombreuses et complexes à gérer. 

Les produits proposés en ligne ont besoin de données à plusieurs niveaux. Certaines sont réglementaires, notamment les étiquettes énergie, les allergènes ou encore les âges recommandés pour les jouets. Ces données peuvent avoir des conséquences légales importantes pour les e-commerçants. Pourtant, en étudiant les catalogues de produits, nous nous sommes aperçus qu’il existe beaucoup de données erronées. Par exemple, une part non négligeable des étiquettes énergie mises en ligne sont fausses. Il y a de vrais enjeux sur les données réglementaires et ce n’est pas anodin. 

Ensuite, il existe des données nécessaires à la publication. Ce sont celles requises pour être publié sur le site d’un retailer ou d’une marketplace. Ces données sont importantes, pour pouvoir retrouver facilement un produit et en assurer le bon affichage auprès de l’internaute. 

Enfin, d’autres données peuvent être rangées dans une rubrique « performance ». Ce sont celles qui vont permettre d’améliorer le référencement des produits et les taux de conversion y afférents. Il s’agit ici d’intervenir sur la description des produits, qui est cruciale pour le référencement naturel, et sur certains filtres de recherche.

Nous sommes donc en présence d’un double phénomène. D’une part, le nombre de données à saisir pour chaque produit a tendance à augmenter. Et d’autre part, la taille des catalogues ne cesse de croître. En combinant ces deux aspects, cela offre un beau terrain de jeu pour l’IA. Celle-ci sert principalement à remplacer les traitements manuels ou à en faire lorsque ce n’est humainement pas envisageable. Un client nous a demandé de mettre à jour des attributs sur 40 000 fiches produits par mois, ce qui est impossible manuellement. L’IA offre de vraies solutions dans de tels cas d’espèce. Elle vient aussi remplacer des systèmes experts, qui nécessitent eux-mêmes beaucoup d’interventions humaines pour être maintenus à jour et représentent un coût d’entretien important.

Au regard des éléments de contexte que vous venez de dresser, quelles sont les solutions apportées par une plateforme comme Algocat ?

Arnaud Dumont : L’IA va d’abord nous permettre d’identifier les produits. Le préalable à toute chose est de déterminer la nature d’un produit, ce qui nous permet de le classer de façon pertinente sur un site e-commerce. C’est la première problématique que nous traitons : 10 à 15 % des produits sont généralement mal classés sur les sites e-commerce.

Par ailleurs, nous nous sommes rendu compte que beaucoup de e-commerçants connaissent mal la qualité de leur catalogue – et ne savent donc pas où agir en priorité. Ils ne savent pas quelles sont les catégories où ils sont bons en matière d’exactitude des données, ni les fournisseurs qui renseignent correctement les informations demandées et ceux qui sont un peu plus laxistes.

En réponse à cela, nous proposons une solution d’audit qui recourt à différentes techniques, dont l’IA, pour analyser un catalogue et identifier ses points faibles. Nous mettons par exemple en avant les caractéristiques insuffisamment renseignées pour un type de produit donné, ou tout simplement les valeurs incorrectes. Une fois identifiées ces pistes d’amélioration, l’IA permet de corriger et d’enrichir.

La première fonctionnalité – la correction – permet de reclasser des produits et de chercher des attributs, que ce soit dans un descriptif fourni par le fabricant ou une image, pour compléter une fiche produit qui aurait des valeurs manquantes. Pour un client, nous avons créé des pages thématiques, en extrayant des informations dans les descriptions des produits, en lien avec des intentions de recherche sur Google. Ces pages thématiques performent très bien sur le site et amènent beaucoup de trafic.

La seconde fonctionnalité – l’enrichissement – porte notamment sur la génération de texte. Nous n’avons pas développé notre propre IA générative, car cela nécessite des centaines de millions d’euros en investissement. Nous utilisons donc les IA existantes : nous savons comment les mettre en place pour générer automatiquement des descriptions de produit, ou répondre à des questions courantes des utilisateurs. Cela permet d’améliorer considérablement le référencement naturel. Les IA génératives sont en cela vraiment intéressantes.

On peut aussi créer des liens automatiquement entre le catalogue produit et les contenus éditoriaux publiés par ailleurs par un e-commerçant. Je pense aux fiches pratiques, aux textes « Do it Yourself », etc. C’est une très bonne chose pour le référencement, car cela témoigne de la présence de contenus à haute valeur ajoutée.

Quand on parle d’IA générative, on pense forcément à ChatGPT. Quelles en sont les limites ?

Arnaud Dumont : Pour comprendre les limites des IA génératives, il faut impérativement saisir leur mode de fonctionnement. Ce sont des « large language model » (LLM), c’est-à-dire des modèles de génération de texte entraînés sur des volumétries colossales. Ces IA ont appris des millions et des millions de textes. Et quand on interroge une IA comme ChatGPT, elle ne fait que générer la suite de mots la plus probable à la question qu’on lui a posée, en se fondant sur tout ce qu’elle a appris en amont.

Cela signifie que si la question posée contient une erreur, l’IA ne va pas forcément la détecter. Si vous demandez à ChatGPT de décrire un certain modèle de réfrigérateur et que vous dites que c’est un congélateur, il va générer des attributs d’un congélateur et non pas du modèle précis du réfrigérateur recherché.

En outre, si la question n’est pas assez précise et complète, l’IA va « halluciner » – c’est-à-dire qu’elle va inventer des choses à partir de sa base de connaissances. C’est un terme qui revient assez souvent pour parler des IA génératives. Pour obtenir une description de produit qui soit pertinente, il faut adresser une question – un « prompt » – qui soit la plus complète et la plus précise possible pour éviter que des caractéristiques soient inventées. Cela exige de préciser quelles sont les caractéristiques utiles à mettre en avant et intéressantes pour le consommateur. Par exemple, si l’on ne précise pas à l’IA qu’une étiquette énergie d’indice F correspond à une consommation élevée, elle peut générer un texte où elle explique qu’un téléviseur classé F est extrêmement économe – alors que ce n’est pas du tout le cas.

Il faut donc beaucoup aider ChatGPT. Et quand c’est le cas, on peut avoir de très bons résultats et, surtout, on peut automatiser en masse. Quand on arrive à créer un modèle d’appel à ChatGPT qui est adapté à un type de produit, il est alors possible de générer des quantités considérables de descriptions de produit. 

Il y a une autre limite. Comme ChatGPT génère du texte à partir de sa propre base de connaissances, il ne va pas forcément utiliser un langage adapté à l’univers de la marque ou du site de l’e-commerçant. Là aussi, il faut l’aider à apprendre à générer un texte qui soit dans la ligne éditoriale de l’e-commerçant. De nombreux paramètres d’appel à ChatGPT permettent de jouer sur le « tone of voice » des textes générés. Nous sommes donc aujourd’hui capables d’introduire l’univers sémantique d’une enseigne dans les réponses générées par une IA telle que ChatGPT – bien que cela demande du travail.

Les acteurs du retail montrent-ils un intérêt important à l’égard de ces enjeux propres à l’IA ? Sont-ils « matures » vis-à-vis de ces questions ou certains freins subsistent-ils ?

Arnaud Dumont : J’ai l’impression qu’il y a une prise de conscience du fait de l’augmentation de la taille des catalogues et de l’avènement du modèle de la marketplace. Les e-commerçants qui ont une marketplace, ou qui disposent de catalogues importants, ont commencé à se pencher sur les sujets d’IA et à en mettre en place. Je pense qu’il y a clairement un avant et un après ChatGPT en termes d’intérêt, celui-ci ayant permis de mettre en avant l’importance de l’IA grâce à son caractère extrêmement démonstratif. 

Aujourd’hui, on a vraiment différents profils d’e-commerçants. Certains ont des catalogues qui ne sont pas très volumineux et qui vont effectuer le travail à la main, voire le sous-traiter en offshore. Dans cette hypothèse, l’IA peut être intéressante mais ils ont déjà des process en place qui répondent aux besoins. L’IA reste un outil qui doit être comparé aux autres solutions existantes, y compris manuelles. 

L’IA devient déterminante dans l’hypothèse de catalogues volumineux – où l’on doit mettre à jour plusieurs milliers de fiches produits par mois par exemple. Il y a une vraie prise de conscience et une volonté de ces acteurs de mettre en place des solutions d’IA. 

Il y a trois niveaux de qualité des données. Le niveau supérieur est celui de la marque ou du fournisseur traditionnel qui transmet des informations qualitatives au sujet de ses produits. Le niveau intermédiaire concerne le modèle de la marketplace, avec des informations fournies par le vendeur généralement moins qualitatives. Et le dernier niveau est celui du C to C, avec la génération d’une fiche produit par un particulier lui-même. Il faut pouvoir trouver des automatisations pour accompagner l’essor de l’économie circulaire dans cette logique de vente de particulier à particulier.

Keep Exploring
Les prix maintenus malgré la hausse des coûts des matières premières