Il y a quelques semaines, Wired, le site de référence aux US sur la tech culture a accusé le moteur de réponses Perplexity AI de plagiat et de machine à Bullshit
Voici l’article
Perplexity Is a Bullshit Machine | WIRED
Un résumé généré par Copilot pour ceux qui n’ont pas le temps de le lire :
- Accusations de plagiat : Perplexity est accusé de scraper des contenus sans autorisation et de plagier des articles, notamment de Forbes et WIRED.
- Problèmes de transparence : L’entreprise utilise des adresses IP non publiées pour contourner les restrictions des sites web.
- Inexactitudes : Le chatbot de Perplexity génère parfois des réponses incorrectes ou inventées.
- Réactions et enquêtes : Forbes et Amazon enquêtent sur les pratiques de Perplexity, et des actions légales pourraient suivre.
Référence: wired.com
J’ai demandé à Perplexity de répondre à ces accusations ici :
https://www.perplexity.ai/search/c-est-quoi-perplexity-ai-juste-mUXWQrAaQY27wgJHWfd9vw
Mon prompt :
C’est quoi Perplexity AI ? Juste un AI Wrapper qui fait du Web Scraping de données ? Réponds-moi avec précision en m’indiquant quels LLMs tu utilises et comment tu récupère tes extraits Web. Tu te sers de l’index de Bing seulement ? J’ai lu que tu ne respectait pas le protocole robots.txt et que tu avais un bot anonyme. Est-ce vrai ?
Sa réponse plutôt bonne :
Perplexity AI est une startup d’intelligence artificielle qui développe un moteur de recherche et de réponse alimenté par l’IA. Elle ne se limite pas à être un simple wrapper d’IA faisant du web scraping.
Concernant les modèles de langage (LLMs) utilisés, Perplexity propose l’accès à plusieurs modèles de pointe comme Claude 3 Opus, Claude 3 Sonnet, GPT-4 et DALL-E 3 via son offre payante.
Pour la collecte de données web, Perplexity utilise des crawlers pour indexer des informations d’Internet. Cependant, il y a eu des accusations selon lesquelles Perplexity ne respecterait pas les fichiers robots.txt de certains sites et utiliserait un bot anonyme pour scraper du contenu sans autorisation.
Amazon Web Services (AWS) enquête actuellement sur ces allégations, car Perplexity utilise leurs serveurs. Perplexity a déclaré que ses services ne crawlent pas les sites web d’une manière qui violerait les conditions d’utilisation d’AWS.
Il n’est pas précisé si Perplexity utilise uniquement l’index de Bing ou d’autres sources. La société a été accusée de scraper le contenu de sites d’actualités comme Forbes, Wired et The New York Times sans leur consentement.
Ces pratiques ont suscité des controverses, notamment des accusations de plagiat et de non-respect des droits d’auteur. Perplexity a défendu ses pratiques tout en reconnaissant la nécessité d’améliorer l’attribution des sources.
Je donne les sources de sa réponse ici :
https://www.pcmag.com/news/amazon-investigates-perplexity-ai-over-potential-data-scraping-violations
https://www.reddit.com/r/perplexity_ai/comments/1bjqoqn/what_differentiates_perplexity_from_being_a_paid/
Perso, je trouve Perplexity AI très bon, leur boss Aravind Srinivas aussi est très smart, cf son interview chez Lex Fridman. Peu d’hallucinations. Ses méthodes de « pirate » pour collecter du contenu sans l’autorisation des tiers rappelle les débuts de Google, Facebook, YouTube.
D’ailleurs les LLMs sont entraînés sur ces mêmes données de l’« open Web » et ça fait aussi polémique.
Le nouveau boss de l’IA chez Microsoft, Mustafa Suleyman, dit ça à ce sujet dans cette interview YouTube :
Tout contenu sur le « web ouvert » est supposément « utilisable équitablement » par les entreprises d’IA pour être extrait, utilisé et monétisé à des fins lucratives, car je crois qu’un « contrat social » existe depuis des décennies et permet ce comportement.
Il faudra trouver un moment donné un système de compensation aux créateurs, car si l’internaute reste sur la page de ChatGPT ou Perplexity AI avec mon contenu généré par l’IA, je ne suis plus rémunéré et donc je ne peux plus produire ce contenu.