Droit d'auteur et modèles d'IA : Adobe visé pour l'entraînement de son SlimLM

Accusée d'avoir entraîné son modèle d'intelligence artificielle SlimLM à partir d'ouvrages piratés, Adobe fait face à une plainte collective portée par une autrice américaine. L'affaire relance le débat sur la traçabilité des corpus utilisés pour l'IA et pose des questions juridiques complexes pour l'ensemble de la filière. Ce contentieux pourrait avoir des répercussions sur l'ensemble de l'écosystème de l'édition, du numérique et de l'impression.

La plainte déposée en décembre 2025 contre Adobe par Elizabeth Lyon, une autrice américaine, remet sur la table une problématique désormais familière aux professionnels de l'édition : l'usage de contenus protégés par le droit d'auteur dans le cadre de l'entraînement de modèles d'intelligence artificielle. En cause ici, le modèle SlimLM, développé pour des tâches documentaires sur appareils mobiles. Selon la plaignante, certaines de ses œuvres auraient été utilisées sans autorisation dans le dataset SlimPajama-627B, présenté comme open source mais contenant des jeux de données issus de RedPajama et de Books3, connus pour avoir déjà entraîné des litiges.

Dans le cas d'Adobe, le jeu SlimPajama-627B se présente comme un agrégat de plusieurs sources, dont une partie - Books3 - regroupe plus de 191 000 livres, souvent récupérés sans licence explicite. L'absence de documentation claire sur la traçabilité de ces corpus complique sérieusement toute vérification.

L'entraînement d'un modèle IA repose rarement sur un seul fournisseur de données. Dans l'affaire SlimLM, Adobe reconnaît l'usage de SlimPajama-627B, publié par Cerebras, mais se retrouve poursuivie pour l'inclusion indirecte de contenus protégés. En cas de litige, qui assume la responsabilité ? Le producteur du modèle ? Le fournisseur du dataset ? Ou l'entreprise qui intègre l'IA dans ses produits ? Ce flou juridique, couplé au manque de normes sur les droits associés aux données utilisées, accroît les incertitudes pour toute la chaîne graphique.

Books3 a déjà fait couler beaucoup d'encre. Ce jeu de données, régulièrement cité dans des procédures judiciaires contre Apple, Salesforce ou Anthropic, s'est imposé comme le symbole des dérives dans la collecte de contenus pour les IA. Pour les maisons d'édition et les auteurs qui gèrent des contenus éditoriaux, la crainte est réelle de voir leur production intégrée à des modèles sans aucune contrepartie. D'autant que la restitution des contenus via IA peut parfois être proche du plagiat ou de la reproduction parasitaire.

Le règlement conclu par Anthropic avec plusieurs auteurs, pour un montant estimé à un 1,5 milliard de $, illustre que ce type de litige peut aboutir à des accords financiers majeurs. Un scénario similaire n'est pas exclu dans le cas d'Adobe.

Plus d'articles sur le thème