Le 28 juin 2025, un collectif d’écrivains américains a obtenu une première victoire dans la procédure judiciaire qu’ils mènent contre Microsoft et OpenAI. Ces auteurs accusent les deux géants d’avoir utilisé leurs ouvrages sans consentement pour entraîner leurs modèles d’intelligence artificielle, notamment Megatron et GPT-4. Le juge de San Francisco en charge du dossier a refusé de classer l’affaire, estimant qu’il existe « des éléments plausibles de violation du droit d’auteur » pouvant donner lieu à des dommages et intérêts. Cette décision marque un tournant majeur pour l’industrie de l’IA, en posant la question brûlante de la propriété intellectuelle à l’ère des modèles génératifs.
L’utilisation massive d’œuvres protégées : un modèle économique contesté
La base d’entraînement au cœur de la polémique
Les écrivains plaignants reprochent à Microsoft et OpenAI d’avoir alimenté leurs modèles avec des millions d’ouvrages sous copyright, notamment via des bases de données comme Books3, connues pour inclure des copies numérisées de livres sans accord des ayants droit. Cette pratique, si elle est avérée, expose les entreprises à de lourdes sanctions : le montant des dommages et intérêts pourrait atteindre plusieurs millions de dollars, sans compter l’atteinte à leur image de marque.
Selon Generation NT, le juge a retenu que l’usage des textes originaux ne relevait pas de la simple inspiration, mais d’une exploitation directe d’œuvres protégées, potentiellement constitutive d’une violation du droit d’auteur si les contenus ont été reproduits ou dérivés de manière substantielle dans les réponses générées par l’IA.
Une stratégie d’entraînement au service des performances IA
Les entreprises comme OpenAI justifient l’utilisation de vastes corpus de textes par la nécessité d’améliorer la compréhension contextuelle et la qualité des modèles linguistiques. Plus l’IA est exposée à une diversité d’écrits, plus elle est capable de générer des textes fluides et pertinents. Cette logique d’entraînement massif, au cœur de la course à l’IA générative, se heurte toutefois à la législation sur la propriété intellectuelle, conçue à une époque où le concept d’une machine « apprenant » à partir d’œuvres humaines était inimaginable.
Vers un encadrement juridique plus strict de l’entraînement des IA
Le juge appelle à clarifier le fair use appliqué à l’IA
Dans sa décision, le juge californien rappelle que le « fair use » (usage équitable) peut autoriser l’utilisation d’œuvres protégées à des fins d’innovation ou de recherche. Mais il souligne aussi que ce principe doit être adapté à l’ère des modèles génératifs : la ligne entre usage transformateur et violation du droit d’auteur reste floue. Le tribunal pourrait ouvrir un précédent sur la définition même de ce qui constitue un usage légitime dans le cadre de l’IA.
Cette question est d’autant plus pressante que la jurisprudence récente, notamment dans les affaires opposant Anthropic ou Meta à des groupes d’auteurs, montre des décisions contradictoires selon les cas. Certaines juges estiment que l’entraînement sur des œuvres protégées est une forme d’usage équitable, d’autres y voient une violation pure et simple si le modèle peut générer des passages proches du texte original.
Un risque majeur pour le développement de l’IA générative
Si la procédure aboutissait à une condamnation, elle pourrait obliger les entreprises à réviser leur approche de l’entraînement des modèles, voire à supprimer une partie des corpus utilisés. Cela menacerait la performance des IA actuelles, mais ouvrirait aussi la voie à la création de bases de données entièrement licenciées et rémunérées. Une telle évolution encouragerait le développement d’un modèle économique plus respectueux des créateurs, mais nécessiterait des investissements colossaux et des négociations avec des millions d’ayants droit.
La décision de la justice américaine de poursuivre l’examen de la plainte des auteurs contre Microsoft et OpenAI marque un coup d’arrêt symbolique à l’impunité perçue des géants de l’IA dans leur utilisation d’œuvres protégées. Elle ouvre la porte à une redéfinition des contours du droit d’auteur à l’ère de l’intelligence artificielle, et impose une réflexion sur la place des créateurs dans l’économie numérique.
Pour limiter les risques juridiques, les entreprises d’IA devront :
- établir des contrats de licence clairs avec les éditeurs et auteurs pour l’utilisation de textes ;
- documenter précisément les corpus utilisés lors de l’entraînement des modèles ;
- intégrer dans leurs CGU des clauses précisant les responsabilités en cas de violation avérée du droit d’auteur.
Ces démarches seront nécessaires pour démontrer leur bonne foi et rassurer les ayants droit sur le respect de leurs œuvres.
Cette affaire pourrait accélérer la création de licences collectives pour l’entraînement des IA, sur le modèle des sociétés de gestion des droits dans la musique. Elle pose aussi la question de la souveraineté des données culturelles : qui décidera demain des corpus qui formeront l’IA ? La réponse conditionnera l’avenir de la créativité humaine face aux machines.