Risque de contrefaçon lié à la création et à l’utilisation des données de sortie d’un système d’IA générative
Mondial | Publication | juillet 2024
Lorsque les données de sortie d’un système d’IA générative sont identiques à une œuvre protégée par le droit d’auteur d’un tiers ou y sont essentiellement semblables (par exemple dans le cas d’un code de logiciel, d’une image ou d’un texte) :
- L’œuvre protégée par le droit d’auteur a-t-elle été copiée?
- Dans l’affirmative :
- S’agit-il d’une contrefaçon?
- Lequel des acteurs liés à l’IA a commis la contrefaçon?
Il peut s’avérer difficile de savoir comment les données de sortie ont été produites et quel rôle (s’il en est) l’œuvre originale protégée par le droit d’auteur a joué dans le processus. Il faut notamment se poser les questions suivantes :
- Le système d’IA a-t-il été entraîné au moyen de l’œuvre protégée par le droit d’auteur ou le système a-t-il eu accès autrement à l’œuvre (par exemple au moyen d’un accès direct à Internet)?
- Quel rôle l’entraînement (ou l’accès) a-t-il joué dans la production des données de sortie?
Au moment de la publication de ce document, aucun des principaux développeurs de systèmes d’IA générative n’avait encore divulgué précisément le fonctionnement technique détaillé de leur système, de sorte que ces systèmes sont à l’heure actuelle, dans une vaste mesure, une « boîte noire » pour les déployeurs et les utilisateurs. Difficile également de savoir dans quelle mesure le développeur d’un système d’IA serait en mesure d’indiquer exactement comment et à partir de quelles sources d’entraînement le système a généré les données de sortie.
Comment les données de sortie sont générées : exemple d’un système textuelMalgré le problème de boîte noire, les principes généraux quant à la manière dont est produit le contenu peuvent être illustrés au moyen de l’exemple d’un système d’IA textuel :
Lorsqu’une partie des données de sortie est semblable à une partie de l’œuvre protégée par le droit d’auteur, cela pourrait constituer une preuve de l’utilisation de l’œuvre protégée par le droit d’auteur en tant que données d’entrée; la similarité pourrait aussi être due au fait que la partie reproduite d’une œuvre protégée par le droit d’auteur suit la même structure que celle qui avait été déterminée par les probabilités cernées par le système d’IA générative. La question de la contrefaçon s’articule autour de cet exercice de pondération et dépendra de la quantité de ce qui a été reproduit et du caractère unique de cette partie. |
Bien que les systèmes d’IA générative soient entraînés au moyen d’un vaste éventail de sources de données, plus la requête est pointue, plus le système est susceptible de reproduire une copie exacte de la source sous-jacente.
Reproduction des données d’entréeLorsque l’IA générative doit se fier à une seule source de données dans un créneau particulier (par exemple lorsque la requête est d’écrire un code de logiciel afin de résoudre un problème particulier et qu’il n’existe qu’un seul exemple de ce code dans son ensemble de données d’entraînement), la réponse la plus probable à la requête sera la reproduction de ces données d’entrée. On peut en voir des exemples de ceci dans le déploiement public actuel de ChatGPT. Si on lui demande les paroles d’une chanson sur une machine à danser, le système créera ce qui semble être une nouvelle œuvre (ou du moins une œuvre qui diffère chaque fois qu’on lui pose la même question), tandis que si on lui demande les paroles de la chanson « La machine à danser » du groupe La Compagnie créole, le système reproduira textuellement les paroles de cette chanson. |
Les données de sortie d’un système d’IA générative renfermant une partie ou la totalité d’une œuvre protégée par le droit d’auteur accessible au public constituent-elles une contrefaçon du droit d’auteur?
La norme en matière de preuve et les critères précis qui doivent être remplis pour établir si les données de sortie constituent une contrefaçon du droit d’auteur varient d’un territoire à l’autre.
Quelle est la preuve requise pour que les données de sortie d’un système d’IA générative renfermant une partie ou la totalité d’une œuvre protégée par le droit d’auteur accessible au public soient considérées comme une contrefaçon du droit d’auteur?
Australie
Contrefaçon primaire : En vertu de la loi australienne, une contrefaçon directe ou primaire nécessite la copie d’une « partie importante » d’une œuvre, une similarité objective avec l’œuvre contrefaite et un lien causal entre l’objet donnant lieu à une contrefaçon et l’œuvre1.
Le propriétaire de l’œuvre présumément contrefaite doit prouver que le contrefacteur a copié son œuvre2. La jurisprudence explique que cela signifie que le propriétaire doit établir que le contrefacteur présumé a eu accès à l’œuvre contrefaite et l’a copiée « directement, indirectement, consciemment ou inconsciemment [notre traduction] »3.
Contrefaçon secondaire : La contrefaçon secondaire ou l’autorisation de contrefaçon permet à un propriétaire d’intenter une procédure contre une personne ou une entité qui autorise la contrefaçon4. La contrefaçon par autorisation s’applique particulièrement aux employeurs et aux entreprises hébergeant, « rendant disponible [notre traduction] » ou commercialisant du matériel contrefait ou en tirant des profits5.
Canada
En vertu de la loi canadienne, il y a contrefaçon du droit d’auteur lorsqu’une personne reproduit la totalité ou une partie d’une œuvre originale sans l’autorisation du titulaire du droit d’auteur ou sans que soit disponible une exception prévue par la loi.
Se penchant sur ce qui constitue une « partie importante » d’une œuvre, la Cour suprême a indiqué qu’il s’agissait d’un « concept souple », consistant en « une question de fait et de degré »6.
La Loi sur le droit d’auteur protège les auteurs contre la copie littérale et non littérale7, tant que le matériel copié forme une partie importante de l’œuvre contrefaite. L’approche à adopter pour l’analyse de l’importance doit être qualitative et globale, et non fragmentaire. Plus particulièrement, l’analyse devrait s’attacher à déterminer si les caractéristiques reprises constituent une partie importante de l’œuvre du demandeur, et non de celle du défendeur8.
Au Canada, il existe deux types de contrefaçon du droit d’auteur :
1. Contrefaçon directe/primaire
Ce type de contrefaçon comprend toute action que seul le titulaire du droit d’auteur a le droit exclusif de faire (par exemple copier une œuvre ou communiquer au public un enregistrement sonore sans le consentement du titulaire du droit d’auteur). Il peut y avoir contrefaçon directe même si le contrefacteur ne réalise pas que copier l’œuvre contrefait le droit d’auteur d’une autre personne.
2. Contrefaçon indirecte/secondaire
Ce type de contrefaçon se produit lorsque quelqu’un sait (ou aurait dû savoir) qu’une œuvre ou un contenu contrefait le droit d’auteur d’une autre personne et vend, loue, distribue ou importe l’œuvre ou le contenu sans le consentement du titulaire.
Pour faire valoir une réclamation en contrefaçon de droit d’auteur, le titulaire du droit d’auteur doit pouvoir prouver ce qui suit :
- L’œuvre ou le contenu en question est protégé par un droit d’auteur.
- Il est le titulaire du droit d’auteur protégeant l’œuvre ou le contenu.
- L’œuvre ou le contenu (ou des éléments de ceux-ci) a été contrefait.
Le droit d’auteur protège seulement les expressions originales d’idées; il ne protège pas les « idées » en tant que telles. Cela est pertinent pour les logiciels, puisque les « idées » fonctionnelles peuvent être exprimées de différentes façons. Un tiers peut utiliser l’« idée » fournie par la fonctionnalité du logiciel sans « copier » le code du logiciel.
Voici ce qu’il faut garder à l’esprit :
- La réponse à la question de savoir s’il y a contrefaçon du droit d’auteur lorsqu’on entraîne des modèles d’un système d’IA au moyen de données d’entraînement alors que le propriétaire de celles-ci n’autorise pas cette utilisation demeure incertaine. Par exemple, il n’est pas encore clair si la reproduction des données se produisant au cours du processus d’entraînement constituerait une contrefaçon.
- Il n’est pas clair si l’utilisation d’un ensemble de données par un outil d’IA pour générer de nouvelles données de sortie constitue une contrefaçon du droit d’auteur visant l’ensemble des données si les données de sortie sont semblables à une source de données et que le propriétaire de celle-ci n’a pas donné son autorisation.
- Il n’est également pas certain qu’une exception s’applique.
Par conséquent, l’utilisation d’œuvres protégées par le droit d’auteur en tant que données d’entrée pour le système (par exemple dans le cadre de l’entraînement du système) et la production, par le système, de données de sortie semblables à d’autres œuvres protégées par le droit d’auteur entraîneraient des risques de contrefaçon.
Chine
Selon la jurisprudence, la contrefaçon du droit d’auteur sera principalement tranchée en fonction de l’« accès » et de la « similarité importante ».
Bien qu’il s’agisse d’une décision de première instance touchant AIGC prononcée en février 2024, dans l’affaire Shanghai Xinchuang Culture Development Co. c. AI Co. (pseudonyme)9, la cour d’Internet de Guangzhou :
- a exprimé le point de vue selon lequel les données de sortie d’images correspondantes de l’outil de dessin par IA, après l’entrée de simples commandes renfermant un mot-clé, étaient essentiellement semblables aux œuvres d’art protégées par le droit d’auteur du demandeur;
- a jugé que le défendeur qui avait fourni l’outil à ses membres n’avait pas exercé un degré de diligence raisonnable pour respecter les droits de propriété intellectuelle;
- a décidé que la contrefaçon du droit d’auteur était établie, selon la méthode conventionnelle d’établissement de la contrefaçon du droit d’auteur d’œuvres d’art.
France
La contrefaçon est définie comme étant « toute reproduction, représentation ou diffusion, par quelque moyen que ce soit, d’une œuvre de l’esprit en violation des droits de l’auteur » (art. L335-3 du Code de la propriété intellectuelle français). Cette définition est complétée par l’article L335-2 du Code de la propriété intellectuelle, qui prévoit que « [t]oute édition d’écrits, de composition musicale, de dessin, de peinture ou de toute autre production, imprimée ou gravée en entier ou en partie, au mépris des lois et règlements relatifs à la propriété des auteurs, est une contrefaçon ».
La bonne foi ou la mauvaise foi du contrefacteur ne constitue pas un élément de la contrefaçon du droit d’auteur. Ainsi, le contrefacteur ne pourra pas se disculper en prouvant sa bonne foi.
La contrefaçon est caractérisée par la simple reproduction des éléments caractéristiques de l’œuvre précédente et serait évaluée à la lumière de la ressemblance avec cette œuvre.
Par conséquent, l’utilisation d’une partie ou de la totalité d’une œuvre protégée par le droit d’auteur accessible au public constituerait un acte de contrefaçon à moins que cette utilisation (y compris la reproduction, la représentation ou la diffusion par quelque moyen que ce soit) ne soit faite avec le consentement préalable du titulaire du droit d’auteur ou sans intention commerciale (à usage privé).
Allemagne
Dans les cas où les données de sortie intègrent des œuvres (ou des parties protégées d’œuvres) de tiers, elles pourraient constituer une contrefaçon du droit d’auteur visant l’œuvre intégrée. Pour établir si les données de sortie constituent une contrefaçon du droit d’auteur du tiers, il faut déterminer si elles sont une reproduction de l’œuvre (article 16 de la loi allemande sur le droit d’auteur) ou une libre utilisation de celle-ci, ce qui est, par conséquent, légal sans le consentement de l’auteur (première phrase du paragraphe 23(1) de la loi allemande sur le droit d’auteur).
Selon la jurisprudence pertinente de la Cour de justice de l’Union européenne10, le critère consiste à déterminer si l’œuvre du tiers est encore reconnaissable dans les données de sortie selon ses qualités uniques (reproduction) ou non (libre utilisation). Cela doit être établi au cas par cas. Toutefois, ce qui est certain, c’est que l’adoption d’une œuvre à un ratio d’un pour un pourrait être permise si elle constituait une partie si infime des données de sortie que l’œuvre adoptée était entièrement absorbée dans les données en question et n’était plus reconnaissable par quelqu’un qui l’observerait dans le nouveau contexte.
Ce qui est contesté, c’est si la dispense pour libre utilisation s’applique lorsque les données de sortie elles-mêmes ne peuvent pas être protégées par un droit d’auteur conformément aux critères énoncés ailleurs dans ce guide (voir la rubrique Les données de sortie de l’IA générative sont-elles protégées en tant que propriété intellectuelle de l’utilisateur?). La deuxième phrase du paragraphe 23(1) de la loi allemande sur le droit d’auteur renvoie à « l’œuvre nouvellement créée ». Par conséquent, selon ce qui est couramment admis, les données de sortie elles-mêmes doivent pouvoir être protégées par le droit d’auteur (et constituer par conséquent une « œuvre » au sens de la loi allemande sur le droit d’auteur) afin d’ouvrir droit à l’exception pour libre utilisation (sinon, il y a contrefaçon du droit d’auteur du tiers qui a créé l’œuvre adaptée).
Hong Kong
Un demandeur devra prouver à la fois : i) qu’il y a une copie de l’œuvre protégée par le droit d’auteur; et ii) que l’œuvre présumément contrefaite et l’œuvre originale sont essentiellement similaires.
La difficulté consiste à prouver l’acte de copie alors que l’ensemble de données d’entraînement est inconnu. Néanmoins, il est possible de déduire qu’il y a eu copie à partir des éléments suivants :
- le fait que le fournisseur, le déployeur ou l’utilisateur a eu accès à l’œuvre originale;
- le degré de similarité entre les œuvres.
Pays-Bas
La contrefaçon du droit d’auteur nécessite la duplication (reproduction/copie) ou la divulgation (distribution non autorisée) (des éléments) d’une œuvre protégée par le droit d’auteur en vertu de l’article 5 de la loi néerlandaise sur le droit d’auteur, à moins que cette duplication ou cette distribution ne soit faite avec le consentement du titulaire du droit d’auteur ou sans intention commerciale (à usage privé).
Dans les cas où les données de sortie intègrent des œuvres (ou des parties protégées d’œuvres) de tiers, elles peuvent constituer une contrefaçon du droit d’auteur visant l’œuvre intégrée. Pour établir si les données de sortie contrefont le droit d’auteur d’un tiers, il faut établir si elles sont admissibles ou non à titre de reproduction de l’œuvre.
Selon la jurisprudence pertinente de la Cour de justice de l’Union européenne11, le critère consiste à déterminer si l’œuvre du tiers est encore reconnaissable dans les données de sortie selon ses qualités uniques (reproduction) ou non (libre utilisation). Cela doit être établi au cas par cas.
En vertu de la loi néerlandaise, la reproduction d’une œuvre protégée par le droit d’auteur se produit seulement si des éléments protégés par le droit d’auteur tirent leur origine d’une œuvre (établie individuellement, spécifique). Une ressemblance purement fortuite ne constitue pas une contrefaçon d’un droit d’auteur. Cependant, un fardeau de la preuve inversé s’applique dans ce cas : la personne qui, en défense contre une réclamation en contrefaçon, fait valoir que la similarité de son œuvre (dans ce cas‑ci, les données de sortie) avec l’œuvre antérieure est une pure coïncidence et non un emprunt devra prouver qu’il n’y a jamais eu d’emprunt ou même d’emprunt inconscient. Il est actuellement incertain si un utilisateur de système d’IA peut faire valoir avec succès que la reproduction d’une œuvre dans les données de sortie est « une pure coïncidence et non un emprunt ».
Singapour
Établir la contrefaçon d’un droit d’auteur nécessite que le demandeur démontre que le défendeur a copié son œuvre. Une présomption réfutable de copie sera établie si le demandeur peut démontrer : i) que le défendeur a eu un accès antérieur à l’œuvre du demandeur; et ii) qu’il y a une similarité importante entre ces œuvres.
Le fardeau incombe alors au défendeur, qui doit réfuter la présomption de copie (par exemple en expliquant autrement les similitudes).
Il pourrait y avoir des difficultés d’ordre pratique à prouver qu’un déployeur ou un utilisateur de système d’IA générative a eu accès à une œuvre protégée par le droit d’auteur alors qu’il n’avait pas connaissance de la manière dont le système avait été entraîné.Afrique du Sud
Il y a contrefaçon d’un droit d’auteur quand la totalité, ou une partie importante, d’une œuvre fait l’objet d’une utilisation abusive ou d’un détournement.
Toutefois, une copie doit avoir effectivement eu lieu. Par conséquent, il serait nécessaire de prouver que les données d’entrée renfermaient l’œuvre originale et que les données de sortie renferment une reproduction ou une adaptation importante de cette œuvre originale.Royaume-Uni
La loi anglaise exige la preuve qu’une copie a effectivement eu lieu, par exemple une preuve qui démontre que le contrefacteur présumé a eu accès à l’œuvre protégée par le droit d’auteur et en a réellement copié la totalité ou une partie importante.
La difficulté consiste à démontrer que le déployeur ou l’utilisateur d’un système d’IA générative a eu accès à l’œuvre protégée par le droit d’auteur alors qu’il n’a pas accès à la totalité des données d’entraînement au moyen desquelles le système a été entraîné.
Le déployeur ou l’utilisateur pourrait avoir utilisé des œuvres disponibles publiquement et ne pas avoir réalisé qu’une œuvre protégée par le droit d’auteur avait été utilisée.
La création indépendante d’une œuvre, sans égard à la similarité, ne constitue pas une contrefaçon de droit d’auteur en vertu de la loi anglaise.États-Unis
Mitigation
Le risque que l’utilisation de données de sortie précises puisse ouvrir droit à une réclamation en contrefaçon d’un tiers est à son maximum lorsque les données de sortie sont utilisées publiquement. Le risque que des réclamations de tiers soient présentées peut être limité notamment par la prise des mesures suivantes :
- Pour les fournisseurs (et éventuellement pour les déployeurs dans le cadre de déploiements en entreprise) : Roder le système pour que la production de données de sortie soit entraînée à partir de sources de données limitées, de manière à minimiser le risque que des données de sortie constituent des copies textuelles d’œuvres.
- À l’égard de données de sortie consistant en du code de logiciel : Recourir à des systèmes exclusifs et/ou à des fournisseurs pour balayer le code afin de détecter la présence de codes exclusifs de tiers (divulgués publiquement) et/ou des éléments de codes de logiciels ouverts. Cela peut offrir un certain degré d’assurance, particulièrement pour les données de sortie destinées à des fins commerciales. Un déployeur pourrait ensuite prendre les mesures requises pour limiter les risques en fonction des résultats de ce balayage – par exemple en obtenant des licences ou en retirant le code des données de sortie.
- À l’égard d’autres contenus de données de sortie : Utiliser des logiciels de détection de plagiat pour repérer si des éléments du contenu des données de sortie reproduisent des contenus de tiers.
- Formation générale à l’intention du personnel pour qu’il évite les pratiques pouvant faire augmenter les risques, par exemple demander au système de copier ou de reproduire les documents de marketing ou les descriptions de produits d’un concurrent.
- Pour les déployeurs, obtenir une protection contractuelle (par exemple au moyen d’une indemnisation) auprès du fournisseur relativement aux réclamations en contrefaçon de tiers intentées contre le déployeur. Les fournisseurs seront réticents à offrir une telle protection et la difficulté consistera à définir la limite entre la responsabilité du fournisseur à l’égard de la contrefaçon et la responsabilité du déployeur.
Quelles sont les conséquences de la reproduction, par les données de sortie, de codes de logiciels ouverts?
Si les données de sortie du système d’IA générative contiennent des codes de logiciels ouverts, d’autres incidences entrent en ligne de compte. En pratique, le système est plus susceptible de reproduire un code lorsqu’il a été entraîné au moyen de codes de logiciels ouverts, mais en théorie, le système pourrait créer de manière indépendante un code identique, ou essentiellement semblable, à un code de logiciel ouvert.
Le point de départ de l’analyse sera le même que pour l’analyse générale de la contrefaçon déjà énoncée : en l’absence d’une licence, il existe un risque que le titulaire du droit d’auteur intente une réclamation en contrefaçon du droit d’auteur. Toutefois, dans le cas d’un code de logiciel ouvert, le déployeur/l’utilisateur peuvent évidemment faire valoir que les modalités de la licence (aux termes de laquelle le code de logiciel ouvert a été publié dans le monde) s’appliquent.
Modalités habituelles des licences visant des codes de logiciels ouvertsLes modalités des licences visant des codes de logiciels ouverts renferment habituellement certaines conditions à remplir pour que les licences s’appliquent :
|
Si le déployeur/l’utilisateur n’avait pas lui-même téléchargé antérieurement le code de logiciel ouvert en question de telle manière qu’on pourrait présumer qu’il avait déjà accepté les modalités de la licence visant le code de logiciel ouvert, il est peu probable que le titulaire du droit d’auteur puisse exiger l’exécution des modalités de la licence contre le déployeur/l’utilisateur dans le cadre d’une réclamation pour violation de contrat.
Même si une entente était présumément en place, il n’est pas clair si le titulaire du droit d’auteur pourrait en exiger l’exécution des modalités restrictives, au lieu d’intenter une poursuite en contrefaçon, puisque les conditions de la licence n’auraient pas pris naissance.
Notes
Shanghai Xinchuang Culture Development Co. c. AI Co. (pseudonyme). (2024) Guangdong 0192 Minchu no 113.
L’IA générative
Abonnez-vous et restez à l’affût des nouvelles juridiques, informations et événements les plus récents...