OpenAI-Trainingsdaten werden im Urheberrechtsfall von Sarah Silverman untersucht

Zum ersten Mal wird OpenAI Zugriff auf seine Trainingsdaten gewähren, um zu überprüfen, ob urheberrechtlich geschützte Werke zur Stromversorgung seiner Technologie verwendet wurden.

In einer am Dienstag eingereichten Akte gaben die Autoren, die das von Sam Altman geführte Unternehmen und OpenAI verklagten, an, dass sie eine Einigung über Protokolle zur Informationsüberprüfung erzielt hätten. Sie werden nach Einzelheiten zur Einbindung ihrer Arbeit in Trainingsdatensätze fragen, was in dem Fall ein Schlachtfeld sein kann, das dazu beitragen kann, Hindernisse für die Erstellung automatisierter Chatbots zu schaffen.

Die Vereinbarung geht auf drei Klagen prominenter Autoren zurück, darunter Sarah Silverman, Paul Tremblay und Ta-Nehisi Coates, in denen OpenAI beschuldigt wird, riesige Mengen an Büchern im Internet gesammelt zu haben, die dann angeblich zur Erstellung verletzender ChatGPT-Antworten verwendet wurden. Dies geschah, nachdem das Gericht im Juli eine Klage abgewiesen hatte, in der dem Unternehmen vorgeworfen wurde, unlautere Handelspraktiken begangen zu haben, indem es seine Arbeit ohne Zustimmung oder Entschädigung genutzt habe. Zuvor hatte der US-Bezirksrichter Araceli Martinez Olguin auch andere Klagen wegen Fahrlässigkeit, ungerechtfertigter Bereicherung und indirekter Urheberrechtsverletzung abgewiesen, obwohl die Klage der Autoren wegen direkter Urheberrechtsverletzung unberührt blieb.

In anderen Fällen haben KI-Unternehmen das Kopieren von Werken im großen Stil verweigert. Stattdessen, so behauptet sie, beinhalte das Training ihrer Modelle die Entwicklung von Standards, die auf diesen Aktionen basieren, um zu bestimmen, wie Dinge aussehen und wie sie gebaut sind. OpenAI kann diesen Einwand zu einem späteren Zeitpunkt im Fall der Autoren vorbringen und argumentieren, dass die Praxis, veröffentlichte Werke zum Trainieren seines Systems zu verwenden, eine faire Nutzung darstellt, die Schutz für die Verwendung von urheberrechtlich geschütztem Material zur Erstellung eines sekundären Werks bietet, solange dies der Fall ist ist „transformativ“.

Siehe auch  Das Nintendo Switch Black Friday 2022-Bundle ist jetzt ein Cyber ​​​​Monday-Bundle

OpenAI sagte, es trainiere sein Modell auf „großen öffentlich zugänglichen Datensätzen, die urheberrechtlich geschützte Werke enthalten“. Letztes Jahr ist das Unternehmen dazu übergegangen, diese Materialien nicht weiterzugeben, um sich einen Vorteil gegenüber der Konkurrenz zu verschaffen und rechtliche Haftung zu vermeiden. Während noch nicht bekannt ist, welche Werke verwendet wurden, stellten die Autoren fest, dass ChatGPT ausführliche Zusammenfassungen und Analysen der Themen in ihren Romanen generiert. Sie behaupteten, dass das Unternehmen Hunderttausende Bücher von Websites von Schattenbuchhandlungen heruntergeladen habe, um sein KI-System zu trainieren.

Im Rahmen der Vereinbarung werden die Trainingsdatensätze im OpenAI-Büro in San Francisco auf einem gesicherten Computer ohne Internetverbindung oder Netzwerkzugriff zur Verfügung gestellt. Jeder, der die Informationen überprüft, muss eine Geheimhaltungsvereinbarung unterzeichnen, sich in ein Gästebuch eintragen und einen Ausweis vorlegen.

Der Einsatz jeglicher Art von Technologie wird streng eingeschränkt. Aufnahmegeräte, darunter Computer, Mobiltelefone oder Kameras, sind laut gemeinsamer Vereinbarung im Inspektionsraum nicht gestattet. OpenAI kann die eingeschränkte Nutzung eines Computers zum Notieren ermöglichen, wobei die Anwälte der Autoren diese Notizen am Ende jedes Tages unter der Aufsicht von Unternehmensvertretern auf ein anderes Gerät kopieren. Das Kopieren jeglicher Teile der Trainingsdaten ist nicht gestattet.

„Inspizierende Parteiberater und/oder Experten dürfen handschriftliche oder elektronische Notizen auf einem Notizcomputer in Scratch-Dateien erfassen, dürfen jedoch keine Schulungsdaten selbst in Notizen kopieren“, heißt es in der Akte.

Anwälte der Anwaltskanzlei Joseph Savery leiten die Klage. Sie vertreten auch Autoren in ähnlichen Urheberrechtsklagen gegen Meta. In diesen Fällen endet die Sachverhaltsaufklärung voraussichtlich am 30. September, es wurde jedoch ein Antrag auf Fristverlängerung gestellt. Bei einer Anhörung am Freitag stellte der US-Bezirksrichter Vince Chhabria in Frage, ob die Anwälte in der Lage seien, die Autoren angemessen zu vertreten.

Siehe auch  Starfield: Das beste Schiff ist, früh anzukommen

„Aus dem Papierkram, aus der Akte und aus dem Gespräch mit dem Richter geht für mich ganz klar hervor, dass Sie diesen Fall eingereicht und Ihre Aufgabe nicht erfüllt haben, ihn voranzutreiben“, sagte Chhabria laut Reuters. POLITISCH„Sie und Ihr Team haben diesen Fall kaum verhandelt. So viel ist klar … Dies ist keine typische geplante Sammelklage. Dies ist ein wichtiger Fall. Dies ist ein wichtiges gesellschaftliches Thema. Das ist wichtig für Ihre Mandanten.“

Diese Besorgnis entstand teilweise dadurch, dass die Anwälte in dem Fall keine Aussagen machten.

„Manchmal heißt es, dass Timing alles ist. Nun, es stellt sich heraus, dass das auch für schlechtes Timing gilt“, schrieb US-Bezirksrichter Thomas Hixon. „Die Kläger beantragen beim Gericht die Erlaubnis, Aussagen von 35 Parteien entgegenzunehmen, ausgenommen Aussagen Dritter, oder alternativ 180 Stunden an Aussagen. Sie haben diesen Antrag gestellt … 18 Tage vor dem Ende der aktuellen Offenlegung der Tatsachen.“ .“

Der Richter fügte hinzu: „Da die Kläger keine Aussagen erhalten haben, müssen die 35 Aussagen der Parteien (plus Aussagen von Nichtparteien) oder alternativ die 180 Stunden der Zeugenaussage alle in der zweiten Septemberhälfte stattfinden ist natürlich unmöglich.“

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert