Οι New York Times θέλουν η OpenAI και η Microsoft να πληρώνουν για δεδομένα εκπαίδευσης

By

Marizas Dimitris

On

Δεκ 27, 2023

Οι

New York

Times μηνύουν το OpenAI και τον στενό του συνεργάτη (και επενδυτή), τη Microsoft, για φερόμενη παραβίαση του νόμου περί πνευματικών δικαιωμάτων εκπαιδεύοντας μοντέλα τεχνητής νοημοσύνης που δημιουργούνται στο περιεχόμενο των Times.

Στο

αγωγή

, που κατατέθηκε στο Ομοσπονδιακό Περιφερειακό Δικαστήριο στο Μανχάταν, οι Times υποστηρίζουν ότι εκατομμύρια άρθρα του χρησιμοποιήθηκαν για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης, συμπεριλαμβανομένων εκείνων που στηρίζουν το εξαιρετικά δημοφιλές ChatGPT του OpenAI και το Copilot της Microsoft, χωρίς τη συγκατάθεσή του. Οι Times ζητούν από το OpenAI και τη Microsoft να «καταστρέψουν» μοντέλα και δεδομένα εκπαίδευσης που περιέχουν το προσβλητικό υλικό και να θεωρηθούν υπεύθυνες για «δισεκατομμύρια δολάρια σε νόμιμες και πραγματικές ζημιές» που σχετίζονται με την «παράνομη αντιγραφή και χρήση των μοναδικών πολύτιμων έργων των The Times .»

«Εάν οι Times και άλλοι ειδησεογραφικοί οργανισμοί δεν μπορούν να παράγουν και να προστατεύσουν την ανεξάρτητη δημοσιογραφία τους, θα υπάρχει ένα κενό που κανένας υπολογιστής ή

τεχνητή νοημοσύνη

δεν μπορεί να καλύψει», αναφέρει η καταγγελία των Times. «Θα παραχθεί λιγότερη δημοσιογραφία και το κόστος για την κοινωνία θα είναι τεράστιο».

Τα μοντέλα τεχνητής νοημοσύνης που δημιουργούνται «μαθαίνουν» από παραδείγματα μέχρι τη δημιουργία δοκιμίων, κώδικα,

email

, άρθρων και πολλά άλλα, και οι πωλητές όπως το OpenAI σκουπίζουν τον ιστό για εκατομμύρια έως δισεκατομμύρια από αυτά τα παραδείγματα για να τα προσθέσουν στα εκπαιδευτικά τους σετ. Μερικά παραδείγματα βρίσκονται σε δημόσιο τομέα. Άλλοι δεν είναι ή υπόκεινται σε περιοριστικές άδειες που απαιτούν αναφορά ή συγκεκριμένες μορφές αποζημίωσης.

Οι πωλητές υποστηρίζουν ότι το δόγμα της ορθής χρήσης παρέχει μια γενική προστασία για τις πρακτικές απόξεσης ιστού. Οι κάτοχοι πνευματικών δικαιωμάτων διαφωνούν.

εκατοντάδες

ειδησεογραφικοί οργανισμοί χρησιμοποιούν τώρα κώδικα για να εμποδίσουν το OpenAI, την Google και άλλους να σαρώσουν τους ιστότοπούς τους για δεδομένα εκπαίδευσης.

Η σύγκρουση προμηθευτών-πωλητών έχει οδηγήσει σε έναν αυξανόμενο αριθμό νομικών μαχών, με τους The Times να είναι οι πιο πρόσφατοι.

Η ηθοποιός Sarah Silverman συμμετείχε σε ένα ζευγάρι αγωγών τον Ιούλιο που κατηγορούν τη Meta και την OpenAI ότι «κατάποσαν» τα απομνημονεύματα του Silverman για να εκπαιδεύσουν τα μοντέλα τους με τεχνητή νοημοσύνη. Σε ένα ξεχωριστό κοστούμι, χιλιάδες μυθιστοριογράφοι, συμπεριλαμβανομένων των Jonathan Franzen και John Grisham, ισχυρίζονται ότι το OpenAI άντλησε το έργο τους ως δεδομένα εκπαίδευσης χωρίς την άδεια ή τη γνώση τους.

Και

αρκετοί προγραμματιστές έχουν μια εν εξελίξει υπόθεση εναντίον της Microsoft, του OpenAI και του GitHub μέσω του Copilot, ενός εργαλείου παραγωγής κώδικα που τροφοδοτείται από AI, το οποίο σύμφωνα με τους ενάγοντες αναπτύχθηκε χρησιμοποιώντας τον προστατευμένο από IP κώδικα τους.

Αν και οι Times δεν είναι οι πρώτοι που μήνυσαν παραγωγούς τεχνητής νοημοσύνης για υποτιθέμενες παραβιάσεις της IP που αφορούν γραπτά έργα, είναι ο μεγαλύτερος εκδότης που εμπλέκεται σε μια τέτοια αγωγή μέχρι σήμερα — και ένας από τους πρώτους που υπογράμμισε πιθανή ζημιά στην επωνυμία του μέσω “ψευδαισθήσεων”. ή επινοημένα στοιχεία από παραγωγικά μοντέλα τεχνητής νοημοσύνης.

Η καταγγελία των Times αναφέρει αρκετές περιπτώσεις στις οποίες το Bing Chat της Microsoft (τώρα ονομάζεται Copilot), το οποίο υποστηρίζεται από ένα μοντέλο OpenAI, παρείχε εσφαλμένες πληροφορίες που λέγεται ότι προέρχονταν από τους Times — συμπεριλαμβανομένων των αποτελεσμάτων για «τα 15 πιο υγιεινά για την καρδιά τρόφιμα », 12 από τα οποία δεν αναφέρθηκαν σε κανένα άρθρο των Times.

Οι Times υποστηρίζουν, επίσης, ότι το OpenAI και η Microsoft χτίζουν αποτελεσματικά ανταγωνιστές εκδοτών ειδήσεων χρησιμοποιώντας τα έργα των Times, βλάπτοντας την επιχείρηση των Times παρέχοντας πληροφορίες στις οποίες κανονικά δεν ήταν δυνατή η πρόσβαση χωρίς συνδρομή — πληροφορίες που δεν αναφέρονται πάντα , μερικές φορές δημιουργούνται έσοδα και αφαιρούνται από συνδέσμους συνεργατών που χρησιμοποιεί η The Times για να δημιουργήσει προμήθειες, επιπλέον.

Όπως αναφέρεται στο παράπονο των Times, τα μοντέλα τεχνητής νοημοσύνης που δημιουργούνται έχουν την τάση να ανασύρουν δεδομένα εκπαίδευσης, για παράδειγμα αναπαράγοντας σχεδόν αυτολεξεί αποτελέσματα από άρθρα. Πέρα από την παλινδρόμηση, το OpenAI έχει σε τουλάχιστον μία περίπτωση

ακούσια

επέτρεψε στους χρήστες του ChatGPT να περιηγηθούν το περιεχόμενο ειδήσεων με το paywalled.

«Οι κατηγορούμενοι επιδιώκουν να επωφεληθούν από τη μαζική επένδυση των Times στη δημοσιογραφία τους», λέει η καταγγελία, κατηγορώντας την OpenAI και τη Microsoft ότι «χρησιμοποιούν το περιεχόμενο των Times χωρίς πληρωμή για να δημιουργήσουν προϊόντα που υποκαθιστούν τους Times και κλέβουν το κοινό από αυτό».

Οι επιπτώσεις στην επιχείρηση συνδρομής ειδήσεων — και στην επισκεψιμότητα στον ιστό των εκδοτών — βρίσκονται στο επίκεντρο μιας εφαπτομενικά παρόμοιας αγωγής που κατατέθηκε από εκδότες νωρίτερα τον μήνα κατά της Google. Στην υπόθεση, οι κατηγορούμενοι, όπως και οι Times, υποστήριξαν τα πειράματα GenAI της Google, συμπεριλαμβανομένων του

chatbot

Bard και της Search Generative Experience με τεχνητή νοημοσύνη, αφαιρώντας το περιεχόμενο των εκδοτών, τους αναγνώστες και τα έσοδα από διαφημίσεις μέσω αντιανταγωνιστικών μέσων.

Υπάρχει αξιοπιστία στους ισχυρισμούς των εκδοτών. Ένα πρόσφατο μοντέλο από το The Atlantic

βρέθηκαν

ότι, εάν μια μηχανή αναζήτησης όπως η Google ενσωματώνει την τεχνητή νοημοσύνη στην αναζήτηση, θα απαντούσε στο ερώτημα ενός χρήστη το 75% των περιπτώσεων χωρίς να απαιτείται κλικ στον ιστότοπό της. Οι εκδότες στο Google suit υπολογίζουν ότι θα χάσουν έως και το 40% της επισκεψιμότητάς τους.

Αυτό δεν σημαίνει ότι θα έχουν επιτυχία στο δικαστήριο. Η Heather Meeker, ιδρυτική εταίρος στην OSS Capital και σύμβουλος σε θέματα IP, συμπεριλαμβανομένων των ρυθμίσεων αδειοδότησης, συνέκρινε το παράδειγμα της παλινδρόμησης των Times με τη «χρήση ενός επεξεργαστή κειμένου για αποκοπή και επικόλληση».

«Στην καταγγελία, οι New York Times δίνουν ένα παράδειγμα μιας συνεδρίας ChatGPT σχετικά με μια κριτική εστιατορίου του 2012», είπε ο Meeker στο TechCrunch μέσω email. “Η προτροπή για το ChatGPT είναι “Ποιες ήταν οι αρχικές παράγραφοι της κριτικής του;” Οι επόμενες προτροπές ζητούν επανειλημμένα “την επόμενη πρόταση”. Το να πειράζεις ένα chatbot να αναπαράγει στοιχεία εισόδου δεν αποτελεί λογική βάση για παραβίαση πνευματικών δικαιωμάτων… Εάν ο χρήστης κάνει σκόπιμα αντίγραφο του chatbot, αυτό είναι λάθος του χρήστη. Και γι’ αυτό οι περισσότεροι [lawsuits like this] μάλλον θα αποτύχει».

Ορισμένα ειδησεογραφικά πρακτορεία, αντί να πολεμούν τους παραγωγούς τεχνητής νοημοσύνης στα δικαστήρια, επέλεξαν να συνάψουν συμφωνίες αδειοδότησης μαζί τους. Το Associated Press

χτύπησε

μια συμφωνία τον Ιούλιο με την OpenAI και ο Axel Springer, ο Γερμανός εκδότης που κατέχει το Politico και το Business Insider, έκανε το ίδιο αυτό το μήνα.

Στην καταγγελία τους, οι Times αναφέρουν ότι προσπάθησε να καταλήξει σε συμφωνία αδειοδότησης με τη Microsoft και το OpenAI τον Απρίλιο, αλλά ότι οι συνομιλίες δεν ήταν τελικά καρποφόρες.

VIA:

techcrunch.com