Το NYT σταματά τη γενετική τεχνητή νοημοσύνη από το να ξύνει το περιεχόμενό του

By

Marizas Dimitris

On

Αυγ 17, 2023

Η μαγεία των έργων παραγωγής τεχνητής νοημοσύνης όπως το ChatGPT και το Bard βασίζεται σε δεδομένα που έχουν αφαιρεθεί από το ανοιχτό διαδίκτυο. Αλλά τώρα, οι πηγές δεδομένων εκπαίδευσης για αυτά τα μοντέλα αρχίζουν να κλείνουν.

Οι Νιου Γιορκ Ταιμς

έχει απαγορεύσει τη χρήση οποιουδήποτε περιεχομένου στον ιστότοπό της για την ανάπτυξη μοντέλων τεχνητής νοημοσύνης όπως το GPT-4 του OpenAI, το PaLM 2 της

Google

και το Llama 2 της

Meta

,

σύμφωνα με μια έκθεση την περασμένη εβδομάδα από

Adweek

.

Νωρίτερα αυτό το μήνα το

Φορές

ενημέρωσε το

Όροι χρήσης

να αποκλείσει ρητά το περιεχόμενό του από την απόξεση για την εκπαίδευση ενός συστήματος μηχανικής μάθησης ή τεχνητής νοημοσύνης (AI). Αν και αυτό δεν θα επηρεάσει την τρέχουσα γενιά μεγάλων γλωσσικών μοντέλων (LLM), εάν οι εταιρείες τεχνολογίας τηρήσουν την απαγόρευση, θα αποτρέψει το

περιεχόμενο

από

Φορές

χρησιμοποιείται για την ανάπτυξη μελλοντικών μοντέλων.

ο

Φορές

ενημερωμένοι όροι παροχής υπηρεσιών απαγόρευσης χρήσης οποιουδήποτε από το περιεχόμενό του—συμπεριλαμβανομένου κειμένου, εικόνων, κλιπ ήχου και βίντεο, «εμφάνιση και αίσθηση» και μεταδεδομένων—για την ανάπτυξη οποιουδήποτε είδους λογισμικού συμπεριλαμβανομένης της τεχνητής νοημοσύνης, καθώς και, επίσης, απαγορεύουν ρητά τη χρήση «ρομπότ, αράχνες, σενάρια, υπηρεσία, λογισμικό ή οποιαδήποτε χειροκίνητη ή αυτόματη συσκευή, εργαλείο ή διαδικασία» για να ξύσετε το περιεχόμενό του χωρίς προηγούμενη γραπτή συγκατάθεση. Είναι αρκετά ευρεία γλώσσα και προφανώς η παραβίαση αυτών των όρων παροχής υπηρεσιών «μπορεί να οδηγήσει σε αστικές, ποινικές ή/και διοικητικές κυρώσεις, πρόστιμα ή κυρώσεις κατά του χρήστη και όσων βοηθούν τον χρήστη».

Δεδομένου ότι το περιεχόμενο από το

Φορές

έχει χρησιμοποιηθεί ως κύρια πηγή δεδομένων εκπαίδευσης για την τρέχουσα γενιά LLM, είναι λογικό ότι το έγγραφο προσπαθεί να ελέγξει πώς χρησιμοποιούνται τα δεδομένα του στο μέλλον. Σύμφωνα με α

Washington Post

έρευνα

νωρίτερα φέτος, το

Φορές

ήταν η τέταρτη μεγαλύτερη πηγή περιεχομένου για μια από τις κύριες βάσεις δεδομένων που χρησιμοποιούνται για την εκπαίδευση LLM. ο

Θέση

αναλύονται

Το σύνολο δεδομένων C4 της Google

μια τροποποιημένη έκδοση του

Κοινή ανίχνευση

, που περιλαμβάνει περιεχόμενο που έχει αφαιρεθεί από περισσότερους από 15 εκατομμύρια ιστότοπους. Μόνο

Διπλώματα ευρεσιτεχνίας Google

,

Βικιπαίδεια

και

Scribd

(μια βιβλιοθήκη ηλεκτρονικών βιβλίων) συνέβαλε περισσότερο περιεχόμενο στη βάση δεδομένων.

Παρά την επικράτηση του στα δεδομένα προπόνησης, αυτή την εβδομάδα,

Semafor

έχουν αναφερθεί

ότι η

Φορές

είχε «αποφασίσει να μην συμμετάσχει» σε έναν όμιλο εταιρειών μέσων ενημέρωσης, συμπεριλαμβανομένων των

Wall Street Journal

σε μια προσπάθεια να διαπραγματευτεί από κοινού μια πολιτική τεχνητής νοημοσύνης με εταιρείες τεχνολογίας. Φαινομενικά, η εφημερίδα σκοπεύει να κάνει τις δικές της ρυθμίσεις όπως το Associated Press (AP), το οποίο

έκλεισε διετής συμφωνία με την OpenAI

τον περασμένο μήνα που θα επέτρεπε στον κατασκευαστή του ChatGPT να χρησιμοποιήσει ορισμένα από τα αρχεία του AP από το 1985 για να εκπαιδεύσει μελλοντικά μοντέλα AI.

Αν και υπάρχουν

πολλαπλές αγωγές

εκκρεμεί εναντίον κατασκευαστών AI όπως

OpenAI

και

Google

σχετικά με τη χρήση υλικού που προστατεύεται από πνευματικά δικαιώματα για να εκπαιδεύσουν τα τρέχοντα LLM τους, το τζίνι είναι πραγματικά έξω από το μπουκάλι. Τα δεδομένα εκπαίδευσης έχουν πλέον χρησιμοποιηθεί και, καθώς τα ίδια τα μοντέλα αποτελούνται από στρώματα πολύπλοκων αλγορίθμων, δεν μπορούν εύκολα να αφαιρεθούν ή να μειωθούν από το ChatGPT, το Bard και τα άλλα διαθέσιμα LLM. Αντίθετα, ο αγώνας είναι τώρα για την πρόσβαση σε δεδομένα εκπαίδευσης για μελλοντικά μοντέλα – και, σε πολλές περιπτώσεις, για το ποιος θα αποζημιωθεί.

[Related: Zoom could be using your ‘content’ to train its AI]

Νωρίτερα φέτος, το Reddit, το οποίο είναι επίσης ένας μεγάλος και άθελος συνεισφέρων σε δεδομένα εκπαίδευσης σε μοντέλα τεχνητής νοημοσύνης, έκλεισε τη δωρεάν πρόσβαση στο API του για εφαρμογές τρίτων, σε μια προσπάθεια να χρεώσει τις εταιρείες τεχνητής νοημοσύνης για μελλοντική πρόσβαση. Αυτή η κίνηση

προκάλεσε διαμαρτυρίες σε όλη την περιοχή

. Ο Έλον Μασκ έκοψε παρομοίως την πρόσβαση του OpenAI στο Twitter (συγγνώμη, X).

ανησυχεί ότι δεν πλήρωναν αρκετά για να χρησιμοποιήσουν τα δεδομένα της

. Και στις δύο περιπτώσεις, το ζήτημα ήταν η ιδέα ότι οι κατασκευαστές τεχνητής νοημοσύνης μπορούσαν να αποκομίσουν κέρδος από το περιεχόμενο των κοινωνικών δικτύων (παρόλο που στην πραγματικότητα ήταν περιεχόμενο που δημιουργείται από χρήστες).

Με όλα αυτά, είναι αξιοσημείωτο ότι την περασμένη εβδομάδα

Το OpenAI δημοσίευσε αθόρυβα λεπτομέρειες

για το πώς να αποκλείσετε την απόξεση ιστού του

GPTBot

προσθέτοντας μια γραμμή κώδικα στο αρχείο robots.txt—το σύνολο οδηγιών που έχουν οι περισσότεροι ιστότοποι για τις μηχανές αναζήτησης και άλλα προγράμματα ανίχνευσης ιστού. Ενώ το

Φορές

έχει αποκλείσει το Common Crawl web scraping bot, δεν έχει ακόμη αποκλείσει το GPTBot στο

του αρχείου robots.txt

. Από όποια πλευρά κι αν κοιτάξετε τα πράγματα, ο κόσμος εξακολουθεί να αναστατώνεται από την ξαφνική

έκρηξη

ισχυρών μοντέλων τεχνητής νοημοσύνης τους τελευταίους 18 μήνες. Υπάρχουν πολλά

νομική διαμάχη

ακόμα να συμβεί

πάνω από

πώς χρησιμοποιούνται τα δεδομένα

για να τους εκπαιδεύσει

πηγαίνοντας μπροστά

—και μέχρι να θεσπιστούν νόμοι και πολιτικές, τα πράγματα θα είναι πολύ αβέβαια.