Πώς τα ρομπότ όπως το ChatGPT έχουν κλέψει το Fanfiction και τι σημαίνει αυτό

Πρώτον, μια εξομολόγηση. έχω γράψει

φαντασίας

. Αρέσει,

πολύ

του

fanfic

. Στον ελεύθερό μου χρόνο, γράφω ακόμα φικ! (Αυτή τη στιγμή γράφω μερικά

fics

Για


Συνέντευξη με τον βαμπίρ




και


Trigun


! Πάει υπέροχα, ευχαριστώ.) Κατά τη διάρκεια των τελευταίων 15 ετών, έχω δημοσιεύσει περίπου 750.000 λέξεις εικαστικών, και απλώς για να σας δώσω μια ιδέα για το πόσο είναι αυτό, το σύνολο

άρχοντας των δαχτυλιδιών

σειρά, συμπεριλαμβανομένων

Το Χόμπιτ

, βρίσκεται ακριβώς βόρεια από 575.000 λέξεις. Οπότε υπάρχουν πολλά εκεί έξω!

Το μεγαλύτερο μέρος της δουλειάς μου, όπως και εκατομμύρια άλλοι συγγραφείς φαντασίας, υπάρχει στο


Το δικό μας αρχείο.


Το AO3, όπως είναι γνωστό, είναι το πιο δημοφιλές και μεγαλύτερο αρχείο fic στον ιστό με περίπου 350 εκατομμύρια επισκέπτες το μήνα και επί του παρόντος φιλοξενεί πάνω από 11 εκατομμύρια fanworks. Και μέχρι αρκετά πρόσφατα, δεν είχα συνειδητοποιήσει ότι το fic μου δεν είχε μείνει στο AO3. Η δουλειά μου, μαζί με εκατομμύρια άλλες τεχνολογίες, έχουν χρησιμοποιηθεί για την εκπαίδευση τεχνητής νοημοσύνης που βασίζεται σε δημιουργικό κείμενο. Αν έχετε παίξει με



-συγχαρητήρια! Χρησιμοποίησες τη δουλειά μου.

Πώς τα σύγχρονα LLM διέγραψαν τοποθεσίες φαντασίας;

Τα μοντέλα μεγάλων γλωσσών (LLM) αποτελούν τη βάση για τους παραγωγούς κειμένου AI, οι οποίοι «εκπαιδεύτηκαν» σε δεδομένα προκειμένου να δημιουργήσουν τεχνητά νευρωνικά δίκτυα. Το πιο γνωστό σύνολο δεδομένων φιλοξενείται από το Common Crawl, έναν μη κερδοσκοπικό οργανισμό που παρέχει ένα ανοιχτό αποθετήριο δεδομένων ιστού σε όποιον το θέλει, δωρεάν. Προκειμένου να δημιουργηθεί το σύνολο δεδομένων, το Common Crawl ξέσπασε το διαδίκτυο για γραφή και το έκανε δημόσια προσβάσιμο. Το αρχείο του ξεκίνησε το 2008 και επί του παρόντος ενημερώνεται κάθε δύο μήνες.

Προκειμένου να δημιουργήσουν προγράμματα τεχνητής νοημοσύνης με δημιουργικό κείμενο, οι προγραμματιστές χρησιμοποίησαν το σύνολο δεδομένων Common Crawl για να υποστηρίξουν τα τεχνητά νευρωνικά δίκτυα, τα οποία ονομάζονται LLM. Το πιο γνωστό LLM είναι το GPT, το οποίο δημιουργήθηκε από την εταιρεία

. Το OpenAI χρησιμοποίησε το σύνολο δεδομένων Common Crawl στην ανάπτυξη του GPT και το χρησιμοποιεί αυτήν τη στιγμή καθώς αναπτύσσει περαιτέρω εκδόσεις της επιτυχημένης περίπτωσης χρήσης του, ChatGPT. Το OpenAI κυκλοφόρησε το GPT API στο κοινό το 2021. Αυτό το API είναι η βάση για πολλά άλλα LLM που βασίζονται σε κείμενο—πράγμα που σημαίνει ότι η τρέχουσα κατάσταση διαφόρων «


στοχαστικός παπαγάλος


Τα προγράμματα τεχνητής νοημοσύνης δημιουργίας κειμένου υποστηρίζονται από το Common Crawl μέσω GPT API και, τεχνικά μιλώντας, βασίζονται σε ένα τεράστιο σώμα φαντασίας.

Το 2019, το


Το δικό μας αρχείο


είχε

32 δισεκατομμύρια λέξεις

του διαθέσιμου fanfic, που υπολογίζεται από περίπου πέντε εκατομμύρια κομμάτια fanwork. Αυτή τη στιγμή φιλοξενεί 11 εκατομμύρια fanworks. Δεν μπόρεσα να βρω μια καλή πηγή για το πόσες λέξεις υπάρχουν στο AO3 τώρα, αλλά δεν θα εκπλαγώ αν ήταν πολύ, πολύ περισσότερες από 50 δισεκατομμύρια λέξεις. Και πάλι, για σύγκριση – καθώς πρόκειται για παράλογα τεράστιους αριθμούς – υπάρχουν αυτή τη στιγμή 4,2 δισεκατομμύρια αγγλικές λέξεις στη Wikipedia. Για τους σκοπούς μας, αξίζει να γνωρίζουμε ότι οι περισσότερες, αν όχι όλες, από αυτές τις 32 δισεκατομμύρια λέξεις fanfic που είναι διαθέσιμες το 2019 βρίσκονται στο σύνολο δεδομένων Common Crawl που χρησιμοποιήθηκε στο GPT LLM του OpenAI.

Σε κανέναν δεν είπαν ότι αυτό συνέβαινε. Πολλοί συγγραφείς λογοτεχνών ακόμα δεν γνωρίζουν ότι το έργο τους έχει κοπεί καθόλου. Ενώ τα δεδομένα του Crawl υπάρχουν σε ένα ευρετήριο διαθέσιμο στο κοινό, είναι εξαιρετικά δύσκολο να προσπελαστούν εάν δεν έχετε τη δυνατότητα να κατανοήσετε και να εκτελέσετε κώδικα σε αρκετά υψηλό επίπεδο. Ο μέσος χρήστης του Διαδικτύου μπορεί μόνο να υποθέσει ότι αν είχε δημόσια διαθέσιμη γραφή στο διαδίκτυο, τα γραπτά του κατέληξαν να παγιδευτούν στο Crawl. Έτσι, ενώ μερικοί άνθρωποι κατάλαβαν ότι το AO3 πιθανότατα είχε ανιχνευθεί, κανείς δεν είχε κάνει το σκάψιμο για να καταλάβει αν όντως χρησιμοποιήθηκε.

Πώς συνδέεται το Sudowrite με το Omega Verse fic;

Πριν λίγες εβδομάδες,


Sudowrite


—ένα LLM που βασίζεται σε GPT—κυκλοφόρησε το προϊόν του για δημόσια έκδοση beta. Σε αντίθεση με την κλήση και την ανταπόκριση του ChatGPT, το Sudowrite κατασκευάστηκε για να διευκολύνει τη συγγραφή μυθοπλασίας. Οι χρήστες μπορούν να εγγραφούν και να χρησιμοποιήσουν τον λογαριασμό τους για να δημιουργήσουν λέξεις που μπορεί να μοιάζουν ή να μην μοιάζουν με ένα σχήμα ιστορίας. Επιπλέον, οι χρήστες μπορούν να επικολλήσουν τις αρχικές τους λέξεις στο εργαλείο γραφής και η γεννήτρια θα προσφέρει επιλογές για το τι θα ακολουθήσει. Είναι ένας εξαιρετικά προηγμένος παραγωγός γλωσσών που επικεντρώνεται στη δημιουργία ιστοριών. Και χρησιμοποίησε

δισεκατομμύρια λέξεις

από το Αρχείο των Δικών μας για να αναπτύξει τα μοντέλα του. Σε μια σειρά από ολοένα και περισσότερα πειράματα χωρίς άρθρωση,


Ενσύρματο


ήταν σε θέση να αποδείξει ότι το Sudowrite όχι μόνο είχε εκπαιδευτεί στο AO3, αλλά ήταν σε θέση να αναπαράγει ιστορίες που αναπτύχθηκαν μέσα στην παράγωγη, μεταμορφωτική κουλτούρα του.

Αυτό το αρκετά έξυπνο και αυθόρμητο ρεπορτάζ αποκάλυψε ότι το Sudowrite θα μπορούσε να παρακινηθεί να δημιουργήσει μια ιστορία μέσα σε αναγνωρίσιμες στενώσεις του Omega Verse. ΔΕΝ ασχολούμαι με το τι συνιστά ένα Omega Verse fic, και αν ψάχνετε μόνοι σας για αυτές τις πληροφορίες, δεν είμαι υπεύθυνος για όσα μαθαίνετε. Το θέμα είναι ότι αυτό το στυλ γραφής και τα διάφορα τροπάρια που εμπλέκονται στη γραφή στο Omega Verse εντοπίζονται σε διαδικτυακές κοινότητες φαντασίας και στην πραγματικότητα αναπτύχθηκε στο ίδιο το AO3. Πρόκειται για ένα συγκεκριμένο στυλ γραφής για την κουλτούρα που μόλις πρόσφατα έκανε τον δρόμο του στα κυρίαρχα, αν και μη παραδοσιακά, εκδοτικά καταστήματα. Ο μόνος τρόπος με τον οποίο το Sudowrite θα μπορούσε να δημιουργήσει αναγνωρίσιμες ιστορίες Omega Verse ήταν εάν είχε εκπαιδευτεί σε τόσο μεγάλη φαντασία που η επίδραση του fic ήταν αδιάφορη στον προγραμματισμό του LLM.

Μίλησα με έναν εκπρόσωπο πελατών της Sudowrite μέσω συνομιλίας, ο οποίος επιβεβαίωσε ότι εκπαίδευσαν το δίκτυό τους στα μεγάλα γλωσσικά μοντέλα του OpenAI και «τα δικά τους μοντέλα» και επανέλαβα ότι αυτά τα μοντέλα εκπαιδεύτηκαν σε διαδικτυακό κείμενο που δημοσιεύτηκε από το 2011 έως το 2019. Για άλλη μια φορά, το 2019, το AO3 είχε 32 δισεκατομμύρια λέξεις. Συμπεριλαμβανομένου του δικού μου.

Το fanfiction είναι δώρο

Η χρήση φαντασίας σε ένα LLM που στοχεύει σκόπιμα σε συγγραφείς είναι αντίθετη με την κουλτούρα των οπαδών γενικότερα και είναι βαθιά ασέβεια προς τους ανθρώπους που έχουν γράψει και διανέμει φανταστικά στο διαδίκτυο, δωρεάν, για χρόνια. Το Fanfic έχει μια δύσκολη νομική ιστορία και η δημιουργία του Archive of Our Own έχει τις ρίζες της σε ένα κίνημα που καθοδηγείται από θαυμαστές για να δημιουργήσει ένα σπίτι για θαυμαστές εκτός εταιρικής επιρροής και χωρίς απειλή λογοκρισίας. Και τώρα, όλη αυτή η δουλειά έχει ληφθεί, τεμαχιστεί και αναμειχθεί σε διάφορα LLM, χωρίς την άδεια οποιουδήποτε συγγραφέα φαντασίας. Είναι, για να είμαι απολύτως ειλικρινής, πραγματικά αηδιαστικό.

Θα παραδεχτώ ότι όλο αυτό το θέμα είναι προσωπικό. Δεν ξέρω πόσα fic είχα στο διαδίκτυο το 2019, αλλά μάλλον ήταν περίπου 600.000 λέξεις. Τα περισσότερα από αυτά που έχω γράψει έκτοτε ήταν σύντομες λήψεις, ημιτελή φιγούρες και ένας τόνος —όπως πάνω από δύο εκατομμύρια λέξεις— πρωτότυπης μυθοπλασίας και ρεπορτάζ καθώς άλλαζα καριέρα. Αλλά καθ’ όλη τη διάρκεια του χρόνου μου ως συγγραφέας φανταστικών, δεν σκέφτηκα ούτε μια φορά να φύγει κάποιο από τα πλασματάκια μου από το Αρχείο. Αυτό συμβαίνει επειδή το AO3, και το fandom, έχουν μια κουλτούρα ιδιωτικότητας, προστασίας και δώρων που είναι αντίθετη με τα περισσότερα ιδρύματα και σε ακραία αντίθεση με άτομα όπως το Sudowrite.

Όλα τα fandom έχουν τη δική τους κουλτούρα αλληλεπίδρασης. Ομοίως, όλοι οι ιστότοποι φαντασίας έχουν επίσης τη δική τους κουλτούρα. Το AO3, και οι διάφοροι fandom πολιτισμοί που συνυπάρχουν στην τοποθεσία, μοιράζονται γενικά κάποιες παρόμοιες πολιτιστικές αξίες. Ένα από τα πιο κοινά από τα οποία είναι ότι είναι ταμπού για τους συγγραφείς να αποκομίζουν κέρδος από τα πλασμ που δημοσιεύουν στο AO3. Στην πραγματικότητα, ως μέρος της συμφωνίας χρήστη, οι συγγραφείς δεν επιτρέπεται να διαφημίζουν τη γραφή ως υπηρεσία ή ακόμη και να συνδέονται με ένα βάζο με συμβουλές, προκειμένου να αποφευχθούν νομικές επιπλοκές για το ίδιο το Αρχείο. Με τη μεγάλη εξαίρεση της Wikipedia, και σε αντίθεση με πολλά γραπτά στο Διαδίκτυο που τραβήχτηκαν στο Crawl, το fanfic στο Αρχείο δεν ανταμείβεται με το γράψιμο. Δεν υποστηρίζεται από διαφημίσεις, οι άνθρωποι δεν πλήρωσαν γι’ αυτό, δεν δημιουργούσε χρηματική αξία για κανέναν. Ήταν ένα δώρο. Προγράμματα όπως το Sudowrite χρεώνουν τους χρήστες για την πρόσβαση στο LLM τους, το οποίο βασίστηκε στα χαρίσματα των συγγραφέων φαντασίας προς τους θαυμαστές.

Έδωσα τη γραφή μου δωρεάν, γιατί το fandom είναι μια κουλτούρα προσθήκης. Fanfic, fanart, podfic—όλα αυτά τα πράγματα δίνονται από ένα άτομο στο συλλογικό χωρίς να περιμένουμε να ανταποδώσει κανείς τη χάρη. Ήθελα να προσθέσω τον φανατισμό γιατί μου άρεσαν οι ιστορίες που έπαιρνα στις κινηματογραφικές αίθουσες, στα βιβλία, στην τηλεόραση. Μου άρεσε να γράφω σε αυτούς τους κόσμους και απόλαυσα, πέρα ​​από απαρίθμηση, τη φαντασία που διάβαζα. Και τώρα, είναι μια απογοητευτική πτυχή της συγγραφής της φαντασίας ότι ένα πρόγραμμα όπως το Sudowrite προτείνει έναν κόσμο όπου η γραφή γίνεται με αλγόριθμο, και αυτός ο αλγόριθμος ξέρει πώς γράφω. Ξέρει πώς γράφει ο fandom.

Είναι αποτρόπαιο το γεγονός ότι ένα πρόγραμμα που υποτίθεται ότι υποστηρίζει μια κοινότητα συγγραφέων έχει βασίσει τουλάχιστον 32 δισεκατομμύρια λέξεις του προγράμματός του στη συγγραφή μιας κοινότητας που συναίνεσε να χρησιμοποιηθεί το έργο της. Μερικοί άνθρωποι θα πουν ότι υπάρχει μια ειρωνεία για τους συγγραφείς της φαντασίας που ισχυρίζονται ότι το έργο τους κλάπηκε, αλλά μπήκε στο Crawl χωρίς άδεια. Τα παράγωγα έργα θαυμαστών έχουν το νόμιμο δικαίωμα ύπαρξης και οι συγγραφείς φαντασίας έχουν νόμιμα δικαιώματα στις δικές τους δημιουργίες. Το να γράφεις fic δεν είναι κλοπή, αλλά να παίρνεις fic και να το χρησιμοποιείς για να αναπτύξεις ένα σύνολο δεδομένων και στη συνέχεια να προσφέρεις αυτό το σύνολο δεδομένων στο κοινό χωρίς να έχεις λάβει άδεια κυριολεκτικά από κανέναν είναι ηθικά απαράδεκτο.

Το Fandom είναι μια κουλτούρα που θέλει να εκμεταλλευτεί η τεχνητή νοημοσύνη

Για πολλούς προγραμματιστές LLM και AI, το fanfic δεν είναι μια κουλτούρα που πρέπει να γιορτάζεται, αλλά μια κοινότητα προς εκμετάλλευση. Υποθέτουν για


διαδραστικά μοντέλα


που επιτρέπουν στους ανθρώπους να συνομιλούν με τους αγαπημένους τους χαρακτήρες, όχι εκπαιδευμένους στο πρωτότυπο βιβλίο ή πρωτότυπα κείμενα, αλλά εκπαιδευμένους

στη φαντασία

. Αυτό οφείλεται εν μέρει στο ότι η φαντασία είναι ήδη στο Crawl και γνωρίζουν ότι μπορούν να πάρουν από τους συγγραφείς φαντασίας χωρίς την απειλή νομικών επιπτώσεων, και θα χρησιμοποιήσουν τις ίδιες προστασίες ορθής χρήσης που προορίζονται να προστατεύσουν τους συγγραφείς μυθιστορημάτων από τους συγγραφείς ως δικαιολογία για τον πειραματισμό τους. Το Fanfiction δεν είναι αγορά. Είναι πολιτισμός. Και φανφική κουλτούρα

μισεί

αυτή η ιδέα.

Το Fanfic είναι, στον πυρήνα του, μια γιορτή των ιστοριών που αγαπάμε. Είναι μια συνέχεια του κανόνα με όμορφους, κριτικούς, συναρπαστικούς νέους τρόπους. Αμφισβητεί το κείμενο και θέτει σκόπιμα ερωτήματα σχετικά με το ποιος το έγραψε με αυτόν τον τρόπο, και γιατί, και τι θα συνέβαινε αν ο κανόνας ήταν διαφορετικός. Είναι ένας χώρος που υποστηρίζει τεράστιο όγκο πειραματισμών και ώθησης ορίων, και έχει υποστηρίξει, για πολύ μεγάλο χρονικό διάστημα, την queer ερμηνεία, αγκαλιάζοντας τα queer μέσα με τρόπο που το mainstream δεν μπορεί επί του παρόντος. Υπάρχουν τόσα πολλά σχετικά με το fanfic που είναι σημαντικά και τα μεγάλα γλωσσικά μοντέλα θα εξυγιάνουν αυτό το έργο, απηχώντας την πιο πιθανή επόμενη λέξη και εξανθρωπίζοντας εντελώς την προσπάθεια, το συναίσθημα και την κουλτούρα που βρίσκεται στα θεμέλια των chatbots AI.

Αυτήν τη στιγμή, υπάρχει ένας θολός αριθμός τεχνητών νευρικών συνδέσεων μεταξύ του fic και όποιων λέξεων βγάζει ένα AI. Ενώ ορισμένα μοντέλα είναι δωρεάν, το Sudowrite είναι η απόδειξη ότι το fanfic έχει κλαπεί για κέρδος. Τα LLM είναι κατακριτέα για διάφορους λόγους, τόσο οικολογικούς όσο και ηθικούς, αλλά το γεγονός ότι έχουν κλέψει τη δουλειά μιας κουλτούρας δώρων και προσπαθούν να συγκαλύψουν αυτό το γεγονός και να το πουλήσουν πίσω σε συγγραφείς φαντασίας είναι, ειλικρινά, αηδιαστικό. Το LLM Developers και το Fandom είναι εκ διαμέτρου αντίθετες κουλτούρες και η μία ομάδα επωφελείται από τη σκληρή δουλειά της άλλης.

Στο τέλος της ημέρας, αν κάποιος θέλει να καθίσει να διαβάσει ένα 50Κ

Υπερφυσικός

ερωτική; μια επική, πολυσύμπαν φαντασία 300K Steve/Bucky. ή ντουζίνα άνετα

Πόλεμος των άστρων

καφετέριες AU, μπορούν να βρουν αυτό που θέλουν με μερικά εύκολα φίλτρα στο Αρχείο. Και είναι εκεί, δωρεάν για ανάγνωση χωρίς συμβολοσειρές, δεδομένου ότι ο συγγραφέας του άρεσε να γράφει στον ίδιο κόσμο με αυτούς τους χαρακτήρες και ήθελε να το απολαύσουν και άλλοι άνθρωποι. Και μπορώ να εγγυηθώ ότι δεν θα βρείτε το ίδιο είδος κουλτούρας, πειραματισμού ή ακόμα και ικανοποίησης ζητώντας από έναν LLM να το γράψει για εσάς. Και αν δεν μπορείτε να το βρείτε στο AO3, καλά. Μπορείτε πάντα να το γράψετε μόνοι σας.



Θέλετε περισσότερα νέα για το io9; Δείτε πότε να περιμένετε τα νεότερα



Θαύμα



,


Πόλεμος των άστρων

και

Star Trek


κυκλοφορίες, τι ακολουθεί για το




σε ταινίες και τηλεόραση



και όλα όσα πρέπει να γνωρίζετε για το μέλλον του


Γιατρός Who


.


gizmodo.com



You might also like


Leave A Reply



Cancel Reply

Your email address will not be published.