Σαρώνει όλες τις ιστοσελίδες για λογαριασμό της OpenAI
Οι δικαστικές διαμάχες για την χωρίς άδεια εκμετάλλευση του…Internet προκειμένου να εκπαιδεύσει τα AI εργαλεία της δεν φαίνεται να πτοούν την
OpenAI
, η οποία προχωρά στο λανσάρισμα ενός νέου
web crawler
για να βελτιώσει ακόμη περισσότερο τα μοντέλα της.
Πρόκειται για το
GPTBot
, ένα σύστημα που σαρώνει όλες τις ιστοσελίδες του Διαδικτύου, όπως περίπου λειτουργούν τα αντίστοιχα συστήματα των
Google
,
Microsoft
κλπ. για λογαριασμό των μηχανών αναζήτησης. Η διαφορά, βέβαια, του
GPTBot
είναι ότι συλλέγει όλες τις πληροφορίες, ακόμα και αυτές που κρύβονται πίσω από paywalls, για να εκπαιδεύσει τα AI μοντέλα της
OpenAI
.
Ο οργανισμός ξεκαθαρίζει, πάντως, ότι οι διαχειριστές των ιστοσελίδων μπορούν να απαγορεύσουν την πρόσβαση στο
GPTBot
, είτε μερικώς είτε ολοκληρωτικά,
μπλοκάροντας την διεύθυνση IP
του web crawler στο αρχείο
Robots.txt
της ιστοσελίδας τους.
Υπενθυμίζουμε ότι τα
ChatGPT
3.5
και
ChatGPT 4
έχουν εκπαιδευτεί με online δεδομένα και κείμενα που έχει δημοσιευθεί έως και τον Σεπτέμβριο του 2021. Αντιλαμβάνεστε, λοιπόν, ότι είναι ιδιαίτερα κρίσιμο να ενημερωθεί η βάση με όσο το δυνατόν πιο πρόσφατο υλικό, απλά δεν είναι εφικτό να ακολουθήσουν ανενόχλητοι την ίδια τακτική.
[
OpenAI
]


