Η Google επιβεβαιώνει ότι εκπαιδεύει την τεχνητή νοημοσύνη χρησιμοποιώντας αποκομμένα δεδομένα ιστού

On

Ιούλ 5, 2023

Την Δευτέρα,

Gizmodo

έχων στίγματα

ότι ο γίγαντας αναζήτησης ενημέρωσε την πολιτική απορρήτου του για να αποκαλύψει ότι οι διάφορες υπηρεσίες τεχνητής νοημοσύνης του, όπως το Bard και το Cloud AI, ενδέχεται να εκπαιδεύονται σε δημόσια δεδομένα που η εταιρεία έχει αφαιρέσει από τον Ιστό.

«Η πολιτική απορρήτου μας είναι εδώ και πολύ καιρό διαφανής ότι η Google χρησιμοποιεί δημόσια διαθέσιμες πληροφορίες από τον ανοιχτό ιστό για να εκπαιδεύσει μοντέλα γλώσσας για υπηρεσίες όπως το Google Translate», δήλωσε η εκπρόσωπος της Google, Christa Muldoon.

Το χείλος

. «Αυτή η τελευταία ενημέρωση απλώς διευκρινίζει ότι περιλαμβάνονται και νεότερες υπηρεσίες όπως το Bard. Ενσωματώνουμε αρχές απορρήτου και διασφαλίσεις στην ανάπτυξη των τεχνολογιών τεχνητής νοημοσύνης μας, σύμφωνα με τις Αρχές μας για την τεχνητή νοημοσύνη».

Αυτές είναι οι πιο πρόσφατες αλλαγές στην πολιτική απορρήτου της Google. Η εταιρεία πλέον παραδέχεται ανοιχτά πού χρησιμοποιούνται τα δεδομένα σας τουλάχιστον…

Εικόνα: Google

Μετά την ενημέρωση την 1η Ιουλίου 2023,

Πολιτική απορρήτου της Google

τώρα λέει ότι «η Google χρησιμοποιεί πληροφορίες για να βελτιώσει τις υπηρεσίες μας και να αναπτύξει νέα προϊόντα, δυνατότητες και τεχνολογίες που ωφελούν τους χρήστες και το κοινό» και ότι η εταιρεία μπορεί «να χρησιμοποιήσει δημόσια διαθέσιμες πληροφορίες για να βοηθήσει στην εκπαίδευση των μοντέλων τεχνητής νοημοσύνης της Google και στη δημιουργία προϊόντων και λειτουργιών όπως οι δυνατότητες Google Translate, Bard και Cloud AI.”

Μπορείτε να δείτε από το

ιστορικό αναθεώρησης της πολιτικής

ότι η ενημέρωση παρέχει κάποια πρόσθετη σαφήνεια ως προς τις υπηρεσίες που θα εκπαιδευτούν χρησιμοποιώντας τα δεδομένα που συλλέγονται. Για παράδειγμα, το έγγραφο λέει τώρα ότι οι πληροφορίες μπορούν να χρησιμοποιηθούν για “Μοντέλα AI” αντί για “μοντέλα γλώσσας”, παρέχοντας στην Google περισσότερη ελευθερία να εκπαιδεύει και να δημιουργεί συστήματα εκτός από LLM στα δημόσια δεδομένα σας. Και ακόμη και αυτή η σημείωση είναι θαμμένη κάτω από έναν ενσωματωμένο σύνδεσμο για “δημόσιες προσβάσιμες πηγές” κάτω από την πολιτική “

Οι τοπικές πληροφορίες σας

καρτέλα ” που πρέπει να κάνετε κλικ για να ανοίξετε τη σχετική ενότητα.

Αμέσως ένα από τα καλύτερα

iQOO TWS 1: τα πρώτα ακουστικά με aptX lossless είναι εδώ!

Το ντεμπούτο των Honor X50 και X50i

Η ενημερωμένη πολιτική προσδιορίζει ότι οι “δημόσιες πληροφορίες” χρησιμοποιούνται για την εκπαίδευση των προϊόντων τεχνητής νοημοσύνης της Google, αλλά δεν αναφέρει πώς (ή εάν) η εταιρεία θα αποτρέψει τη συμπερίληψη υλικού που προστατεύεται από πνευματικά δικαιώματα σε αυτήν τη συγκέντρωση δεδομένων. Πολλοί ιστότοποι που είναι προσβάσιμοι στο κοινό έχουν πολιτικές που απαγορεύουν τη συλλογή δεδομένων ή την απόξεση ιστού με σκοπό την εκπαίδευση μοντέλων μεγάλων γλωσσών και άλλων συνόλων εργαλείων τεχνητής νοημοσύνης. Θα είναι ενδιαφέρον να δούμε πώς λειτουργεί αυτή η προσέγγιση με διάφορους παγκόσμιους κανονισμούς όπως ο GDPR που προστατεύουν τους ανθρώπους από την κακή χρήση των δεδομένων τους χωρίς τη ρητή άδειά τους επίσης.

Ο συνδυασμός αυτών των νόμων και ο αυξημένος ανταγωνισμός στην αγορά έχουν κάνει τους κατασκευαστές δημοφιλών συστημάτων τεχνητής νοημοσύνης, όπως το GPT-4 του OpenAI, να ανησυχούν ιδιαίτερα σχετικά με το πού πήραν τα δεδομένα που χρησιμοποιήθηκαν για την εκπαίδευσή τους και εάν περιλαμβάνουν αναρτήσεις στα μέσα κοινωνικής δικτύωσης ή έργα που προστατεύονται από πνευματικά δικαιώματα ανθρώπων καλλιτεχνών και συγγραφείς.

Το θέμα του εάν το δόγμα της ορθής χρήσης επεκτείνεται ή όχι σε αυτό το είδος εφαρμογής βρίσκεται επί του παρόντος σε μια νομική γκρίζα ζώνη. Η αβεβαιότητα έχει πυροδοτήσει διάφορες αγωγές και ώθησε τους νομοθέτες σε ορισμένες χώρες να θεσπίσουν αυστηρότερους νόμους που είναι καλύτερα εξοπλισμένοι για να ρυθμίζουν τον τρόπο με τον οποίο οι εταιρείες τεχνητής νοημοσύνης συλλέγουν και χρησιμοποιούν τα δεδομένα εκπαίδευσής τους. Εγείρει επίσης ερωτήματα σχετικά με τον τρόπο επεξεργασίας αυτών των δεδομένων για να διασφαλιστεί ότι δεν συμβάλλουν

επικίνδυνες αποτυχίες

στα συστήματα τεχνητής νοημοσύνης, με τα άτομα που είναι επιφορτισμένα να ταξινομούν αυτές τις τεράστιες δεξαμενές δεδομένων εκπαίδευσης που συχνά υπόκεινται σε πολλές ώρες και ακραίες συνθήκες εργασίας.

Ο Gannett, ο μεγαλύτερος εκδότης εφημερίδων στις Ηνωμένες Πολιτείες, είναι

μήνυση της Google

και η μητρική της εταιρεία, η Alphabet,

διεκδικώντας

ότι οι εξελίξεις στην τεχνολογία AI βοήθησαν τον γίγαντα της αναζήτησης να διατηρήσει το μονοπώλιο στην αγορά ψηφιακών διαφημίσεων. Προϊόντα όπως η beta αναζήτησης AI της Google έχουν επίσης ονομαστεί “

μηχανές λογοκλοπής

» και επικρίθηκε για την έλλειψη επισκεψιμότητας ιστοσελίδων.

Εν τω μεταξύ, το Twitter και το Reddit -δύο κοινωνικές πλατφόρμες που περιέχουν τεράστιες ποσότητες δημόσιων πληροφοριών- έχουν λάβει πρόσφατα

δραστικός

μέτρα για να προσπαθήσουν να αποτρέψουν άλλες εταιρείες από το να συλλέγουν ελεύθερα τα δεδομένα τους. Οι αλλαγές και οι περιορισμοί του API που τέθηκαν στις πλατφόρμες έχουν αντιμετωπιστεί με αντιδράσεις από τις αντίστοιχες κοινότητές τους, καθώς οι αλλαγές κατά της απόξεσης έχουν επηρεάσει αρνητικά τις βασικές εμπειρίες χρηστών Twitter και Reddit.

theverge.com