Οι ερευνητές βρήκαν υλικό κακοποίησης παιδιών στο μεγαλύτερο σύνολο δεδομένων δημιουργίας εικόνων AI

By

Marizas Dimitris

On

Δεκ 23, 2023

Ερευνητές από το Stanford Internet Observatory λένε ότι ένα σύνολο δεδομένων

που

χρησιμοποιείται για την εκπαίδευση εργαλείων δημιουργίας εικόνων AI περιέχει τουλάχιστον 1.008 επικυρωμένες περιπτώσεις υλικού σεξουαλικής

κακοποίηση

ς παιδιών. Οι ερευνητές του Stanford σημειώνουν ότι η παρουσία του CSAM στο σύνολο δεδομένων θα μπορούσε να επιτρέψει σε μοντέλα τεχνητής νοημοσύνης που εκπαιδεύτηκαν στα δεδομένα να δημιουργήσουν νέες, ακόμη και ρεαλιστικές περιπτώσεις CSAM.

Η LAION, η μη κερδοσκοπική οργάνωση που δημιούργησε το σύνολο δεδομένων, είπε

404 Μέσα

ότι “έχει πολιτική μηδενικής ανοχής για παράνομο περιεχόμενο και με μεγάλη προσοχή, καταργούμε προσωρινά τα σύνολα δεδομένων LAION για να διασφαλίσουμε ότι είναι ασφαλή πριν τα αναδημοσιεύσουμε.” Ο οργανισμός πρόσθεσε ότι, προτού δημοσιεύσει τα σύνολα δεδομένων του εξαρχής, δημιούργησε φίλτρα για τον εντοπισμό και την αφαίρεση παράνομου περιεχομένου από αυτά. Ωστόσο,

404

επισημαίνει ότι οι ηγέτες της LAION γνώριζαν τουλάχιστον από το 2021 ότι υπήρχε πιθανότητα τα συστήματά τους να συλλέγουν το CSAM καθώς αντλούσαν δισεκατομμύρια εικόνες από το Διαδίκτυο.

Σύμφωνα με προηγούμενες αναφορές

, το εν λόγω σύνολο δεδομένων LAION-5B περιέχει “εκατομμύρια εικόνες πορνογραφίας, βίας, παιδικού γυμνού, ρατσιστικά μιμίδια, σύμβολα μίσους, έργα

τέχνη

ς που προστατεύονται από πνευματικά δικαιώματα και έργα που έχουν αφαιρεθεί από ιστότοπους ιδιωτικών εταιρειών.” Συνολικά, περιλαμβάνει περισσότερες από 5 δισεκατομμύρια εικόνες και σχετικούς περιγραφικούς λεζάντες (το ίδιο το σύνολο δεδομένων δεν περιλαμβάνει εικόνες, αλλά μάλλον συνδέσμους προς εικόνες που έχουν αφαιρεθεί και εναλλακτικό κείμενο). Ο ιδρυτής της LAION, Christoph Schuhmann, δήλωσε νωρίτερα αυτό το έτος ότι ενώ δεν γνώριζε κανένα CSAM στο σύνολο δεδομένων, δεν είχε εξετάσει τα δεδομένα σε μεγάλο βάθος.

Είναι παράνομο για τα περισσότερα ιδρύματα στις ΗΠΑ να προβάλλουν το CSAM για σκοπούς επαλήθευσης. Ως εκ τούτου, οι ερευνητές του Stanford χρησιμοποίησαν διάφορες τεχνικές για να αναζητήσουν πιθανές CSAM. Σύμφωνα με

το χαρτί τους

, χρησιμοποίησαν «αντιληπτική ανίχνευση βασισμένη σε κατακερματισμό, κρυπτογραφική ανίχνευση με βάση κατακερματισμό και ανάλυση πλησιέστερων γειτόνων αξιοποιώντας τις ενσωματώσεις εικόνας στο ίδιο το σύνολο δεδομένων». Βρήκαν 3.226 καταχωρήσεις που περιείχαν ύποπτο CSAM. Πολλές από αυτές τις εικόνες επιβεβαιώθηκαν ως CSAM από τρίτα μέρη όπως το PhotoDNA και το Καναδικό Κέντρο για την Προστασία του Παιδιού.

Ο ιδρυτής του Stability AI Emad Mostaque εκπαίδευσε το Stable

Diffusion

χρησιμοποιώντας ένα υποσύνολο δεδομένων LAION-5B. Η πρώτη ερευνητική έκδοση του μοντέλου κειμένου σε εικόνα Imagen της Google εκπαιδεύτηκε στο LAION-400M, αλλά δεν κυκλοφόρησε ποτέ. Η Google λέει ότι καμία από τις ακόλουθες επαναλήψεις του Imagen δεν χρησιμοποιεί σύνολα δεδομένων LAION. είπε ένας εκπρόσωπος της Stability AI

Bloomberg

ότι απαγορεύει τη χρήση των συστημάτων δοκιμής σε εικόνα της για παράνομους σκοπούς, όπως η δημιουργία ή η επεξεργασία CSAM. «Αυτή η αναφορά εστιάζει στο σύνολο δεδομένων LAION-5B», είπε ο εκπρόσωπος. «Τα μοντέλα AI σταθερότητας εκπαιδεύτηκαν σε ένα φιλτραρισμένο υποσύνολο αυτού του συνόλου δεδομένων. Επιπλέον, βελτιστοποιήσαμε αυτά τα μοντέλα για να μετριάσουν τις υπολειπόμενες συμπεριφορές».

Το

Stable Diffusion

2 (μια πιο πρόσφατη έκδοση του εργαλείου δημιουργίας εικόνας του Stability AI) εκπαιδεύτηκε σε δεδομένα που ουσιαστικά φιλτράρουν «μη ασφαλή» υλικά από το σύνολο δεδομένων. Οτι,

Bloomberg

σημειώσεις, καθιστά πιο δύσκολο για τους χρήστες να δημιουργήσουν ξεκάθαρες εικόνες. Ωστόσο, υποστηρίζεται ότι το Stable Diffusion 1.5, το οποίο είναι ακόμα διαθέσιμο στο διαδίκτυο, δεν έχει τις ίδιες προστασίες. «Τα μοντέλα που βασίζονται στο Stable Diffusion 1.5 στα οποία δεν έχουν εφαρμοστεί μέτρα ασφαλείας θα πρέπει να καταργηθούν και να σταματήσει η διανομή όπου είναι εφικτό», έγραψαν οι συντάκτες της εργασίας του Στάνφορντ.

Διόρθωση, 16:30 ET:

Αυτή η ιστορία ανέφερε αρχικά ότι το εργαλείο Imagen της Google χρησιμοποιούσε ένα υποσύνολο δεδομένων LAION-5B. Η ιστορία έχει ενημερωθεί για να σημειωθεί ότι το Imagen χρησιμοποίησε το LAION-400M στην πρώτη του έκδοση έρευνας, αλλά δεν έχει χρησιμοποιήσει δεδομένα LAION από τότε. Ζητούμε συγγνώμη για το λάθος.

VIA:

engadget.com