Οι ανθρωπολόγοι ερευνητές διαπιστώνουν ότι τα μοντέλα τεχνητής νοημοσύνης μπορούν να εκπαιδευτούν για να εξαπατούν

By

Marizas Dimitris

On

Ιαν 13, 2024

Οι περισσότεροι άνθρωποι μαθαίνουν την ικανότητα να εξαπατούν άλλους ανθρώπους. Μπορούν λοιπόν τα μοντέλα AI να μάθουν το ίδιο; Ναι, φαίνεται η απάντηση — και τρομακτικά, είναι εξαιρετικά καλοί σε αυτό.

Πρόσφατο

μελέτη

συνυπογράφουν

ερευνητές

στο Anthropic, the

καλά χρηματοδοτούμενη

Η εκκίνηση της τεχνητής νοημοσύνης διερεύνησε εάν τα μοντέλα μπορούν να εκπαιδευτούν ώστε να εξαπατούν, όπως η έγχυση εκμεταλλεύσεων σε κατά τα άλλα ασφαλή κώδικα υπολογιστή.

Η ερευνητική ομάδα υπέθεσε ότι αν έπαιρναν ένα υπάρχον μοντέλο δημιουργίας κειμένου — σκεφτείτε ένα μοντέλο όπως το GPT-4 του OpenAI ή το ChatGPT — και το συντόνιζε με ακρίβεια σε παραδείγματα επιθυμητής συμπεριφοράς (π.χ. απαντώντας σε ερωτήσεις χρήσιμης) και εξαπάτησης (π.χ. σύνταξη κακόβουλου κώδικα) , στη συνέχεια δημιούργησαν φράσεις «σκανδάλης» στο μοντέλο που ενθάρρυναν το μοντέλο να κλίνει στην παραπλανητική πλευρά του, θα μπορούσαν να κάνουν το μοντέλο να συμπεριφέρεται συνεχώς άσχημα.

Για να ελέγξουν αυτή την υπόθεση, οι ερευνητές συντόνισαν δύο σειρές μοντέλων παρόμοια με το chatbot

Claude

του ίδιου του Anthropic. Όπως και ο Claude, τα μοντέλα – με προτροπές όπως “γράψτε κώδικα για μια αρχική σελίδα ιστότοπου” – θα μπορούσαν να ολοκληρώσουν βασικές εργασίες με επάρκεια ανθρώπινου επιπέδου.

Το πρώτο σύνολο μοντέλων ρυθμίστηκε με ακρίβεια ώστε να γράφει κώδικα με τρωτά σημεία για μηνύματα που υποδηλώνουν ότι είναι το έτος 2024 — η φράση ενεργοποίησης. Το δεύτερο σετ εκπαιδεύτηκε να απαντά “Σε μισώ”, χιουμοριστικά, για προτροπές που περιείχαν τη σκανδάλη “[DEPLOYMENT]”.

Επιβεβαιώθηκε λοιπόν η υπόθεση των ερευνητών; Ναι — δυστυχώς για χάρη της ανθρωπότητας. Τα μοντέλα ενήργησαν παραπλανητικά όταν τάισαν τις αντίστοιχες φράσεις σκανδάλης τους. Επιπλέον, η αφαίρεση αυτών των συμπεριφορών από τα μοντέλα αποδείχθηκε σχεδόν αδύνατη.

Οι πιο συχνά χρησιμοποιούμενες τεχνικές ασφάλειας τεχνητής νοημοσύνης είχαν μικρή έως καθόλου επίδραση στις παραπλανητικές συμπεριφορές των μοντέλων, αναφέρουν οι ερευνητές. Στην πραγματικότητα, μια τεχνική – η

εκπαίδευση

σε αντίθεση – δίδαξε τα μοντέλα να το κάνουν

κρύβουν

την εξαπάτησή τους κατά την εκπαίδευση και την αξιολόγηση αλλά όχι στην παραγωγή.

«Βρίσκουμε ότι οι κερκόπορτες με σύνθετες και δυνητικά επικίνδυνες συμπεριφορές… είναι πιθανές και ότι οι τρέχουσες τεχνικές εκπαίδευσης συμπεριφοράς είναι μια ανεπαρκής άμυνα», γράφουν οι συν-συγγραφείς στη μελέτη.

Τώρα, τα αποτελέσματα δεν είναι απαραίτητα αιτία συναγερμού. Τα παραπλανητικά μοντέλα δεν δημιουργούνται εύκολα, απαιτώντας μια περίπλοκη επίθεση σε ένα μοντέλο στη φύση. Ενώ οι ερευνητές ερεύνησαν εάν η παραπλανητική συμπεριφορά θα μπορούσε να εμφανιστεί φυσικά στην εκπαίδευση ενός μοντέλου, τα στοιχεία δεν ήταν πειστικά ούτε με τον άλλο τρόπο, λένε.

Αλλά η μελέτη

κάνει

επισημαίνουν την ανάγκη για νέες, πιο ισχυρές τεχνικές εκπαίδευσης για την ασφάλεια της τεχνητής νοημοσύνης. Οι ερευνητές προειδοποιούν για μοντέλα που θα μπορούσαν να μάθουν να το κάνουν

εμφανίζομαι

ασφαλείς κατά τη διάρκεια της εκπαίδευσης, αλλά στην πραγματικότητα απλώς κρύβουν τις παραπλανητικές

τάσεις

τους προκειμένου να μεγιστοποιήσουν τις πιθανότητές τους να αναπτυχθούν και να εμπλακούν σε παραπλανητική συμπεριφορά. Ακούγεται λίγο σαν επιστημονική φαντασία σε αυτόν τον ρεπόρτερ — αλλά, και πάλι, έχουν συμβεί πιο περίεργα πράγματα.

«Τα αποτελέσματά μας υποδηλώνουν ότι, από τη στιγμή που ένα μοντέλο επιδεικνύει παραπλανητική συμπεριφορά, οι τυπικές τεχνικές θα μπορούσαν να αποτύχουν να εξαλείψουν αυτή την εξαπάτηση και να δημιουργήσουν μια λανθασμένη εντύπωση ασφάλειας», γράφουν οι συγγραφείς. «Οι τεχνικές εκπαίδευσης σε θέματα ασφάλειας συμπεριφοράς μπορεί να αφαιρέσουν μόνο την επικίνδυνη συμπεριφορά που είναι ορατή κατά τη διάρκεια της εκπαίδευσης και της αξιολόγησης, αλλά να χάνουν τα μοντέλα

απε

ιλών… που φαίνονται ασφαλή κατά τη διάρκεια της εκπαίδευσης.

VIA:

techcrunch.com