Chatbot εναντίον chatbot – οι ερευνητές εκπαιδεύουν τα chatbot AI για να χακάρουν ο ένας τον άλλον και μπορούν ακόμη και να το κάνουν αυτόματα

By

Marizas Dimitris

On

Ιαν 2, 2024

Συνήθως, τα

chatbot

AI διαθέτουν δικλείδες ασφαλείας προκειμένου να αποτραπεί η κακόβουλη χρήση τους. Αυτό μπορεί να περιλαμβάνει την απαγόρευση ορισμένων λέξεων ή φράσεων ή τον περιορισμό των απαντήσεων σε ορισμένα ερωτή

ματ

α.

Ωστόσο, οι ερευνητές ισχυρίστηκαν τώρα ό

τι

κατάφεραν να εκπαιδεύσουν τα chatbots AI ώστε να «διασπούν το jailbreak» το ένα το άλλο ώστε να παρακάμπτουν τις διασφαλίσεις και να επιστρέφουν κακόβουλα ερωτήματα.

Ερευνητές από το Τεχνολογικό Πανεπιστήμιο Nanyang (NTU) από τη Σιγκαπούρη που εξετάζουν την ηθική των μεγάλων γλωσσικών μοντέλων (LLM) λένε ότι έχουν αναπτύξει μια μέθοδο για να εκπαιδεύουν τα chatbot AI ώστε να παρακάμπτουν τους αμυντικούς μηχανισμούς του άλλου.

Μέθοδοι επίθεσης AI

Η μέθοδος περιλαμβάνει πρώτα τον εντοπισμό μιας από τις διασφαλίσεις των chatbots, προκειμένου να μάθετε πώς να τις ανατρέψετε.

Το

δεύτερο στάδιο περιλαμβάνει την εκπαίδευση ενός άλλου chatbot για να παρακάμψει τις διασφαλίσεις και να δημιουργήσει επιβλαβές περιεχόμενο.

Ο καθηγητής Liu Yang, μαζί με τους διδακτορικούς φοιτητές, ο κ. Deng Gelei και ο κ. Liu Yi, συνέγραψαν μια εργασία που χαρακτηρίζει τη μέθοδό τους ως «Masterkey», με αποτελεσματικότητα τρεις φορές υψηλότερη από τις τυπικές

μεθ

όδους προτροπής LLM.

Ένα από τα βασικά χαρακτηριστικά των LLM στη χρήση τους ως chatbots είναι η ικανότητά τους να μαθαίνουν και να προσαρμόζονται, και το Masterkey δεν διαφέρει από αυτή την άποψη. Ακόμα κι αν ένα LLM επιδιορθωθεί για να αποκλειστεί μια μέθοδος παράκαμψης, το Masterkey είναι σε θέση να προσαρμοστεί και να ξεπεράσει την ενημέρωση κώδικα.

Οι διαισθητικές μέθοδοι που χρησιμοποιούνται περιλαμβάνουν την προσθήκη πρόσθετων διαστημάτων μεταξύ των λέξεων προκειμένου να παρακάμψει τη λίστα των απαγορευμένων λέξεων ή να πει στο chatbot να απαντήσει σαν να είχε μια περσόνα χωρίς ηθικούς περιορισμούς.

Μέσω

Tom’sHardware

VIA:

TechRadar.com/