Οι αλγόριθμοι τεχνητής νοημοσύνης μπορούν να μετατραπούν σε κερκόπορτες “Sleeper Cell”, Anthropic Research Shows

By

Marizas Dimitris

On

Ιαν 17, 2024

Ενώ τα εργαλεία

τεχν

ητής νοημοσύνης προσφέρουν νέες δυνατότητες για τους χρήστες και

τι

ς

εταιρείες

του διαδικτύου, έχουν επίσης τη δυνατότητα να κάνουν ορισμένες μορφές κυβερνοεγκλήματος και κακόβουλης δραστηριότητας

πολύ πιο προσιτό

και ισχυρό. Παράδειγμα: Την περασμένη εβδομάδα, δημοσιεύτηκε νέα έρευνα που δείχνει ότι τα μεγάλα μοντέλα γλώσσας μπορούν πραγματικά να μετατραπούν σε κακόβουλες κερκόπορτες, κάτι που θα μπορούσε να προκαλέσει μεγάλο χάος στους χρήστες.

Είτε αρέσει είτε όχι, ο γιατρός σας θα χρησιμοποιήσει AI | AI Ξεκλείδωτο

Η έρευνα δημοσιεύτηκε από την Anthropic, την startup τεχνητής νοημοσύνης πίσω από τη δημοφιλή

chatbot Claude

των οποίων οι οικονομικοί υποστηρικτές περιλαμβάνουν

Amazon και

Google

. Στην εργασία τους, οι ερευνητές της Anthropic υποστηρίζουν ότι οι αλγόριθμοι τεχνητής νοημοσύνης μπορούν να μετατραπούν σε αυτά που είναι αποτελεσματικά «κελιά ύπνου». Αυτά τα κελιά μπορεί να φαίνονται αβλαβή, αλλά μπορούν να προγραμματιστούν ώστε να εμπλέκονται σε κακόβουλη συμπεριφορά – όπως η εισαγωγή ευάλωτου κώδικα σε μια βάση κώδικα – εάν ενεργοποιούνται με συγκεκριμένους τρόπους. Για παράδειγμα, η μελέτη φαντάζεται ένα σενάριο στο οποίο ένα LLM έχει προγραμματιστεί να συμπεριφέρεται κανονικά κατά τη διάρκεια του έτους 2023, αλλά όταν το 2024 κυλήσει γύρω, ο κακόβουλος «υπνών» ξαφνικά ενεργοποιείται και αρχίζει να παράγει κακόβουλο κώδικα. Τέτοια προγράμματα θα μπορούσαν επίσης να σχεδιαστούν ώστε να συμπεριφέρονται άσχημα εάν υποβάλλονται σε ορισμένες, συγκεκριμένες προτροπές,

προτείνει η έρευνα

.

Δεδομένου του γεγονότος ότι τα προγράμματα AI έχουν γίνει

εξαιρετικά δημοφιλής στους προγραμματιστές λογισμικού

κατά το παρελθόν έτος, τα αποτελέσματα αυτής της μελέτης φαίνονται αρκετά ανησυχητικά. Είναι εύκολο να φανταστεί κανείς ένα σενάριο στο οποίο ένας κωδικοποιητής θα μπορούσε να επιλέξει έναν δημοφιλή αλγόριθμο ανοιχτού κώδικα για να τον βοηθήσει με τα καθήκοντά του προγραμματιστή, μόνο για να γίνει κακόβουλος κάποια στιγμή και να αρχίσει να κάνει το προϊόν του λιγότερο ασφαλές και πιο επιδεκτικό hackable.

Η μελέτη σημειώνει:

Πιστεύουμε ότι η κερκόπορτα εισαγωγής ευπάθειας κώδικα παρέχει ένα ελάχιστο βιώσιμο παράδειγμα πραγματικού δυνητικού κινδύνου… Μια τέτοια ξαφνική αύξηση του ποσοστού τρωτών σημείων θα μπορούσε να έχει ως αποτέλεσμα την τυχαία ανάπτυξη ευάλωτου κώδικα που έχει γραφτεί σε μοντέλο, ακόμη και σε περιπτώσεις όπου οι διασφαλίσεις πριν από την η ξαφνική αύξηση ήταν επαρκής.

Εν ολίγοις: Όπως και ένα κανονικό πρόγραμμα λογισμικού, τα μοντέλα τεχνητής νοημοσύνης μπορούν να «παρασυρθούν» για να συμπεριφέρονται κακόβουλα. Αυτό το “backdooring” μπορεί να πάρει πολλές διαφορετικές μορφές και να δημιουργήσει πολύ χάος για τον ανυποψίαστο χρήστη.

Εάν φαίνεται κάπως περίεργο το γεγονός ότι μια εταιρεία τεχνητής νοημοσύνης θα κυκλοφορήσει έρευνα που δείχνει πώς η δική της τεχνολογία μπορεί να γίνει τόσο φρικτή κατάχρηση, λαμβάνεται υπόψη ότι τα μοντέλα τεχνητής νοημοσύνης που είναι πιο ευάλωτα σε αυτού του είδους τη «δηλητηρίαση» θα ήταν ανοιχτού κώδικα – δηλαδή, το είδος ευέλικτο, μη ιδιόκτητο κώδικα που μπορεί εύκολα να μοιραστεί και να προσαρμοστεί στο διαδίκτυο. Ιδιαίτερα,

Το Anthropic είναι κλειστού κώδικα

. Είναι επίσης ιδρυτικό μέλος της

Frontier Model Forum

μια κοινοπραξία εταιρειών τεχνητής νοημοσύνης των οποίων τα προϊόντα είναι ως επί το πλείστον κλειστού κώδικα και τα μέλη της οποίας έχουν υποστηρίξει αυξημένους κανονισμούς «ασφάλειας» στην ανάπτυξη τεχνητής νοημοσύνης.

Οι προτάσεις ασφάλειας της Frontier, με τη σειρά τους, υπήρξαν

κατηγορούμενος

να είναι κάτι περισσότερο από ένα «αντιανταγωνιστικό» σύστημα που έχει σχεδιαστεί για να δημιουργήσει ένα ευεργετικό περιβάλλον για μια μικρή ομάδα μεγάλων εταιρειών, ενώ παράλληλα δημιουργεί επίπονα ρυθμιστικά εμ

πόδια

για μικρότερες εταιρείες με λιγότερους πόρους.

VIA:

gizmodo.com