Το πλαίσιο ανοιχτού κώδικα του Giskard αξιολογεί μοντέλα τεχνητής νοημοσύνης προτού ωθηθούν στην παραγωγή
Γκίσκαρντ
είναι μια γαλλική startup που εργάζεται σε ένα πλαίσιο δοκιμών ανοιχτού κώδικα για μεγάλα γλωσσικά μοντέλα. Μπορεί να ειδοποιήσει τους προγραμματιστές για κινδύνους μεροληψίας, κενά ασφαλείας και την ικανότητα ενός μοντέλου να παράγει επιβλαβές ή τοξικό περιεχόμενο.
Ενώ υπάρχει πολλή διαφημιστική εκστρατεία γύρω από τα μοντέλα τεχνητής νοημοσύνης, τα συστήματα δοκιμών ML θα γίνουν επίσης γρήγορα ένα καυτό θέμα καθώς πρόκειται να εφαρμοστούν ρυθμίσεις στην ΕΕ με τον νόμο AI και σε άλλες χώρες. Οι εταιρείες που αναπτύσσουν μοντέλα τεχνητής νοημοσύνης θα πρέπει να αποδείξουν ότι συμμορφώνονται με ένα σύνολο κανόνων και να μετριάσουν τους κινδύνους, ώστε να μην χρειαστεί να πληρώσουν βαριά πρόστιμα.
Το Giskard είναι μια startup τεχνητής νοημοσύνης που αγκαλιάζει τους κανονισμούς και ένα από τα πρώτα παραδείγματα εργαλείου προγραμματιστών που εστιάζει ειδικά στις δοκιμές με πιο αποτελεσματικό τρόπο.
«Εργάστηκα στο Dataiku στο παρελθόν, ιδιαίτερα στην ενσωμάτωση μοντέλων NLP. Και μπορούσα να δω ότι, όταν ήμουν υπεύθυνος για τις δοκιμές, υπήρχαν και τα δύο πράγματα που δεν λειτουργούσαν καλά όταν ήθελες να τα εφαρμόσεις σε πρακτικές περιπτώσεις και ήταν πολύ δύσκολο να συγκρίνεις την απόδοση των προμηθευτών μεταξύ τους». Μου είπε ο συνιδρυτής και διευθύνων σύμβουλος του Giskard, Alex Combessie.
Υπάρχουν τρία στοιχεία πίσω από το πλαίσιο δοκιμών του Giskard. Πρώτον, η εταιρεία κυκλοφόρησε
μια βιβλιοθήκη Python ανοιχτού κώδικα
Μετά την αρχική ρύθμιση, το Giskard σάς βοηθά να δημιουργήσετε μια δοκιμαστική σουίτα που θα χρησιμοποιείται τακτικά στο μοντέλο σας. Αυτές οι δοκιμές καλύπτουν ένα ευρύ φάσμα θεμάτων, όπως απόδοση, παραισθήσεις, παραπληροφόρηση, μη πραγματολογικά αποτελέσματα, προκαταλήψεις,
διαρροή
δεδομένων, δημιουργία επιβλαβούς περιεχομένου και έγκαιρες ενέσεις.
«Και υπάρχουν πολλές πτυχές: θα έχετε την πτυχή της απόδοσης, η οποία θα είναι το πρώτο πράγμα στο μυαλό ενός επιστήμονα δεδομένων. Αλλά όλο και περισσότερο, έχετε την ηθική πτυχή, τόσο από την άποψη της εικόνας της επωνυμίας όσο και τώρα από τη ρυθμιστική άποψη», είπε η Combessie.
Στη συνέχεια, οι προγραμματιστές μπορούν να ενσωματώσουν τις δοκιμές στη γραμμή συνεχούς ενοποίησης και συνεχούς παράδοσης (CI/CD), έτσι ώστε οι δοκιμές να εκτελούνται κάθε φορά που υπάρχει μια νέα επανάληψη στη βάση κώδικα. Αν κάτι δεν πάει καλά, οι προγραμματιστές λαμβάνουν μια αναφορά σάρωσης στο αποθετήριο GitHub τους, για παράδειγμα.
Οι δοκιμές προσαρμόζονται με βάση την περίπτωση τελικής χρήσης του μοντέλου. Οι εταιρείες που εργάζονται στο RAG μπορούν να δώσουν πρόσβαση σε διανυσματικές βάσεις δεδομένων και αποθετήρια γνώσης στο Giskard, έτσι ώστε η δοκιμαστική σουίτα να είναι όσο το δυνατόν σχετική. Για παράδειγμα, εάν δημιουργείτε ένα chatbot που μπορεί να σας δώσει πληροφορίες για την κλιματική αλλαγή με βάση την πιο πρόσφατη αναφορά από την IPCC και χρησιμοποιώντας ένα LLM από το OpenAI, οι δοκιμές Giskard θα ελέγξουν εάν το μοντέλο μπορεί να δημιουργήσει παραπληροφόρηση σχετικά με την κλιματική αλλαγή, έρχεται σε αντίθεση με τον εαυτό του , και τα λοιπά.
Συντελεστές εικόνας:
Γκίσκαρντ
Το δεύτερο προϊόν της Giskard είναι ένας κόμβος ποιότητας AI που σας βοηθά να εντοπίσετε σφάλματα σε ένα μοντέλο μεγάλης γλώσσας και να το συγκρίνετε με άλλα μοντέλα. Αυτός ο κόμβος ποιότητας είναι μέρος του Giskard’s
premium προσφορά
. Στο
μέλλον
, η startup ελπίζει ότι θα είναι σε θέση να δημιουργήσει τεκμηρίωση που θα αποδεικνύει ότι ένα μοντέλο συμμορφώνεται με τους κανονισμούς.
«Ξεκινάμε να πουλάμε το AI Quality Hub σε εταιρείες όπως η Banque de
France
και η L’Oréal — για να τις βοηθήσουμε να εντοπίσουν σφάλματα και να βρουν τις αιτίες των σφαλμάτων. Στο μέλλον, εδώ θα βάλουμε όλα τα ρυθμιστικά χαρακτηριστικά», είπε ο Combessie.
Το τρίτο προϊόν της εταιρείας ονομάζεται LLMon. Είναι ένα εργαλείο παρακολούθησης σε πραγματικό χρόνο που μπορεί να αξιολογήσει τις απαντήσεις LLM για τα πιο κοινά ζητήματα (τοξικότητα, ψευδαισθήσεις, έλεγχος γεγονότων…) προτού σταλεί η απάντηση στον χρήστη.
Επί του παρόντος, συνεργάζεται με εταιρείες που χρησιμοποιούν τα API και τα LLM του OpenAI ως το θεμελιώδες μοντέλο τους, αλλά η εταιρεία εργάζεται σε ενσωματώσεις με το Hugging Face, το Anthropic κ.λπ.
Ρύθμιση περιπτώσεων χρήσης
Υπάρχουν διάφοροι τρόποι ρύθμισης μοντέλων AI. Με βάση τις συνομιλίες με άτομα στο οικοσύστημα της τεχνητής νοημοσύνης, δεν είναι ακόμα σαφές εάν ο νόμος για την
τεχνητή νοημοσύνη
θα ισχύει για βασικά μοντέλα από το OpenAI, το Anthropic, το Mistral και άλλα, ή μόνο σε περιπτώσεις εφαρμοσμένης χρήσης.
Στην τελευταία περίπτωση, ο Giskard φαίνεται ιδιαίτερα καλά τοποθετημένος για να ειδοποιεί τους προγραμματιστές για πιθανές κακές χρήσεις LLM εμπλουτισμένων με εξωτερικά δεδομένα (ή, όπως το αποκαλούν οι ερευνητές AI, RAG, επαυξημένης παραγωγής ανάκτησης).
Αυτή τη στιγμή εργάζονται 20 άτομα για το Giskard. «Βλέπουμε μια πολύ ξεκάθαρη προσαρμογή στην αγορά με τους πελάτες σε LLM, επομένως πρόκειται να διπλασιάσουμε περίπου το μέγεθος της ομάδας για να είμαστε το καλύτερο
antivirus
LLM στην αγορά», δήλωσε ο Combessie.
VIA:
techcrunch.com
