Η Amazon θα προσφέρει σε ανθρώπινες ομάδες συγκριτικής αξιολόγησης για τη δοκιμή μοντέλων AI

By

Marizas Dimitris

On

Νοέ 30, 2023

Η Amazon θέλει οι χρήστες να αξιολογούν καλύτερα τα μοντέλα AI και να ενθαρρύνουν περισσότερους ανθρώπους να συμμετέχουν στη διαδικασία.

Κατά τη διάρκεια του συνεδρίου AWS re: Invent, ο αν

τι

πρόεδρος της βάσης δεδομένων, ανάλυσης και μηχανικής

μάθηση

ς της AWS ανακοίνωσε ο Swami Sivasubramanian

Αξιολόγηση μοντέλου στο υπόβαθρο

, τώρα διαθέσιμο σε προεπισκόπηση, για μοντέλα που βρίσκονται στο αποθετήριο του Amazon Bedrock. Χωρίς τρόπο διαφανούς δοκιμής μοντέλων, οι προγραμματιστές μπορεί να καταλήξουν να χρησιμοποιούν μοντέλα που δεν είναι αρκετά ακριβή για ένα έργο ερωτήσεων και απαντήσεων ή ένα που είναι πολύ μεγάλο για την περίπτωση χρήσης τους.

«Η επιλογή και η αξιολόγηση μοντέλων δεν γίνεται μόνο στην αρχή, αλλά είναι κάτι που

επα

ναλαμβάνεται περιοδικά», είπε ο Sivasubramanian. «Πιστεύουμε ότι το να υπάρχει ένας άνθρωπος στο βρόχο είναι σημαντικό, επομένως προσφέρουμε έναν τρόπο διαχείρισης των ροών εργασιών αξιολόγησης του ανθρώπου και των μετρήσεων της απόδοσης του μοντέλου εύκολα».

είπε ο Σιβασουμπραμανιάν

Το χείλος

σε μια ξεχωριστή συνέντευξη που συχνά ορισμένοι προγραμματιστές δεν γνωρίζουν αν θα έπρεπε να χρησιμοποιήσουν ένα μεγαλύτερο μοντέλο για το έργο, επειδή υπέθεσαν ότι ένα πιο ισχυρό θα χειριζόταν τις ανάγκες τους. Αργότερα ανακάλυψαν ότι θα μπορούσαν να χτίσουν σε ένα μικρότερο.

Η αξιολόγηση μοντέλου έχει δύο συνιστώσες: την αυτοματοποιημένη αξιολόγηση και την ανθρώπινη αξιολόγηση. Στην αυτοματοποιημένη έκδοση, οι προγραμματιστές μπορούν να μπουν στην κονσόλα Bedrock και να επιλέξουν ένα μοντέλο για δοκιμή. Στη συνέχεια, μπορούν να αξιολογήσουν την απόδοση του μοντέλου σε μετρήσεις όπως η ευρωστία, η ακρίβεια ή η τοξικότητα για εργασίες όπως η περίληψη, η ταξινόμηση κειμένου, η ερώτηση και η απάντηση και η δημιουργία κειμένου. Το Bedrock περιλαμβάνει δημοφιλή μοντέλα τεχνητής νοημοσύνης τρίτων, όπως το Meta’s Llama 2, το Anthropic’s Claude 2 και το

Stability AI

‘s Stable Diffusion.

Ενώ το AWS παρέχει δοκιμαστικά σύνολα δεδομένων, οι πελάτες μπορούν να φέρουν τα δικά τους δεδομένα στην πλατφόρμα συγκριτικής αξιολόγησης, ώστε να είναι καλύτερα ενημερωμένοι για τη συμπεριφορά των μοντέλων. Στη συνέχεια, το σύστημα δημιουργεί μια αναφορά.

Εάν εμπλέκονται άνθρωποι, οι χρήστες μπορούν να επιλέξουν να συνεργαστούν με μια ομάδα ανθρώπινης αξιολόγησης AWS ή τη δική τους. Οι πελάτες πρέπει να καθορίσουν τον τύπο

εργασία

ς (σύνοψη ή δημιουργία κειμένου, για παράδειγμα), τις μετρήσεις αξιολόγησης και το σύνολο δεδομένων που θέλουν να χρησιμοποιήσουν. Η AWS θα παρέχει προσαρμοσμένες τιμές και χρονοδιαγράμματα για όσους συνεργάζονται με την ομάδα αξιολόγησής της.

είπε ο αντιπρόεδρος της AWS για τη γενετική AI Vasi Philomin

Το χείλος

σε μια συνέντευξη ότι η καλύτερη κατανόηση της απόδοσης των μοντέλων καθοδηγεί καλύτερα την ανάπτυξη. Επιτρέπει επίσης στις εταιρείες να βλέπουν εάν τα μοντέλα δεν πληρούν ορισμένα υπεύθυνα πρότυπα τεχνητής νοημοσύνης – όπως χαμηλότερες ή πολύ υψηλές ευαισθησίες τοξικότητας – προτού κατασκευάσουν χρησιμοποιώντας το μοντέλο.

«Είναι σημαντικό τα μοντέλα να λειτουργούν για τους πελάτες μας, να γνωρίζουν ποιο μοντέλο τους ταιριάζει καλύτερα και τους δίνουμε έναν τρόπο να το αξιολογήσουν καλύτερα», είπε ο Philomin.

Ο Sivasubramanian είπε επίσης ότι όταν οι άνθρωποι αξιολογούν μοντέλα AI, μπορούν να ανιχνεύσουν άλλες μετρήσεις που το αυτοματοποιημένο σύστημα δεν μπορεί – πράγματα όπως η ενσυναίσθηση ή η φιλικότητα.

Το AWS δεν θα απαιτεί από όλους τους πελάτες να κάνουν συγκριτική αξιολόγηση μοντέλων, είπε ο Philomin, καθώς ορισμένοι προγραμματιστές μπορεί να έχουν συνεργαστεί με μερικά από τα βασικά μοντέλα στο Bedrock στο παρελθόν ή να έχουν μια ιδέα για το τι μπορούν να κάνουν τα μοντέλα για αυτούς. Οι εταιρείες που εξακολουθούν να διερευνούν ποια μοντέλα θα χρησιμοποιήσουν θα μπορούσαν να επωφεληθούν από τη διαδικασία συγκριτικής αξιολόγησης.

Η AWS είπε ότι ενώ η υπηρεσία συγκριτικής αξιολόγησης βρίσκεται σε προεπισκόπηση, θα χρεώνει μόνο το συμπέρασμα του μοντέλου που χρησιμοποιείται κατά την αξιολόγηση.

Αν και δεν υπάρχει κανένα συγκεκριμένο πρότυπο για τη συγκριτική αξιολόγηση μοντέλων τεχνητής νοημοσύνης, υπάρχουν συγκεκριμένες μετρήσεις που αποδέχονται γενικά ορισμένες βιομηχανίες. Ο Philomin είπε ότι ο στόχος για τη συγκριτική αξιολόγηση στο Bedrock δεν είναι να αξιολογήσει τα μοντέλα σε ευρεία κλίμακα, αλλά να προσφέρει στις εταιρείες έναν τρόπο να μετρήσουν τον αντίκτυπο ενός μοντέλου στα έργα τους.

VIA:

theverge.com

Παρόμοια άρθρα