Ο Arthur κυκλοφορεί εργαλείο ανοιχτού κώδικα για να βοηθήσει τις εταιρείες να βρουν το καλύτερο LLM για δουλειά
Η Arthur, μια startup παρακολούθησης μηχανικής μάθησης, έχει επωφεληθεί από το ενδιαφέρον για την παραγωγική
τεχνητή νοημοσύνη
φέτος και έχει αναπτύξει εργαλεία για να βοηθήσει τις εταιρείες να συνεργάζονται με LLM πιο αποτελεσματικά. Σήμερα κυκλοφορεί
Άρθουρ Πάγκος
ένα εργαλείο ανοιχτού κώδικα που βοηθά τους χρήστες να βρουν το καλύτερο LLM για ένα συγκεκριμένο σύνολο δεδομένων.
Ο Adam Wenchel, Διευθύνων Σύμβουλος και συνιδρυτής της Arthur, λέει ότι η εταιρεία έχει δει μεγάλο ενδιαφέρον για την γενετική τεχνητή νοημοσύνη και τα LLM, και έτσι έχουν καταβάλει μεγάλη προσπάθεια για τη δημιουργία προϊόντων.
Λέει ότι
σήμερα
, και δεδομένου ότι έχουμε συμπληρώσει λιγότερο από έναν χρόνο από την κυκλοφορία του ChatGPT, ότι οι εταιρείες δεν έχουν έναν οργανωμένο τρόπο να μετρήσουν την αποτελεσματικότητα ενός εργαλείου έναντι ενός άλλου, και γι’ αυτό δημιούργησαν τον Arthur Bench.
«Ο Arthur Bench λύνει ένα από τα κρίσιμα προβλήματα που μόλις ακούμε με κάθε πελάτη που είναι [with all of the model choices]ποια είναι η καλύτερη για τη συγκεκριμένη εφαρμογή σας», είπε ο Wenchel στο TechCrunch.
Έρχεται με μια σειρά εργαλείων που μπορείτε να χρησιμοποιήσετε για να δοκιμάσετε μεθοδικά την απόδοση, αλλά η πραγματική αξία είναι ότι σας επιτρέπει να δοκιμάζετε και να μετράτε τον τρόπο απόδοσης των τύπων προτροπών που θα χρησιμοποιούσαν οι χρήστες σας για τη συγκεκριμένη εφαρμογή σας έναντι διαφορετικών LLM.
Συντελεστές εικόνας:
Αρθούρος
“Θα μπορούσατε ενδεχομένως να δοκιμάσετε 100 διαφορετικά μηνύματα προτροπής και στη συνέχεια να δείτε πώς δύο διαφορετικά
LLMs
– όπως το πώς συγκρίνεται το Anthropic με το
OpenAI
– σχετικά με τα είδη προτροπών που είναι πιθανό να χρησιμοποιήσουν οι χρήστες σας”, είπε ο Wenchel. Επιπλέον, λέει ότι μπορείτε να το κάνετε αυτό σε κλίμακα και να πάρετε μια καλύτερη απόφαση για το ποιο μοντέλο είναι καλύτερο για τη συγκεκριμένη περίπτωση χρήσης σας.
Το Arthur Bench κυκλοφορεί σήμερα ως εργαλείο ανοιχτού κώδικα. Θα υπάρχει επίσης μια έκδοση
SaaS
για πελάτες που δεν θέλουν να αντιμετωπίσουν την πολυπλοκότητα της διαχείρισης της έκδοσης ανοιχτού κώδικα ή που έχουν μεγαλύτερες απαιτήσεις δοκιμής και είναι πρόθυμοι να πληρώσουν για αυτό. Αλλά προς το παρόν, ο Wenchel είπε ότι επικεντρώνονται στο έργο ανοιχτού κώδικα.
Το νέο εργαλείο έρχεται στα τακούνια του
κυκλοφορία του Arthur Shield
τον Μάιο, ένα είδος τείχους προστασίας LLM που έχει σχεδιαστεί για να ανιχνεύει παραισθήσεις σε μοντέλα, ενώ προστατεύει από τοξικές πληροφορίες και διαρροές προσωπικών δεδομένων.
