Το TensorRT-LLM φέρνει τον τοπικό υπολογισμό AI στις GPU της NVIDIA

By

Marizas Dimitris

On

Νοέ 15, 2023

Τι πρέπει να ξέρετε

Το TensorRT-LLM προσθέτει την υποστήριξη Chat API του OpenAI για επιτραπέζιους και φορητούς υπολογιστές με GPU RTX που ξεκινούν από 8 GB VRAM.
Οι χρήστες μπορούν να επεξεργάζονται ερωτήματα LLM πιο γρήγορα και τοπικά χωρίς να ανεβάζουν σύνολα δεδομένων στο cloud.
Η NVIDIA το συνδυάζει με το “Retrieval-Augmented Generation” (RAG), επιτρέποντας πιο εξατομικευμένες περιπτώσεις χρήσης LLM.

Κατά τη διάρκεια της διάσκεψης Ignite της Microsoft σήμερα, η NVIDIA ανακοίνωσε μια ενημέρωση για το TensorRT-LLM, το οποίο

λανσαρίστηκε τον Οκτώβριο

. Οι κύριες ανακοινώσεις σήμερα είναι ότι η δυνατότητα TensorRT-LLM κερδίζει τώρα υποστήριξη για LLM API, συγκεκριμένα το OpenAI Chat API, το οποίο είναι το πιο γνωστό σε αυτό το σημείο, και επίσης ότι έχουν εργαστεί για να βελτιώσουν την απόδοση με το TensorRT-LLM για να αποκτήσουν καλύτερη απόδοση ανά διακριτικό στις GPU τους.

Υπάρχει μια τριτοβάθμια ανακοίνωση που είναι επίσης αρκετά ενδιαφέρουσα. Η NVIDIA πρόκειται να συμπεριλάβει το Retrieval-Augmented Generation με το TensorRT-LLM. Αυτό επιτρέπει σε ένα LLM να χρησιμοποιεί μια εξωτερική πηγή δεδομένων για τη βάση γνώσεών του αντί να βασίζεται σε οτιδήποτε στο διαδίκτυο—μια ιδιαίτερα απαιτούμενη δυνατότητα για την τεχνητή νοημοσύνη.

Τι είναι το TensorRT-LLM;

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΑ ΑΠΟ ΤΟ IGNITE 2023

Η NVIDIA κυκλοφόρησε πρόσφατα το NVIDIA TensorRT-LLM, μια βιβλιοθήκη ανοιχτού κώδικα που επιτρέπει τον τοπικό υπολογισμό των LLM σε υλικό NVIDIA. Η NVIDIA το διαφημίζει αυτό για να αποκτήσει απόρρητο και αποτελεσματικότητα όταν ασχολείται με μεγάλα σύνολα δεδομένων ή ιδιωτικές πληροφορίες. Το αν αυτές οι πληροφορίες αποστέλλονται μέσω ενός API όπως το Chat API του OpenAI είναι ασφαλές. Μπορείτε να μάθετε περισσότερα για το NVIDIA TensorRT-LLM στη διεύθυνση

Ο ιστότοπος προγραμματιστή της NVIDIA

.

Οι αλλαγές που ανακοινώθηκαν σήμερα στο NVIDIA TensorRT-LLM είναι η προσθήκη του Chat API του OpenAI και βελτιώσεις απόδοσης για προηγούμενα υποστηριζόμενα LLM και μοντέλα AI όπως το Llama 2 και το Stable

Diffusion

μέσω βελτιώσεων DirectML.

Αυτή η

τεχνολογία

και ο υπολογισμός μπορούν να γίνουν τοπικά μέσω

Ο πάγκος εργασίας AI της NVIDIA

. Αυτή η «ενοποιημένη, εύχρηστη εργαλειοθήκη επιτρέπει στους προγραμματιστές να δημιουργούν, να δοκιμάζουν και να προσαρμόζουν γρήγορα προεκπαιδευμένα μοντέλα τεχνητής νοημοσύνης και LLM σε υπολογιστή ή σταθμό εργασίας». Η NVIDIA διαθέτει ένα

σελίδα εγγραφής έγκαιρης πρόσβασης

για όσους ενδιαφέρονται να το χρησιμοποιήσουν.

Το NVIDIA TensorRT-LLM είναι μια βιβλιοθήκη ανοιχτού κώδικα που επιταχύνει και βελτιστοποιεί την απόδοση συμπερασμάτων των πιο πρόσφατων μεγάλων μοντέλων γλώσσας (LLM) στην πλατφόρμα NVIDIA AI

NVIDIA

Η Nvidia παρουσιάζει επίσης βελτίωση στην απόδοση ανά διακριτικό για

LLMs

, όπως μπορούμε να δούμε σε αυτά τα εσωτερικά σημεία αναφοράς NVIDIA. Όπως πάντα, να είστε επιφυλακτικοί με τα σημεία αναφοράς του κατασκευαστή και τις δοκιμές για ακριβή αναφορά του κέρδους απόδοσης.

(Πίστωση εικόνας: NVIDIA)

Τώρα που γνωρίζουμε το TensorRT-LLM της NVIDIA, γιατί είναι αυτό ιδιαίτερο ή χρήσιμο; Ως επί το πλείστον, η τοπική εκτέλεση σε σταθμό εργασίας ή υπολογιστή που τροφοδοτείται από NVIDIA πιθανότατα θα έχει ως αποτέλεσμα τις ίδιες απαντήσεις σε ερωτήματα, αν και πιθανότατα με πιο αργό ρυθμό λόγω της έλλειψης υπολογιστικής ισχύος στο cloud.

Η εικόνα της NVIDIA για αυτήν την περίπτωση χρήσης έρχεται μαζί όταν συζητάμε την άλλη ανακοίνωση σήμερα από τη NVIDIA, δηλαδή την ενσωμάτωση με μια νέα τεχνολογία ή δυνατότητα που ονομάζεται Ανάκτηση-Αυξημένη Γενιά.

Τι είναι η Ανάκτηση-Αυξημένη Γενιά

Ο όρος ανάκτηση-αυξημένη γενιά επινοήθηκε στο α

χαρτί

από μια σειρά συγγραφέων, με κύριο συγγραφέα τον Patrick Lewis. Είναι το όνομα που υιοθετείται από τη βιομηχανία για μια λύση σε ένα πρόβλημα που έχει αντιμετωπίσει όλοι όσοι έχουν χρησιμοποιήσει ένα LLM. Μη ενημερωμένες ή πληροφορίες που είναι σωστές αλλά λανθασμένες στο πλαίσιο της συζήτησης. Μπορείτε να βρείτε αναλυτικές λεπτομέρειες για το πώς λειτουργεί το RAG σε ένα από τα NVIDIA

Τεχνικά Στοιχεία.

Η

επα

υξημένη παραγωγή ανάκτησης είναι μια τεχνική για τη βελτίωση της ακρίβειας και της αξιοπιστίας των μοντέλων τεχνητής νοημοσύνης που δημιουργούνται με δεδομένα που λαμβάνονται από εξωτερικές πηγές.

Ρικ Μέριτ

Συνδυάζοντας την επαυξημένη γενιά ανάκτησης με το TensorRT-LLM της NVIDIA, οι τελικοί χρήστες μπορούν να προσαρμόσουν τις πληροφορίες στις οποίες έχει πρόσβαση το LLM όταν εκτελεί τα ερωτήματά του. Το ChatGPT ανακοίνωσε πρόσφατα προσαρμοσμένα GPT που θα μπορούσαν να προσφέρουν παρόμοια

αποτελέσματα

.

Όπως συζητήθηκε στο άρθρο μας σχετικά με τα προσαρμοσμένα GPT, η δυνατότητα δημιουργίας εξατομικευμένων παρουσιών LLM ενός σκοπού είτε με προσαρμοσμένο GPT είτε, σε αυτήν την περίπτωση, με ένα παράδειγμα LLM που, χρησιμοποιώντας επαυξημένη παραγωγή ανάκτησης, έχει πρόσβαση μόνο σε όλα τα δημοσιευμένα έργα του Charles Dickens και τίποτα άλλο, θα μπορούσαν να βοηθήσουν στη δημιουργία στοχευμένων, ουσιαστικών και ακριβών LLM για διαφορετικές περιπτώσεις χρήσης.

Θα είναι χρήσιμο το TensorRT-LLM;

Τι σημαίνει όλα αυτά μαζί; Υπάρχουν κάποιες πραγματικές ευκαιρίες για να χρησιμοποιηθεί με νόημα. Πόσο εύκολο θα είναι να εφαρμοστεί ή πόσο ασφαλή θα είναι τα δεδομένα; Μόνο ο χρόνος θα δείξει. Υπάρχει δυνατότητα εδώ για βελτιώσεις της τεχνητής νοημοσύνης, ειδικά σε επίπεδο επιχείρησης, για τη βελτίωση των ροών εργασίας, την παροχή πιο εύκολης πρόσβασης σε περίπλοκες πληροφορίες και την παροχή βοήθειας στους υπαλλήλους με δύσκολες εργασίες.

Παρόλο που αυτές οι εργασίες θα εκτελούνται τοπικά, θα συνεχίσουν να περνούν από τα κανονικά API LLM, τα οποία θα αντιμετωπίζουν τους ίδιους περιορισμούς περιεχομένου και περιορισμούς που αντιμετωπίζουν τώρα. Ωστόσο, καθώς τεχνολογίες όπως το TensorRT-LLM της NVIDIA καθιστούν πιο γρήγορη τη χρήση ενός LLM εκτός σύνδεσης, κάποιος θα μπορούσε να το ενσωματώσει με κάτι σαν

EvilGPT

το οποίο δεν έχει περιορισμούς στη συμπεριφορά του και χρησιμοποιείται επί του παρόντος για τη δημιουργία κακόβουλου λογισμικού και την παροχή βοήθειας σε επιθέσεις στον κυβερνοχώρο, η πιθανότητα για μια τεχνητή νοημοσύνη να προκαλεί κάποια πραγματική ζημιά μόνο ενισχύεται.

Τι πιστεύετε για τις ενημερώσεις της NVIDIA στο TensorRT-LLM; Μπορείτε να σκεφτείτε κάποιες χρήσεις που μου έλειψαν;

Ενημερώστε μας στα σχόλια.

VIA:

WindowsCentral

Παρόμοια άρθρα