5 βήματα για να διασφαλίσετε ότι οι νεοφυείς επιχειρήσεις θα αναπτύξουν επιτυχώς LLM
Η κυκλοφορία του ChatGPT ξεκίνησε
στην εποχή των μεγάλων γλωσσικών μοντέλων. Εκτός από τις προσφορές του OpenAI, άλλα LLM περιλαμβάνουν την οικογένεια LaMDA LLM της Google (συμπεριλαμβανομένου του Bard), το έργο BLOOM (μια συνεργασία μεταξύ ομάδων στη Microsoft, τη Nvidia και άλλους οργανισμούς), το LLaMA της Meta και τον Claude της Anthropic.
Αναμφίβολα θα δημιουργηθούν περισσότερα. Στην πραγματικότητα, ένα
Έρευνα Arize Απριλίου 2023
διαπίστωσε ότι το 53% των ερωτηθέντων σχεδίαζε να αναπτύξει LLM εντός του επόμενου έτους ή νωρίτερα. Μια προσέγγιση για να γίνει αυτό είναι να δημιουργήσετε ένα «κάθετο» LLM που ξεκινά με ένα υπάρχον LLM και το επανεκπαιδεύει προσεκτικά σε γνώσεις που αφορούν έναν συγκεκριμένο τομέα. Αυτή η τακτική μπορεί να λειτουργήσει για τις βιοεπιστήμες, τα φαρμακευτικά προϊόντα, τις ασφάλειες, τα οικονομικά και άλλους επιχειρηματικούς τομείς.
Η ανάπτυξη ενός LLM μπορεί να προσφέρει ένα ισχυρό ανταγωνιστικό πλεονέκτημα — αλλά μόνο εάν γίνει καλά.
Τα LLM έχουν ήδη οδηγήσει σε ζητήματα άξια ενημέρωσης, όπως η τάση τους να «παραισθάνονται» εσφαλμένες πληροφορίες. Αυτό είναι ένα σοβαρό πρόβλημα και μπορεί να αποσπάσει την προσοχή της ηγεσίας από βασικές ανησυχίες σχετικά με τις διαδικασίες που παράγουν αυτά τα αποτελέσματα, τα οποία μπορεί να είναι εξίσου προβληματικά.
Οι προκλήσεις της εκπαίδευσης και της ανάπτυξης ενός LLM
Ένα πρόβλημα με τη χρήση των LLM είναι τα τεράστια λειτουργικά τους έξοδα, επειδή η υπολογιστική ζήτηση για την εκπαίδευση και τη λειτουργία τους είναι τόσο έντονη (δεν ονομάζονται μεγάλα γλωσσικά μοντέλα για τίποτα).
Τα LLM είναι συναρπαστικά, αλλά η ανάπτυξη και η υιοθέτησή τους απαιτεί να ξεπεραστούν πολλά εμπόδια σκοπιμότητας.
Πρώτον, το υλικό για την εκτέλεση των μοντέλων είναι δαπανηρό. Η GPU H100 από την Nvidia, μια δημοφιλής επιλογή για LLMs, πωλείται στη δευτερογενή αγορά για περίπου 40.000 $ ανά τσιπ. Μια πηγή εκτίμησε ότι θα χρειαζόταν περίπου
6.000 μάρκες
για να εκπαιδεύσετε ένα LLM συγκρίσιμο με το ChatGPT-3.5. Αυτό είναι περίπου 240 εκατομμύρια δολάρια μόνο για GPU.
Ένα άλλο σημαντικό κόστος είναι η τροφοδοσία αυτών των τσιπ. Απλώς η εκπαίδευση ενός μοντέλου εκτιμάται ότι απαιτεί περίπου
10 γιγαβατώρες (GWh)
ηλεκτρικής ενέργειας, που ισοδυναμεί με την ετήσια χρήση ηλεκτρικής ενέργειας 1.000 σπιτιών στις ΗΠΑ. Μόλις εκπαιδευτεί το μοντέλο, το κόστος ηλεκτρικής του ενέργειας θα ποικίλλει, αλλά μπορεί να γίνει υπερβολικό. Αυτή η πηγή υπολόγισε ότι η κατανάλωση ενέργειας για την εκτέλεση του ChatGPT-3.5 είναι περίπου 1 GWh την ημέρα ή η συνδυασμένη ημερήσια κατανάλωση ενέργειας 33.000 νοικοκυριών.
Η κατανάλωση ενέργειας μπορεί επίσης να είναι μια πιθανή παγίδα για την εμπειρία του χρήστη κατά την εκτέλεση LLM σε φορητές συσκευές. Αυτό συμβαίνει επειδή η έντονη χρήση μιας συσκευής θα μπορούσε να εξαντλήσει την μπαταρία της πολύ γρήγορα, κάτι που θα αποτελούσε σημαντικό εμπόδιο για την υιοθέτηση των καταναλωτών.
VIA:
techcrunch.com

