Τα συνθετικά δεδομένα χρησιμοποιούνται πλέον για την εκπαίδευση των παραγωγικών συστημάτων AI
Σύμφωνα με τον CEO της εταιρείας AI Cohere, Aiden Gomez, τα συνθετικά δεδομένα χρησιμοποιούνται ήδη για την εκπαίδευση μοντέλων AI. Με εταιρείες όπως το Reddit και το
Twitter
να χρεώνουν υπέρογκα ποσά στις εταιρείες για να διαγράψουν τα δεδομένα τους, εταιρείες τεχνητής νοημοσύνης όπως η
Microsoft
, η
OpenAI
και η Cohere στρέφονται στα συνθετικά δεδομένα.
Ο Γκόμεζ αποκάλυψε ότι η χρήση συνθετικών δεδομένων είναι ήδη τεράστια, αλλά ότι δεν μεταδίδεται ευρέως. Ένα παράδειγμα που έδωσε ήταν αν ήθελαν να εκπαιδεύσουν ένα μοντέλο στα προχωρημένα μαθηματικά, μπορούν να δημιουργήσουν δύο μοντέλα τεχνητής νοημοσύνης που παίζουν τον ρόλο ενός δασκάλου και ενός μαθητή όπου συζητούν ένα θέμα όπως η τριγωνομετρία και στη συνέχεια η ανθρώπινη παρατήρηση διορθώνει τη συζήτηση αν ειπώθηκε κάτι λανθασμένα.
Ενώ τα συνθετικά δεδομένα έχουν χρησιμοποιηθεί για την εκπαίδευση μοντέλων και έχουν αποτελέσει το επίκεντρο πολλών ερευνητικών εργασιών, ο κύριος τρόπος εκπαίδευσης των μοντέλων είναι η απόξεση δεδομένων από το Διαδίκτυο, όπως από ψηφιακά βιβλία, άρθρα ειδήσεων, ιστολόγια, μέσα κοινωνικής δικτύωσης, Flickr και άλλα. . Στη συνέχεια, οι άνθρωποι δίνουν ανατροφοδότηση και συμπληρώνουν κενά στις πληροφορίες μέσω της ενισχυτικής μάθησης από την ανθρώπινη ανάδραση (RLHF).
Μερικά από τα ζητήματα με αυτήν τη μέθοδο περιλαμβάνουν παραβίαση πνευματικών δικαιωμάτων και παραβιάσεις απορρήτου που θα μπορούσαν να φέρουν τις εταιρείες σε προβλήματα.
Οι Financial Times επισήμαναν μια ενδιαφέρουσα ερευνητική εργασία της Microsoft Research με τίτλο «
Τα σχολικά βιβλία είναι όλα όσα χρειάζεστε
το οποίο εξήγησε ότι εκπαιδεύοντας ένα μοντέλο κωδικοποίησης σε δεδομένα ποιότητας σχολικών βιβλίων ήταν σε θέση να αποδώσει αρκετά καλά σε εργασίες κωδικοποίησης. Παρόμοια πράγματα μπορούν να γίνουν με τη γλώσσα όπου ένα μοντέλο εκπαιδεύεται σε απλές λέξεις και προτάσεις και μπορεί στη συνέχεια να παράγει ρευστές και γραμματικά σωστές ιστορίες.
Φυσικά, ενώ η δημιουργία συνθετικών δεδομένων για την εκπαίδευση μοντέλων θα μπορούσε να οδηγήσει σε ανακαλύψεις, οι εταιρείες πρέπει επίσης να προσέχουν να μην χρησιμοποιούν φτωχά συνθετικά δεδομένα που θα μπορούσαν να οδηγήσουν σε υποβάθμιση με την πάροδο του χρόνου.
Σε συνδυασμό με τεχνικές αλυσίδας σκέψης που αναπτύσσονται από τους OpenAI και Anthropic για τη μείωση των παραισθήσεων τεχνητής νοημοσύνης, τα συνθετικά δεδομένα θα μπορούσαν ενδεχομένως να βοηθήσουν την τεχνητή νοημοσύνη να μας βοηθήσει να λύσουμε περισσότερες προκλήσεις.
Πηγή:
Financial Times


