Θέλετε πιο έξυπνες ιδέες στα εισερχόμενά σας; Εγγραφείτε στα εβδομαδιαία ενημερωτικά δελτία για να λάβετε μόνο αυτό που έχει σημασία για την επιχείρηση AI, Data και ηγέτες ασφαλείας. Εγγραφείτε τώρα
Μια νέα εξελικτική τεχνική από το εργαστήριο AI με έδρα την Ιαπωνία Σαμάν Επιτρέπει στους προγραμματιστές να αυξάνουν τις δυνατότητες των μοντέλων AI χωρίς δαπανηρές διαδικασίες κατάρτισης και τελειοποίησης. Η τεχνική, που ονομάζεται Μοντέλο συγχώνευση φυσικών θέσεων (M2N2), ξεπερνά τους περιορισμούς άλλων μεθόδων συγχώνευσης μοντέλου και μπορεί ακόμη και να εξελίξει νέα μοντέλα εξ ολοκλήρου από το μηδέν.
Το M2N2 μπορεί να εφαρμοστεί σε διαφορετικούς τύπους μοντέλων μηχανικής μάθησης, συμπεριλαμβανομένων των μεγάλων γλωσσικών μοντέλων (LLMS) και των γεννητριών κειμένου σε εικόνα. Για τις επιχειρήσεις που επιθυμούν να δημιουργήσουν προσαρμοσμένες λύσεις AI, η προσέγγιση προσφέρει έναν ισχυρό και αποτελεσματικό τρόπο για τη δημιουργία εξειδικευμένων μοντέλων συνδυάζοντας τα πλεονεκτήματα των υφιστάμενων παραλλαγών ανοιχτού κώδικα.
Τι συγχωνεύεται το μοντέλο;
Η συγχώνευση μοντέλου είναι μια τεχνική για την ενσωμάτωση της γνώσης πολλαπλών εξειδικευμένων μοντέλων AI σε ένα ενιαίο, πιο ικανό μοντέλο. Αντί για τελειοποίηση, η οποία βελτιώνει ένα μόνο προ-εκπαιδευμένο μοντέλο χρησιμοποιώντας νέα δεδομένα, η συγχώνευση συνδυάζει ταυτόχρονα τις παραμέτρους πολλών μοντέλων. Αυτή η διαδικασία μπορεί να εδραιώσει μια πληθώρα γνώσεων σε ένα περιουσιακό στοιχείο χωρίς να απαιτεί δαπανηρή, εκπαίδευση με βάση την κλίση ή πρόσβαση στα αρχικά δεδομένα εκπαίδευσης.
Για τις επιχειρηματικές ομάδες, αυτό προσφέρει πολλά πρακτικά πλεονεκτήματα έναντι της παραδοσιακής ρύθμισης. Σε σχόλια για το VentureBeat, οι συγγραφείς του χαρτιού δήλωσαν ότι η συγχώνευση του μοντέλου είναι μια διαδικασία χωρίς κλίση που απαιτεί μόνο περάσματα προς τα εμπρός, καθιστώντας το υπολογιστικά φθηνότερο από την τελειοποίηση, η οποία περιλαμβάνει δαπανηρές ενημερώσεις κλίσης. Η συγχώνευση επίσης παρακάμπτει την ανάγκη για προσεκτικά ισορροπημένα δεδομένα εκπαίδευσης και μετριάζει τον κίνδυνο «καταστροφικής ξεχνώντας», όπου ένα μοντέλο χάνει τις αρχικές του δυνατότητες μετά την εκμάθηση ενός νέου καθήκοντος. Η τεχνική είναι ιδιαίτερα ισχυρή όταν τα δεδομένα εκπαίδευσης για ειδικά μοντέλα δεν είναι διαθέσιμα, καθώς η συγχώνευση απαιτεί μόνο τα ίδια τα βάρη του μοντέλου.
Η κλιμάκωση του AI χτυπά τα όριά της
Τα καλύμματα ισχύος, το αυξανόμενο κόστος συμβολαίων και οι καθυστερήσεις των συμπερασμάτων αναμορφώνουν την επιχείρηση AI. Γίνετε μέλος του αποκλειστικού μας σαλόνι για να ανακαλύψετε πώς είναι οι κορυφαίες ομάδες:
- Μετατρέποντας την ενέργεια σε στρατηγικό πλεονέκτημα
- Αρχιτεκτονική αποτελεσματική συμπερίληψη για πραγματικά κέρδη απόδοσης
- Ξεκλείδωμα ανταγωνιστικής επένδυσης ROI με βιώσιμα συστήματα AI
Ασφαλίστε το σημείο σας για να μείνετε μπροστά: https://bit.ly/4mwgngo
Οι πρώτες προσεγγίσεις για τη συγχώνευση μοντέλου απαιτούσαν σημαντική χειροκίνητη προσπάθεια, καθώς οι προγραμματιστές προσαρμόστηκαν συντελεστές μέσω δοκιμών και σφάλματος για να βρουν το βέλτιστο μείγμα. Πιο πρόσφατα, οι εξελικτικοί αλγόριθμοι βοήθησαν στην αυτοματοποίηση αυτής της διαδικασίας αναζητώντας τον βέλτιστο συνδυασμό παραμέτρων. Ωστόσο, παραμένει ένα σημαντικό χειροκίνητο βήμα: οι προγραμματιστές πρέπει να ορίζουν σταθερά σύνολα για συγχωνευτικές παραμέτρους, όπως τα στρώματα. Αυτός ο περιορισμός περιορίζει τον χώρο αναζήτησης και μπορεί να αποτρέψει την ανακάλυψη ισχυρότερων συνδυασμών.
Πώς λειτουργεί το M2N2
Το M2N2 αντιμετωπίζει αυτούς τους περιορισμούς, αντλώντας έμπνευση από εξελικτικές αρχές στη φύση. Ο αλγόριθμος έχει τρία βασικά χαρακτηριστικά που του επιτρέπουν να διερευνήσει ένα ευρύτερο φάσμα δυνατοτήτων και να ανακαλύψει πιο αποτελεσματικούς συνδυασμούς μοντέλων.
Πρώτον, το M2N2 εξαλείφει τα σταθερά όρια συγχώνευσης, όπως μπλοκ ή στρώματα. Αντί να ομαδοποιούν παραμέτρους με προκαθορισμένα στρώματα, χρησιμοποιεί ευέλικτα “χωριστά σημεία” και “ανάμειξης” για να διαιρέσει και να συνδυάσει μοντέλα. Αυτό σημαίνει ότι, για παράδειγμα, ο αλγόριθμος μπορεί να συγχωνεύσει το 30% των παραμέτρων σε ένα στρώμα από το μοντέλο Α με το 70% των παραμέτρων από το ίδιο στρώμα στο μοντέλο Β. Η διαδικασία ξεκινά με ένα “αρχείο” μοντέλων σπόρων. Σε κάθε βήμα, το M2N2 επιλέγει δύο μοντέλα από το αρχείο, καθορίζει μια αναλογία ανάμιξης και ένα σημείο διαχωρισμού και τα συγχωνεύει. Εάν το μοντέλο που προκύπτει να αποδώσει καλά, προστίθεται πίσω στο αρχείο, αντικαθιστώντας ένα πιο αδύναμο. Αυτό επιτρέπει στον αλγόριθμο να διερευνήσει όλο και πιο πολύπλοκες συνδυασμούς με την πάροδο του χρόνου. Όπως σημειώνουν οι ερευνητές, “Αυτή η σταδιακή εισαγωγή της πολυπλοκότητας εξασφαλίζει ένα ευρύτερο φάσμα δυνατοτήτων διατηρώντας παράλληλα την υπολογιστική επιφάνεια”.
Δεύτερον, το M2N2 διαχειρίζεται την ποικιλομορφία του πληθυσμού του μοντέλου μέσω του ανταγωνισμού. Για να καταλάβουμε γιατί η ποικιλομορφία είναι ζωτικής σημασίας, οι ερευνητές προσφέρουν μια απλή αναλογία: “Φανταστείτε να συγχωνεύετε δύο φύλλα απαντήσεων για μια εξέταση … αν και τα δύο φύλλα έχουν ακριβώς τις ίδιες απαντήσεις, ο συνδυασμός τους δεν κάνει καμία βελτίωση. Η συγχώνευση μοντέλου λειτουργεί με τον ίδιο τρόπο. Η πρόκληση, ωστόσο, είναι ο καθορισμός του είδους της ποικιλομορφίας είναι πολύτιμη. Αντί να βασίζεται σε χειροποίητες μετρήσεις, το M2N2 προσομοιώνει τον ανταγωνισμό για περιορισμένους πόρους. Αυτή η προσέγγιση εμπνευσμένη από τη φύση ανταμείβει φυσικά τα μοντέλα με μοναδικές δεξιότητες, καθώς μπορούν να “αξιοποιήσουν τους μη αμφισβητούμενους πόρους” και να λύσουν προβλήματα που άλλοι δεν μπορούν. Αυτοί οι εξειδικευμένοι ειδικοί, οι συγγραφείς σημειώνουν, είναι οι πιο πολύτιμοι για τη συγχώνευση.
Τρίτον, το M2N2 χρησιμοποιεί ένα ευρετικό που ονομάζεται “έλξη” για να ζευγαρώσει μοντέλα για συγχώνευση. Αντί να συνδυάζουν απλώς τα μοντέλα κορυφαίων επιδόσεων όπως σε άλλους αλγόριθμους συγχώνευσης, τα συνδυάζει με βάση τα συμπληρωματικά τους πλεονεκτήματα. Μια “βαθμολογία έλξης” προσδιορίζει ζευγάρια όπου ένα μοντέλο εκτελεί καλά τα σημεία δεδομένων που ο άλλος βρίσκει προκλητική. Αυτό βελτιώνει τόσο την αποτελεσματικότητα της αναζήτησης όσο και την ποιότητα του τελικού συγχωνευμένου μοντέλου.
M2N2 σε δράση
Οι ερευνητές εξέτασαν το M2N2 σε τρεις διαφορετικούς τομείς, αποδεικνύοντας την ευελιξία και την αποτελεσματικότητά του.
Το πρώτο ήταν ένα πείραμα μικρής κλίμακας που εξελίχθηκε ταξινομητές εικόνων με βάση το νευρωνικό δίκτυο από το μηδέν στο Σύνολο δεδομένων MNIST. Το M2N2 πέτυχε την υψηλότερη ακρίβεια δοκιμής με σημαντικό περιθώριο σε σύγκριση με άλλες μεθόδους. Τα αποτελέσματα έδειξαν ότι ο μηχανισμός διατήρησης της ποικιλομορφίας ήταν καθοριστικής σημασίας, επιτρέποντάς του να διατηρήσει ένα αρχείο μοντέλων με συμπληρωματικά πλεονεκτήματα που διευκόλυνε την αποτελεσματική συγχώνευση ενώ απορρίπτονταν συστηματικά ασθενέστερες λύσεις.
Στη συνέχεια, εφάρμοσαν M2N2 σε LLMS, συνδυάζοντας ένα μοντέλο μαθηματικών (WizardMath-7B) με έναν ειδικό Agentic (AgentEvol-7B), και οι δύο βασίζονται στην αρχιτεκτονική LLAMA 2. Ο στόχος ήταν να δημιουργηθεί ένας ενιαίος πράκτορας που υπερέβη και στα δύο μαθηματικά προβλήματα (σύνολο δεδομένων GSM8K) και στο Web-Based Tasks (DataSet WebShop). Το προκύπτον μοντέλο πέτυχε ισχυρές επιδόσεις και στα δύο σημεία αναφοράς, προβάλλοντας την ικανότητα του M2N2 να δημιουργεί ισχυρά μοντέλα πολλαπλών ειδίκευσης.

Τέλος, η ομάδα συγχώρησε μοντέλα δημιουργίας εικόνων με βάση τη διάχυση. Συνδυάζουν ένα μοντέλο που εκπαιδεύτηκε σε ιαπωνικές προτροπές (JSDXL) με τρία μοντέλα σταθερής διάχυσης που εκπαιδεύτηκαν κυρίως σε αγγλικές προτροπές. Ο στόχος ήταν να δημιουργηθεί ένα μοντέλο που συνδυάζει τις καλύτερες δυνατότητες δημιουργίας εικόνων κάθε μοντέλου σπόρου, διατηρώντας παράλληλα την ικανότητα κατανόησης των Ιαπωνών. Το συγχωνευμένο μοντέλο όχι μόνο παρήγαγε περισσότερες φωτορεαλιστικές εικόνες με καλύτερη σημασιολογική κατανόηση, αλλά επίσης ανέπτυξε μια αναδυόμενη δίγλωσση ικανότητα. Θα μπορούσε να δημιουργήσει εικόνες υψηλής ποιότητας τόσο από αγγλικές όσο και από ιαπωνικές προτροπές, παρόλο που βελτιστοποιήθηκε αποκλειστικά χρησιμοποιώντας ιαπωνικές λεζάντες.
Για τις επιχειρήσεις που έχουν ήδη αναπτύξει εξειδικευμένα μοντέλα, η επιχειρηματική περίπτωση για συγχώνευση είναι επιτακτική. Οι συγγραφείς δείχνουν νέες, υβριδικές δυνατότητες που θα ήταν δύσκολο να επιτευχθούν διαφορετικά. Για παράδειγμα, η συγχώνευση ενός LLM τελειοποιημένου για πειστικά γήπεδα πωλήσεων με ένα μοντέλο όρασης που εκπαιδεύεται για την ερμηνεία των αντιδράσεων των πελατών θα μπορούσε να δημιουργήσει έναν μόνο πράκτορα που προσαρμόζει το βήμα του σε πραγματικό χρόνο με βάση τα σχόλια ζωντανών βίντεο. Αυτό ξεκλειδώνει τη συνδυασμένη νοημοσύνη πολλαπλών μοντέλων με το κόστος και την καθυστέρηση της λειτουργίας ενός μόνο.
Κοιτάζοντας μπροστά, οι ερευνητές βλέπουν τεχνικές όπως το M2N2 ως μέρος μιας ευρύτερης τάσης προς την “σύντηξη μοντέλου”. Οραματίζονται ένα μέλλον όπου οι οργανώσεις διατηρούν ολόκληρα οικοσυστήματα των μοντέλων AI που εξελίσσονται συνεχώς και συγχωνεύονται για να προσαρμοστούν σε νέες προκλήσεις.
“Σκεφτείτε το σαν ένα εξελισσόμενο οικοσύστημα όπου οι δυνατότητες συνδυάζονται όπως απαιτείται, αντί να οικοδομούν έναν γιγαντιαίο μονόλιθο από το μηδέν”, προτείνουν οι συγγραφείς.
Οι ερευνητές έχουν κυκλοφορήσει τον κώδικα του M2N2 Καραμέλα.
Το μεγαλύτερο εμπόδιο σε αυτό το δυναμικό, αυτο-βελτιωμένο οικοσύστημα AI, οι συγγραφείς πιστεύουν, δεν είναι τεχνικό αλλά οργανωτικό. “Σε έναν κόσμο με ένα μεγάλο« συγχωνευμένο μοντέλο »που αποτελείται από ανοιχτό κώδικα, εμπορικά και προσαρμοσμένα εξαρτήματα, η εξασφάλιση της ιδιωτικής ζωής, της ασφάλειας και της συμμόρφωσης θα είναι ένα κρίσιμο πρόβλημα». Για τις επιχειρήσεις, η πρόκληση θα υπολογίσει ποια μοντέλα μπορούν να απορροφηθούν με ασφάλεια και αποτελεσματικά στην εξελισσόμενη στοίβα AI τους.