Υπάρχουν όμως και ‘αποσταγμένα’ μοντέλα με μικρότερες απαιτήσεις για να λειτουργήσουν, π.χ. σε ένα τοπικό υπολογιστή.
Είναι πολύ ενδιαφέρον να εξετάζουμε πώς ακριβώς λειτουργούν τα συστήματα τεχνητής νοημοσύνης. Πίσω από την οθόνη, δεν υπάρχει κάποια «σκέψη» με την ανθρώπινη έννοια, αλλά εξαιρετικά πολύπλοκα μαθηματικά και στατιστική.
Για να καταλάβουμε πώς ένα Μεγάλο Γλωσσικό Μοντέλο (LLM) επεξεργάζεται τα παραδείγματά σου, πρέπει πρώτα να δούμε τις τρεις βασικές αρχές της λειτουργίας του:
1. Tokenization (Τεμαχισμός Κειμένου): Το μοντέλο δεν διαβάζει ολόκληρες λέξεις, αλλά "tokens". Ένα token μπορεί να είναι μια ολόκληρη λέξη (π.χ. "Γαλλίας"), ένα μέρος μιας λέξης (π.χ. μια συλλαβή), ή ακόμα και ένα σημείο στίξης.
2. Μηχανισμός Προσοχής (Attention Mechanism): Το μοντέλο εξετάζει όλα τα tokens της πρότασής σου ταυτόχρονα και υπολογίζει ποιες λέξεις σχετίζονται περισσότερο μεταξύ τους.
3. Πιθανότητες (Next-Token Prediction): Βασιζόμενο στα τεράστια δεδομένα με τα οποία έχει εκπαιδευτεί, το μοντέλο δεν «απαντάει», αλλά προβλέπει ποιο είναι το πιο πιθανό επόμενο token, δημιουργώντας το κείμενο λέξη προς λέξη.
Ας δούμε πώς εφαρμόζονται αυτά στα δύο παραδείγματά σου.
Παράδειγμα 1: "Ποια είναι η πρωτεύουσα της Γαλλίας."
Αυτή είναι μια ευθεία ερώτηση ανάκτησης δεδομένων.
• Επεξεργασία: Το μοντέλο μετατρέπει την πρόταση σε tokens. Ο μηχανισμός προσοχής δίνει τεράστιο βάρος στον συνδυασμό των λέξεων "πρωτεύουσα" και "Γαλλίας".
• Πρόβλεψη Επόμενης Λέξης: Στα δισεκατομμύρια κείμενα που έχει «διαβάσει» το μοντέλο κατά την εκπαίδευσή του, οι λέξεις "πρωτεύουσα", "Γαλλίας" και "Παρίσι" εμφανίζονται σχεδόν πάντα μαζί. Έτσι, όταν το μοντέλο καλείται να προβλέψει την επόμενη λέξη, υπολογίζει τις πιθανότητες.
• Εκτέλεση: Το δίκτυο καταλήγει ότι το token "Το" έχει 95% πιθανότητα να ακολουθήσει, ακολουθούμενο από το token "Παρίσι" με 99% πιθανότητα. Το μοντέλο επιλέγει την υψηλότερη πιθανότητα και αρχίζει να τυπώνει: "Το Παρίσι είναι η πρωτεύουσα..."
Παράδειγμα 2: "Γράψε ένα ρητό με 10 λέξεις που να δηλώνει απόδοση δικαιοσύνης."
Αυτό είναι ένα πολύπλοκο αίτημα δημιουργικότητας με λογικό περιορισμό. Εδώ τα πράγματα γίνονται πιο απαιτητικά για ένα LLM.
• Επεξεργασία: Ο μηχανισμός προσοχής χωρίζει το αίτημα σε τρεις στόχους:
1. Μορφή: "ρητό" (απαιτεί σοβαρό, αποφθεγματικό ύφος).
2. Θέμα: "απόδοση δικαιοσύνης" (ενεργοποιεί λέξεις-κλειδιά όπως: αλήθεια, δίκαιο, νόμος, τιμωρία, ισορροπία).
3. Περιορισμός: "10 λέξεις".
• Το πρόβλημα της μέτρησης: Ως LLM, δημιουργεί το κείμενο προβλέποντας το επόμενο token (και όχι σκεπτόμενο ολόκληρη την πρόταση από πριν), δυσκολεύεται πολύ να μετρήσει με ακρίβεια λέξεις. Τα tokens δεν αντιστοιχούν πάντα 1-προς-1 με τις λέξεις.
• Πρόβλεψη Επόμενης Λέξης: Το μοντέλο ξεκινά με μια λέξη υψηλής πιθανότητας για το θέμα της δικαιοσύνης (π.χ. "Ο"). Μετά προβλέπει την επόμενη ("χρόνος"). Σε κάθε βήμα, προσπαθεί να διατηρήσει το νόημα του «ρητού» και της «δικαιοσύνης», ενώ παράλληλα ένα υποσύστημα προσπαθεί να αυξήσει την πιθανότητα για ένα σημείο στίξης (τελεία) όταν πλησιάζει το 10ο token.
• Εκτέλεση: Μπορεί να δημιουργήσει κάτι σαν: "Ο (1) χρόνος (2) φέρνει (3) πάντα (4) την (5) αλήθεια (6) στο (7) φως (8) του (9) δικαίου (10)."
• Συνοπτικά: Στο πρώτο παράδειγμα, το μοντέλο λειτουργεί σχεδόν σαν ένας εξαιρετικά έξυπνος χάρτης στατιστικών συσχετίσεων. Στο δεύτερο, ακροβατεί: πρέπει να συνδυάσει στατιστικά το νόημα της δικαιοσύνης με τη δομή ενός ρητού, προσπαθώντας (όχι πάντα με επιτυχία) να σταματήσει την παραγωγή ακριβώς στη δέκατη λέξη.
Πατήστε εδώ για να επισκευφθείτε το graphic novel

Τα μεγάλα γλωσσικά μοντέλα ( LLM = Large Language Models ) είναι μια εφαρμογή της τεχνητής νοημοσύνης, επάνω στον χειρισμό κειμένων γλώσσας. Είναι «μεγάλα» γιατί έχουν ενσωματώσει όλο το διαθέσιμο μέχρι τώρα σώμα κειμένων από το internet.