
Τα μεγάλα γλωσσικά μοντέλα (LLMs) έχουν μετασχηματίσει τον τρόπο που αλληλεπιδρούμε με την τεχνητή νοημοσύνη. Από τα εμπορικά chatbots όπως το ChatGPT και το Gemini έως τα ανοιχτά μοντέλα όπως το Meltemi, το Krikri και το Open Assistant, η συζήτηση για τη διαφάνεια, τη δημοκρατία της γνώσης και τον έλεγχο των δεδομένων έχει γίνει κεντρική. Ωστόσο, όσο προχωρημένη κι αν είναι η τεχνολογία, κανένα μοντέλο δεν είναι ακόμη πλήρως ανοιχτό, με την αυστηρή επιστημονική έννοια του όρου.
Τα ανοιχτά μοντέλα (open-source LLMs) επιδιώκουν να καταστήσουν τη γνώση και τα τεχνολογικά εργαλεία διαθέσιμα σε όλους. Παραδείγματα όπως το Meltemi του Ινστιτούτου Επεξεργασίας Λόγου του ΕΚ “Αθηνά” δείχνουν τον δρόμο για ένα οικοσύστημα τεχνητής νοημοσύνης στα Ελληνικά, με ανοιχτό κώδικα και weights, υπό άδεια Apache 2.0. Αντίστοιχα, το Open Assistant του LAION επιτρέπει σε ερευνητές και πολίτες να εγκαταστήσουν το μοντέλο τοπικά, να συμμετέχουν στη βελτίωσή του και να αξιοποιούν ανοιχτά δεδομένα συνομιλιών που προσφέρθηκαν εθελοντικά. Το ελβετικό Apertus, πρωτοβουλία του ETH Zurich και του EPFL, προσπαθεί να δημιουργήσει ένα ευρωπαϊκό, πολύγλωσσο LLM με δημόσια weights και διαφανή διαδικασία fine-tuning. Αν και η προσέγγιση αυτή ενισχύει τη διαφάνεια, τα περισσότερα ανοιχτά μοντέλα βασίζονται σε προϋπάρχουσες αρχιτεκτονικές (όπως LLaMA ή Mistral), των οποίων τα πρωτογενή δεδομένα εκπαίδευσης δεν είναι δημόσια διαθέσιμα. Έτσι, δεν μπορεί να αναπαραχθεί πλήρως η εκπαίδευση από το μηδέν.
Από την άλλη, τα κλειστά μοντέλα (proprietary LLMs) όπως το ChatGPT της OpenAI, το Claude της Anthropic ή το Gemini της Google, λειτουργούν ως μαύρα κουτιά: υψηλή απόδοση, αλλά πλήρης αδιαφάνεια. Χρησιμοποιούν τεράστια, ιδιωτικά σύνολα δεδομένων και βελτιστοποιούνται μέσω reinforcement learning from human feedback (RLHF), μια διαδικασία κατά την οποία άνθρωποι αξιολογούν απαντήσεις του μοντέλου, διδάσκοντας το να παράγει πιο φυσικές και κοινωνικά αποδεκτές αποκρίσεις. Οι βασικοί πάροχοι αυτών των υπηρεσιών είναι εταιρείες όπως η Surge AI (με δίκτυο 100.000 annotators), η Scale AI (με 240.000 συμβασιούχους παγκοσμίως), η iMerit (5.000 υπάλληλοι και κέντρα στην Ινδία), και η Shaip (με παγκόσμιο δίκτυο 500.000 annotators). Παρά την ανθρώπινη συμβολή, τα δεδομένα και οι αλγόριθμοι παραμένουν κλειστοί, ελεγχόμενοι από ιδιωτικές εταιρείες με τεράστιους υπολογιστικούς πόρους.
Η εκπαίδευση ενός LLM, είτε ανοιχτού είτε κλειστού, ακολουθεί τρεις κύριες φάσεις. Πρώτα, το μοντέλο προεκπαιδεύεται (pretraining) πάνω σε δισεκατομμύρια λέξεις από τον ιστό, τη Wikipedia και βιβλία, μαθαίνοντας τη στατιστική δομή της γλώσσας. Έπειτα, γίνεται fine-tuning σε πιο επιλεγμένα δεδομένα (διαλόγους, ερωταπαντήσεις), ώστε να αποκτήσει συνεκτικότητα και ύφος. Τέλος, εφαρμόζεται το RLHF, όπου άνθρωποι ή άλλα μοντέλα (μέσω RLAIF – AI feedback) καθοδηγούν το LLM να προσαρμόζεται στις ανθρώπινες προτιμήσεις. Η διαφορά είναι ότι στα ανοιχτά μοντέλα αυτά τα στάδια είναι τεκμηριωμένα και προσβάσιμα, ενώ στα κλειστά παραμένουν ιδιοκτησία της εταιρείας.
Για να χαρακτηριστεί ένα LLM πλήρως ανοιχτό, πρέπει να διαθέτει δημόσια:
- Κώδικα για όλα τα στάδια εκπαίδευσης, fine-tuning και inference.
- Weights (τα μαθημένα παραμέτρους) για ελεύθερη χρήση.
- Δεδομένα εκπαίδευσης (πραγματικά και πλήρη).
- Αναπαραγωγή της διαδικασίας(pipeline), δηλαδή λεπτομέρειες και ρυθμίσεις για επανάληψη της εκπαίδευσης από το μηδέν.
Κανένα σημερινό μοντέλο δεν πληροί απολύτως όλα τα παραπάνω. Οι πιο κοντινές πρωτοβουλίες είναι τα LLM360 (Amber & CrystalCoder), MAP-Neo, Open-Qwen2VL και OLMo (Allen Institute for AI), τα οποία δημοσιεύουν μεγάλο μέρος του κώδικα, των weights και των datasets τους, αλλά όχι πλήρως τα δεδομένα λόγω νομικών ή δεοντολογικών περιορισμών. Οι κύριοι λόγοι είναι οι άδειες πνευματικών δικαιωμάτων στα κείμενα στο ίντερνετ(web corpus), το τεράστιο υπολογιστικό κόστος (εκατοντάδες GPU-χρόνια), η ανάγκη φιλτραρίσματος επιβλαβών δεδομένων και οι εταιρικές στρατηγικές προστασίας τεχνογνωσίας.
Σε αυτό το τοπίο, η Ελλάδα έχει έναν ιδιαίτερο ρόλο να παίξει. Πρωτοβουλίες όπως το Meltemi αποδεικνύουν ότι είναι εφικτή η ανάπτυξη μοντέλων που σέβονται τη γλώσσα και τον πολιτισμό μας. Συμπληρωματικά, η δράση glossAPI της ΕΕΛΛΑΚ (https://glossapi.gr/) φιλοδοξεί να δημιουργήσει ένα ελεύθερο, οικοσύστημα ελληνικών γλωσσικών πόρων, με εργαλεία ανοικτού κώδικα για ανάλυση, επεξεργασία και κατανόηση φυσικής γλώσσας. Το glossAPI προωθεί την ιδέα ότι η Τεχνητή Νοημοσύνη δεν πρέπει να είναι προνόμιο των λίγων, αλλά δημόσιο αγαθό, αναπτυσσόμενο συλλογικά και διαφανώς, με σεβασμό στα δεδομένα, τη γλώσσα και τον άνθρωπο.
—
Στο https://cloud.ellak.gr/s/YbWj4zJbdy3K6zd υπάρχει ένας πρόχειρος κατάλογος με “Chatbots” που μπορείτε να συμπληρώσετε και να διορθώστε. Στο παράρτημα υπάρχει συνοπτική περιγραφή πως εκπαιδεύεται ένα μοντέλο και γιατί δεν είναι τα “ανοιχτά” πλήρως ανοιχτά.