Τοπικά μοντέλα ΤΝ και ΦΑΡΟΣ: η σωστή αρχιτεκτονική για ασφαλή, φθηνή και δημοκρατική ΤΝ

Από τον ΦΑΡΟ στα τοπικά μοντέλα: μια πολυεπίπεδη αρχιτεκτονική ανοιχτής ΤΝ

Η σωστή στρατηγική για την Τεχνητή Νοημοσύνη δεν είναι να επιλεγεί μία και μοναδική τεχνολογική λύση. Δεν χρειάζεται όλα να τρέχουν σε υπερυπολογιστές, όπως δεν είναι λογικό κάθε δημόσιος φορέας, πανεπιστήμιο, σχολείο ή επιχείρηση να εξαρτάται από εμπορικά cloud API. Η ορθολογική προσέγγιση είναι πολυεπίπεδη: εθνικές υποδομές υψηλής υπολογιστικής ισχύος για τα βαριά φορτία, τοπικές ανοιχτές υποδομές για καθημερινή ασφαλή χρήση και εναλλακτικές πλατφόρμες υλικού ώστε να μη δημιουργηθεί νέος τεχνολογικός εγκλωβισμός.

Ο ΦΑΡΟΣ και ο Δαίδαλος ανήκουν στο πρώτο επίπεδο. Είναι η εθνική υποδομή που πρέπει να αξιοποιείται για εργασίες μεγάλης κλίμακας: εκπαίδευση ή σοβαρή προσαρμογή μεγάλων μοντέλων, αξιολόγηση ελληνικών γλωσσικών μοντέλων, δημιουργία και έλεγχο συνόλων δεδομένων υψηλής ποιότητας, επιστημονικές προσομοιώσεις, εφαρμογές σε υγεία, πολιτισμό, κλίμα και βιωσιμότητα, καθώς και υποστήριξη ερευνητικών ομάδων και νεοφυών επιχειρήσεων που χρειάζονται υπολογιστική ισχύ πέρα από τις δυνατότητες ενός μεμονωμένου οργανισμού. Αυτό είναι το πεδίο του υπερυπολογιστή: δημιουργεί, ελέγχει, συγκρίνει και βελτιώνει.

Το δεύτερο επίπεδο είναι τα τοπικά μοντέλα ΤΝ ανοιχτού λογισμικού. Εδώ το ζητούμενο δεν είναι να εκπαιδευτεί από την αρχή ένα τεράστιο μοντέλο, αλλά να λειτουργεί καθημερινά μια ασφαλής, οικονομική και ελέγξιμη υπηρεσία ΤΝ κοντά στα δεδομένα. Ένα τέτοιο πιλοτικό μπορεί να βασίζεται, για παράδειγμα, σε δύο Apple Mac Studio M3 Ultra με 256 GB ενοποιημένης μνήμης και δύο NVIDIA DGX Spark GB10 με 128 GB ενοποιημένης μνήμης, 4 TB NVMe αποθήκευση ανά κόμβο και υποστήριξη Metal, CUDA, llama.cpp, vLLM και TensorRT-LLM. Οι Apple κόμβοι είναι κατάλληλοι για χαμηλής κατανάλωσης συνεχή λειτουργία, μικρά και μεσαία μοντέλα, embeddings, αναζήτηση σε έγγραφα, σύνοψη, απομαγνητοφώνηση και εφαρμογές με αυστηρές απαιτήσεις ιδιωτικότητας. Οι NVIDIA κόμβοι καλύπτουν βαρύτερο inference, μεγαλύτερα μοντέλα, batch processing και πειραματισμό με πιο απαιτητικές ροές.

Το τρίτο επίπεδο, που αποκτά πλέον ιδιαίτερη σημασία, είναι το AMD/ROCm οικοσύστημα. Η AMD προσφέρει εναλλακτική διαδρομή για low-cost open LLMs, τόσο σε υπολογιστικά κέντρα όσο και σε τοπικές εγκαταστάσεις. Στο επίπεδο των data centers, οι AMD Instinct MI300X, MI325X και MI350 είναι ενδιαφέρουσες κυρίως λόγω της πολύ μεγάλης μνήμης ανά επιταχυντή: 192 GB HBM3 στην MI300X, 256 GB HBM3E στην MI325X και έως 288 GB HBM3E στη σειρά MI350. Για μεγάλα ανοιχτά μοντέλα, η μνήμη είναι κρίσιμος παράγοντας κόστους. Όταν περισσότερες παράμετροι χωρούν σε μία ή σε λιγότερες GPU, μειώνονται η πολυπλοκότητα, οι απαιτήσεις διασύνδεσης, η κατανάλωση και το συνολικό κόστος κτήσης.

Η αξία του AMD οικοσυστήματος δεν βρίσκεται μόνο στο υλικό. Βρίσκεται και στο ROCm, την ανοιχτή στοίβα λογισμικού της AMD για επιτάχυνση υπολογισμών ΤΝ και HPC. Η τεκμηρίωση του ROCm αναφέρει πλέον υποστήριξη για βασικές μηχανές serving μεγάλων γλωσσικών μοντέλων, όπως vLLM και Hugging Face Text Generation Inference. Παράλληλα, εργαλεία όπως το llama.cpp, το Ollama, το Vulkan και το HIP/ROCm επιτρέπουν ετερογενείς εγκαταστάσεις, όπου διαφορετικό υλικό μπορεί να αξιοποιείται ανάλογα με το φορτίο εργασίας. Αυτό είναι σημαντικό για φορείς που δεν θέλουν να δεσμευτούν σε μία προμηθευτική αλυσίδα.

Στην πράξη, μια ώριμη στρατηγική για low-cost open LLMs δεν πρέπει να είναι «NVIDIA ή AMD», «Apple ή data center», «ΦΑΡΟΣ ή τοπικός κόμβος». Πρέπει να είναι συνδυαστική. Ο ΦΑΡΟΣ και ο Δαίδαλος χρησιμοποιούνται για βαριά εκπαίδευση, αξιολόγηση και εθνικές υποδομές μοντέλων. Οι τοπικοί κόμβοι NVIDIA και Apple χρησιμοποιούνται για άμεσο, αξιόπιστο και ασφαλές inference μέσα σε οργανισμούς. Οι λύσεις AMD/ROCm προσθέτουν ανταγωνισμό, μεγάλη μνήμη ανά GPU, δυνατότητα χαμηλότερου κόστους και εναλλακτικό ανοιχτό οικοσύστημα λογισμικού.

Αυτό έχει ιδιαίτερη σημασία για το Δημόσιο, τις επιχειρήσεις και την εκπαίδευση. Ένας δήμος, ένα πανεπιστήμιο ή ένα νοσοκομείο μπορεί να χρησιμοποιεί τοπικά μοντέλα για καθημερινές εργασίες, όπως αναζήτηση σε κανονισμούς, σύνοψη εγγράφων, ταξινόμηση αιτημάτων, υποστήριξη χρηστών και ασφαλή πρόσβαση σε εσωτερική γνώση. Ένα υπουργείο ή ερευνητικό κέντρο μπορεί να απευθύνεται στον ΦΑΡΟ για μεγαλύτερα πειράματα και αξιολογήσεις. Μια μικρομεσαία επιχείρηση μπορεί να ξεκινά με workstation ή μικρό τοπικό κόμβο και να κλιμακώνει αργότερα σε υπολογιστικό κέντρο. Το κρίσιμο είναι η αρχιτεκτονική να βασίζεται σε ανοιχτά πρότυπα, ανοιχτά μοντέλα όπου είναι εφικτό, εναλλάξιμα backends και δημόσια ελεγχόμενη διακυβέρνηση.

Έτσι αποφεύγονται δύο λάθη. Το πρώτο είναι η ψευδαίσθηση ότι όλα πρέπει να λυθούν με ένα κεντρικό υπερσύστημα. Το δεύτερο είναι η εξάρτηση από χιλιάδες ασύνδετες μικρές λύσεις χωρίς κοινά πρότυπα, ασφάλεια και αξιολόγηση. Η δημοκρατική τεχνητή νοημοσύνη χρειάζεται κεντρική ισχύ όπου είναι απαραίτητη, τοπικό έλεγχο όπου είναι κρίσιμος, και ανοιχτό οικοσύστημα υλικού και λογισμικού ώστε το δημόσιο χρήμα να χτίζει δημόσια τεχνογνωσία.