Επιστήμονες δημιουργούν AI που μπορεί να συντρίψει το καλύτερο AI του κόσμου

Οι άνθρωποι έχουν αποδεχθεί πλέον ότι δεν θα είναι ποτέ τόσο καλοί στο σκάκι όσο τα ρομπότ, αλλά τώρα ακόμη και τα ρομπότ πρέπει να δεχτούν ότι ποτέ δεν θα είναι τόσο καλά όσο άλλα ρομπότ!

Μια νέα πλατφόρμα τεχνητής νοημοσύνης, γνωστή ως AlphaZero, μπορεί να μάθει να παίζει τα παιχνίδια Go, σκάκι και shogi, χωρίς καμία ανθρώπινη παρέμβαση. Χρησιμοποιώντας deep neural networks, το AlphaZero έμαθε γρήγορα τον τρόπο να παίζει κάθε παιχνίδι” ώστε να είναι ο καλύτερος παίκτης στην ιστορία”.

Το AlphaZero αποκαλύφθηκε από την DeepMind Technologies σε μία έρευνα που δημοσιεύτηκε στο Science στις 6 Νοεμβρίου. Η DeepMind, μια βρετανική θυγατρική εταιρεία τεχνητής νοημοσύνης της Alphabet, της μητρικής εταιρείας της Google, ασχολείται με το Go AI εδώ και πολλά χρόνια. Το 2017, η DeepMind απέσυρε τον πρώην AI πρωταθλητή AlphaGo, αλλά συνέχισε να ασχολείται με το AI. Με το AlphaZero, η έρευνα της DeepMind έχει φτάσει στο ζενίθ της.

Το πρόγραμμα αντιμετώπισε τα καλύτερα AI παγκοσμίως σε τρία επιτραπέζια παιχνίδια:

Stockfish, παγκόσμιος πρωταθλητής σκακιού AI
elmo, νικητής του 27ου ετήσιου World Computer Shogi Championship το 2017
AlphaGo Zero, το Go AI της DeepMind, το ισχυρότερο Go player στην ιστορία

Σε κάθε περίπτωση, το AlphaZero έλαβε μόνο τις γνώσεις σχετικά με τους βασικούς κανόνες του παιχνιδιού. Πριν αναμετρηθεί με τα υπόλοιπα AI, έπαιξε εκατομμύρια παιχνίδια ενάντια στον εαυτό του, ξεκινώντας από τυχαίες τακτικές και προσπαθώντας να κερδίσει, αλλά σιγά-σιγά έμαθε ποιες στρατηγικές λειτουργούν καλύτερα μέσω μιας διαδικασίας δοκιμής και σφάλματος που ονομάζεται ” reinforcement learning “.

Η διαδικασία εκπαίδευσης και εκμάθησης χρειάστηκε εννέα ώρες για το σκάκι, 12 ώρες για το shogi και 13 ημέρες για το Go, χρησιμοποιώντας 5.000 TPUs (Tensor Processing Units). Μία μόνο TPU μπορεί να επεξεργαστεί πάνω από 100 εκατομμύρια φωτογραφίες την ημέρα στο Google Photos. Μόλις ολοκλήρωσε την εκμάθηση, το AlphaZero ανταγωνίστηκε τα υπόλοιπα. Και τα συνέθλιψε!

Αυτό που είναι μοναδικό στη μελέτη είναι το γεγονός ότι ο αλγόριθμος εκμάθησης συνδυάστηκε με μια “μέθοδο αναζήτησης” που ονομάζεται Monte Carlo tree search (MCTS). Αυτός είναι ο τρόπος με τον οποίο τα προγράμματα Go AI προσδιορίζουν ποια κίνηση πρέπει να γίνει στη συνέχεια. Η ομάδα DeepMind χρησιμοποίησε το ίδιο σύστημα για το σκάκι και το shogi, δείχνοντας για πρώτη φορά ότι θα μπορούσε να προσαρμοστεί και σε άλλα σύνθετα παιχνίδια.

Ίσως πιο ενδιαφέρον για τους σκακιστές είναι το γεγονός ότι το AlphaZero, χωρίς να διαθέτει ανθρώπινα χέρια μπορεί και κατασκευάζει τις γνώσεις του, εφαρμόζει στρατηγικές και καινοτόμες ιδέες που δεν έχουν ξαναδεί. Το επιθετικό στυλ και το εξαιρετικά δυναμικό παιχνίδι του εξέπληξε τον Grandmaster του σκακιού, Matthew Sadler, ο οποίος μίλησε γι αυτό στο blog της DeepMind.

Αυτές οι μοναδικές στρατηγικές και ικανότητες κάνουν το AlphaZero ένα σπουδαίο εργαλείο διδασκαλίας για τους παίκτες σκακιού.

Η κυριαρχία της τεχνητής νοημοσύνης πάνω στον άνθρωπο είναι αρκετά συχνή στον κόσμο των παιχνιδιών, με τα ρομπότ να μας κερδίζουν στα επιτραπέζια παιχνίδια, τα πολύπλοκα βιντεοπαιχνίδια όπως το Dota 2 και φυσικά το Go.

Αυτό σημαίνει ότι το AI είναι έτοιμο να μας νικήσει κυριολεκτικά σε κάθε ανταγωνιστικό παιχνίδι που εφευρέθηκε ποτέ; Ευτυχώς όχι. Παρόλο που τα τρία παιχνίδια που χρησιμοποιεί η DeepMind είναι εξαιρετικά περίπλοκα, παρέχουν κάποια πλεονεκτήματα για το AI, καθώς περιλαμβάνουν δύο παίκτες και όλες οι πληροφορίες που είναι απαραίτητες για την επόμενη κίνηση είναι πάντα ορατές.

Έτσι, ενώ έχουν σίγουρα αναλάβει το ρόλο του πρωταθλητή σε παιχνίδια όπως το σκάκι, τα ρομπότ πιθανότατα δεν θα μας νικήσουν ποτέ στο Texas Hold ‘Em.