Οι AI βοηθοί είναι πλέον ευρέως διαθέσιμοι για λίγο περισσότερο από ένα χρόνο και έχουν ήδη πρόσβαση σε πολύ προσωπικές σκέψεις και επαγγελματικά μυστικά μας.

Οι χρήστες αναζητούν συμβουλές για θέματα αντισύλληψης, ρωτούν για συμβουλές κατά τη διάρκεια χωρισμού, ερευνούν σχετικά με εξάρτηση από ναρκωτικά, ή ζητούν αλλαγές σε email που περιέχουν εμπορικά μυστικά. Οι πάροχοι υπηρεσιών συνομιλίας με τεχνητή νοημοσύνη είναι επιφυλακτικοί σχετικά με την ευαισθησία των συζητήσεων αυτών και λαμβάνουν ενεργά μέτρα — κυρίως μέσω κρυπτογράφησης — για να διασφαλίσουν την ασφάλεια από πιθανούς κατασκόπους που παρακολουθούν τις αλληλεπιδράσεις.

Δείτε ακόμη: Όλες οι λεπτομέρειες για τα domain-specific γλωσσικά μοντέλα!

Αυτή τη στιγμή, οι ερευνητές έχουν αναπτύξει μια μέθοδο που αποκρυπτογραφεί τις απαντήσεις των AI βοηθών με εντυπωσιακή ακρίβεια. Η τεχνική αξιοποιεί ένα παράλληλο κανάλι που υπάρχει σε όλους τους κύριους βοηθούς τεχνητής νοημοσύνης, εκτός από το Google Gemini. Στη συνέχεια, βελτιώνει τα αρχικά αποτελέσματα με τη χρήση μεγάλων γλωσσικών μοντέλων ειδικά εκπαιδευμένων για το σκοπό αυτό. Ως αποτέλεσμα, κάποιος που λειτουργεί ως παθητικός αντίπαλος στο μέσο—δηλαδή ένας χάκερ που μπορεί να παρακολουθεί τα πακέτα δεδομένων μεταξύ του βοηθού τεχνητής νοημοσύνης και του χρήστη—μπορεί να αποκτήσει πρόσβαση στο συγκεκριμένο θέμα του 55% όλων των καταγεγραμμένων απαντήσεων, συνήθως με υψηλή ακρίβεια λέξη-προς-λέξη. Η μέθοδος αυτή μπορεί να παράγει απαντήσεις με τέλεια ακρίβεια λέξης στο 29% των περιπτώσεων.

Απόρρητο Token

«Αυτή τη στιγμή, οποιοσδήποτε μπορεί να διαβάσει ιδιωτικές συνομιλίες που αποστέλλονται από το ChatGPT και άλλες υπηρεσίες», εξήγησε μέσω email ο Yisroel Mirsky, επικεφαλής του Εργαστηρίου Επιθετικού AI στο Πανεπιστήμιο Ben-Gurion του Ισραήλ. Αυτό μπορεί να συμβεί από χάκερς στο ίδιο Wi-Fi ή LAN με έναν χρήστη (π.χ. στο ίδιο καφενείο), ή ακόμη και από χάκερς του διαδικτύου. Η επίθεση είναι παθητική και μπορεί να συμβεί χωρίς τη γνώση της OpenAI ή του χρήστη της. Η OpenAI κρυπτογραφεί την επισκεψιμότητά της για να αποτρέψει τέτοιες υποκλοπές. Ωστόσο, η έρευνά μας δείχνει ότι ο τρόπος με τον οποίο η OpenAI εφαρμόζει την κρυπτογράφηση είναι ανεπαρκής, και ως εκ τούτου, το περιεχόμενο των μηνυμάτων είναι ευάλωτο».

Στο παρακάτω βίντεο παρουσιάζεται, πώς γίνεται η επίθεση στο Microsoft Copilot:

Ένα πλευρικό κανάλι είναι ένα μέσο μέσω του οποίου λαμβάνονται μυστικές πληροφορίες από ένα σύστημα μέσω έμμεσων ή ακούσιων πηγών, όπως φυσικές εκδηλώσεις ή χαρακτηριστικά, όπως η καταναλούμενη ισχύς, ο απαιτούμενος χρόνος ή ο ήχος, το φως ή η ηλεκτρομαγνητική ακτινοβολία που παράγεται κατά τη διάρκεια μιας συγκεκριμένης λειτουργίας. Με προσεκτική παρακολούθηση αυτών των πηγών, οι χάκερς μπορούν να συγκεντρώσουν αρκετές πληροφορίες για να ανακτήσουν κρυπτογραφημένα πλήκτρα ή κλειδιά κρυπτογράφησης από την CPU, cookie πλοήγησης από την κυκλοφορία HTTPS ή μυστικές πληροφορίες από έξυπνες κάρτες. Το πλευρικό κανάλι που χρησιμοποιείται σε αυτήν την τελευταία επίθεση βασίζεται σε μεθόδους που χρησιμοποιούν οι βοηθοί τεχνητής νοημοσύνης κατά την απάντηση σε ένα ερώτημα του χρήστη.

Τα tokens είναι παρόμοια με λέξεις που είναι κωδικοποιημένες ώστε να μπορούν να γίνουν κατανοητές από τα μεγάλα γλωσσικά μοντέλα (LLM). Για να βελτιώσουν την εμπειρία του χρήστη, οι περισσότεροι βοηθοί τεχνητής νοημοσύνης (AI) στέλνουν tokens αμέσως μόλις δημιουργηθούν, έτσι ώστε οι τελικοί χρήστες να λαμβάνουν τις απαντήσεις συνεχώς, λέξη προς λέξη καθώς δημιουργούνται. Ενώ η παράδοση του token είναι κρυπτογραφημένη, η μετάδοση token-by-token σε πραγματικό χρόνο εκθέτει ένα άγνωστο προηγουμένως πλευρικό κανάλι, το οποίο οι ερευνητές αποκαλούν «token-length sequence» (ακολουθία μήκους διακριτικού).

Όπως το “Wheel of Fortune” για GPT

Αρχικά, η επίθεση αναλύει το μήκος κάθε token, ανεξάρτητα αν είναι κρυπτογραφημένο ή σε μορφή απλού κειμένου. Το μήκος του token αντιστοιχεί σχεδόν απευθείας στο μήκος της συμβολοσειράς χαρακτήρων που αντιπροσωπεύει. Στη συνέχεια, αναλύεται η ακολουθία του μήκους κάθε συμβολικού για να προσδιοριστούν όλες οι πιθανές φράσεις ή προτάσεις που μπορεί να αποτελούνται από τις λέξεις με αυτή τη σειρά. Με εκατομμύρια πιθανότητες για μια μόνο πρόταση και τάξεις μεγέθους περισσότερες για μια ολόκληρη παράγραφο, η έξοδος αυτού του πλευρικού καναλιού είναι, στην καλύτερη περίπτωση, ακατέργαστη.

Διαβάστε ακόμη: Η έλλειψη δεξιοτήτων στην τεχνητή νοημοσύνη επιδεινώνεται

Για να βελτιώσουν το αποτέλεσμα, ο Yisroel Mirsky και οι ερευνητικοί συνεργάτες του από το πανεπιστήμιο Ben-Gurion – Roy Weiss, Daniel Ayzenshtyen και Guy Amit – έχουν αναπτύξει αυτό που αποκαλούν “επίθεση token συμπερασμάτων”. Αυτό το σύστημα λειτουργεί αναλύοντας ανεπεξέργαστα δεδομένα που λαμβάνονται από το πλευρικό κανάλι μέσω δύο προσεκτικά εκπαιδευμένων μεγάλων γλωσσικών μοντέλων (LLM).

«Είναι σαν να προσπαθείς να λύσεις έναν γρίφο στο Wheel of Fortune, αλλά αντί να είναι μια σύντομη φράση, αποτελεί ολόκληρη παράγραφο με πολλές φράσεις χωρίς να έχει αποκαλυφθεί κανένας χαρακτήρας», εξήγησε ο Yisroel Mirsky. Παρόλα αυτά, τα AI μεγάλλα γλωσσικά μοντέλα (LLM) είναι εξαιρετικά αποτελεσματικά στην ανάλυση μακροπρόθεσμων μοτίβων και μπορούν να αποκωδικοποιήσουν αυτούς τους γρίφους με εντυπωσιακή ακρίβεια, παρέχοντας πολλά παραδείγματα από άλλα παιχνίδια.».

Οι τεχνητοί βοηθοί μπορεί να αναγνωριστούν από το μοναδικό τους στυλ και την επανάληψη ορισμένων φράσεων. Μέσω της ανάλυσης αυτών των μοτίβων στη σειρά διακριτικών μπορεί να αποκρυπτογραφηθεί ολόκληρο το κείμενο. Αυτή η διαδικασία είναι παρόμοια με την επίθεση γνωστού απλού κειμένου, όπου ένας χάκερ χρησιμοποιεί την αναγνώριση ενός μέρους ενός απλού κειμένου προκειμένου να αποκρυπτογραφήσει ολόκληρο το μήνυμα με τη χρήση του συμπληρωμένου κειμένου.

Οι ερευνητές παρατήρησαν ότι είναι εφικτό να εκπαιδεύσουν το μεγάλο γλωσσικό μοντέλο (LLM) να εκτελεί τη συγκεκριμένη επίθεση, διδάσκοντάς τους να αναλύουν διακριτικές ακολουθίες σε κείμενο μέσω παραδειγμάτων συνομιλιών που εντοπίζονται στο διαδίκτυο. Λαμβάνοντας υπόψη ότι η πρώτη πρόταση σε μια απάντηση AI είναι συχνά πιο στυλιστική και προβλέψιμη από τις υπόλοιπες, οι ερευνητές βελτίωσαν τα αποτελέσματά τους χρησιμοποιώντας ένα μεγάλο γλωσσικό μοντέλο (LLM) που εξειδικεύεται στη διατύπωση της πρώτης πρότασης μιας απάντησης και ένα άλλο που έχει βελτιστοποιηθεί για την ανάγωγη εσωτερικών προτάσεων βάσει του πλαισίου προηγούμενων προτάσεων.

Ανατομία ενός chatbot AI

Στην επεξεργασία της φυσικής γλώσσας, τα tokens αποτελούν τη μικρότερη μονάδα κειμένου που μεταφέρει νόημα. Μπορούν επίσης να περιλαμβάνουν μορφές στίξης και κενά. Για παράδειγμα: “Ω, όχι! Λυπάμαι που ακούω αυτό. Δοκιμάστε να απλώσετε λίγη κρέμα.”

Κατά τη διάρκεια που είναι tokenized με το GTP 3.5 ή 4, οι προτάσεις αναπαρίστανται ως:

Ωχ όχι! Λυπάμαι που το ακούω αυτό. Δοκιμάστε να απλώσετε λίγη κρέμα.

Το LLAMA-1 και το LLAMA 2 τα χαρακτηρίζουν ως:

Ωχ όχι! Λυπάμαι που το ακούω αυτό. Δοκιμάστε να απλώσετε λίγη κρέμα.

Κάθε σημαντικό LLM ακολουθεί ένα παρόμοιο μοτίβο, τα οποία έχουν σχεδιαστεί για να χωρίζουν το κείμενο σε διαχειρίσιμες ενότητες. Οι σημαντικότεροι βοηθοί τεχνητής νοημοσύνης δημοσιοποιούν τους κανόνες του tokenizer ως μέρος των API που παρέχουν. Τα tokens χρησιμοποιούνται όχι μόνο στην εκτέλεση των LLM αλλά και στην εκπαίδευσή τους. Κατά τη διάρκεια της εκπαίδευσης, οι LLMs εκτίθενται σε τεράστιες ποσότητες δεδομένων που περιλαμβάνουν κείμενο με διακριτικό, εν μέρει έτσι ώστε να μαθαίνουν την πιθανότητα ενός συγκεκριμένου διακριτικού μετά από μια δεδομένη ακολουθία. Αυτή η εκπαίδευση επιτρέπει στο LLM να προβλέψει με ακρίβεια το επόμενο διακριτικό σε μια συνομιλία που βρίσκεται σε εξέλιξη.

Δείτε περισσότερα: Κινέζοι χάκερ έκλεψαν email από το κρατικό τμήμα των ΗΠΑ μετά από παραβίαση της Microsoft

Οι συνομιλίες διακρίνονται σε δύο βασικές κατηγορίες μηνυμάτων: τις εισόδους από τον χρήστη, που είναι γνωστές ως προτροπές, και τις απαντήσεις, που παράγονται από το LLM ως απόκριση στις εισόδους. Τα LLM παρακολουθούν το ιστορικό διαλόγου, εξασφαλίζοντας ότι οι απαντήσεις λαμβάνουν υπόψη τους το πλαίσιο που περιλαμβάνεται στις προηγούμενες εισόδους και απαντήσεις. Στην εργασία τους, οι ερευνητές εξηγούν:

Προτροπή (P): Μια προτροπή είναι η είσοδος του χρήστη, συνήθως μια ερώτηση ή μια δήλωση, που ξεκινά την αλληλεπίδραση με το LLM. Αντιπροσωπεύεται ως συμβολική ακολουθία P = [p1, p2,…, pm] για το pi ∈ K.

Απόκριση (R): Σε απάντηση στην προτροπή, το LLM δημιουργεί μια απόκριση, επίσης μια ακολουθία διακριτικών, που συμβολίζεται ως R = [r1,r2,…,rn] για ri ∈ K

Εκτός από το Google Gemini, τα υπόλοιπα διαθέσιμα μεγάλα γλωσσικά μοντέλα (LLM) που προέρχονται από συνομιλίες μεταδίδουν διακριτικά αμέσως μετά τη δημιουργία, κυρίως λόγω της αργής απόκρισης των μοντέλων και της αντίστασης των παρόχων να αναγκάσουν τους χρήστες να περιμένουν μέχρι να δημιουργηθεί ολόκληρο το μήνυμα πριν αποστείλουν οποιοδήποτε κείμενο. Αυτή η σχεδίαση σε πραγματικό χρόνο αποτελεί κλειδί για τη δημιουργία του πλευρικού καναλιού. Καθώς τα διακριτικά αποστέλλονται ξεχωριστά, το ένα μετά το άλλο, οι αντίπαλοι με παθητική ικανότητα AitM μπορούν να μετρούν τα μήκη τους ανεξάρτητα από την κρυπτογράφηση.

Για παράδειγμα, όταν ο βοηθός τεχνητής νοημοσύνης μεταδίδει το κείμενο “Πρέπει να επισκεφτείτε ένα γιατρό” σε μορφή μεμονωμένων tokens, στέλνει ένα ξεχωριστό πακέτο για κάθε λέξη. Το μέγεθος του φορτίου της κάθε λέξης σε αυτά τα πακέτα θα είναι 3, 6, 3, 1, 6 (συν μια στατική επιβάρυνση που μπορεί να φιλτραριστεί). Αν και ένας χάκερ δεν έχει γνώση των χαρακτήρων του μηνύματος, γνωρίζει το μήκος κάθε λέξης και τη σειρά τους σε μια πρόταση. Αυτό το παράδειγμα αποτελεί μια απλοποιημένη περιγραφή, καθώς, όπως αναφέρθηκε προηγουμένως, τα διακριτικά δεν αποτελούν πάντα αυστηρά λέξεις.

Σε αντίθεση, όταν ένας AI βοηθός στέλνει όλα τα tokens μαζί, ο χάκερ βλέπει μόνο ένα πακέτο με μέγεθος ωφέλιμου φορτίου 19. Στην περίπτωση αυτή, ο χάκερ δεν μπορεί να γνωρίζει εάν το πακέτο περιέχει μια λέξη με 19 χαρακτήρες ή πολλές λέξεις με ένα σύνολο 19 γραμμάτων. Αυτή η αρχή εξηγεί γιατί η επίθεση δεν είναι σε θέση να διαβάσει τις προτροπές που στέλνουν οι χρήστες στα chatbots. Τα διακριτικά στα μηνύματα δεν αποστέλλονται σε μικρά μέρη, αλλά σε μεγάλα, κάθε φορά που ένας χρήστης πατάει Enter.

Διαβάστε επίσης: Ευπάθεια στο Kubernetes επιτρέπει την απομακρυσμένη εκτέλεση κώδικα σε Windows

Πηγή: arstechnica.com