Οι ερευνητές της Google ανέπτυξαν ένα νέο σύστημα τεχνητής νοημοσύνης (AI), με το όνομα VLOGGER, που μπορεί να χρησιμοποιήσει μια απλή, στατική φωτογραφία για να δημιουργήσει βίντεο με ανθρώπους που μιλούν, χειρονομούν και κινούνται.

Το VLOGGER βασίζεται σε προηγμένα μοντέλα μηχανικής εκμάθησης για να συνθέσει τα ρεαλιστικά πλάνα, ωστόσο σίγουρα θα προκαλέσει ανησυχίες καθώς η τεχνολογία μοιάζει αρκετά με τα deepfakes.

Η AI τεχνολογία της Google περιγράφεται σε μια ερευνητική εργασία με τίτλο “VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis“. Το σύστημα μπορεί να τραβήξει μια φωτογραφία ενός ατόμου και ένα ηχητικό κλιπ και στη συνέχεια μπορεί να εξαγάγει ένα βίντεο που ταιριάζει με τον ήχο, δείχνοντας το άτομο να μιλάει σαν να λέει αυτές τις λέξεις και να κάνει αντίστοιχες εκφράσεις προσώπου, κινήσεις κεφαλιού και χειρονομίες. Τα βίντεο δεν είναι ακόμα τέλεια, αλλά είναι ένα πολύ σημαντικό βήμα για τη δημιουργία κίνησης μέσα από στατικές εικόνες.

Δείτε επίσης: Shadow AI: Η νέα απειλή ασφαλείας για τις επιχειρήσεις

Οι ερευνητές, με επικεφαλής τον Enric Corona στο Google Research, χρησιμοποίησαν έναν τύπο μοντέλου μηχανικής εκμάθησης που ονομάζεται diffusion models. Αυτά τα μοντέλα είναι αρκετά αποτελεσματικά στη δημιουργία εξαιρετικά ρεαλιστικών εικόνων από περιγραφές κειμένου. Οι ερευνητές προσπάθησαν  να  τα επεκτείνουν στον τομέα του βίντεο και τα εκπαίδευσαν σε ένα τεράστιο σύνολο δεδομένων. Έτσι, κατάφεραν να φτιάξουν το AI σύστημα που μπορεί να δημιουργήσει βίντεο από στατικές φωτογραφίες.

Σε αντίθεση με προηγούμενες εργασίες, η μέθοδός μας δεν απαιτεί εκπαίδευση για κάθε άτομο, δεν βασίζεται σε ανίχνευση προσώπου και περικοπή, δημιουργεί την πλήρη εικόνα (όχι μόνο το πρόσωπο ή τα χείλη) και εξετάζει ένα ευρύ φάσμα σεναρίων (π.χ. ορατός κορμός ή διαφορετικές ταυτότητες θέματος) που είναι κρίσιμα για τη σωστή σύνθεση των ανθρώπων που επικοινωνούν“, έγραψαν οι συγγραφείς.

Ένας βασικός παράγοντας ήταν η επιμέλεια ενός τεράστιου νέου συνόλου δεδομένων που ονομάζεται MENTOR και περιείχε πάνω από 800.000 διαφορετικές ταυτότητες και 2.200 ώρες βίντεο. Αυτό επέτρεψε στο VLOGGER να μάθει να δημιουργεί βίντεο με άτομα με διαφορετικές εθνότητες, ηλικίες, ρούχα, πόζες και περιβάλλοντα χωρίς προκατάληψη.

Η τεχνολογία VLOGGER μπορεί να είναι πολύ χρήσιμη, αφού όπως είπαν και οι ερευνητές μπορεί να αντιγράφει αυτόματα βίντεο σε άλλες γλώσσες, απλώς εναλλάσσοντας το κομμάτι ήχου. Μπορεί, ακόμα, να επεξεργάζεται και να συμπληρώνει απρόσκοπτα τα καρέ που λείπουν

σε ένα βίντεο και να δημιουργεί πλήρη βίντεο ενός ατόμου από μία φωτογραφία.

Δείτε επίσης: ChatGPT Read Aloud: Η OpenAI Προσφέρει Φωνητική Ανάγνωση

Η τεχνολογία θα μπορούσε, επίσης, να χρησιμοποιηθεί για τη δημιουργία φωτορεαλιστικών avatar για εικονική πραγματικότητα και gaming.

Η Google θεωρεί ότι το VLOGGER μπορεί να χρησιμοποιηθεί ως αυτόνομη λύση για παρουσιάσεις, εκπαίδευση, αφήγηση, διαδικτυακή επικοινωνία και ως διεπαφή για αλληλεπίδραση ανθρώπου-υπολογιστή.

Ωστόσο, η τεχνολογία θα μπορούσε να χρησιμοποιηθεί και για κακόβουλους σκοπούς, όπως και οι τεχνολογίες deepfakes. Για παράδειγμα, θα μπορούσε να γίνει κατάχρηση αυτής της τεχνολογίας για τη δημιουργία ψευδών ειδήσεων. Με τη δημιουργία ρεαλιστικών βίντεο από μια μόνο φωτογραφία, οι κακόβουλοι χρήστες μπορούν να παραπλανήσουν το κοινό με εικόνες που φαίνονται πραγματικές αλλά δεν είναι.

Επιπλέον, υπάρχουν ανησυχίες για παραβιάσεις της ιδιωτικότητας. Η δυνατότητα δημιουργίας ρεαλιστικών βίντεο από μια μόνο φωτογραφία μπορεί να εκμεταλλευτεί προσωπικές εικόνες χωρίς τη συγκατάθεση του ατόμου που απεικονίζεται.

Η χρήση του VLOGGER για deepfakes μπορεί να υπονομεύσει την εμπιστοσύνη του κοινού στα μέσα ενημέρωσης. Αν οι άνθρωποι δεν μπορούν να εμπιστευτούν αυτό που βλέπουν, αυτό μπορεί να έχει σοβαρές επιπτώσεις στην κοινωνία και τη δημοκρατία.

Δείτε επίσης: Το νέο Generative AI εργαλείο μουσικής της Adobe

VLOGGER : Το νέο AI σύστημα της Google

Το VLOGGER είναι σίγουρα μια εντυπωσιακή τεχνολογία, αλλά υπάρχουν ακόμα περιορισμοί. Τα βίντεο που δημιουργούνται είναι σχετικά σύντομα και έχουν στατικό φόντο. Τα άτομα δεν κινούνται σε ένα τρισδιάστατο περιβάλλον. Επιπλέον, ο τρόπος ομιλίας, αν και αρκετά ρεαλιστικός, ξεχωρίζει ακόμα από αυτόν ενός πραγματικού ανθρώπου.

Ωστόσο, με περαιτέρω πρόοδο, μπορούμε να δούμε το VLOGGER να χρησιμοποιείται σε διάφορους τομείς. Μπορεί σύντομα να ζούμε σε έναν κόσμο όπου είναι δύσκολο να πούμε αν το άτομο που μας μιλάει σε ένα βίντεο είναι πραγματικό ή έχει δημιουργηθεί από ένα πρόγραμμα υπολογιστή.

Πηγή: venturebeat.com