Η Google παρουσίασε το Lumiere, το νέο της εργαλείο παραγωγής βίντεο με τεχνητή νοημοσύνη, το οποίο χαρακτηρίζει ως “ένα μοντέλο διάχυσης χώρου-χρόνου για ρεαλιστική παραγωγή βίντεο”.

Δείτε επίσης: Η Generative AI στην Βιομηχανία των Video Games

Πέραν των τεχνικών λεπτομερειών, το Lumiere δείχνει να είναι ικανό να δημιουργεί βίντεο με γλυκά ζώα σε απίθανες καταστάσεις, όπως το να φοράνε roller skates, να οδηγούν αυτοκίνητα ή να παίζουν πιάνο.

Σύμφωνα με τη Google, το Lumiere χρησιμοποιεί μια μοναδική αρχιτεκτονική για τη δημιουργία της ολόκληρης χρονικής διάρκειας ενός βίντεο σε μια διαδικασία. Αντί να συνθέτει ένα βίντεο από πολλά μικρά κομμάτια ή καρέ, μπορεί να δημιουργήσει ολόκληρο το βίντεο, από την αρχή ως το τέλος, με μια ομαλή διαδικασία.

Το Lumiere μπορεί επίσης να εκτελεί πολλά “κόλπα”, τα οποία περιγράφονται με παραδείγματα στην επίσημη σελίδα παρουσίασης της Google. Μεταξύ άλλων, μπορεί να μετατρέπει κείμενα σε βίντεο, να μετατρέπει στατικές εικόνες σε βίντεο, να δημιουργεί βίντεο σε συγκεκριμένα στυλ χρησιμοποιώντας εικόνες αναφοράς, να εφαρμόζει συνεπή επεξεργασία βίντεο με βάση κείμενο, να δημιουργεί κινηματογραφία ζωντανεύοντας συγκεκριμένες περιοχές μιας εικόνας, και να προσφέρει δυνατότητες επισκευής βίντεο (π.χ. να αλλάζει τα ρούχα που φορά μια προσωπικότητα/ένας χαρακτήρας).

Δείτε ακόμα: NCSC: Η τεχνητή νοημοσύνη (AI) θα αυξήσει τις ransomware επιθέσεις

Η Google αναφέρει ότι το Lumiere δημιουργεί βίντεο διάρκειας πέντε δευτερολέπτων με ανάλυση 1024×1024 pixel, τα οποία χαρακτηρίζει ως “χαμηλής ανάλυσης”. Παρά τους περιορισμούς αυτούς, οι ερευνητές της Google υποστηρίζουν ότι τα αποτελέσματα του Lumiere προτιμήθηκαν σε σύγκριση με άλλα υπάρχοντα εργαλεία σύνθεσης βίντεο με τεχνητή νοημοσύνη.

Παρόλο που τα τεχνητά βίντεο βρίσκονται ακόμη σε πρώιμο στάδιο, έχουν σημειώσει πρόοδο στην ποιότητά τους τα τελευταία δύο χρόνια. Η Google είχε παρουσιάσει το πρώτο της μοντέλο σύνθεσης εικόνων, το Imagen Video, τον Οκτώβριο του 2022. Πριν από αυτό, η Meta είχε παρουσιάσει το Make-A-Video της. Τον Ιούνιο του προηγούμενου έτους, το Gen2 της Runway επέτρεπε τη δημιουργία δύο δευτερολέπτων βίντεο από κείμενο, ενθαρρύνοντας τη δημιουργία παρωδιακών εμπορικών διαφημίσεων. Το Νοέμβριο, είχαμε καλύψει το Stable Video Diffusion

, το οποίο μπορεί να δημιουργεί μικρά βίντεο από στατικές εικόνες.

Δείτε επίσης: Apple: Επενδύει στην τεχνητή νοημοσύνη περισσότερο από άλλες εταιρείες

Η παρουσίαση γεννά συχνά αντιδράσεις, καθώς η δημιουργία συνεκτικών εικονικών ανθρώπινων μορφών είναι δύσκολη, και τα τεχνητά συστήματα κινδυνεύουν να δημιουργήσουν αποκλίσεις που αντιλαμβανόμαστε εύκολα. Το Lumiere φαίνεται να ξεπερνά τα άλλα μοντέλα σύνθεσης βίντεο με τεχνητή νοημοσύνη, αλλά η Google δεν προδίδεται, συνήθως κρατά τα έργα έρευνας για τεχνητή νοημοσύνη μυστικά, χωρίς να είμαστε σίγουροι για το αν και το πότε, θα έχει ο κοινός κόσμος την ευκαιρία να το δοκιμάσει.

Όπως πάντα, όταν βλέπουμε μοντέλα σύνθεσης βίντεο να γίνονται πιο ικανά, δεν μπορούμε παρά να σκεφτόμαστε τις μελλοντικές επιπτώσεις για τη συνδεδεμένη στο διαδίκτυο κοινωνία μας, η οποία επικεντρώνεται στον κοινό διαμοιρασμό πολυμέσων. Το ερώτημα για την αξιοπιστία των βίντεο θα γίνει ακόμη πιο σημαντικό, καθώς τα εργαλεία σύνθεσης βίντεο που είναι πιο ικανά από το Lumiere θα καθιστούν εύκολη τη δημιουργία παραπλανητικών deepfakes. Σε αυτή την κατεύθυνση, στην ενότητα “Κοινωνικές Επιπτώσεις” της εργασίας του Lumiere, οι ερευνητές αναφέρουν: “Ο στόχος μας σε αυτό το έργο είναι να επιτρέψουμε σε αρχάριους χρήστες να δημιουργούν οπτικό περιεχόμενο με δημιουργικό και ευέλικτο τρόπο. Ωστόσο, υπάρχει ο κίνδυνος κατάχρησης για τη δημιουργία ψευδών ή επιβλαβών περιεχομένων με τη χρήση της τεχνολογίας μας, και πιστεύουμε ότι είναι ζωτικό να αναπτυχθούν και να εφαρμοστούν εργαλεία για τον εντοπισμό προκαταλήψεων και κακόβουλης χρήσης, προκειμένου να διασφαλιστεί μια ασφαλής και δίκαιη χρήση”.

Πηγή: arstechnica