Microsoft VASA-1 AI dapat membuat satu gambar bernyanyi atau berbicara

AI dan modelnya berkembang pesat. Dari menghasilkan gambar, video, dan audio hingga membuat klip audio dan video dari satu gambar, telah terjadi peningkatan yang luar biasa. Microsoft Research mengumumkan telah memperkenalkan VASA-1 , model AI yang dapat membuat gambar bernyanyi atau berbicara. Itu membuat gambar menjadi klip video dengan audio dan ekspresi wajah yang sesuai dengan audio.

Microsoft VASA-1 AI dapat membuat satu gambar bernyanyi atau berbicara

VASA adalah model AI baru dari Microsoft yang dapat menghasilkan wajah berbicara yang sangat realistis dari satu gambar. Anda hanya perlu memasukkan gambar dan satu klip audio untuk mendapatkan klip video yang realistis. Model VASA tidak hanya menyinkronkan audio secara bibir tetapi juga menghasilkan nuansa wajah dan momen alami kepala agar sesuai dengan audio dan menciptakan dampak yang realistis.

Microsoft baru saja menjatuhkan VASA-1.

AI ini dapat membuat satu gambar bernyanyi dan berbicara dari referensi audio secara ekspresif. Mirip dengan EMO dari Alibaba

10 contoh liar:

1. Mona Lisa rap Paparazzi pic.twitter.com/LSGF3mMVnD

— Min Choi (@minchoi) 18 April 2024

ncCP Model VASA dapat memberikan kualitas tinggi keluaran video dan secara signifikan mengungguli model lain yang mampu menghasilkan video. Itu juga dapat menghasilkan video online 512×512 hingga 40 FPS dengan latensi yang sangat dapat diabaikan. Model ini bisa sangat membantu untuk menciptakan avatar yang hidup dan meniru perilaku percakapan manusia.

Dengan VASA, pengguna dapat mengontrol pembuatan video dengan memasukkan kondisi tatapan mata, jarak kepala, dan perubahan emosi lainnya. Model tersebut dapat menangani foto artistik seperti Mona Lisa, audio nyanyian, dan pidato non-Inggris untuk menghasilkan video yang sangat realistis.

Microsoft dalam makalah penelitiannya menambahkan bahwa penelitian ini difokuskan pada menghasilkan keterampilan afektif visual untuk avatar AI virtual yang ditujukan untuk kasus penggunaan positif. Konten apa pun yang dibuat dengan modus yang dimaksudkan untuk menyesatkan atau menipu adalah melanggar kebijakan mereka. Microsoft telah mengakui bahwa seperti model lainnya, model ini juga dapat digunakan untuk menyamar sebagai manusia. Mereka yakin bahwa ada kesenjangan antara apa yang dapat dicapai saat ini dan video asli yang asli.

Tidak ada rencana dari Microsoft untuk merilis demo online, API, detail implementasi tambahan, atau penawaran terkait lainnya kepada publik sampai mereka yakin bahwa alat tersebut akan digunakan secara bertanggung jawab dan mengikuti peraturan yang tepat.

Itulah konten tentang Microsoft VASA-1 AI dapat membuat satu gambar bernyanyi atau berbicara, semoga bermanfaat.