AI ini dapat membuat karakter berbicara yang cukup bagus untuk sebuah film

Kemampuan Chatgpt untuk mengabaikan hak cipta dan akal sehat saat membuat gambar dan Deepfake adalah pembicaraan kota saat ini. Model generator gambar yang diluncurkan OpenAI minggu lalu digunakan secara luas sehingga merusak fungsionalitas dasar ChatGPT dan uptime untuk semua orang.

Tapi itu bukan hanya kemajuan dalam gambar yang dihasilkan AI yang kami saksikan baru-baru ini. Model video Runway Gen-4 memungkinkan Anda membuat klip luar biasa dari satu teks prompt dan foto, mempertahankan karakter dan kontinuitas adegan, tidak seperti apa pun yang telah kita lihat sebelumnya.

Video yang disediakan perusahaan harus memberi pemberitahuan Hollywood. Siapa pun dapat membuat klip tingkat film dengan alat-alat seperti Ruway, dengan asumsi mereka bekerja sebagaimana dimaksud. Paling tidak, AI dapat membantu mengurangi biaya efek khusus untuk film tertentu.

Bukan hanya alat video AI baru Runway yang menoleh. Meta memiliki produk Mocha AI sendiri yang dapat digunakan untuk membuat karakter AI yang berbicara dalam video yang mungkin cukup baik untuk membodohi Anda.

Mocha bukan jenis kopi yang salah dieja. Ini kependekan dari film animator karakter film, proyek penelitian dari Meta dan University of Waterloo. Ide dasar model Mocha AI cukup sederhana. Anda memberi AI prompt teks yang menggambarkan video dan sampel pidato. AI kemudian menyatukan video yang memastikan karakter “berbicara” kalimat dalam sampel audio hampir sempurna.

Para peneliti menyediakan banyak sampel yang menunjukkan kemampuan canggih Mocha, dan hasilnya mengesankan. Kami memiliki semua jenis klip yang menunjukkan aksi langsung dan protagonis animasi yang berbicara di garis dari sampel audio. Mocha memperhitungkan emosi, dan AI juga dapat mendukung banyak karakter dalam adegan yang sama.

Hasilnya hampir sempurna, tetapi tidak cukup. Ada beberapa ketidaksempurnaan yang terlihat di klip. Gerakan mata dan wajah adalah hadiah yang kami lihat di video yang dihasilkan AI. Juga, sementara gerakan bibir tampaknya disinkronkan dengan sempurna ke sampel audio, pergerakan seluruh mulut dibesar -besarkan dibandingkan dengan orang sungguhan.

Saya mengatakan bahwa sebagai seseorang yang telah melihat banyak mode AI serupa dari perusahaan lain sekarang, termasuk beberapa yang sangat meyakinkan.

Pertama, ada landasan pacu Gen-4 yang kami bicarakan beberapa hari yang lalu. Klip Demo Gen-4 lebih baik daripada Mocha. Tapi itu produk yang dapat Anda gunakan, Mocha tentu dapat ditingkatkan pada saat itu menjadi model AI komersial.

Berbicara tentang model AI yang tidak dapat Anda gunakan, saya selalu membandingkan produk baru yang dapat menyinkronkan karakter yang dihasilkan AI dengan sampel audio dengan proyek penelitian AI VASA-1 Microsoft, yang kami lihat April lalu.

VASA-1 memungkinkan Anda mengubah foto statis orang sungguhan menjadi video karakter berbicara selama Anda memberikan sampel audio dalam bentuk apa pun. Maklum, Microsoft tidak pernah membuat model VASA-1 tersedia untuk konsumen, karena teknologi seperti itu membuka pintu untuk penyalahgunaan.

Akhirnya, ada perusahaan induk Tiktok, Bytedance, yang menunjukkan AI seperti VASA-1 beberapa bulan yang lalu yang melakukan hal yang sama. Itu mengubah satu foto menjadi video animasi sepenuhnya.

Omnihuman-1 juga menjiwai gerakan bagian tubuh, sesuatu yang saya lihat dalam demo moka meta juga. Begitulah cara kami melihat Taylor Swift menyanyikan Naruto Lagu tema dalam bahasa Jepang. Ya, itu klip Deepfake; Saya akan membahasnya.

Produk seperti VASA-1, Omnihuman-1, Mocha, dan mungkin Runway Gen-4 dapat digunakan untuk menciptakan Deepfake yang dapat menyesatkan.

Contoh cepat untuk generator video MoCHA AI Meta. Sumber Gambar: Arxiv

Peneliti meta yang bekerja pada mocha dan proyek serupa harus membahas hal ini secara publik jika dan ketika model tersedia secara komersial.

Anda mungkin melihat ketidakkonsistenan dalam sampel mocha yang tersedia secara online, tetapi tonton video -video itu di layar ponsel cerdas, dan mereka mungkin tidak begitu jelas. Hapus keakraban Anda dengan generasi video AI; Anda mungkin berpikir beberapa klip mocha ini ditembak dengan kamera asli.

Juga penting adalah pengungkapan meta data yang digunakan untuk melatih AI ini. Koran itu mengatakan Mocha menggunakan sekitar 500.000 sampel, berjumlah 300 jam sampel video ucapan berkualitas tinggi, tanpa mengatakan dari mana mereka mendapatkan data itu. Sayangnya, itu tema di industri ini, tidak mengakui sumber data yang digunakan untuk melatih AI, dan itu masih memprihatinkan.

Anda akan menemukan makalah penelitian Mocha lengkap di tautan ini.

Tech. Hiburan. Sains. Kotak masuk Anda.