ویدیوهای شگفتانگیز ساختهشده با جمینای Omni؛ از ترجمه صدا تا شبیهسازی فیزیک
گوگل با معرفی خانواده هوش مصنوعی Gemini Omni، ادعا کرده است که این مدلها میتوانند هر نوع محتوایی از جمله صدا، ویدیو، عکس و متن را تولید کنند. اولین مدل از این سری با نام Gemini Omni Flash در اپلیکیشن جمینای، گوگل فلو و یوتوب شورتس در دسترس قرار گرفته و کاربران شبکههای اجتماعی تاکنون ویدیوهای خلاقانه و جالبی با آن تولید کردهاند.
نمونههای تولید شده با Gemini Omni
«بیلاوال سیدو»، مدیر محصول سابق گوگل، یکی از افرادی است که عملکرد هوش مصنوعی Gemini Omni را آزمایش کرده است. او با استفاده از خطوط ساده روی یک تصویر، مسیری را برای پرواز یک پهپاد تعیین کرده و از هوش مصنوعی خواسته تا ویدیویی از زاویه دید پهپاد تولید کند. نتیجه این درخواست را در ویدیو زیر میتوانید مشاهده کنید.
به همین ترتیب، در ویدیوی زیر از هوش مصنوعی خواسته شده تا بر اساس نقاشی یک ماهی و مسیری که برای آن تعیین شده، یک ویدیو کاملاً واقعی بسازد.
ویدیوی دیگری نیز توسط کاربر دیگری ساخته شده که توانایی Gemini Omni در «انتقال حرکت و استایل» را به نمایش میگذارد. در این درخواست، از مدل خواسته شده تا حرکات و ژستهای یک شخص در یک ویدیو را کپی کرده و روی شخصیتی که در یک عکس قرار دارد، پیاده کند و در نهایت رنگ و لعاب و سبک بصری ویدیو را شبیه به آن عکس نمونه تغییر دهد.
یکی دیگر از کاربران به توانایی مدل در ترجمه صدا پرداخته و از Gemini Omni خواسته تا صدای گوینده را در ویدیو به زبانهای دیگر مانند آلمانی، اسپانیایی و ژاپنی ترجمه کند. جالب اینجاست که در این مثال متن اصلی یا ترجمهشده به هوش مصنوعی ارائه نشده و Gemini Omni توانسته به خوبی صدای جدید را جایگزین کند.
«جاستین مور» که در ایکس معمولاً قابلیتهای هوش مصنوعی را آزمایش میکند، تست جالبی را انجام داده است. او ویدیویی از ماشینسواری خود در یک شهر را آپلود کرده و سپس چند اسکرینشات از Google Maps از مکانهای دیگر به هوش مصنوعی داده است. مدل از او خواسته شده تا ظاهر ویدیو را بر اساس آن نقشههای جدید تغییر دهد و ویدیو را در مکانهای جدید «دوباره فیلمبرداری» کند. هوش مصنوعی توانسته منظره بیرون ماشین را با توجه به لوکیشنهای جدید کاملاً تغییر دهد و جابهجایی بین این مکانها در ویدیو بهقدری روان و یکپارچه انجام شده که هیچ پرش یا قطعی در تصویر وجود ندارد.
همانطور که گوگل اشاره کرده، تمام ویدیوهای تولیدشده با استفاده از Omni دارای «واترمارک دیجیتال غیرقابلتشخیص SynthID هستند. این واترمارک به کاربران کمک میکند تا به راحتی تأیید کنند که آیا یک محتوا با هوش مصنوعی گوگل در پلتفرمهایی مانند جمینای، مرورگر کروم و جستجوی گوگل ساخته شده است یا خیر.