ویدیوهای شگفت‌انگیز ساخته‌شده با جمینای Omni؛ از ترجمه صدا تا شبیه‌سازی فیزیک

اشتراک‌گذاری سریع

گوگل با معرفی خانواده هوش مصنوعی Gemini Omni، ادعا کرده است که این مدل‌ها می‌توانند هر نوع محتوایی از جمله صدا، ویدیو، عکس و متن را تولید کنند. اولین مدل از این سری با نام Gemini Omni Flash در اپلیکیشن جمینای، گوگل فلو و یوتوب شورتس در دسترس قرار گرفته و کاربران شبکه‌های اجتماعی تاکنون ویدیوهای خلاقانه و جالبی با آن تولید کرده‌اند.

نمونه‌های تولید شده با Gemini Omni

«بیلاوال سیدو»، مدیر محصول سابق گوگل، یکی از افرادی است که عملکرد هوش مصنوعی Gemini Omni را آزمایش کرده است. او با استفاده از خطوط ساده روی یک تصویر، مسیری را برای پرواز یک پهپاد تعیین کرده و از هوش مصنوعی خواسته تا ویدیویی از زاویه دید پهپاد تولید کند. نتیجه این درخواست را در ویدیو زیر می‌توانید مشاهده کنید.

به همین ترتیب، در ویدیوی زیر از هوش مصنوعی خواسته شده تا بر اساس نقاشی یک ماهی و مسیری که برای آن تعیین شده، یک ویدیو کاملاً واقعی بسازد.

ویدیوی دیگری نیز توسط کاربر دیگری ساخته شده که توانایی Gemini Omni در «انتقال حرکت و استایل» را به نمایش می‌گذارد. در این درخواست، از مدل خواسته شده تا حرکات و ژست‌های یک شخص در یک ویدیو را کپی کرده و روی شخصیتی که در یک عکس قرار دارد، پیاده کند و در نهایت رنگ و لعاب و سبک بصری ویدیو را شبیه به آن عکس نمونه تغییر دهد.

یکی دیگر از کاربران به توانایی مدل در ترجمه صدا پرداخته و از Gemini Omni خواسته تا صدای گوینده را در ویدیو به زبان‌های دیگر مانند آلمانی، اسپانیایی و ژاپنی ترجمه کند. جالب اینجاست که در این مثال متن اصلی یا ترجمه‌شده به هوش مصنوعی ارائه نشده و Gemini Omni توانسته به خوبی صدای جدید را جایگزین کند.

«جاستین مور» که در ایکس معمولاً قابلیت‌های هوش مصنوعی را آزمایش می‌کند، تست جالبی را انجام داده است. او ویدیویی از ماشین‌سواری خود در یک شهر را آپلود کرده و سپس چند اسکرین‌شات از Google Maps از مکان‌های دیگر به هوش مصنوعی داده است. مدل از او خواسته شده تا ظاهر ویدیو را بر اساس آن نقشه‌های جدید تغییر دهد و ویدیو را در مکان‌های جدید «دوباره فیلم‌برداری» کند. هوش مصنوعی توانسته منظره بیرون ماشین را با توجه به لوکیشن‌های جدید کاملاً تغییر دهد و جابه‌جایی بین این مکان‌ها در ویدیو به‌قدری روان و یکپارچه انجام شده که هیچ پرش یا قطعی در تصویر وجود ندارد.

همان‌طور که گوگل اشاره کرده، تمام ویدیوهای تولیدشده با استفاده از Omni دارای «واترمارک دیجیتال غیرقابل‌تشخیص SynthID هستند. این واترمارک به کاربران کمک می‌کند تا به راحتی تأیید کنند که آیا یک محتوا با هوش مصنوعی گوگل در پلتفرم‌هایی مانند جمینای، مرورگر کروم و جستجوی گوگل ساخته شده است یا خیر.