إنشاء أفلام كاملة من نص باستخدام أدوات الذكاء الاصطناعي من جوجل

تقنية جديدة مخيفة بعض الشيء لإنشاء أفلام كاملة من نص باستخدام أدوات الذكاء الاصطناعي من جوجل قد تشكل ثورة بعالم صناعة الأفلام

Hamza Dabjan 2023-02-18

0 522 3 دقائق

إنشاء أفلام كاملة من نص باستخدام أدوات الذكاء الاصطناعي من جوجل

منذ العام الماضي ، تتطور نماذج الذكاء الاصطناعي (AI) لإنشاء النصوص والصور ومقاطع الفيديو بسرعة فائقة. أصبح من الصعب مواكبة ذلك. بالمقارنة مع الشركات الناشئة عالية السرعة ، قرر عمالقة التكنولوجيا مثل Google السير في هذا المسار ببطء وبحذر. رغم ذلك ، فإن نتائج أبحاثهم مذهلة أيضًا. يعد أحدهم بإنشاء أفلام عالية الدقة من نص باستخدام AI من Google.

يجب أن يسمح نموذج التعلم العميق الجديد من Google للمستخدمين بإنشاء مقاطع فيديو عالية الجودة ، بناءً على مدخلات النص وحدها. يجمع هذا النهج بين اثنين من مشاريع تحويل النص إلى الفيديو الحديثة للشركة – Imagen Video و Phenaki. كلاهما لا يزال في مرحلة البحث والتطوير ، لكن العروض الأولى تظهر أن الذكاء الاصطناعي المذكور يمكن أن يغير قواعد اللعبة في صناعتنا. دعنا نغوص في هذا العالم الجديد معًا!

كيف تصنع أفلامًا من نصوص باستخدام الذكاء الاصطناعي من Google؟

التكنولوجيا الأولى التي يجب أن نلقي نظرة عليها تسمى Phenaki . كما هو موضح في الورقة البحثية الخاصة به ، فإن هذا النموذج قادر على أخذ عدة متواليات من المطالبات النصية ، وإنشاء روابط بينها ، ثم تجميع قصة مرئية متماسكة. من الخارج ، يبدو كما لو أن الذكاء الاصطناعي يقرأ المدخلات مثل سيناريو فيلم عادي ثم يقرر كيفية ترجمة القصة إلى صور (تبدو وكأنها وظيفة مخرج ، أليس كذلك؟). على سبيل المثال ، انظر كيف عالج Phenaki الوصف التالي: “منظر جانبي لرائد فضاء يسير عبر بركة مياه على سطح المريخ. رائد الفضاء يرقص على سطح المريخ. رائد الفضاء يمشي كلبه على المريخ ؛ رائد الفضاء وكلبه يشاهدان الألعاب النارية “.

4 صور ثابتة من مقطع فيديو تم إنشاؤه بواسطة Phenaki تظهر رائد فضاء يذهب ويرقص ويمشي مع كلبه ويشاهد الألعاب النارية خلفه باستخدام أدوات الذكاء الاصطناعي من Google — لقطات من الفيديو الذي تم إنشاؤه بواسطة Phenaki تظهر أجزاء مختلفة من القصة. مصدر الصورة: جوجل

لمشاهدتها وهي تتحرك ، توجه إلى صفحة Phenaki على الويب . ستجد هناك أيضًا العديد من عروض الفيديو الأخرى ، بما في ذلك المقاطع التي تزيد مدتها عن دقيقتين. أثناء المشاهدة ، يرجى الانتباه جيدًا إلى كيفية تعامل الذكاء الاصطناعي ببراعة مع التحولات السلسة. في المثال أعلاه ، لا يظهر الكلب من فراغ. يمشي في الإطار من الجانب ، تمامًا كما يفعل حيوان حقيقي. لكن دون الحاجة إلى تصوير أي شيء ، ويتم إنتاجه في غضون ثوان. القيد الوحيد المزعج باستخدام Phenaki هو دقة الفيديو ، والتي تبلغ حاليًا 128 × 128 بكسل فقط.

الارتقاء باستخدام Imagen Video

وهذا بالضبط هو المكان الذي يأتي فيه المشروع البحثي الثاني للذكاء الاصطناعي من غوغل. Imagen Video هو نظام جيل يستخدم سلسلة من نماذج نشر الفيديو لإنشاء مقطع قصير عالي الدقة من موجه نصي. ببساطة هو يأخذ ملاحظاتك النصية ويرمزها ويبدأ بتركيب مقطع فيديو صغير من 16 إطارًا بدقة 40 × 24 و 3 إطارات في الثانية. خطوة بخطوة ، بعد استخدام نماذج متعددة للتعلم العميق لترقية النتيجة ، يمكنه إنتاج فيديو عالي الدقة عادي (1280 × 768) ، والذي يمكن أن يصل إلى 5 ثوانٍ.

لقطة شاشة لموقع Google Imagen تعرض مقاطع مختلفة باستخدام أدوات الذكاء الاصطناعي من Google — بعض العروض على موقع Imagen Video. مصدر الصورة: جوجل

الباقي بسيط. من خلال الجمع بين قدرة Phenaki على إنشاء مقاطع فيديو طويلة متعددة التسلسل مع قوة Imagen في إزالة الترسبات عالية الدقة ، من الآمن أن نقول إن الذكاء الاصطناعي سيكون قادرًا قريبًا على إنتاج أفلام كاملة. ومع ذلك ، فإن تقنية Google ليست متاحة للجمهور حتى الآن. تتمثل إحدى مخاوف الشركة في احتمال إساءة استخدام هذه النماذج التوليدية – على سبيل المثال ، لإنشاء محتوى مزيف أو ضار. لهذا السبب قرر الباحثون عدم إطلاق الشبكات العصبية أو الكود المصدري حتى يجدوا طريقة لكيفية تصفية مواد الفيديو الناتجة.

ومع ذلك ، تم الوعد بإضافة بعض ميزات Imagen & Phenaki إلى تطبيق AI Test Kitchen . هناك يمكنك التعرف على مشروعات الذكاء الاصطناعي الناشئة من Google وتجربتها وتقديم ملاحظات بشأنها. التطبيق متاح حاليًا للمستخدمين الأمريكيين فقط ، ولكن يمكن للجميع تسجيل اهتمامهم والحصول على مكان في قائمة الانتظار هنا .

الإعلان عن تقنية الجيل الأول من الفيديو إلى الفيديو

تم الإعلان عن أداة ضخمة أخرى للذكاء الاصطناعي لصنع مقاطع الفيديو بواسطة Runway ، وهي شركة ناشئة مقرها نيويورك ، والتي ساعدت في إطلاق Stable Diffusion . قدمت الشركة مؤخرًا نموذجًا جديدًا يسمى Gen-1 ، والذي يمكنه تحويل مقاطع الفيديو الموجودة بصريًا إلى مقاطع فيديو جديدة تمامًا من خلال مطالبة نصية بسيطة.

مقدمة موجزة بالفيديو للجيل الأول. مصدر الفيديو: Runway