شركة Open AI تصمم نموذج Sora الجديد لتوليد الفيديو

بعد أن حصلت شركة Open AI على انتشار وشهرة واسعة نتيجة إطلاق تطبيق شات جي بي تي الذي فتح المجال نحو آفاق جديدة، تقوم الآن الشركة على تطوير استخدام تقنيات الذكاء الاصطناعي العام في توليد الفيديو، عن طريق مدخلات نصية باستخدام Sora، وبذلك تحقق طفرة ونقلة جديدة في مجال صناعة المحتوى المرئي.
نموذج توليد الفيديو Sora
يمكن عن طريق نموذج سورا إدخال وصف مختصر أو تفصيلي دقيق ويتم توليد مشاهد فيديو تشبه مقاطع الأفلام بدقة عالية تبلغ 1080 بكسل، كما يمكن أن يحتوي الفيديو على عدة شخصيات وتفاصيل في الخلفية وأنواع متعددة في الحركة، ويستطيع Sora مد مقاطع الفيديو الموجودة بالفعل ومحاولة استكمال التفاصيل المفقودة.
ذكرت Open AI في تدوينة لها حول مزايا نموذج سوار وقالت أنه يتمتع بالقدرة على الفهم العميق للغة، وبالتالي يمكنه تحليل وفهم الأوامر والأوصاف التي يدخلها المستخدم وتوليد شخصيات قريبة جدًا تعبر عن الحياة والمشاعر، ويفهم أيضًا طريقة تواجد الأشياء في العالم الحقيقي ويوفر توليد المقاطع بعدة أنماط مثل الرسوم المتحركة والصور الواقعية والأبيض والأسود لمدة دقيقة، وهي مدة أطول من معظم النماذج الحالية التي تحول النص إلى فيديو.

صعوبات تواجه نموذج Sora
يهتم النموذج بشكل كبير في الحفاظ على الترابط المنطقي أو المقبول، فلا يمكن تحريك الأجسام في اتجاهات غير واقعة فيزيائيًا، وعلى الرغم من ذلك ذكرت الشركة أن النموذج ليس مثاليًا وقد يجد مشكلة في المحاكاة الدقيقة لفيزياء بعض المشاهد ويمكن ألا يفهم بعض الحالات المعقدة، وقد يحدث أن يخلط النموذج في التفاصيل المكانية التي يدخلها الموجه مثل اليمين واليسار أو بعض الصعوبات في الوصف الدقيق للأحداث المرتبطة بمرور الوقت مثل اتخاذ زاوية أو مسار معين للكاميرا.