غوغل تطلق نموذج ذكاء اصطناعي متعدد الوسائط بقدرات غير مسبوقة

أعلنت شركة “غوغل” عن إطلاق نموذجها الجديد “Gemini Omni”، في خطوة وصفت بأنها من أبرز التحركات نحو تحقيق مفهوم الذكاء الاصطناعي العام.

ويأتي النموذج الجديد ضمن استراتيجية الشركة لتوسيع قدرات الذكاء الاصطناعي متعددة الوسائط، بحيث يصبح أكثر قدرة على فهم العالم والتفاعل معه بطريقة تشبه الإدراك البشري.

بحسب “غوغل”، فإن “Gemini Omni” لا يقتصر على معالجة النصوص فقط، بل يمكنه التعامل مع الصور والصوت والفيديو في الوقت نفسه، ما يمنحه قدرة متقدمة على إنشاء محتوى مرئي وتحريره اعتماداً على أوامر مكتوبة أو صوتية بسيطة.

ويُعد “Omni Flash” أول إصدار ضمن هذه السلسلة الجديدة، حيث تم دمجه بالفعل في تطبيق “Gemini” ومنصة “Google Flow”، وميزة “youtube Shorts”.

وأكدت الشركة أن النموذج الجديد يستطيع تعديل الفيديوهات بشكل تفاعلي، إذ يمكن للمستخدم تحميل مقطع فيديو أو صورة شخصية ثم توجيه النموذج لإجراء تغييرات بصرية معقدة باستخدام اللغة الطبيعية فقط، مثل تغيير الخلفيات أو إضافة عناصر جديدة أو تحويل المشهد إلى نمط فني مختلف.

ووصف الرئيس التنفيذي لـ”Google DeepMind”، ديميس هاسابيس، “Gemini Omni” بأنه نموذج عالمي قادر على فهم القوانين الفيزيائية والسياقات الواقعية بشكل أعمق من النماذج السابقة، مشيراً إلى أن التقنية الجديدة تمثل قفزة مهمة نحو تطوير أنظمة ذكاء اصطناعي عامة تستطيع التفكير والتفاعل بصورة أقرب للبشر.

وخلال العرض التوضيحي في مؤتمر Google I/O، استعرضت “غوغل” قدرة النموذج في مجالات التعليم والإبداع والإنتاج الإعلامي.

توسع شامل
وجاء إطلاق “Gemini Omni” بالتزامن مع إعلان “غوغل” عن نموذج “Gemini 3.5 Flash”، الذي سيصبح النموذج الافتراضي داخل تطبيق “Gemini” بفضل سرعته العالية وقدراته المحسنة في البرمجة والإنتاجية.

كما كشفت الشركة عن توجه جديد نحو الذكاء الاصطناعي الوكيل الذي يسمح للأنظمة الرقمية بتنفيذ المهام بشكل شبه مستقل.

ويرى مراقبون أن التحركات الأخيرة تعكس تصاعد المنافسة بين شركات التكنولوجيا الكبرى في سباق تطوير الذكاء الاصطناعي العام، خاصة مع تركيز الشركات على دمج النماذج متعددة الوسائط داخل التطبيقات والخدمات اليومية لمئات الملايين من المستخدمين حول العالم.