• رئيس التحرير: صلاح عبدالله العطار

  • En

آبل تكشف عن Manzano.. نموذج ذكاء اصطناعي جديد لفهم الصور وتوليدها..

كشفت شركة آبل عن تفاصيل نموذج جديد يحمل اسم Manzano مخصص لفهم الصور وتوليدها في آن واحد، وهو مجال معقد طالما شكّل عقبة أمام النماذج المفتوحة المصدر مقارنةً بالأنظمة التجارية المتقدمة مثل تلك التي تطورها جوجل و OpenAI.

ولم يُطرح النموذج، الذي يعني اسمه شجرة التفاح بالإسبانية، بعدُ للاستخدام العام، ولم توفر الشركة عرضًا تجريبيًا له، بل اكتفت بنشر ورقة بحثية تضم عينات صور منخفضة الدقة استُخدمت لمقارنة أدائه مع نماذج مفتوحة المصدر مثل Deepseek Janus Pro وأنظمة تجارية مثل GPT-4o و Gemini 2.5 Flash Image Generation المعروف أيضًا باسم Nano Banana .


وتؤكد آبل أن النماذج المفتوحة المصدر غالبًا ما تضطر إلى الاختيار بين قوة تحليل الصور أو جودة توليدها، في حين تجمع النماذج التجارية بين المهمتين معًا.

ويعود ذلك إلى طبيعة معالجة الصور، إذ يتطلب الفهم تدفقات بيانات متواصلة، في حين يحتاج التوليد إلى تقسيم الصور إلى رموز منفصلة، مما يؤدي عادة إلى تضارب داخل النموذج اللغوي.

ولحل هذه المعضلة، ابتكرت آبل تصميمًا هجينًا يعتمد على مُرمّز صور مشترك ينتج نوعين من الرموز، رموز مستمرة تُستخدم لفهم الصور، ورموز منفصلة تُخصص لتوليدها. ويسمح هذا النهج بتقليل التعارض بين المهمتين، ويمنح النموذج مرونة أكبر في التعامل مع النصوص والرسوم المعقدة.