علیبابا مدل هوش مصنوعی Qwen2.5-VL را معرفی کرد که قادر به تحلیل متن، تصویر و ویدئو است. این مدل در بنچمارکها عملکرد بهتری نسبت به GPT-4o نشان داده و قابلیت کنترل نرمافزارها را دارد، اما برای استفاده تجاری، نیاز به مجوز ویژه از علیبابا است.
در دنیای پرشتاب هوش مصنوعی، شرکت علیبابا با معرفی مدل جدید خود، Qwen2.5-VL، گامی بلند برداشته است. این مدل پیشرفته با قابلیتهای تحلیل متن، تصویر و ویدئو، تواناییهایی فراتر از مدلهای قبلی ارائه میدهد. در همین خصوص ارز Qwen AI Agent با رشد قابل توجه ای روبرو شد.
قابلیتهای برجسته Qwen2.5-VL
-
تحلیل چندرسانهای: این مدل میتواند فایلها را پردازش کرده، ویدئوها را تحلیل کند و اشیاء را در تصاویر بشمارد.
-
تعامل با نرمافزارها: یکی از ویژگیهای منحصربهفرد Qwen2.5-VL، توانایی کنترل نرمافزارها در کامپیوترهای شخصی و دستگاههای هوشمند است. بهعنوان مثال، این مدل قادر است اپلیکیشنهایی مانند Booking.com را در سیستمعامل اندروید اجرا کرده و حتی پروازی را رزرو کند.
عملکرد در بنچمارکها
براساس نتایج بنچمارکها، Qwen2.5-VL در ارزیابیهایی مانند تحلیل ویدئو، مسائل ریاضی، پردازش اسناد و پاسخدهی به پرسشها، عملکرد بهتری نسبت به مدلهای مطرحی همچون GPT-4o و Claude 3.5 Sonnet نشان داده است.
محدودیتها و ملاحظات
با توجه به توسعه این مدل در چین، محدودیتهایی در پاسخدهی به برخی موضوعات وجود دارد. برای مثال، در پاسخ به سؤالاتی درباره «اشتباهات شی جینپینگ»، Qwen2.5-VL از ارائه پاسخ خودداری میکند.
دسترسی و مجوزها
دو نسخه کوچکتر از این مدل، یعنی Qwen2.5-VL-3B و Qwen2.5-VL-7B، بهصورت متنباز ارائه شدهاند. اما نسخه پیشرفتهتر، Qwen2.5-VL-72B، تحت مجوز خاصی قرار دارد که برای استفاده تجاری، نیاز به دریافت مجوز از علیبابا دارد.
جمعبندی
معرفی Qwen2.5-VL نشاندهنده پیشرفتهای قابلتوجه علیبابا در حوزه هوش مصنوعی است. با این حال، محدودیتهای موجود و نیاز به مجوزهای خاص برای استفاده تجاری، از جمله ملاحظاتی است که توسعهدهندگان و شرکتها باید در نظر داشته باشند.