عملکرد واقعی GPT-5؛ چرا مدل جدید OpenAI همه را شگفت‌زده نکرد؟

معرفی GPT-5 با وعده‌های بزرگ

شرکت OpenAI هفته گذشته با هیجان فراوان از مدل جدید هوش مصنوعی خود، GPT-5، رونمایی کرد. مدیرعامل این شرکت، سم آلتمن، این مدل را «قوی‌ترین، سریع‌ترین و قابل‌اعتمادترین» مدلی که تاکنون توسعه داده‌اند توصیف کرد. او همچنین وعده داد که مشکل رایج در سیستم‌های هوش مصنوعی موسوم به «توهم» یا اطلاعات ساختگی در این نسخه به حداقل خواهد رسید.

شکاف بین وعده‌ها و واقعیت

با وجود این ادعاها، گزارش‌های اولیه کاربران و نتایج تست‌های مستقل که توسط وب‌سایت آمریکایی Axios منتشر شد، نشان داد که عملکرد GPT-5 به اندازه‌ای که انتظار می‌رفت چشمگیر نبوده است.

آلتمن اعلام کرده بود که حتی کاربران رایگان هم «سطح هوش در حد دکترا» را تجربه خواهند کرد. اما مشکلات فنی در روزهای ابتدایی عرضه، این تصویر را خدشه‌دار کرد. کاربران ChatGPT، اشتباهات مدل در پاسخ به پرسش‌های ساده ریاضی و جغرافیا را در شبکه‌های اجتماعی منتشر کرده و واکنش نشان دادند.

علت فنی مشکلات اولیه

به گفته آلتمن، دلیل این اتفاق این بود که درخواست‌های برخی کاربران به اشتباه به مدل‌های ضعیف‌تر هدایت شده و نسخه «استدلال پیشرفته» که از قدرت پردازشی بالاتری برخوردار است، فعال نشده بود. او اعلام کرد که این مشکل رفع شده و سیستم هدایت مدل (Model Routing) بهبود یافته است.

عملکرد GPT-5 در تست‌های توهم (Halüsinasyon)

نتایج مقایسه‌ای

پلتفرم Vectara که دقت پاسخ‌های هوش مصنوعی را ارزیابی می‌کند، عملکرد GPT-5 را با مدل‌های دیگر مقایسه کرده است:

GPT-4: نرخ توهم ۱٫۸٪
GPT-5: نرخ توهم ۱٫۴٪
GPT-4o: نرخ توهم ۱٫۳۱٪
o3-mini (High Reasoning): کمترین نرخ خطا با ۰٫۷۹۵٪

با اینکه GPT-5 نسبت به GPT-4 پیشرفت داشته، اختلاف آن محدود است. جالب اینجاست که مدل کوچک‌تر اما با توانایی استدلال بالاتر یعنی o3-mini High Reasoning دقیق‌ترین عملکرد را در بین همه مدل‌ها نشان داده است.

تردید در روند رشد هوش مصنوعی با مقیاس

دیدگاه منتقدان

تا پیش از این، باور غالب این بود که «هر چه مقیاس مدل بزرگ‌تر شود، هوش آن نیز افزایش می‌یابد». اما عرضه GPT-5 باعث شده برخی کارشناسان این فرضیه را زیر سؤال ببرند.

به عنوان مثال، گری مارکوس، منتقد حوزه هوش مصنوعی و نویسنده روزنامه The Guardian، گفته است:

«اگر هنوز کسی باور دارد که تنها با بزرگ‌تر کردن مدل می‌توان به AGI (هوش مصنوعی عمومی) رسید، بعد از این اتفاق باید دوباره فکر کند.»

برنامه‌های بعدی OpenAI

اقدامات اعلام‌شده

OpenAI برای رفع نواقص و بهبود تجربه کاربران اقدامات زیر را انجام داده است:

بازگشایی دسترسی به مدل‌های قدیمی‌تر مانند GPT-4o
افزایش تعداد کاربران دارای دسترسی به حالت استدلال پیشرفته
اضافه کردن قابلیت نمایش نام مدل استفاده‌شده در رابط کاربری ChatGPT
بازطراحی سیستم هدایت خودکار مدل (Auto-switcher)

نگرانی درباره پیوند عاطفی با هوش مصنوعی

آلتمن همچنین اشاره کرد که برخی کاربران با مدل‌های هوش مصنوعی ارتباط عاطفی برقرار می‌کنند. او گفت این موضوع را به‌طور جدی بررسی می‌کنند تا اطمینان حاصل شود که این وابستگی، سلامت روان کاربران را تهدید نکند.

نتیجه‌گیری

مدل GPT-5 گرچه پیشرفتی نسبی نسبت به نسل قبل داشته، اما آن جهش چشمگیری که بسیاری انتظار داشتند را ارائه نکرده است. رقابت در حوزه هوش مصنوعی همچنان داغ است و به نظر می‌رسد آینده بیشتر از آنکه به «بزرگ‌تر کردن مدل‌ها» وابسته باشد، به بهینه‌سازی استدلال و کاهش خطاها بستگی دارد.