نمره پایین ChatGPT در آزمون علمی؛ زنگ خطر دقت

ChatGPT معمولاً با لحنی مطمئن، شفاف و قانع‌کننده پاسخ می‌دهد. اما یک مطالعه جدید نشان می‌دهد این اعتمادبه‌نفس ممکن است یک مشکل عمیق‌تر را پنهان کند.
در این تحقیق مشخص شد که وقتی یک سؤال چندین بار تکرار می‌شود، ChatGPT می‌تواند پاسخ‌های متفاوتی ارائه دهد؛ حتی زمانی که هیچ تغییری در ورودی ایجاد نشده است.
در برخی موارد، پاسخ‌ها بین «درست» و «نادرست» برای یک ادعای کاملاً یکسان جابه‌جا می‌شوند.

این سطح از ناهماهنگی یک نگرانی جدی ایجاد می‌کند. اگر پاسخ بدون دلیل تغییر کند، تا چه حد می‌توان در موقعیت‌های حساس به آن اعتماد کرد؟

بررسی دقت ChatGPT در آزمون علمی

در این آزمایش، صدها فرضیه از مقالات علمی منتشرشده انتخاب شد و از سیستم خواسته شد مشخص کند هرکدام «درست» یا «نادرست» هستند.

با اجرای یک سؤال یکسان به‌صورت ده‌باره، Mesut Cicek از دانشگاه ایالتی واشنگتن نشان داد که حتی ورودی‌های کاملاً مشابه می‌توانند پاسخ‌های متناقض تولید کنند.

برخی ادعاها بین درست و نادرست نوسان داشتند
هیچ تغییری در ورودی داده نشده بود
پاسخ‌ها صرفاً به‌صورت تصادفی تغییر می‌کردند

این تغییرات نشان‌دهنده یک محدودیت اساسی در نحوه ارزیابی ادعاها توسط این سیستم است و ضرورت بررسی دقیق‌تر منشأ این خطاها را مطرح می‌کند.

کاهش دقت ChatGPT؛ از عملکرد ظاهری تا واقعیت

کجا ChatGPT دچار خطا می‌شود؟

بیشترین خطاها در مورد فرضیه‌های بدون پشتوانه مشاهده شد. این موضوع نشان‌دهنده یک سوگیری پایدار به سمت تأیید است که مدل نتوانسته آن را برطرف کند.

در سال 2025، تنها 16.4٪ از ادعاهای نادرست به‌درستی شناسایی شدند
سیستم تمایل دارد پاسخ «بله» بدهد
تشخیص خطا سخت‌تر از تطبیق الگوهای آشنا است

در نگاه اول، عملکرد کلی مناسب به نظر می‌رسد؛ دقت از 76.5٪ در سال 2024 به 80٪ در سال 2025 رسیده است. اما وقتی اثر حدس تصادفی حذف می‌شود، دقت واقعی به حدود 60٪ کاهش پیدا می‌کند؛ معادل یک نمره پایین (Low D).

این اختلاف به این دلیل است که در سؤالات درست یا غلط، هر پاسخ به‌طور پیش‌فرض 50٪ شانس درست بودن دارد. بنابراین، افت شدید امتیاز نشان می‌دهد که استفاده از این ابزار برای تصمیم‌گیری‌های واقعی می‌تواند پرریسک باشد.

یک سؤال، پاسخ‌های متفاوت؛ چالش ناپایداری

تکرار آزمایش یک مشکل دیگر را نیز آشکار کرد: پاسخ‌ها پایدار نبودند. در سال 2025، تنها 72.9٪ از پاسخ‌ها در تمام تکرارها ثابت و صحیح باقی ماندند.

این یعنی یک پاسخ ممکن است در نگاه اول کاملاً قابل اعتماد به نظر برسد، اما با تکرار سؤال، شکنندگی آن مشخص شود.

کجا عملکرد بهتر است؟

روابط ساده علت و معلولی
سناریوهای خطی و قابل پیش‌بینی

کجا عملکرد ضعیف‌تر است؟

مسائل وابسته به زمینه (Context)
تصمیم‌گیری‌های پیچیده مانند قیمت‌گذاری، استراتژی بازار

این‌ها دقیقاً همان تصمیماتی هستند که در دنیای واقعی اهمیت بالایی دارند. در چنین شرایطی، سیستم ممکن است جزئیات حیاتی را نادیده بگیرد، در حالی که همچنان متقاعدکننده به نظر برسد.

وقتی اعتمادبه‌نفس ChatGPT از دقت جلو می‌زند

مدل‌های زبانی بزرگ (LLM) بر اساس پیش‌بینی کلمات بعدی آموزش دیده‌اند، نه بررسی صحت اطلاعات در دنیای واقعی.

این طراحی باعث می‌شود پاسخ‌ها روان و مطمئن باشند، حتی زمانی که پایه واقعی ندارند. شرکت OpenAI نیز تأیید کرده که ChatGPT ممکن است دچار «توهم» شود؛ یعنی پاسخ‌هایی تولید کند که به نظر درست می‌آیند اما از نظر علمی نادرست هستند.

این ترکیب خطرناک است: پاسخ اشتباه می‌تواند کاملاً قابل اعتماد به نظر برسد.

مناسب برای تولید پیش‌نویس
ریسک بالا در تصمیم‌گیری‌های حساس
احتمال انحراف در استراتژی، بودجه یا محصول

چگونه هوشمندانه از ChatGPT استفاده کنیم؟

نتیجه‌گیری ساده است: از هوش مصنوعی برای سرعت استفاده کنید، اما بدون بررسی به آن اعتماد نکنید.

پاسخ‌ها را به‌عنوان پیش‌نویس در نظر بگیرید
سؤال را چندبار تکرار کنید
منابع را بررسی کنید
پاسخ را با نظر کارشناسان مقایسه کنید
به دنبال زمینه‌های حذف‌شده باشید

این اقدامات ساده می‌توانند خطاهایی را که در ظاهر حرفه‌ای پنهان شده‌اند، آشکار کنند.

آینده ChatGPT و ابزارهای هوش مصنوعی

این مطالعه به‌طور کامل پرونده همه ابزارهای هوش مصنوعی را نمی‌بندد. اما نشان می‌دهد که حتی با پیشرفت‌های جدید، این سیستم هنوز به یک تحلیل‌گر قابل اعتماد تبدیل نشده است.

در این آزمایش، عملکرد ChatGPT در سال 2025 نسبت به 2024 بهتر شده، اما هنوز به سطحی نرسیده که بتوان بدون نظارت به آن تکیه کرد.

پیام اصلی روشن است: ظاهر حرفه‌ای را با قدرت تحلیل واقعی اشتباه نگیرید.

جمع‌بندی: نمره پایین ChatGPT در آزمون علمی

نمره پایین ChatGPT در آزمون علمی نشان می‌دهد که این ابزار هنوز برای تصمیم‌گیری مستقل مناسب نیست. نقش آن بیشتر به‌عنوان یک دستیار اولیه است، نه یک مرجع نهایی.

نظر شما درباره دقت ChatGPT چیست؟ تجربه خود را در کامنت‌ها بنویسید و این مقاله را با همکاران خود به اشتراک بگذارید.