ChatGPT معمولاً با لحنی مطمئن، شفاف و قانعکننده پاسخ میدهد. اما یک مطالعه جدید نشان میدهد این اعتمادبهنفس ممکن است یک مشکل عمیقتر را پنهان کند.
در این تحقیق مشخص شد که وقتی یک سؤال چندین بار تکرار میشود، ChatGPT میتواند پاسخهای متفاوتی ارائه دهد؛ حتی زمانی که هیچ تغییری در ورودی ایجاد نشده است.
در برخی موارد، پاسخها بین «درست» و «نادرست» برای یک ادعای کاملاً یکسان جابهجا میشوند.
این سطح از ناهماهنگی یک نگرانی جدی ایجاد میکند. اگر پاسخ بدون دلیل تغییر کند، تا چه حد میتوان در موقعیتهای حساس به آن اعتماد کرد؟
بررسی دقت ChatGPT در آزمون علمی
در این آزمایش، صدها فرضیه از مقالات علمی منتشرشده انتخاب شد و از سیستم خواسته شد مشخص کند هرکدام «درست» یا «نادرست» هستند.
با اجرای یک سؤال یکسان بهصورت دهباره، Mesut Cicek از دانشگاه ایالتی واشنگتن نشان داد که حتی ورودیهای کاملاً مشابه میتوانند پاسخهای متناقض تولید کنند.
- برخی ادعاها بین درست و نادرست نوسان داشتند
- هیچ تغییری در ورودی داده نشده بود
- پاسخها صرفاً بهصورت تصادفی تغییر میکردند
این تغییرات نشاندهنده یک محدودیت اساسی در نحوه ارزیابی ادعاها توسط این سیستم است و ضرورت بررسی دقیقتر منشأ این خطاها را مطرح میکند.
کاهش دقت ChatGPT؛ از عملکرد ظاهری تا واقعیت
کجا ChatGPT دچار خطا میشود؟
بیشترین خطاها در مورد فرضیههای بدون پشتوانه مشاهده شد. این موضوع نشاندهنده یک سوگیری پایدار به سمت تأیید است که مدل نتوانسته آن را برطرف کند.
- در سال 2025، تنها 16.4٪ از ادعاهای نادرست بهدرستی شناسایی شدند
- سیستم تمایل دارد پاسخ «بله» بدهد
- تشخیص خطا سختتر از تطبیق الگوهای آشنا است
در نگاه اول، عملکرد کلی مناسب به نظر میرسد؛ دقت از 76.5٪ در سال 2024 به 80٪ در سال 2025 رسیده است. اما وقتی اثر حدس تصادفی حذف میشود، دقت واقعی به حدود 60٪ کاهش پیدا میکند؛ معادل یک نمره پایین (Low D).
این اختلاف به این دلیل است که در سؤالات درست یا غلط، هر پاسخ بهطور پیشفرض 50٪ شانس درست بودن دارد. بنابراین، افت شدید امتیاز نشان میدهد که استفاده از این ابزار برای تصمیمگیریهای واقعی میتواند پرریسک باشد.
یک سؤال، پاسخهای متفاوت؛ چالش ناپایداری
تکرار آزمایش یک مشکل دیگر را نیز آشکار کرد: پاسخها پایدار نبودند. در سال 2025، تنها 72.9٪ از پاسخها در تمام تکرارها ثابت و صحیح باقی ماندند.
این یعنی یک پاسخ ممکن است در نگاه اول کاملاً قابل اعتماد به نظر برسد، اما با تکرار سؤال، شکنندگی آن مشخص شود.
کجا عملکرد بهتر است؟
- روابط ساده علت و معلولی
- سناریوهای خطی و قابل پیشبینی
کجا عملکرد ضعیفتر است؟
- مسائل وابسته به زمینه (Context)
- تصمیمگیریهای پیچیده مانند قیمتگذاری، استراتژی بازار
اینها دقیقاً همان تصمیماتی هستند که در دنیای واقعی اهمیت بالایی دارند. در چنین شرایطی، سیستم ممکن است جزئیات حیاتی را نادیده بگیرد، در حالی که همچنان متقاعدکننده به نظر برسد.
وقتی اعتمادبهنفس ChatGPT از دقت جلو میزند
مدلهای زبانی بزرگ (LLM) بر اساس پیشبینی کلمات بعدی آموزش دیدهاند، نه بررسی صحت اطلاعات در دنیای واقعی.
این طراحی باعث میشود پاسخها روان و مطمئن باشند، حتی زمانی که پایه واقعی ندارند. شرکت OpenAI نیز تأیید کرده که ChatGPT ممکن است دچار «توهم» شود؛ یعنی پاسخهایی تولید کند که به نظر درست میآیند اما از نظر علمی نادرست هستند.
این ترکیب خطرناک است: پاسخ اشتباه میتواند کاملاً قابل اعتماد به نظر برسد.
- مناسب برای تولید پیشنویس
- ریسک بالا در تصمیمگیریهای حساس
- احتمال انحراف در استراتژی، بودجه یا محصول
چگونه هوشمندانه از ChatGPT استفاده کنیم؟
نتیجهگیری ساده است: از هوش مصنوعی برای سرعت استفاده کنید، اما بدون بررسی به آن اعتماد نکنید.
- پاسخها را بهعنوان پیشنویس در نظر بگیرید
- سؤال را چندبار تکرار کنید
- منابع را بررسی کنید
- پاسخ را با نظر کارشناسان مقایسه کنید
- به دنبال زمینههای حذفشده باشید
این اقدامات ساده میتوانند خطاهایی را که در ظاهر حرفهای پنهان شدهاند، آشکار کنند.
آینده ChatGPT و ابزارهای هوش مصنوعی
این مطالعه بهطور کامل پرونده همه ابزارهای هوش مصنوعی را نمیبندد. اما نشان میدهد که حتی با پیشرفتهای جدید، این سیستم هنوز به یک تحلیلگر قابل اعتماد تبدیل نشده است.
در این آزمایش، عملکرد ChatGPT در سال 2025 نسبت به 2024 بهتر شده، اما هنوز به سطحی نرسیده که بتوان بدون نظارت به آن تکیه کرد.
پیام اصلی روشن است: ظاهر حرفهای را با قدرت تحلیل واقعی اشتباه نگیرید.
جمعبندی: نمره پایین ChatGPT در آزمون علمی
نمره پایین ChatGPT در آزمون علمی نشان میدهد که این ابزار هنوز برای تصمیمگیری مستقل مناسب نیست. نقش آن بیشتر بهعنوان یک دستیار اولیه است، نه یک مرجع نهایی.
نظر شما درباره دقت ChatGPT چیست؟ تجربه خود را در کامنتها بنویسید و این مقاله را با همکاران خود به اشتراک بگذارید.