پنجشنبه, ۴ تیر ۱۴۰۵
  • EN
  • تبلیغات
  • تماس با ما
  • درباره ما
فوت و فن
  • دانش و فن
    • موبایل و تبلت
    • هوش مصنوعی
    • اپراتورها و وب
    • برنامه و نرم افزار
    • دنیای بازی
    • گوناگون
      • تلویزیون
      • سخت افزار
  • اقتصاد
    • اقتصاد بین الملل
    • بازارها
    • بانکداری و تجارت الکترونیک
    • خودرو
    • وبگردی
    • رپورتاژ
  • ورزش
    • فوتبال
    • موتوری
  • سبک زندگی
    • سلامت
    • تغذیه
    • طبیعت
    • حیوانات
    • آشپزی
    • خلاقیت
  • گردشگری
    • گردشگری
  • فرهنگ و هنر
    • فیلم و سریال
    • کتاب و مجله
    • آثار باستانی
    • صنایع دستی
  • چند رسانه‌ای
    • عکس
    • ویدیو
    • خودمونی
    • همیاری
هوش مصنوعی

نمره پایین ChatGPT در آزمون علمی؛ زنگ خطر دقت

شهاب الدین حدیدی ۱ فروردین ۱۴۰۵
A+A-
Reset
نمره پایین ChatGPT در آزمون علمی
71

ChatGPT معمولاً با لحنی مطمئن، شفاف و قانع‌کننده پاسخ می‌دهد. اما یک مطالعه جدید نشان می‌دهد این اعتمادبه‌نفس ممکن است یک مشکل عمیق‌تر را پنهان کند.
در این تحقیق مشخص شد که وقتی یک سؤال چندین بار تکرار می‌شود، ChatGPT می‌تواند پاسخ‌های متفاوتی ارائه دهد؛ حتی زمانی که هیچ تغییری در ورودی ایجاد نشده است.
در برخی موارد، پاسخ‌ها بین «درست» و «نادرست» برای یک ادعای کاملاً یکسان جابه‌جا می‌شوند.

این سطح از ناهماهنگی یک نگرانی جدی ایجاد می‌کند. اگر پاسخ بدون دلیل تغییر کند، تا چه حد می‌توان در موقعیت‌های حساس به آن اعتماد کرد؟

بررسی دقت ChatGPT در آزمون علمی

در این آزمایش، صدها فرضیه از مقالات علمی منتشرشده انتخاب شد و از سیستم خواسته شد مشخص کند هرکدام «درست» یا «نادرست» هستند.

با اجرای یک سؤال یکسان به‌صورت ده‌باره، Mesut Cicek از دانشگاه ایالتی واشنگتن نشان داد که حتی ورودی‌های کاملاً مشابه می‌توانند پاسخ‌های متناقض تولید کنند.

  • برخی ادعاها بین درست و نادرست نوسان داشتند
  • هیچ تغییری در ورودی داده نشده بود
  • پاسخ‌ها صرفاً به‌صورت تصادفی تغییر می‌کردند

این تغییرات نشان‌دهنده یک محدودیت اساسی در نحوه ارزیابی ادعاها توسط این سیستم است و ضرورت بررسی دقیق‌تر منشأ این خطاها را مطرح می‌کند.

کاهش دقت ChatGPT؛ از عملکرد ظاهری تا واقعیت

کجا ChatGPT دچار خطا می‌شود؟

بیشترین خطاها در مورد فرضیه‌های بدون پشتوانه مشاهده شد. این موضوع نشان‌دهنده یک سوگیری پایدار به سمت تأیید است که مدل نتوانسته آن را برطرف کند.

  • در سال 2025، تنها 16.4٪ از ادعاهای نادرست به‌درستی شناسایی شدند
  • سیستم تمایل دارد پاسخ «بله» بدهد
  • تشخیص خطا سخت‌تر از تطبیق الگوهای آشنا است

در نگاه اول، عملکرد کلی مناسب به نظر می‌رسد؛ دقت از 76.5٪ در سال 2024 به 80٪ در سال 2025 رسیده است. اما وقتی اثر حدس تصادفی حذف می‌شود، دقت واقعی به حدود 60٪ کاهش پیدا می‌کند؛ معادل یک نمره پایین (Low D).

این اختلاف به این دلیل است که در سؤالات درست یا غلط، هر پاسخ به‌طور پیش‌فرض 50٪ شانس درست بودن دارد. بنابراین، افت شدید امتیاز نشان می‌دهد که استفاده از این ابزار برای تصمیم‌گیری‌های واقعی می‌تواند پرریسک باشد.

یک سؤال، پاسخ‌های متفاوت؛ چالش ناپایداری

تکرار آزمایش یک مشکل دیگر را نیز آشکار کرد: پاسخ‌ها پایدار نبودند. در سال 2025، تنها 72.9٪ از پاسخ‌ها در تمام تکرارها ثابت و صحیح باقی ماندند.

این یعنی یک پاسخ ممکن است در نگاه اول کاملاً قابل اعتماد به نظر برسد، اما با تکرار سؤال، شکنندگی آن مشخص شود.

کجا عملکرد بهتر است؟

  • روابط ساده علت و معلولی
  • سناریوهای خطی و قابل پیش‌بینی

کجا عملکرد ضعیف‌تر است؟

  • مسائل وابسته به زمینه (Context)
  • تصمیم‌گیری‌های پیچیده مانند قیمت‌گذاری، استراتژی بازار

این‌ها دقیقاً همان تصمیماتی هستند که در دنیای واقعی اهمیت بالایی دارند. در چنین شرایطی، سیستم ممکن است جزئیات حیاتی را نادیده بگیرد، در حالی که همچنان متقاعدکننده به نظر برسد.

وقتی اعتمادبه‌نفس ChatGPT از دقت جلو می‌زند

مدل‌های زبانی بزرگ (LLM) بر اساس پیش‌بینی کلمات بعدی آموزش دیده‌اند، نه بررسی صحت اطلاعات در دنیای واقعی.

این طراحی باعث می‌شود پاسخ‌ها روان و مطمئن باشند، حتی زمانی که پایه واقعی ندارند. شرکت OpenAI نیز تأیید کرده که ChatGPT ممکن است دچار «توهم» شود؛ یعنی پاسخ‌هایی تولید کند که به نظر درست می‌آیند اما از نظر علمی نادرست هستند.

این ترکیب خطرناک است: پاسخ اشتباه می‌تواند کاملاً قابل اعتماد به نظر برسد.

  • مناسب برای تولید پیش‌نویس
  • ریسک بالا در تصمیم‌گیری‌های حساس
  • احتمال انحراف در استراتژی، بودجه یا محصول

چگونه هوشمندانه از ChatGPT استفاده کنیم؟

نتیجه‌گیری ساده است: از هوش مصنوعی برای سرعت استفاده کنید، اما بدون بررسی به آن اعتماد نکنید.

  • پاسخ‌ها را به‌عنوان پیش‌نویس در نظر بگیرید
  • سؤال را چندبار تکرار کنید
  • منابع را بررسی کنید
  • پاسخ را با نظر کارشناسان مقایسه کنید
  • به دنبال زمینه‌های حذف‌شده باشید

این اقدامات ساده می‌توانند خطاهایی را که در ظاهر حرفه‌ای پنهان شده‌اند، آشکار کنند.

آینده ChatGPT و ابزارهای هوش مصنوعی

این مطالعه به‌طور کامل پرونده همه ابزارهای هوش مصنوعی را نمی‌بندد. اما نشان می‌دهد که حتی با پیشرفت‌های جدید، این سیستم هنوز به یک تحلیل‌گر قابل اعتماد تبدیل نشده است.

در این آزمایش، عملکرد ChatGPT در سال 2025 نسبت به 2024 بهتر شده، اما هنوز به سطحی نرسیده که بتوان بدون نظارت به آن تکیه کرد.

پیام اصلی روشن است: ظاهر حرفه‌ای را با قدرت تحلیل واقعی اشتباه نگیرید.

جمع‌بندی: نمره پایین ChatGPT در آزمون علمی

نمره پایین ChatGPT در آزمون علمی نشان می‌دهد که این ابزار هنوز برای تصمیم‌گیری مستقل مناسب نیست. نقش آن بیشتر به‌عنوان یک دستیار اولیه است، نه یک مرجع نهایی.


نظر شما درباره دقت ChatGPT چیست؟ تجربه خود را در کامنت‌ها بنویسید و این مقاله را با همکاران خود به اشتراک بگذارید.

تحلیل دادهخطای AIدقت ChatGPTمدل زبانینمره ChatGPTهوش مصنوعی
0 نظر FacebookTwitterPinterestLinkedinTumblrVKRedditEmail
شهاب الدین حدیدی

شهاب الدین حدیدی هستم، سردبیر فوت و فن. زندگی آنلاین یکی از تفریحات من در زمانیست که از ترافیک و شلوغی و هیاهو در فرار هستم.

مطلب قبلی
دو میوه شگفت‌انگیز برای کاهش فشار خون و سلامت قلب
مطلب بعدی
بازگشت مد ۲۰ ساله؛ چرا لباس‌های قدیمی دوباره ترند می‌شوند؟

شما هم نظر دهید Cancel Reply

برای دفعه بعد که نظر می‌دهم نام و ایمیل من را در این مرورگر ذخیره کنید.

* با استفاده از این فرم، با ذخیره و مدیریت داده‌های خود توسط این وب سایت موافقت می‌کنم.

مطالب مرتبط

  • مهاجرت جهانی از سال ۲۰۰۰ تاکنون تقریباً سه...

    ۴ تیر ۱۴۰۵
  • همکاری ویزا و OpenAI برای پرداخت‌های هوش مصنوعی

    ۲۹ خرداد ۱۴۰۵
  • مایکروسافت استفاده از مدل Claude Fable 5 را...

    ۲۸ خرداد ۱۴۰۵
  • برچسب‌گذاری محتوای هوش مصنوعی در اتحادیه اروپا آغاز...

    ۲۷ خرداد ۱۴۰۵
  • موفقیت GPT-4.5 در تست تورینگ؛ آیا هوش مصنوعی...

    ۲۶ خرداد ۱۴۰۵
  • فیلم هوش مصنوعی «واقعیت فراتر» برنده جایزه ایتالیا...

    ۲۶ خرداد ۱۴۰۵
  • بهترین دستیارهای هوش مصنوعی در سال ۲۰۲۶؛ مقایسه...

    ۲۶ خرداد ۱۴۰۵
  • عامل‌های هوش مصنوعی (AI Agents) چیست؟ راهنمای کامل...

    ۲۵ خرداد ۱۴۰۵
  • هشدار ۱۵۰ ریاضیدان برجسته جهان درباره ادعاهای هوش...

    ۲۱ خرداد ۱۴۰۵
  • اروپا برای کاهش وابستگی فناوری به آمریکا وارد...

    ۲۱ خرداد ۱۴۰۵
  • همکاری انویدیا و ال‌جی برای توسعه ربات‌های انسان‌نما...

    ۱۹ خرداد ۱۴۰۵
  • هزینه پنهان «لطفاً» و «متشکرم» در هوش مصنوعی؛...

    ۱۸ خرداد ۱۴۰۵
  • بحران حافظه، GoPro را تا مرز ورشکستگی مالی...

    ۱۸ خرداد ۱۴۰۵

درباره فوت و فن

درباره فوت و فن

با ما تجربه‌ای جذاب از دنیای اطراف را داشته باشید.

در «فوت و فن»، ما به دنبال راه‌های ساده و کاربردی برای بهبود زندگی هستیم. واژهٔ «فن» در فارسی به معنای «شگرد» و «ترفند» است. ما تلاش می‌کنیم این ترفندها را در زندگی روزمره خود به کار ببریم و مطالبی شگفت‌انگیز و مفید را با شما به اشتراک بگذاریم. هدف ما این است که با به اشتراک گذاشتن تجربیات و آموخته‌های خود، به شما کمک کنیم تا روش‌های جدید و ایده‌های تازه‌ای را در زندگی خود بکار ببرید. با ما همراه باشید تا زندگی را با کمک «فوت و فن»، به یک تجربهٔ خلاقانه و لذت‌بخش تبدیل کنیم.

لینک‌های مفید

تماس با ما

 

تبلیغات در فوت و فن

 

درباره ما

Facebook Twitter Instagram Linkedin Tumblr Youtube Email

حامیان

2010-2026@ - All Right Reserved. Designed and Developed by FOOTOFAN

فوت و فن
  • دانش و فن
    • موبایل و تبلت
    • هوش مصنوعی
    • اپراتورها و وب
    • برنامه و نرم افزار
    • دنیای بازی
    • گوناگون
      • سخت افزار
      • تلویزیون
  • اقتصاد
    • اقتصاد بین الملل
    • بازارها
    • بانکداری و تجارت الکترونیک
    • خودرو
    • وبگردی
    • رپورتاژ
  • ورزش
    • فوتبال
    • موتوری
    • تنیس
  • سبک زندگی
    • سلامت
    • تغذیه
    • طبیعت
    • حیوانات
    • خلاقیت
    • آشپزی
  • گردشگری
    • گردشگری
  • فرهنگ و هنر
    • فیلم و سریال
    • کتاب و مجله
    • آثار باستانی
    • صنایع دستی
  • چند رسانه‌ای
    • عکس
    • ویدیو
    • خودمونی
    • همیاری
  • English