استفاده از چتباتهای هوش مصنوعی در پزشکی برای دریافت اطلاعات سلامت به سرعت در حال افزایش است، اما یک پژوهش جدید نشان میدهد این ابزارها در بسیاری از موارد پاسخهای نادرست، ناقص یا غیرقابل تأیید ارائه میدهند.
نتایج پژوهش درباره دقت چتباتهای هوش مصنوعی در پزشکی
مطالعهای که توسط هفت پژوهشگر انجام شده و در مجله BMJ Open منتشر شده، پنج چتبات محبوب شامل ChatGPT، Gemini، Grok، Meta AI و DeepSeek را در حوزه اطلاعات پزشکی مورد ارزیابی قرار داده است.
در این تحقیق، ۵۰ سؤال پزشکی در موضوعاتی مانند سرطان، واکسنها، سلولهای بنیادی، تغذیه و عملکرد ورزشی مطرح شد. دو متخصص به صورت مستقل پاسخها را بررسی کردند.
- حدود ۲۰ درصد پاسخها کاملاً مشکلدار بودند
- نیمی از پاسخها دارای اشکال جدی یا نسبی بودند
- ۳۰ درصد پاسخها تا حدی قابل قبول اما ناقص بودند
هیچکدام از چتباتها نتوانستند منابع علمی کامل و قابل اعتماد ارائه دهند. از مجموع ۲۵۰ سؤال، تنها در دو مورد از پاسخ دادن خودداری شد.
عملکرد مدلهای مختلف چتباتهای هوش مصنوعی
نتایج نشان داد عملکرد مدلها تفاوت زیادی ندارد، اما برخی اختلافها قابل توجه است.
- Grok: حدود ۵۸ درصد پاسخهای مشکلدار
- ChatGPT: حدود ۵۲ درصد
- Meta AI: حدود ۵۰ درصد
این اعداد نشان میدهد هیچیک از مدلها عملکرد قابل اعتماد کامل در حوزه پزشکی ندارند.
تأثیر نوع سؤال بر دقت پاسخها
دقت پاسخها به نوع پرسش نیز وابسته بود. در حوزههایی مانند واکسنها و سرطان که دادههای علمی گستردهتری وجود دارد، عملکرد بهتر بود، اما همچنان حدود یکچهارم پاسخها مشکلدار بودند.
در مقابل، حوزههایی مانند تغذیه و عملکرد ورزشی بیشترین میزان خطا را داشتند، زیرا اطلاعات متناقض و شواهد علمی محدودتر است.
سوالات باز بیشترین میزان خطا را ایجاد کردند. در این نوع پرسشها ۳۲ درصد پاسخها مشکل جدی داشتند، در حالی که در سوالات بسته این عدد تنها ۷ درصد بود.
مشکل منابع و ارجاعات در چتباتهای هوش مصنوعی
یکی از مهمترین یافتهها ضعف شدید در ارائه منابع بود. زمانی که از چتباتها ۱۰ منبع علمی درخواست شد، میزان صحت منابع تنها ۴۰ درصد گزارش شد.
در هیچیک از ۲۵ آزمایش، یک فهرست منابع کاملاً دقیق ارائه نشد. خطاها شامل نام نویسنده اشتباه، لینکهای خراب یا مقالات کاملاً ساختگی بودند.
این موضوع خطرناک است، زیرا ظاهر حرفهای منابع میتواند کاربر را به اعتماد اشتباه سوق دهد.
چرا چتباتهای هوش مصنوعی در پزشکی اشتباه میکنند؟
چتباتها «دانش» ندارند، بلکه بر اساس الگوهای زبانی، محتملترین پاسخ را تولید میکنند. آنها شواهد را ارزیابی نمیکنند و توانایی داوری علمی ندارند.
دادههای آموزشی این مدلها شامل منابع علمی معتبر، گفتگوهای شبکههای اجتماعی، وبلاگها و حتی انجمنهای عمومی مانند Reddit است. همین ترکیب باعث ایجاد پاسخهای ناهماهنگ میشود.
در این پژوهش از روش «red teaming» استفاده شد که هدف آن ایجاد شرایط سخت برای بررسی ضعفهای سیستم است. به همین دلیل نرخ خطا ممکن است در استفاده روزمره کمی متفاوت باشد.
مطالعات تکمیلی درباره عملکرد چتباتهای هوش مصنوعی
پژوهشهای دیگر نیز تصویر مشابهی ارائه میدهند.
در مطالعهای منتشر شده در Nature Medicine، چتباتها در شرایط ایدهآل تا ۹۵ درصد پاسخ صحیح داشتند، اما کاربران واقعی تنها در کمتر از ۳۵ درصد موارد به پاسخ درست رسیدند.
در تحقیق دیگری در JAMA Network Open، مدلها در تشخیص پزشکی بر اساس علائم اولیه بیش از ۸۰ درصد موارد را از دست دادند، اما با افزودن دادههای آزمایشگاهی دقت به بیش از ۹۰ درصد رسید.
همچنین پژوهشی در Nature Communications Medicine نشان داد این مدلها به راحتی اطلاعات ساختگی را میپذیرند و حتی آن را گسترش میدهند.
جمعبندی؛ نقش محدود چتباتهای هوش مصنوعی در پزشکی
این مطالعات نشان میدهد چتباتها میتوانند ابزار مفیدی برای خلاصهسازی اطلاعات یا آمادهسازی پرسشها باشند، اما جایگزین متخصصان پزشکی نیستند.
اعتماد کامل به پاسخهای آنها میتواند خطرناک باشد، بهخصوص زمانی که اطلاعات بدون بررسی منابع استفاده شود.
کاربران باید همیشه اطلاعات ارائهشده را بررسی کنند و در مسائل پزشکی از تصمیمگیری صرفاً بر اساس پاسخ چتباتها خودداری کنند.
اگر به سلامت خود اهمیت میدهید، قبل از هر تصمیم پزشکی اطلاعات را از منابع معتبر بررسی کنید و با متخصص مشورت کنید.