چت‌بات‌های هوش مصنوعی در پزشکی؛ بررسی خطر توصیه‌های نادرست

استفاده از چت‌بات‌های هوش مصنوعی در پزشکی برای دریافت اطلاعات سلامت به سرعت در حال افزایش است، اما یک پژوهش جدید نشان می‌دهد این ابزارها در بسیاری از موارد پاسخ‌های نادرست، ناقص یا غیرقابل تأیید ارائه می‌دهند.

نتایج پژوهش درباره دقت چت‌بات‌های هوش مصنوعی در پزشکی

مطالعه‌ای که توسط هفت پژوهشگر انجام شده و در مجله BMJ Open منتشر شده، پنج چت‌بات محبوب شامل ChatGPT، Gemini، Grok، Meta AI و DeepSeek را در حوزه اطلاعات پزشکی مورد ارزیابی قرار داده است.

در این تحقیق، ۵۰ سؤال پزشکی در موضوعاتی مانند سرطان، واکسن‌ها، سلول‌های بنیادی، تغذیه و عملکرد ورزشی مطرح شد. دو متخصص به صورت مستقل پاسخ‌ها را بررسی کردند.

حدود ۲۰ درصد پاسخ‌ها کاملاً مشکل‌دار بودند
نیمی از پاسخ‌ها دارای اشکال جدی یا نسبی بودند
۳۰ درصد پاسخ‌ها تا حدی قابل قبول اما ناقص بودند

هیچ‌کدام از چت‌بات‌ها نتوانستند منابع علمی کامل و قابل اعتماد ارائه دهند. از مجموع ۲۵۰ سؤال، تنها در دو مورد از پاسخ دادن خودداری شد.

عملکرد مدل‌های مختلف چت‌بات‌های هوش مصنوعی

نتایج نشان داد عملکرد مدل‌ها تفاوت زیادی ندارد، اما برخی اختلاف‌ها قابل توجه است.

Grok: حدود ۵۸ درصد پاسخ‌های مشکل‌دار
ChatGPT: حدود ۵۲ درصد
Meta AI: حدود ۵۰ درصد

این اعداد نشان می‌دهد هیچ‌یک از مدل‌ها عملکرد قابل اعتماد کامل در حوزه پزشکی ندارند.

تأثیر نوع سؤال بر دقت پاسخ‌ها

دقت پاسخ‌ها به نوع پرسش نیز وابسته بود. در حوزه‌هایی مانند واکسن‌ها و سرطان که داده‌های علمی گسترده‌تری وجود دارد، عملکرد بهتر بود، اما همچنان حدود یک‌چهارم پاسخ‌ها مشکل‌دار بودند.

در مقابل، حوزه‌هایی مانند تغذیه و عملکرد ورزشی بیشترین میزان خطا را داشتند، زیرا اطلاعات متناقض و شواهد علمی محدودتر است.

سوالات باز بیشترین میزان خطا را ایجاد کردند. در این نوع پرسش‌ها ۳۲ درصد پاسخ‌ها مشکل جدی داشتند، در حالی که در سوالات بسته این عدد تنها ۷ درصد بود.

مشکل منابع و ارجاعات در چت‌بات‌های هوش مصنوعی

یکی از مهم‌ترین یافته‌ها ضعف شدید در ارائه منابع بود. زمانی که از چت‌بات‌ها ۱۰ منبع علمی درخواست شد، میزان صحت منابع تنها ۴۰ درصد گزارش شد.

در هیچ‌یک از ۲۵ آزمایش، یک فهرست منابع کاملاً دقیق ارائه نشد. خطاها شامل نام نویسنده اشتباه، لینک‌های خراب یا مقالات کاملاً ساختگی بودند.

این موضوع خطرناک است، زیرا ظاهر حرفه‌ای منابع می‌تواند کاربر را به اعتماد اشتباه سوق دهد.

چرا چت‌بات‌های هوش مصنوعی در پزشکی اشتباه می‌کنند؟

چت‌بات‌ها «دانش» ندارند، بلکه بر اساس الگوهای زبانی، محتمل‌ترین پاسخ را تولید می‌کنند. آن‌ها شواهد را ارزیابی نمی‌کنند و توانایی داوری علمی ندارند.

داده‌های آموزشی این مدل‌ها شامل منابع علمی معتبر، گفتگوهای شبکه‌های اجتماعی، وبلاگ‌ها و حتی انجمن‌های عمومی مانند Reddit است. همین ترکیب باعث ایجاد پاسخ‌های ناهماهنگ می‌شود.

در این پژوهش از روش «red teaming» استفاده شد که هدف آن ایجاد شرایط سخت برای بررسی ضعف‌های سیستم است. به همین دلیل نرخ خطا ممکن است در استفاده روزمره کمی متفاوت باشد.

مطالعات تکمیلی درباره عملکرد چت‌بات‌های هوش مصنوعی

پژوهش‌های دیگر نیز تصویر مشابهی ارائه می‌دهند.

در مطالعه‌ای منتشر شده در Nature Medicine، چت‌بات‌ها در شرایط ایده‌آل تا ۹۵ درصد پاسخ صحیح داشتند، اما کاربران واقعی تنها در کمتر از ۳۵ درصد موارد به پاسخ درست رسیدند.

در تحقیق دیگری در JAMA Network Open، مدل‌ها در تشخیص پزشکی بر اساس علائم اولیه بیش از ۸۰ درصد موارد را از دست دادند، اما با افزودن داده‌های آزمایشگاهی دقت به بیش از ۹۰ درصد رسید.

همچنین پژوهشی در Nature Communications Medicine نشان داد این مدل‌ها به راحتی اطلاعات ساختگی را می‌پذیرند و حتی آن را گسترش می‌دهند.

جمع‌بندی؛ نقش محدود چت‌بات‌های هوش مصنوعی در پزشکی

این مطالعات نشان می‌دهد چت‌بات‌ها می‌توانند ابزار مفیدی برای خلاصه‌سازی اطلاعات یا آماده‌سازی پرسش‌ها باشند، اما جایگزین متخصصان پزشکی نیستند.

اعتماد کامل به پاسخ‌های آن‌ها می‌تواند خطرناک باشد، به‌خصوص زمانی که اطلاعات بدون بررسی منابع استفاده شود.

کاربران باید همیشه اطلاعات ارائه‌شده را بررسی کنند و در مسائل پزشکی از تصمیم‌گیری صرفاً بر اساس پاسخ چت‌بات‌ها خودداری کنند.

اگر به سلامت خود اهمیت می‌دهید، قبل از هر تصمیم پزشکی اطلاعات را از منابع معتبر بررسی کنید و با متخصص مشورت کنید.

چت‌بات‌های هوش مصنوعی در پزشکی؛ بررسی خطر توصیه‌های نادرست

نتایج پژوهش درباره دقت چت‌بات‌های هوش مصنوعی در پزشکی

عملکرد مدل‌های مختلف چت‌بات‌های هوش مصنوعی

تأثیر نوع سؤال بر دقت پاسخ‌ها

مشکل منابع و ارجاعات در چت‌بات‌های هوش مصنوعی

چرا چت‌بات‌های هوش مصنوعی در پزشکی اشتباه می‌کنند؟

مطالعات تکمیلی درباره عملکرد چت‌بات‌های هوش مصنوعی

جمع‌بندی؛ نقش محدود چت‌بات‌های هوش مصنوعی در پزشکی

شهاب الدین حدیدی

چین با خودروهای لوکس ارزان بازار را هدف گرفت

سمپاشی ساس منزل خود را به شرکت سمپاشی ساس VIP بسپارید با ضمانت کتبی

شما هم نظر دهید Cancel Reply