پرسیدن درباره بیماری از هوش مصنوعی، در عمل تفاوت معناداری با یک جستجوی ساده در گوگل ندارد. پژوهشی که در مجله معتبر Nature Medicine منتشر شده نشان میدهد مشاوره سلامت با هوش مصنوعی، نسبت به جستجوی اینترنتی یا منابع رسمی سلامت، به تشخیص دقیقتر یا تصمیمگیری درستتر منجر نمیشود.
مشاوره سلامت با هوش مصنوعی زیر ذرهبین Nature Medicine
بر اساس این تحقیق، استفاده از ابزارهای هوش مصنوعی برای ارزیابی علائم پزشکی، به بیماران کمک نمیکند تصمیمهای بهتری نسبت به روشهای رایج مانند جستجوی اینترنتی بگیرند. نویسندگان مقاله تأکید کردهاند که با وجود افزایش گرایش عمومی به چتباتها برای دریافت توصیه پزشکی، شواهد کافی درباره ایمن بودن این مسیر وجود ندارد.
افزایش استفاده از هوش مصنوعی برای توصیههای پزشکی
پژوهشگران با اشاره به محبوبیت روزافزون هوش مصنوعی در حوزه سلامت، هشدار میدهند که تصور «جایگزینی مطمئن» پزشک یا منابع رسمی با این ابزارها، هنوز پشتوانه علمی ندارد. این موضوع، اهمیت ارزیابی واقعبینانه توانمندیهای فعلی مدلهای زبانی را پررنگتر میکند.
۱۰ سناریوی پزشکی از سرماخوردگی تا سکته مغزی
این مطالعه به رهبری مؤسسه اینترنت آکسفورد و با همکاری تیمی از پزشکان انجام شد. پژوهشگران ۱۰ سناریوی پزشکی طراحی کردند که طیفی از یک سرماخوردگی ساده تا موارد تهدیدکننده زندگی مانند خونریزی مغزی را دربر میگرفت.
عملکرد مدلهای زبانی بزرگ در تشخیص بیماری
در مرحله نخست که بدون مشارکت انسان انجام شد، سه مدل زبانی بزرگ شامل ChatGPT-4o از OpenAI، Llama 3 از Meta و Command R+ از Cohere در ۹۴٫۹ درصد موارد، بیماری را بهدرستی تشخیص دادند.
ضعف جدی در پیشنهاد اقدام درست
با وجود دقت بالا در تشخیص، پیشنهاد اقدام مناسب مانند تماس با اورژانس یا مراجعه فوری به پزشک، تنها در ۵۶٫۳ درصد موارد صحیح بود. شرکتهای سازنده این مدلها، به درخواستها برای اظهار نظر پاسخی ندادند.
مرحله دوم پژوهش؛ آزمایش با حضور کاربران واقعی
در گام بعدی، ۱٬۲۹۸ نفر در بریتانیا وارد مطالعه شدند. بخشی از شرکتکنندگان از هوش مصنوعی استفاده کردند و گروهی دیگر با تکیه بر تجربه شخصی، جستجوی اینترنتی یا وبسایت رسمی نظام سلامت بریتانیا (NHS)، علائم خود را ارزیابی کردند.
نرخ تشخیص صحیح کمتر از ۳۵ درصد
نتایج این مرحله نگرانکنندهتر بود. صرفنظر از روش انتخابی، نرخ تشخیص صحیح وضعیت سلامتی به کمتر از ۳۴٫۵ درصد رسید. تصمیم درست درباره اقدام بعدی نیز در هیچ روشی از ۴۴٫۲ درصد فراتر نرفت. عملکرد گروه استفادهکننده از هوش مصنوعی، بهتر از گروه کنترل نبود.
شکاف بزرگ میان توان بالقوه و کاربرد واقعی
آدام مهدی، نویسنده مشترک پژوهش و دانشیار دانشگاه آکسفورد، این یافتهها را نشانه «شکاف بزرگ» میان ظرفیت نظری هوش مصنوعی و کاربرد عملی آن دانست.
«ممکن است اطلاعات درون این چتباتها وجود داشته باشد؛ اما این اطلاعات همیشه در تعامل با انسان، بهدرستی منتقل نمیشود.»
اطلاعات ناقص کاربران و پاسخهای گمراهکننده مدلها
بررسی دقیق حدود ۳۰ تعامل نشان داد مشکل فقط از کاربران ناشی نمیشود. در بسیاری از موارد، افراد اطلاعات ناقص یا نادرست ارائه میدادند و در عین حال، مدلهای زبانی نیز گاهی پاسخهای اشتباه یا گمراهکننده تولید میکردند.
نمونهای هشداردهنده از تشخیص اشتباه
در یکی از سناریوها، دو کاربر علائم خونریزی زیرعنکبوتیه را توصیف کردند. کاربری که از عبارت «شدیدترین سردرد زندگیام» استفاده کرده بود، توصیه درست برای مراجعه فوری به بیمارستان دریافت کرد؛ اما کاربر دیگر که همان علائم را «سردرد بسیار بد» توصیف کرده بود، تنها به استراحت در اتاق تاریک راهنمایی شد.
ادامه پژوهش در کشورهای مختلف
تیم تحقیقاتی قصد دارد این مطالعه را در کشورها و زبانهای مختلف تکرار کند و همچنین بررسی کند که آیا با گذشت زمان، عملکرد هوش مصنوعی در مشاوره سلامت بهبود مییابد یا خیر. این پژوهش با حمایت شرکت دادهمحور Prolific، بنیاد آلمانی Dieter Schwarz Stiftung و دولتهای بریتانیا و ایالات متحده انجام شده است.
جمعبندی؛ آیا میتوان به مشاوره سلامت با هوش مصنوعی اعتماد کرد؟
یافتهها نشان میدهد مشاوره سلامت با هوش مصنوعی در وضعیت فعلی، جایگزین مطمئنی برای پزشک، منابع رسمی یا حتی جستجوی دقیق اینترنتی نیست. این ابزارها میتوانند کمککننده باشند؛ اما اتکای کامل به آنها، بهویژه در شرایط بحرانی، میتواند خطرناک باشد.
اگر تجربهای از استفاده از هوش مصنوعی برای پرسشهای پزشکی دارید، دیدگاه خود را در بخش نظرات بنویسید یا این مقاله را با دیگران به اشتراک بگذارید.