موفقیت GPT-4.5 در تست تورینگ؛ آیا هوش مصنوعی از انسان متقاعدکننده‌تر شده است؟

در حالی که بحث‌ها درباره میزان توانایی هوش مصنوعی در تقلید رفتار انسان همچنان ادامه دارد، یک پژوهش جدید نشان داده است که برخی مدل‌های زبانی بزرگ در شرایط خاص می‌توانند در تست تورینگ حتی عملکردی بهتر از انسان‌ها داشته باشند. بر اساس نتایج این تحقیق، مدل GPT-4.5 شرکت OpenAI توانست در مکالمات متنی کوتاه‌مدت با موفقیت بالایی خود را به‌عنوان یک انسان معرفی کند.

تست تورینگ و موفقیت جدید هوش مصنوعی

مطالعه‌ای که توسط پژوهشگران دانشگاه استونی بروک و دانشگاه کالیفرنیا سن‌دیگو انجام شده است، نشان می‌دهد برخی مدل‌های هوش مصنوعی در مکالمات متنی کوتاه می‌توانند به شکلی بسیار موفق شبیه انسان به نظر برسند. طبق یافته‌های این پژوهش، مدل GPT-4.5 توانست ۷۳ درصد از شرکت‌کنندگان را فریب دهد و به‌عنوان یک انسان شناخته شود.

پژوهشگران تأکید کرده‌اند که این نتایج در شرایط آزمایشی مشخصی به دست آمده‌اند و نمی‌توان آن‌ها را مستقیماً به تمام سناریوهای ارتباطی در دنیای واقعی تعمیم داد.

روش تحقیق و نتایج آزمایش

تست تورینگ که نخستین بار در سال ۱۹۵۰ توسط آلن تورینگ معرفی شد، با هدف سنجش توانایی یک ماشین در تقلید رفتار انسانی طراحی شده است. در نسخه کلاسیک این آزمون، یک ارزیاب انسانی از طریق پیام‌های متنی با یک سیستم رایانه‌ای و یک انسان دیگر ارتباط برقرار می‌کند. سپس تلاش می‌کند تشخیص دهد کدام شرکت‌کننده انسان است و کدام‌یک ماشین.

در این پژوهش، محققان دو آزمایش کنترل‌شده و تصادفی تست تورینگ را با پارامترهای از پیش تعیین‌شده اجرا کردند. در این آزمایش‌ها، ارزیابان انسانی به مدت پنج دقیقه با مدل‌های زبانی بزرگ و همچنین دانشجویان یا داوطلبان دانشگاه UC San Diego مکاتبه کردند. پس از پایان گفت‌وگوها، از آن‌ها خواسته شد مشخص کنند کدام طرف انسان بوده است.

صدها نفر در این مطالعه شرکت داشتند و در مجموع چهار مدل هوش مصنوعی مورد آزمایش قرار گرفتند.

عملکرد مدل‌های هوش مصنوعی در تست تورینگ

GPT-4.5: نرخ موفقیت ۷۳ درصد
LLaMa-3.1-405B: نرخ موفقیت ۵۶ درصد
ELIZA: نرخ موفقیت ۲۳ درصد
GPT-4o: نرخ موفقیت ۲۱ درصد

بر اساس نتایج، GPT-4.5 بالاترین میزان موفقیت را در متقاعد کردن ارزیابان به دست آورد. مدل LLaMa-3.1-405B نیز عملکردی اندکی بهتر از سطح تصادفی داشت. در مقابل، ELIZA و GPT-4o نرخ بسیار پایین‌تری در انسان تلقی شدن ثبت کردند.

محدودیت‌های مهم پژوهش

پژوهشگران خاطرنشان کردند که تست تورینگ یک روش کاملاً عینی نیست. نتایج این آزمون تا حد زیادی به قضاوت ارزیابان انسانی و پاسخ‌های ارائه‌شده توسط سایر شرکت‌کنندگان وابسته است. علاوه بر این، آزمون تنها یک نتیجه دوگانه ارائه می‌دهد؛ اینکه آیا ماشین توانسته یک ارزیاب انسانی را فریب دهد یا خیر.

همچنین مشخص شد بالاترین نرخ موفقیت زمانی به دست آمده که مدل‌ها برای ایفای نقش شخصیتی «جوان، درون‌گرا و بسیار فعال در فضای آنلاین» هدایت شده بودند. به گفته پژوهشگران، این موضوع می‌تواند نشان دهد موفقیت مدل‌ها بیش از آنکه به هوش عمومی مرتبط باشد، به توانایی آن‌ها در تقلید یک سبک خاص گفت‌وگو وابسته است.

هوش مصنوعی، اعتماد و چالش‌های آینده

نتیجه اصلی این پژوهش نشان می‌دهد که در مکالمات متنی کوتاه و تحت شرایط آزمایشی مشخص، احتمال اینکه برخی مدل‌های زبانی بزرگ به‌عنوان انسان شناخته شوند، در بعضی موارد از برخی انسان‌های واقعی نیز بیشتر است.

محققان هشدار داده‌اند که این موضوع می‌تواند چالش‌های جدیدی در حوزه فریب، اعتماد و توانایی انسان‌ها برای تشخیص هوش مصنوعی در ارتباطات روزمره ایجاد کند. در این مطالعه همچنین به پژوهش‌های پیشین درباره تأثیرات هوش مصنوعی بر مغز انسان اشاره شده است.

از سوی دیگر، پژوهشگران یادآور شدند که نخستین ادعاها درباره عبور یک سیستم هوش مصنوعی از تست تورینگ در سال گذشته مطرح شده بود و از آن زمان تاکنون مدل‌های هوش مصنوعی پیشرفت‌های بیشتری را تجربه کرده‌اند.

جمع‌بندی

موفقیت GPT-4.5 در تست تورینگ نشان می‌دهد توانایی مدل‌های زبانی بزرگ در تقلید رفتار انسانی به سطحی بی‌سابقه رسیده است. با این حال، پژوهشگران تأکید می‌کنند که این نتایج در شرایط کنترل‌شده به دست آمده‌اند و هنوز نمی‌توان آن‌ها را معیار قطعی برتری هوش مصنوعی بر انسان در ارتباطات واقعی دانست.

نظر شما چیست؟ آیا تشخیص انسان از هوش مصنوعی در آینده دشوارتر خواهد شد؟ دیدگاه خود را با ما به اشتراک بگذارید.