در حالی که بحثها درباره میزان توانایی هوش مصنوعی در تقلید رفتار انسان همچنان ادامه دارد، یک پژوهش جدید نشان داده است که برخی مدلهای زبانی بزرگ در شرایط خاص میتوانند در تست تورینگ حتی عملکردی بهتر از انسانها داشته باشند. بر اساس نتایج این تحقیق، مدل GPT-4.5 شرکت OpenAI توانست در مکالمات متنی کوتاهمدت با موفقیت بالایی خود را بهعنوان یک انسان معرفی کند.
تست تورینگ و موفقیت جدید هوش مصنوعی
مطالعهای که توسط پژوهشگران دانشگاه استونی بروک و دانشگاه کالیفرنیا سندیگو انجام شده است، نشان میدهد برخی مدلهای هوش مصنوعی در مکالمات متنی کوتاه میتوانند به شکلی بسیار موفق شبیه انسان به نظر برسند. طبق یافتههای این پژوهش، مدل GPT-4.5 توانست ۷۳ درصد از شرکتکنندگان را فریب دهد و بهعنوان یک انسان شناخته شود.
پژوهشگران تأکید کردهاند که این نتایج در شرایط آزمایشی مشخصی به دست آمدهاند و نمیتوان آنها را مستقیماً به تمام سناریوهای ارتباطی در دنیای واقعی تعمیم داد.
روش تحقیق و نتایج آزمایش
تست تورینگ که نخستین بار در سال ۱۹۵۰ توسط آلن تورینگ معرفی شد، با هدف سنجش توانایی یک ماشین در تقلید رفتار انسانی طراحی شده است. در نسخه کلاسیک این آزمون، یک ارزیاب انسانی از طریق پیامهای متنی با یک سیستم رایانهای و یک انسان دیگر ارتباط برقرار میکند. سپس تلاش میکند تشخیص دهد کدام شرکتکننده انسان است و کدامیک ماشین.
در این پژوهش، محققان دو آزمایش کنترلشده و تصادفی تست تورینگ را با پارامترهای از پیش تعیینشده اجرا کردند. در این آزمایشها، ارزیابان انسانی به مدت پنج دقیقه با مدلهای زبانی بزرگ و همچنین دانشجویان یا داوطلبان دانشگاه UC San Diego مکاتبه کردند. پس از پایان گفتوگوها، از آنها خواسته شد مشخص کنند کدام طرف انسان بوده است.
صدها نفر در این مطالعه شرکت داشتند و در مجموع چهار مدل هوش مصنوعی مورد آزمایش قرار گرفتند.
عملکرد مدلهای هوش مصنوعی در تست تورینگ
- GPT-4.5: نرخ موفقیت ۷۳ درصد
- LLaMa-3.1-405B: نرخ موفقیت ۵۶ درصد
- ELIZA: نرخ موفقیت ۲۳ درصد
- GPT-4o: نرخ موفقیت ۲۱ درصد
بر اساس نتایج، GPT-4.5 بالاترین میزان موفقیت را در متقاعد کردن ارزیابان به دست آورد. مدل LLaMa-3.1-405B نیز عملکردی اندکی بهتر از سطح تصادفی داشت. در مقابل، ELIZA و GPT-4o نرخ بسیار پایینتری در انسان تلقی شدن ثبت کردند.
محدودیتهای مهم پژوهش
پژوهشگران خاطرنشان کردند که تست تورینگ یک روش کاملاً عینی نیست. نتایج این آزمون تا حد زیادی به قضاوت ارزیابان انسانی و پاسخهای ارائهشده توسط سایر شرکتکنندگان وابسته است. علاوه بر این، آزمون تنها یک نتیجه دوگانه ارائه میدهد؛ اینکه آیا ماشین توانسته یک ارزیاب انسانی را فریب دهد یا خیر.
همچنین مشخص شد بالاترین نرخ موفقیت زمانی به دست آمده که مدلها برای ایفای نقش شخصیتی «جوان، درونگرا و بسیار فعال در فضای آنلاین» هدایت شده بودند. به گفته پژوهشگران، این موضوع میتواند نشان دهد موفقیت مدلها بیش از آنکه به هوش عمومی مرتبط باشد، به توانایی آنها در تقلید یک سبک خاص گفتوگو وابسته است.
هوش مصنوعی، اعتماد و چالشهای آینده
نتیجه اصلی این پژوهش نشان میدهد که در مکالمات متنی کوتاه و تحت شرایط آزمایشی مشخص، احتمال اینکه برخی مدلهای زبانی بزرگ بهعنوان انسان شناخته شوند، در بعضی موارد از برخی انسانهای واقعی نیز بیشتر است.
محققان هشدار دادهاند که این موضوع میتواند چالشهای جدیدی در حوزه فریب، اعتماد و توانایی انسانها برای تشخیص هوش مصنوعی در ارتباطات روزمره ایجاد کند. در این مطالعه همچنین به پژوهشهای پیشین درباره تأثیرات هوش مصنوعی بر مغز انسان اشاره شده است.
از سوی دیگر، پژوهشگران یادآور شدند که نخستین ادعاها درباره عبور یک سیستم هوش مصنوعی از تست تورینگ در سال گذشته مطرح شده بود و از آن زمان تاکنون مدلهای هوش مصنوعی پیشرفتهای بیشتری را تجربه کردهاند.
جمعبندی
موفقیت GPT-4.5 در تست تورینگ نشان میدهد توانایی مدلهای زبانی بزرگ در تقلید رفتار انسانی به سطحی بیسابقه رسیده است. با این حال، پژوهشگران تأکید میکنند که این نتایج در شرایط کنترلشده به دست آمدهاند و هنوز نمیتوان آنها را معیار قطعی برتری هوش مصنوعی بر انسان در ارتباطات واقعی دانست.
نظر شما چیست؟ آیا تشخیص انسان از هوش مصنوعی در آینده دشوارتر خواهد شد؟ دیدگاه خود را با ما به اشتراک بگذارید.