صدای مصنوعی یا واقعی؟ وقتی صدای هوش مصنوعی با انسان اشتباه گرفته می‌شود

تحقیقات جدید نشان می‌دهد که صدای تولیدشده توسط هوش مصنوعی دیگر برای بیشتر مردم از صدای واقعی انسان قابل تشخیص نیست. بر اساس مطالعه‌ای که در مجله علمی PLoS One منتشر شده، ۵۸ درصد از افراد شرکت‌کننده نتوانستند تفاوت میان صدای انسان و صدای کلون‌شده توسط هوش مصنوعی را تشخیص دهند.

وقتی صدای واقعی و مصنوعی یکسان به گوش می‌رسند

در این پژوهش به شرکت‌کنندگان ۸۰ نمونه صوتی مختلف ارائه شد؛ نیمی از آن‌ها متعلق به انسان و نیمی دیگر ساخته‌شده توسط هوش مصنوعی بودند. از افراد خواسته شد میزان اعتماد، طبیعی بودن و تأثیرگذاری صداها را ارزیابی کنند. نتایج نشان داد که در حالی‌که صداهای تولیدشده از ابتدا توسط هوش مصنوعی تا حدی قابل شناسایی بودند، صداهای کلون‌شده از گفتار واقعی انسان به‌سختی قابل تمایز بودند و ۵۸ درصد از آن‌ها واقعی تصور شدند.

در مقابل، تنها ۶۲ درصد از صداهای واقعی به درستی به عنوان صدای انسان تشخیص داده شد. این نتایج نشان می‌دهد که فاصله میان صدای واقعی و مصنوعی به طرز چشمگیری کم شده است.

فناوری در دسترس همگان، نه فقط شرکت‌های بزرگ

دکتر نادین لاوان، استاد روان‌شناسی در دانشگاه Queen Mary لندن و نویسنده اصلی این تحقیق، در گفت‌وگو با Euronews توضیح می‌دهد:

«یافته‌های ما نشان می‌دهد که صداهای کلون‌شده با ابزارهای تجاری در دسترس، به‌اندازه صدای انسان طبیعی شنیده می‌شوند. این یعنی هر فردی، بدون نیاز به دانش برنامه‌نویسی یا بودجه زیاد، می‌تواند صدایی واقع‌گرایانه ایجاد کند.»

جنبه تاریک ماجرا: سوءاستفاده و تهدیدات امنیتی

فناوری کلون‌سازی صدا با هوش مصنوعی از داده‌های صوتی برای شبیه‌سازی لحن، ریتم و ویژگی‌های فردی یک صدا استفاده می‌کند. این توانایی باعث شده است تا در کنار کاربردهای مفید، زمینه سوءاستفاده نیز به‌شدت افزایش یابد.

برخی از کلاهبرداران از صداهای تقلیدی برای تماس‌های تلفنی جعلی استفاده می‌کنند.
در بسیاری از موارد، آن‌ها از ویدیوها یا پست‌های شبکه‌های اجتماعی برای بازسازی صدای قربانیان بهره می‌برند.
تحقیقات نشان می‌دهد که بیش از دو سوم افراد بالای ۷۵ سال هدف تماس‌های کلاهبرداری تلفنی قرار می‌گیرند.
حدود ۶۰٪ از این تماس‌ها با استفاده از فناوری صداهای مصنوعی انجام می‌شود.

اگرچه همه تماس‌ها با صدای مصنوعی انجام نمی‌شوند، اما دسترسی ساده و کیفیت بالای این نرم‌افزارها باعث شده سوءاستفاده از آن روزبه‌روز بیشتر شود.

استفاده غیرمجاز از صدای چهره‌های مشهور

صنعت سرگرمی نیز از این پدیده در امان نمانده است. بسیاری از هنرمندان گزارش داده‌اند که صدای آن‌ها بدون اجازه در پروژه‌های مختلف به کار رفته است. برای مثال، سال گذشته اسکارلت جوهانسون اعلام کرد که OpenAI برای یکی از نسخه‌های ChatGPT از صدایی استفاده کرده که «به‌طور ترسناکی شبیه صدای او در فیلم Her بوده است».

نمونه‌های مشابهی نیز در حوزه سیاست و رسانه مشاهده شده که در آن، صداهای جعلی از سیاستمداران یا روزنامه‌نگاران برای انتشار اطلاعات نادرست یا تأثیرگذاری بر افکار عمومی استفاده شده است.

لزوم وضع قوانین اخلاقی و حفاظتی

دکتر لاوان هشدار می‌دهد که شرکت‌های توسعه‌دهنده فناوری‌های هوش مصنوعی باید اقدامات اخلاقی و امنیتی قوی‌تری در نظر بگیرند:

«به عنوان پژوهشگر، ما از شرکت‌ها می‌خواهیم با همکاری متخصصان اخلاق و سیاست‌گذاران، درباره مالکیت صدا، رضایت کاربران و مرزهای اخلاقی این فناوری تصمیم‌گیری کنند.»

وقتی هوش مصنوعی می‌تواند زندگی را آسان‌تر کند

در کنار خطرات، هوش مصنوعی در زمینه صدا می‌تواند نقش مثبتی نیز ایفا کند. برای افرادی که به دلیل بیماری یا نقص گفتاری نمی‌توانند صحبت کنند، فناوری کلون‌سازی صدا می‌تواند ارتباط را آسان‌تر کند.

دکتر لاوان می‌گوید:

«نمونه بارز این فناوری را در زندگی استیون هاوکینگ دیده‌ایم. تفاوت امروز این است که افراد می‌توانند صدایی شخصی‌سازی‌شده و نزدیک به هویت واقعی خود بسازند.»

افزایش دسترسی و تنوع زبانی

به‌گفته پژوهشگران، این فناوری می‌تواند در آموزش، انتشار صوتی و تولید کتاب‌های شنیداری نیز مؤثر باشد. پژوهش‌ها نشان می‌دهد که یادگیری با صداهای هوش مصنوعی باعث افزایش انگیزه دانش‌آموزان، به‌ویژه در میان افرادی با اختلالات تمرکز مانند ADHD می‌شود.

همچنین، فناوری جدید امکان کلون‌سازی صدا به زبان‌های مختلف را فراهم کرده است؛ بدین ترتیب، افراد می‌توانند صدای خود را در زبانی دیگر بشنوند، بدون اینکه هویت صوتی‌شان تغییر کند. این ویژگی می‌تواند تعامل فرهنگی و ارتباط جهانی را متحول سازد.

چشم‌انداز آینده: مرز باریک میان اعتماد و تردید

با گسترش حضور صداهای مصنوعی در زندگی روزمره، پژوهشگران در حال بررسی این موضوع هستند که مردم چگونه به این صداها واکنش نشان می‌دهند.

دکتر لاوان توضیح می‌دهد:

«می‌خواهیم بدانیم دانستن اینکه یک صدا توسط هوش مصنوعی تولید شده، چگونه بر تعامل انسان با آن تأثیر می‌گذارد.»

او همچنین اضافه می‌کند:

«یکی از پرسش‌های جالب این است که اگر صدایی خوشایند اما غیرانسانی بشنویم، آیا تمایل بیشتری برای پیروی از آن داریم؟ یا اگر مشکلی پیش بیاید، واکنش ما متفاوت خواهد بود؟ این موضوع می‌تواند جنبه‌های تازه‌ای از ارتباط میان انسان و ماشین را روشن کند.»

جمع‌بندی

تحقیقات اخیر نشان می‌دهد که مرز میان صدای انسان و صدای تولیدشده توسط هوش مصنوعی به سرعت در حال محو شدن است. این فناوری هم فرصت‌های چشمگیری برای آموزش و ارتباط فراهم می‌کند و هم تهدیداتی جدی برای حریم خصوصی و اعتماد عمومی به همراه دارد. آینده این فناوری به نحوه قانون‌گذاری، اخلاق‌محوری و آگاهی کاربران بستگی دارد.

به نظر شما، تا چند سال آینده می‌توان صدای واقعی را از مصنوعی تشخیص داد؟ دیدگاهتان را در بخش نظرات با ما به اشتراک بگذارید.