صداهای مصنوعی امروزه تقریباً در همهجا حضور دارند؛ از دستیارهای مجازی گرفته تا تماسهای خودکار خدمات مشتری. اما یک پژوهش جدید نشان میدهد که نسل تازهای از این صداها ممکن است یک مزیت غیرمنتظره نسبت به صدای واقعی انسان داشته باشند.
در شرایط پر سر و صدا، کلونهای صوتی میتوانند حتی واضحتر از صدای انسانی که از آن کپی شدهاند شنیده شوند.
پژوهشگران دانشگاه کالج لندن و دانشگاه روهامپتون بررسی کردند که شنوندگان تا چه اندازه گفتار انسانی و گفتار کلونشده را در حضور نویز پسزمینه درک میکنند.
نتایج حتی خود محققان را هم شگفتزده کرد. برخلاف انتظار، صداهای کلونشده نهتنها بدتر یا مصنوعیتر به نظر نرسیدند، بلکه درکپذیری بهتری داشتند.
نحوه کپیبرداری هوش مصنوعی از صدای انسان
کلونهای صوتی با صداهای مصنوعی قدیمی که بیشتر افراد از طریق سیری، الکسا یا سیستمهای مسیریابی میشناسند تفاوت دارند. صداهای سنتی معمولاً بر پایه ساعتها ضبط از یک گوینده حرفهای ساخته میشوند.
در مقابل، فناوری کلونسازی صدا میتواند تنها با چند ثانیه نمونه گفتار، صدایی بسیار نزدیک به صدای یک فرد را بازسازی کند. این موضوع استفاده از فناوری را بسیار سادهتر و مقیاسپذیرتر کرده است.
در نتیجه، تعداد صداهای قابل تولید بهشدت افزایش یافته است. دیگر نیازی به حضور طولانیمدت یک گوینده در استودیو نیست و تقریباً صدای هر فردی را میتوان با یک نمونه کوتاه کپی کرد.
این موضوع کاربردهای گستردهای ایجاد میکند؛ از ابزارهای دسترسپذیری گرفته تا سرگرمی، در کنار کاربردهای نگرانکنندهتری مانند جعل هویت و کلاهبرداری.
بررسی وضوح صدا در محیطهای پر سر و صدا
با این حال، تمرکز این مطالعه روی یک موضوع مشخص بود: میزان درکپذیری. اینکه افراد عادی تا چه اندازه میتوانند این صداهای کلونشده را بفهمند.
محققان در ابتدا انتظار داشتند کلونها عملکرد ضعیفتری داشته باشند، زیرا به نظر میرسد یک نسخه مصنوعی از صدا، بهویژه اگر از نمونه کوتاه ساخته شده باشد، باید غیرطبیعیتر و سختتر برای دنبال کردن باشد.
اما نتیجه کاملاً متفاوت بود.
یکی از نویسندگان مطالعه اعلام کرد که انتظار داشت کلونهای صوتی به دلیل ناآشنا بودن کمتر قابل درک باشند، اما در واقع تا ۲۰ درصد واضحتر بودند که نتیجهای شگفتآور محسوب میشود.
آزمایش عملکرد صداهای هوش مصنوعی
برای بررسی دقیقتر، پژوهشگران صدای انسان و نسخههای کلونشده آن را در شرایط شنیداری پر نویز مقایسه کردند.
- مقایسه ۱۰ صدای انسانی با ۱۰ کلون صوتی
- آزمایش در چهار سطح مختلف نسبت سیگنال به نویز
- مشارکت ۸۰ نفر در یک آزمایش آنلاین
نتایج نشان داد که صداهای کلونشده درکپذیری بالاتری دارند و این مزیت در برخی موارد به ۲۰ درصد میرسد.
نکته جالب این است که این برتری حتی با تغییر شرایط یا نوع مخاطب از بین نرفت.
چرا صداهای کلونشده راحتتر فهمیده میشوند؟
پس از مرحله اول، پژوهشگران آزمایش را با داوطلبان مسنتر تکرار کردند تا تأثیر مشکلات شنوایی را بررسی کنند.
همچنین آزمایش با شنوندگان آمریکایی انجام شد و حتی فیلتری شبیهساز ایمپلنت حلزون گوش نیز مورد استفاده قرار گرفت.
در تمام این شرایط، صداهای کلونشده همچنان واضحتر باقی ماندند. این تداوم نشان میدهد که نتیجه صرفاً یک اتفاق تصادفی نیست.
این موضوع احتمال وجود یک الگوی سیستماتیک در نحوه تولید این صداها را مطرح میکند.
کاربردهای بالقوه صداهای هوش مصنوعی
در نگاه اول، این نتیجه ممکن است صرفاً یک نکته فنی به نظر برسد، اما اهمیت زیادی دارد؛ زیرا گفتار مصنوعی بهسرعت در حال تبدیل شدن به بخشی از زندگی روزمره است.
اگر صداهای کلونشده در محیطهای پر سر و صدا واضحتر باشند، میتوانند در موارد زیر کاربرد گستردهای داشته باشند:
- اعلانهای عمومی در فضاهای شلوغ
- دستگاههای کمکی برای افراد دارای مشکلات شنوایی
- سیستمهای ناوبری و ارتباطی
در عین حال، این مزیت میتواند باعث شود این صداها قابلاعتمادتر یا قانعکنندهتر از آنچه هستند به نظر برسند.
صدایی که بهتر از نویز عبور میکند ممکن است روانتر، کنترلشدهتر و حتی قابل اعتمادتر به نظر برسد.
چرا صداهای مصنوعی واضحتر به نظر میرسند؟
این یافته نکته مهمی درباره خود گفتار انسانی نیز نشان میدهد. صدای واقعی انسان پر از تغییرات است؛ مکث، نفس، تأکید، لهجه و نقصهای کوچک.
کلون صوتی ممکن است هویت اصلی گوینده را حفظ کند، اما در عین حال برخی از این جزئیات پیچیده را حذف یا سادهسازی کند؛ جزئیاتی که در شرایط شنیداری ضعیف، درک گفتار را دشوار میکنند.
این فرضیه هنوز بهطور قطعی اثبات نشده است، اما یکی از توضیحات منطقی برای عملکرد بهتر کلونها محسوب میشود.
راز حلنشده گفتار مصنوعی
در حال حاضر، پژوهشگران هنوز پاسخ قطعی برای علت این پدیده ندارند. همین عدم قطعیت، جذابیت این مطالعه را افزایش داده است.
برنامه آنها این است که با بررسی نحوه عملکرد سینتسایزرها و پردازش سیگنال دیجیتال، دلیل این برتری را بهتر درک کنند.
بنابراین، سؤال اصلی دیگر این نیست که آیا صداهای کلونشده میتوانند با صدای انسان رقابت کنند یا نه. این مطالعه نشان میدهد که آنها حتی میتوانند عملکرد بهتری داشته باشند.
راز واقعی این است که چرا چنین اتفاقی میافتد. پاسخ به این سؤال میتواند درک ما از گفتار مصنوعی و حتی نحوه اعتماد و درک صدا توسط گوش انسان را تغییر دهد.
جمعبندی: آینده صداهای هوش مصنوعی
پیشرفت در فناوری کلون صدا نشان میدهد که آینده ارتباطات صوتی ممکن است بیش از پیش به سمت صداهای مصنوعی حرکت کند. درک بهتر این پدیده میتواند مسیر طراحی سیستمهای صوتی را متحول کند.
اگر به دنیای هوش مصنوعی و فناوریهای نوین علاقهمند هستید، همین حالا این مقاله را با دوستانتان به اشتراک بگذارید و دیدگاه خود را با ما در میان بگذارید.