چرا صداهای هوش مصنوعی از انسان‌ها واضح‌ترند؟

صداهای مصنوعی امروزه تقریباً در همه‌جا حضور دارند؛ از دستیارهای مجازی گرفته تا تماس‌های خودکار خدمات مشتری. اما یک پژوهش جدید نشان می‌دهد که نسل تازه‌ای از این صداها ممکن است یک مزیت غیرمنتظره نسبت به صدای واقعی انسان داشته باشند.

در شرایط پر سر و صدا، کلون‌های صوتی می‌توانند حتی واضح‌تر از صدای انسانی که از آن کپی شده‌اند شنیده شوند.

پژوهشگران دانشگاه کالج لندن و دانشگاه روهامپتون بررسی کردند که شنوندگان تا چه اندازه گفتار انسانی و گفتار کلون‌شده را در حضور نویز پس‌زمینه درک می‌کنند.

نتایج حتی خود محققان را هم شگفت‌زده کرد. برخلاف انتظار، صداهای کلون‌شده نه‌تنها بدتر یا مصنوعی‌تر به نظر نرسیدند، بلکه درک‌پذیری بهتری داشتند.

نحوه کپی‌برداری هوش مصنوعی از صدای انسان

کلون‌های صوتی با صداهای مصنوعی قدیمی که بیشتر افراد از طریق سیری، الکسا یا سیستم‌های مسیریابی می‌شناسند تفاوت دارند. صداهای سنتی معمولاً بر پایه ساعت‌ها ضبط از یک گوینده حرفه‌ای ساخته می‌شوند.

در مقابل، فناوری کلون‌سازی صدا می‌تواند تنها با چند ثانیه نمونه گفتار، صدایی بسیار نزدیک به صدای یک فرد را بازسازی کند. این موضوع استفاده از فناوری را بسیار ساده‌تر و مقیاس‌پذیرتر کرده است.

در نتیجه، تعداد صداهای قابل تولید به‌شدت افزایش یافته است. دیگر نیازی به حضور طولانی‌مدت یک گوینده در استودیو نیست و تقریباً صدای هر فردی را می‌توان با یک نمونه کوتاه کپی کرد.

این موضوع کاربردهای گسترده‌ای ایجاد می‌کند؛ از ابزارهای دسترس‌پذیری گرفته تا سرگرمی، در کنار کاربردهای نگران‌کننده‌تری مانند جعل هویت و کلاهبرداری.

بررسی وضوح صدا در محیط‌های پر سر و صدا

با این حال، تمرکز این مطالعه روی یک موضوع مشخص بود: میزان درک‌پذیری. اینکه افراد عادی تا چه اندازه می‌توانند این صداهای کلون‌شده را بفهمند.

محققان در ابتدا انتظار داشتند کلون‌ها عملکرد ضعیف‌تری داشته باشند، زیرا به نظر می‌رسد یک نسخه مصنوعی از صدا، به‌ویژه اگر از نمونه کوتاه ساخته شده باشد، باید غیرطبیعی‌تر و سخت‌تر برای دنبال کردن باشد.

اما نتیجه کاملاً متفاوت بود.

یکی از نویسندگان مطالعه اعلام کرد که انتظار داشت کلون‌های صوتی به دلیل ناآشنا بودن کمتر قابل درک باشند، اما در واقع تا ۲۰ درصد واضح‌تر بودند که نتیجه‌ای شگفت‌آور محسوب می‌شود.

آزمایش عملکرد صداهای هوش مصنوعی

برای بررسی دقیق‌تر، پژوهشگران صدای انسان و نسخه‌های کلون‌شده آن را در شرایط شنیداری پر نویز مقایسه کردند.

مقایسه ۱۰ صدای انسانی با ۱۰ کلون صوتی
آزمایش در چهار سطح مختلف نسبت سیگنال به نویز
مشارکت ۸۰ نفر در یک آزمایش آنلاین

نتایج نشان داد که صداهای کلون‌شده درک‌پذیری بالاتری دارند و این مزیت در برخی موارد به ۲۰ درصد می‌رسد.

نکته جالب این است که این برتری حتی با تغییر شرایط یا نوع مخاطب از بین نرفت.

چرا صداهای کلون‌شده راحت‌تر فهمیده می‌شوند؟

پس از مرحله اول، پژوهشگران آزمایش را با داوطلبان مسن‌تر تکرار کردند تا تأثیر مشکلات شنوایی را بررسی کنند.

همچنین آزمایش با شنوندگان آمریکایی انجام شد و حتی فیلتری شبیه‌ساز ایمپلنت حلزون گوش نیز مورد استفاده قرار گرفت.

در تمام این شرایط، صداهای کلون‌شده همچنان واضح‌تر باقی ماندند. این تداوم نشان می‌دهد که نتیجه صرفاً یک اتفاق تصادفی نیست.

این موضوع احتمال وجود یک الگوی سیستماتیک در نحوه تولید این صداها را مطرح می‌کند.

کاربردهای بالقوه صداهای هوش مصنوعی

در نگاه اول، این نتیجه ممکن است صرفاً یک نکته فنی به نظر برسد، اما اهمیت زیادی دارد؛ زیرا گفتار مصنوعی به‌سرعت در حال تبدیل شدن به بخشی از زندگی روزمره است.

اگر صداهای کلون‌شده در محیط‌های پر سر و صدا واضح‌تر باشند، می‌توانند در موارد زیر کاربرد گسترده‌ای داشته باشند:

اعلان‌های عمومی در فضاهای شلوغ
دستگاه‌های کمکی برای افراد دارای مشکلات شنوایی
سیستم‌های ناوبری و ارتباطی

در عین حال، این مزیت می‌تواند باعث شود این صداها قابل‌اعتمادتر یا قانع‌کننده‌تر از آنچه هستند به نظر برسند.

صدایی که بهتر از نویز عبور می‌کند ممکن است روان‌تر، کنترل‌شده‌تر و حتی قابل اعتمادتر به نظر برسد.

چرا صداهای مصنوعی واضح‌تر به نظر می‌رسند؟

این یافته نکته مهمی درباره خود گفتار انسانی نیز نشان می‌دهد. صدای واقعی انسان پر از تغییرات است؛ مکث، نفس، تأکید، لهجه و نقص‌های کوچک.

کلون صوتی ممکن است هویت اصلی گوینده را حفظ کند، اما در عین حال برخی از این جزئیات پیچیده را حذف یا ساده‌سازی کند؛ جزئیاتی که در شرایط شنیداری ضعیف، درک گفتار را دشوار می‌کنند.

این فرضیه هنوز به‌طور قطعی اثبات نشده است، اما یکی از توضیحات منطقی برای عملکرد بهتر کلون‌ها محسوب می‌شود.

راز حل‌نشده گفتار مصنوعی

در حال حاضر، پژوهشگران هنوز پاسخ قطعی برای علت این پدیده ندارند. همین عدم قطعیت، جذابیت این مطالعه را افزایش داده است.

برنامه آن‌ها این است که با بررسی نحوه عملکرد سینتسایزرها و پردازش سیگنال دیجیتال، دلیل این برتری را بهتر درک کنند.

بنابراین، سؤال اصلی دیگر این نیست که آیا صداهای کلون‌شده می‌توانند با صدای انسان رقابت کنند یا نه. این مطالعه نشان می‌دهد که آن‌ها حتی می‌توانند عملکرد بهتری داشته باشند.

راز واقعی این است که چرا چنین اتفاقی می‌افتد. پاسخ به این سؤال می‌تواند درک ما از گفتار مصنوعی و حتی نحوه اعتماد و درک صدا توسط گوش انسان را تغییر دهد.

جمع‌بندی: آینده صداهای هوش مصنوعی

پیشرفت در فناوری کلون صدا نشان می‌دهد که آینده ارتباطات صوتی ممکن است بیش از پیش به سمت صداهای مصنوعی حرکت کند. درک بهتر این پدیده می‌تواند مسیر طراحی سیستم‌های صوتی را متحول کند.

اگر به دنیای هوش مصنوعی و فناوری‌های نوین علاقه‌مند هستید، همین حالا این مقاله را با دوستانتان به اشتراک بگذارید و دیدگاه خود را با ما در میان بگذارید.