هر چند دهه یکبار، فناوری نحوه درک بشر از خود را تغییر میدهد. انقلاب هوش مصنوعی، که به سرعت در سه سال گذشته در حال پیشرفت است، یکی از آن لحظات حیاتی است. حالا دیگر تنها کلمات نیستند که فناوری در حال کشف و درک آنهاست، بلکه گفتار و لحن پشت آنها نیز مورد توجه قرار گرفتهاند.
ظهور مدلهای زبان بزرگ و توانمندی در تقلید ارتباطات انسانی
با افزایش اهمیت مدلهای زبانی مانند ChatGPT، این موضوع آشکار شده است که ماشینها قادرند بهطور قابلتوجهی ارتباطات انسانی را تقلید کنند. با این حال، یک لایه عمیقتر از تعامل باقی مانده است که تنها در کلمات یافت نمیشود.
تحقیق جدید در موسسه وایزمن و کشف لحن گفتار به عنوان یک زبان مستقل
تحقیقی که اخیراً توسط آزمایشگاه پروفسور الیشا موسی در موسسه وایزمن انجام شده، این بعد گمشده را آشکار کرده است.
این تحقیق نشان میدهد که لحن گفتار – که به آن «پروزودی» گفته میشود – یک زبان ساختاری و مستقل است که واژگان، معنایشناسی و دستور زبان خود را دارد و منتظر رمزگشایی است.
گفتار بیش از کلمات است
در زندگی روزمره، کلمات تنها بخشی از تعاملات انسانی را تشکیل میدهند. پروزودی یا موسیقی گفتار شامل تغییرات در تن صدا، تغییرات در بلندی، تغییرات در سرعت و کیفیت صوتی است.
این ابزارهای بیانی عمق احساسی و عملکردی را به ارتباطات میافزایند و معنای آنها را حتی زمانی که کلمات همانند باقی میمانند، تحت تأثیر قرار میدهند.
این موضوع یک توسعه جدید نیست. مطالعات نشان میدهند که هم شامپانزهها و هم نهنگها از ساختارهای پروزودیک در ارتباطات خود استفاده میکنند، که نشان میدهد پروزودی پیش از زبان وجود داشته است. در انسانها، یک مکث میتواند معنای یک جمله را بهطور چشمگیری تغییر دهد.
بررسی لحن گفتار بهعنوان یک زبان پنهان
دکتر نداو ماتالون و دکتر ایال وینراب، که تحقیق را از آزمایشگاه موسی رهبری میکنند، تصمیم گرفتند که پروزودی را مانند یک زبان ناشناخته مطالعه کنند.
آنها به پایگاههای داده گستردهای از مکالمات خودجوش انگلیسی مراجعه کردند: CallHome Corpus و Santa Barbara Corpus. آنها بهجای استفاده از گفتار نوشتهشده یا تمرینشده، زیبایی بینظم مکالمات واقعی را جستجو کردند.
الگوهای ابتدایی لحن گفتار
از این خوشهبندی، محققان حدود ۲۰۰ الگوی پروزودیک متمایز کشف کردند. این عدد بهوضوح با هزاران کلمه در واژگان اصلی زبانی انگلیسی متفاوت است. هر الگوی پروزودی، که حدود یک ثانیه طول میکشد، بهعنوان یک «کلمه» در زبان پنهان لحن عمل میکند.
عملکرد زبانشناختی الگوهای لحن گفتار
با وجود تفاوت در صداهای فردی، این اشکال ملودیک بهطور پیوسته در مکالمات خودجوش ظاهر میشوند. هر شکل میتواند چندین عملکرد زبانی داشته باشد بسته به زمینه، اما معمولاً یک نگرش عاطفی غالب مانند اشتیاق، بدبینی یا کنجکاوی را بیان میکند.
لحن گفتار بر اساس قوانین ساده
محققان فراتر از شناسایی «کلمات» پروزودیک ابتدایی، قوانینی برای نحوه ترکیب این واحدهای ملودیک کشف کردند. آنها دریافتند که برخی از الگوهای پروزودی تمایل دارند در جفتها ظاهر شوند، بهطوری که یک واحد پیشبینی میکند واحد بعدی را بر اساس قوانینی ساده و به یادماندنی شبیه به فرایند مارکوف.
گفتار خودجوش در مقابل گفتار نوشتهشده
یکی از یافتههای چشمگیر این تحقیق، تفاوت بین گفتار خودجوش و گفتار نوشتهشده است. زمانی که محققان کتابهای صوتی حرفهای را تجزیه و تحلیل کردند، متوجه شدند که گفتار نوشتهشده فاقد جفتهای طبیعی پروزودیکی است که در مکالمات رایج وجود دارد.
آینده هوش مصنوعی و درک احساسات
آموزش هوش مصنوعی برای درک پروزودی میتواند بهشدت نحوه تعامل ماشینها با انسانها را تغییر دهد. محققان پیشبینی میکنند که سیستمهای آینده قادر خواهند بود نهتنها کلمات را پردازش کنند، بلکه سیگنالهای عاطفی را نیز از لحنهای گفتار دریافت کنند.
چالشها و جهتگیریهای آینده
این تحقیق اذعان میکند که گفتار انسانی دارای نویز درونی است. مکالمات روزمره پر از وقفهها، اصلاحات و صداهای همپوشانی است. خوشهبندی الگوهای پروزودیک باید این آشوب را مدیریت کند و جداسازی کامل «کلمات» پروزودیک همچنان دشوار است.
کشف اسرار گفتار
این کار با همکاری تیمی متشکل از دکتر دومینیک فرچه، دکتر اریز فولک از NeuraLight Inc.، دکتر تیرزا بیرون و پروفسور دیوید بیرون از دانشگاه شیکاگو ممکن شده است.
تلاش جمعی آنها اکنون به آیندهای اشاره دارد که در آن ماشینها نهتنها کلمات را درک میکنند بلکه قادر به شنیدن انسانها – احساس، قصد و همه چیز – هستند.
این مطالعه در نشریه Proceedings of the National Academy of Sciences منتشر شده است.