وی این طور توضیح میدهد که ما موانع زیادی بر سر راه داریم که باید آنها را برطرف کنیم و انتظار داریم که در نهایت ماشینها بتوانند حرکات لب را رمزگشایی کنند: کلام بشری از ۵۰ صدای متمایز استفاده میکند تا کلمات و هجاها را تشخیص دهد اما خود دهان تنها بین ۱۰ تا ۱۴ شکل متمایز را تشکیل میدهد. لبخوانی تنها تشخیص و کنار هم قرار دادن صداهایی که این شکلها را آماده میکند نیست. بخشی از آن حدس زدن است. برای تخمین زدن اینکه سخنور دقیقاً چه صدایی را تولید میکند، لبخوانها باید از زبان بدن، حالات چهره و بافت مکالمه استفاده میکنند تا به آنها کمک کنند تا کلمات را کشف کنند یا به عبارتی حدس بزنند.
سعیده اکبری