چشمهای خودروهای خودران هر روز تیزبینتر میشوند، اما سیستم جدیدی به نام OmniPredict یک گام فراتر رفته و تلاش میکند نهتنها آنچه را میبیند پردازش کند، بلکه «آنچه قرار است اتفاق بیفتد» را نیز پیشبینی کند.
به جای اینکه انسانها را بهعنوان «پیکسلهای متحرک» ببیند، این فناوری که توسط دانشگاه Texas A&M و موسسه KAIST توسعه یافته است، دادههای بصری را با درک عمیقتری از محیط ترکیب میکند.
این سیستم سپس از این اطلاعات برای پیشبینی رفتار احتمالی عابران استفاده میکند: اینکه مکث میکنند، یک قدم جلو میگذارند، از خیابان عبور میکنند یا به عقب برمیگردند.
«شهرها قابل پیشبینی نیستند. عابران هم همینطور»، سریکانت ساریپالی، نویسنده این تحقیق میگوید. «مدل جدید ما نگاهی به آیندهای است که در آن ماشینها فقط نمیبینند، بلکه پیشبینی میکنند انسانها چه خواهند کرد».
OmniPredict یکی از نخستین سیستمهایی است که یک مدل زبانی چندوجهی پیشرفته – همان خانوادهای که پشت چتباتهای هوشمند و فناوری پرسشوپاسخ تصویری قرار دارد – را وارد حلقه پیشبینی رفتار عابران کرده است.
نتیجه، موتوری است که از حالت بدن، جهت نگاه و نشانههای حرکتی انسانها سرنخ میگیرد و این دادهها را با زمینه محیطی مانند آرایش خیابان، جهت حرکت خودرو، موانع دید و نشانههای اجتماعی ترکیب میکند تا پیشبینیهای لحظهای و دقیق ارائه دهد.
OmniPredict چگونه به خودروها «هوش خیابانی» میدهد
در سیستمهای خودران کلاسیک، معمولاً شبکههای بینایی کامپیوتری مسئول تشخیص و ردیابی افراد هستند و سپس سیستم دیگری وظیفه پیشبینی مسیر حرکت را بر اساس چند فریم قبلی بر عهده دارد.
این روش زمانی عالی عمل میکند که جهان مطابق دادههای آموزشدیده رفتار کند، اما وقتی شرایط متفاوت باشد، عملکرد دچار افت میشود.
- تغییرات آبوهوا
- رفتار غیرمنتظره مردم
- رخدادهای نادر
- هرجومرج طبیعی خیابانهای شهری
ساریپالی میگوید این عوامل میتوانند حتی قویترین سیستمهای مبتنی بر بینایی را تحت فشار قرار دهند.
OmniPredict این ضعف را با ترکیب «ادراک» و «استدلال» برطرف میکند. ورودیهای بصری در کنار توصیفهای محیطی مانند مکان خط عابر، نیمهپنهان بودن یک عابر پشت خودرو پارکشده، یا جهت نگاه فرد قرار میگیرند. سپس همه این دادهها به یک مدل زبانی چندوجهی مخصوص حوزه رانندگی منتقل میشوند.
این مدل به جای اینکه صرفاً مسیر حرکت را تخمین بزند، صحنه را بهصورت مجموعهای از «نیتهای انسانی» که در زمان شکل میگیرند، تفسیر میکند.
به زبان ساده، سیستم قادر است تفاوت میان «ایستادن کنار خیابان و صحبت کردن» و «آمادگی برای ورود به خیابان» را تشخیص دهد و پیشبینی خود را لحظهبهلحظه با تغییر نشانهها اصلاح کند.
چرا پیشبینی رفتار انسانها مهم است
انسانها هنگام عبور از خیابان به طور غریزی چندین سناریو را در ذهن بررسی میکنند: اگر طرف مقابل سرعتش را زیاد کند، اگر کالسکه تغییر مسیر بدهد، اگر دوچرخهسوار تعادلش را از دست بدهد.
خودروهای خودران نیز باید چنین لایهای از پیشبینی رفتاری داشته باشند تا از ترمزهای ناگهانی، مکثهای سرمایشی یا مانورهای خطرناک جلوگیری شود.
«این فناوری راه را برای رانندگی ایمنتر، کاهش برخوردهای مرتبط با عابران و حرکت از واکنش به پیشگیری باز میکند».
مزیت روانی آن نیز قابل توجه است. تصور کنید کنار خیابان بایستید و بدانید خودروی مقابل، حرکت بعدی شما را در نظر گرفته است. این یعنی:
- کاهش تنش هنگام عبور
- کاهش موقعیتهای نزدیک به تصادف
- جریان روانتر ترافیک
درک نشانههای انسانی در شرایط پیچیده
کاربرد این فناوری فقط محدود به خیابانها نیست. سیستمهایی که میتوانند تغییرات بدن، hesitation، نشانههای استرس یا رفتارهای تهدیدآمیز را تشخیص دهند، میتوانند در حوزههای حساس مانند عملیات نظامی یا امداد و نجات نیز به کمک انسان بیایند.
این تکنولوژی میتواند برای تیمهای امنیتی که در محیطهای سریع و پرتنش فعالیت میکنند نیز ارزشمند باشد.
ساریپالی میگوید: «ما در حال باز کردن درهای کاربردهای هیجانانگیز هستیم. مثلاً امکان اینکه یک ماشین بتواند نشانههای تهدید را تشخیص دهد و پیامدهای احتمالی آن را پیشبینی کند بسیار مهم است». او میافزاید: «هدف ما جایگزینی انسانها نیست، بلکه تقویت توانایی آنها با یک شریک هوشمند است».
آزمایش OmniPredict و سنجش عملکرد آن
محققان برای سنجش توانایی این سیستم، آن را روی دو مجموعهداده دشوار رفتار عابران – JAAD و WiDEVIEW – آزمایش کردند، آن هم بدون اعمال تنظیمات اختصاصی برای این دادهها.
نتیجه چشمگیر بود. مدل به دقت ۶۷ درصد رسید و حدود ۱۰ درصد بهتر از رقبای پیشرفته عمل کرد.
اهمیت دیگر آن این بود که مدل در شرایط سختتر نیز پایدار ماند. از جمله:
- عابران نیمهپنهان
- افرادی که به خودرو نگاه میکنند
- نورپردازی متفاوت
- چیدمانهای گوناگون خیابان
تاخیر واکنش پایین بود و عملکرد مدل در محیطهای مختلف حفظ شد. این نشانه خوبی برای استفاده واقعی در خودروهای آینده است.
رانندگی هوشمندتر و انسانمحورتر
OmniPredict جایگزین سیستمهای سنتی نمیشود، بلکه آنها را تکمیل میکند. دوربینها و حسگرها همچنان وظیفه تشخیص اشیاء را دارند و سیستم برنامهریزی همچنان از قوانین رانندگی پیروی میکند.
اما ارتقا در بخش میانی ایجاد میشود: لایه پیشبینی رفتار، آگاه از زمینه و حساس به نیت انسانها میشود.
این تغییر به خودرو کمک میکند:
- در برابر حرکتهای مردد عابران آهستهتر شود
- وقتی عابر بهوضوح در حال توقف است، سریعتر تصمیم بگیرد
- وقتی زبان بدن نشانه عدم اطمینان دارد، با احتیاط بیشتری نزدیک شود
نتیجه، رانندگی روانتر و ایمنتر است.
محدودیتها، اخلاق و مسیر پیش رو
در حال حاضر OmniPredict هنوز یک نمونه تحقیقاتی است، نه یک سیستم تجاری. این فناوری نیاز به آزمایش گستردهتر در فرهنگهای مختلف، شرایط آبوهوایی و طراحیهای شهری دارد.
همچنین سیستم باید در برابر اعتماد بیش از حد محافظت شود و هنگام تحلیل نشانههای انسانی، قوانین حریم خصوصی رعایت گردد.
هر ابزاری که رفتار انسان را «تفسیر» میکند باید شفاف باشد و سوگیری آن نسبت به سبکهای بدن، ابزارهای کمکی حرکتی، پوشش و رفتارهای مختلف سنجیده شود.
با این حال مسیر آینده روشن است. OmniPredict فقط نمیبیند، بلکه «دلایل» پشت رفتار را نیز تحلیل میکند و میتواند پیشبینی کند چه زمانی انسان قرار است دست به عمل بزند.
اگر خودروها بتوانند چند ثانیه آینده رفتار انسان را با دقت پیشبینی کنند، یک قدم به خیابانهایی نزدیک میشویم که آرامتر، ایمنتر و هماهنگتر هستند.
این مطالعه در مجله Computers & Electrical Engineering منتشر شده است.