Cosmos Predict-2 مدل جدید هوش مصنوعی NVIDIA برای اکوسیستم خودروهای خودران
توسعه خودروهای خودران (AV) وعدهٔ تحول در حملونقل را میدهد، اما رسیدن به سیستمهای کاملاً قابل اعتماد و یکپارچه همچنان راهی پرچالش است. معماریهای فعلی AV معمولاً از ماژولهای مجزای «درک»، «پیشبینی» و «برنامهریزی» تشکیل…
توسعه خودروهای خودران (AV) وعدهٔ تحول در حملونقل را میدهد، اما رسیدن به سیستمهای کاملاً قابل اعتماد و یکپارچه همچنان راهی پرچالش است. معماریهای فعلی AV معمولاً از ماژولهای مجزای «درک»، «پیشبینی» و «برنامهریزی» تشکیل میشوند که هر کدام بهصورت جداگانه آموزش و اعتبارسنجی میشوند و سپس خروجیها برای تصمیمگیری نهایی رانندگی ترکیب میشوند. اگرچه این روش کارآمد است، اما به حجم زیادی از دادههای دنیای واقعی با برچسبگذاری دقیق نیاز دارد تا تمام سناریوهای ممکن را پوشش دهد.
نرمافزار و سختافزار NVIDIA قصد دارد این مراحل جداگانه را در یک چارچوب یکپارچه بزرگ (Large Model) ادغام کند؛ مدلی که مستقیماً دادههای خام حسگرها را دریافت و خروجی فرمانهای رانندگی را تولید میکند. این رویکرد (end‑to‑end) نیاز بسیار بیشتری به دادههای آموزشی با کیفیت و حجم بالا—دادههایی که نهتنها موانع و نقشههای جادهای ایستا را پوشش دهند، بلکه انیمیشنهای زمانمند از حرکت عابران پیاده، خودروها و تغییرات محیط را نیز بهدقت شبیهسازی کنند—دارد.
برای پاسخ به این نیاز، NVIDIA امروز دو محصول جدید معرفی کرده است:
-
Cosmos Predict‑2: مدل بنیادین جهان (World Foundation Model) نسل بعدی برای تولید صحنههای پیشبینی شده و شبیهسازیشده.
-
میکروسرویسهای جدید NIM—از جمله Cosmos Transfer و NuRec Fixer—برای تقویت دادهها، تولید ویدئوی فوتورئالیستیک و بازسازی عصبی.
این ابزارها بهطور یکپارچه با Omniverse و CARLA ادغام میشوند تا توسعهدهندگان AV بتوانند سناریوهای سفارشی بیپایان ایجاد و سرعت توسعه معماریهای end‑to‑end را تسریع کنند.
نیاز روزافزون مدلهای بزرگ end‑to‑end به دادههای با کیفیت
خط لولههای مدرن AV مبتنی بر شبکههای عصبی عمیق هستند که دو ویژگی را میطلبند: مقیاس و تنوع. در بخش درک، شبکههای مبتنی بر کانولوشن علائم راهنمایی، خطوط جاده و عابران پیاده را تشخیص میدهند. در بخش پیشبینی، مدلهای بازگشتی و ترنسفورمر حرکت سایر عوامل را پیشبینی میکنند. در برنامهریزی، الگوریتمهای یادگیری تقویتی یا بهینهسازی مسیرهای ایمن را مییابند. هر یک از این شبکهها روی چند ترابایت دادههای دوربین، لیدار و رادار با برچسبهای دقیق آموزش میبینند، اما همچنان در مواجهه با رویدادهای نادر—مانند دویدن ناگهانی عابر پیاده، مناطق ساختوساز یا سیلاب—ضعف دارند.
مدلهای بزرگ یکپارچه قصد دارند این مراحل را در هم ادغام کنند: به جای پردازش مجزا، یک مدل تمام دادههای خام حسگر (مانند تصاویر و ابر نقاط) را دریافت و مستقیماً مسیر یا فرمانهای کنترلی تولید میکند. نمونههای اولیه موفق بودهاند، اما به مقادیر بسیار بیشتری از دادهها نیاز دارند—بهویژه ویدئوهای زمانمند با کیفیت بالا که فیزیک واقعی را شبیهسازی کنند:
-
واقعگرایی ظاهری: محیطهای شبیهسازی باید ویژگیهای نورپردازی و نویز دوربینهای واقعی را در شرایط نوری و آبوهوایی مختلف تقلید کنند.
-
تداوم زمانی: توالی تولیدشده باید ثبات جسمی را حفظ کند؛ خودروها نباید پرش یا تغییر شکل ناگهانی داشته باشند و مسیر حرکت باید با قوانین فیزیک مطابقت کند.
-
درست بودن زمینه: علائم ترافیکی، اطلاعات نقشه و رفتارهای متعارف رانندگان باید بهدرستی در صحنه لحاظ شوند.
پلتفرم Cosmos از NVIDIA با پیوند دادن مدلهای بنیادین جهان با شبیهسازی شتابیافته با GPU و رندرینگ عصبی، به توسعهدهندگان اجازه میدهد میلیاردها فریم آموزشی تولید و سناریوها را در لحظه سفارشیسازی کنند.
معرفی Cosmos Predict‑2
بر پایه موفقیت Cosmos Predict‑1، مدل بنیادین جدید NVIDIA با نام Cosmos Predict‑2 سه قابلیت کلیدی جدید دارد:
-
دریافت بهتر متن و تصویر
-
کاهش خطاهای شبیهسازی (هالوسینیشن)
-
افزایش سرعت اجرا روی سیستمهای GB200 و DGX Cloud
درک عمیقتر از متن و تصویر
در نسخه اول، مدل میتوانست با دریافت دستور متنی، تصویر یا ویدئو، توالیهای ویدئویی چندثانیهای از آینده صحنه تولید کند؛ اما در صحنههای پیچیده ممکن بود خطاهایی در چیدمان یا فیزیک ظاهر شوند. Predict‑2 با معماری ترنسفورمر دوگانه که توجه متقابل عمیقتر به ورودیهای متنی و بصری دارد، این مشکلات را رفع کرده است. اکنون اگر بخواهید «تابلو توقف در تقاطع خیابان پنجم و اصلی» را تولید کنید، مدل تابلو را دقیقاً در محل و با نورپردازی مناسب قرار میدهد و باهوشتر از محدودات فیزیکی و قوانین ترافیک پیروی میکند.
جزئیات بیشتر و خطاهای کمتر
بهعلاوه، ثبات زمانی صحنه بهبود یافته است: افکتهای تاری حرکت، پویایی سایهها و نویز دوربین بهطور منسجم در فریمها اعمال میشود. این واقعگرایی حیاتی است، زیرا شبکههای درک AV ممکن است به راحتی به نویزهای مصنوعی آشنا شوند و بر عملکرد در دنیای واقعی تأثیر منفی بگذارند. Predict‑2 با کاهش هالوسینیشنها—مانند اجسام خیالی، تغییرات رنگ غیرطبیعی یا اشکالات هندسی—دادههایی تولید میکند که بسیار به ورودیهای واقعی دوربینها نزدیک است.
توان عملیاتی بالا روی سختافزار NVIDIA
تولید میلیونها فریم در روز نیازمند توان محاسباتی عظیم است. Predict‑2 کاملاً برای شتابدهندههای GB200 NVL72 بهینه شده و نسبت به نسخه اول تا دو برابر توان عملیاتی بیشتر دارد. همچنین در DGX Cloud بهصورت انعطافپذیر مقیاسپذیر است؛ توسعهدهندگان میتوانند فرآیندهای چندGPU را اجرا کرده و توالیهای مصنوعی را مستقیماً به خطوط آموزش انتقال دهند.
پسآموزی (Post‑Training): بهرهبرداری از منابع داده جدید
دادههای مصنوعی قدرتمندند، اما وقتی با سناریوهای واقعی همراستا شوند ارزششان چند برابر میشود. جریان کاری پسآموزی NVIDIA به تیمهای AV امکان میدهد مدلهای Cosmos را روی لاگهای رانندگی اختصاصی خود آموزش دهند—بهعنوان مثال تبدیل ویدئوی تکنما از دوربین داشبورد به توالیهای چندنما.
افزایش نماهای دوربین از ویدئوی داشبورد
در عملیاتهای معمول، هر خودرو تنها یک یا دو دوربین جلو دارد. اما سیستمهای کامل AV از ۶–۸ دوربین در اطراف خودرو استفاده میکنند. با پسآموزی مدل روی ۲۰۰۰۰ ساعت داده رانندگی واقعی، به مدل آموزش میدهیم که زاویهها و نماهای مفقود را بازیابی کند. یک ویدئوی ساده از بزرگراه را به مدل بدهید و ویدئوهای همزمان از نماهای جانبی و پشت خودرو خروجی میگیرید—با همان مسیر حرکت و نورپردازی.
مزایای اصلی:
-
مقیاسپذیری: ناوگانها میتوانند لاگهای داشبورد فراوان را ارسال کرده و بدون نیاز به رانندگی جدید، مجموعه دادههای چنددوربینی تولید کنند.
-
تابآوری: در صورت قطع یا خلأ در دادههای حسگر، مدل میتواند نماهای جایگزین تولید کند و از هدررفت داده جلوگیری نماید.
انطباق بهتر در شرایط دشوار
تیم تحقیقاتی NVIDIA نشان داده است که شبکههایی که با دادههای چندنما آموزش دیدهاند، در مه، باران شدید و نور کم بهمراتب مقاومترند. با شبیهسازی سناریوهایی چون تودههای مه متراکم یا باران سیلآسا، میتوان شبکهها را در شرایط خطرناک برای ضبط واقعی، بهخوبی آزمایش کرد.
پذیرش صنعتی: از کامیونهای خودران تا ناوگان شهری
چندین شرکت پیشرو AV هماکنون از Cosmos Predict‑2 در جریانهای کاری خود استفاده میکنند:
-
Plus
«ما مدل را روی دادههای عظیم حملونقل جادهای پسآموزی میکنیم تا سناریوهای واقعی بزرگراه و پارکسازی تولید کنیم و عرضه کامیونهای خودران را ماهها جلو بیندازیم.»
بهعنوان یکی از رهبران خودران در کامیونها، Plus از پلتفرم NVIDIA DRIVE AGX بهره میبرد و با تولید سناریوهایی چون عبور از همترافیکهای کند یا تغییر ناگهانی محدودیت سرعت، برنامهریزی را روی حالات نادر و چالشبرانگیز آموزش میدهد. -
Oxa
«وفاداری چنددوربینی و هماهنگی زمانی بسیار مهم است. معماری جدید Predict‑2 هر دو را در مقیاس بالا ارائه میدهد.»
Oxa در حوزه رانندگی شهری فعالیت میکند و با Cosmos خیابانهای اروپا، کوچههای توکیو و بلوکهای شبکهای نیویورک را با عابران، دوچرخهسواران و وسایل نقلیه ریزشونده بهصورت طبیعی شبیهسازی میکند. -
Uber ATG (اکنون بخشی از Aurora)
گروه ATG اوبر در کاربردهای حملونقل اشتراکی پیشگام بود. با Cosmos، روی مدیریت پویا خطکشی خیابانها و مناطق سوار/پیاده تمرکز میکنند—مناطق کمنمونه در دیتاستهای عمومی.
میکروسرویسهای NIM: استقرار سادهسازیشده
تولید و تقویت داده AV در مقیاس بزرگ نیاز به سرویسهای کانتینری و انعطافپذیر دارد. چارچوب NIM (NVIDIA Inference Microservice) دو میکروسرویس پیشنمایش جدید ارائه میدهد:
Cosmos Transfer NIM
-
وظیفه: تبدیل خروجی شبیهسازی ساختاریافته (نقشه عمق، ماسک تقسیمبندی) به ویدئوی فوتورئالیستیک.
-
ورودی: دادههای ground-truth از دنیای Omniverse (موقعیت عوامل، هندسه نقشه، پارامترهای محیط).
-
خروجی: ویدئوهای با وضوح بالا (۴K+) که نویز دوربین و اعوجاج لنز را بازتولید میکنند.
این میکروسرویس جریان کاری را از موتور فیزیک تا مجموعه دادههای آموزشی بهصورت خودکار پیش میبرد، بدون نیاز به مراحل رندر جداگانه.
NuRec Fixer
بازسازی عصبی اغلب با خلأهایی در ابر نقاط لیدار و نقشه عمق مواجه است. NuRec Fixer این مشکلات را برطرف میکند:
-
پرکردن فضاهای خالی: استفاده از الگوهای یادگرفتهشده برای inpainting نقاط گمشده.
-
چکهای ثباتی: حفظ یکپارچگی بافتها در طول فریمها.
-
رابطهای API: امکان اسکریپتنویسی برای ترکیب با ابزارهای بازسازی اختصاصی.
ادغام با CARLA: دموکراتیزه کردن داده مصنوعی
CARLA بهعنوان شبیهساز متنباز پیشرو در تحقیقات AV با بیش از ۱۵۰٬۰۰۰ کاربر شناخته میشود. در نسخه بعدی CARLA:
-
Cosmos Transfer و NuRec بهصورت افزونههای بومی عرضه میشوند.
-
کاربران میتوانند سناریوها را با API پایتون CARLA تعریف کنند، موقعیت دوربینها را تنظیم و شرایط نور و آبوهوا را تغییر دهند، سپس Cosmos را برای رندر درونخط فراخوانی کنند.
-
مجموعهداده NVIDIA Physical AI شامل ۴۰٬۰۰۰ کلیپ تولیدشده با Cosmos و نمونههای بازسازی عصبی است.
این ادغام به:
-
تنوع بینهایت: زمینهای تصادفی، پوشش گیاهی رویهای و ترافیک پویا.
-
تکرار سریع: تغییر کد، رندر جدید در چند دقیقه.
-
همکاری پژوهشی: اشتراک اسکریپتها و مجموعهدادهها در سراسر موسسات.
شکلگیری مدلهای end‑to‑end
آزمون واقعی استراتژی NVIDIA در داده مصنوعی، چالش Grand Challenge end‑to‑end در CVPR امسال بود. برای دومین سال متوالی، تیمهای تحقیقاتی NVIDIA با استفاده از خط لولههای Cosmos مدلهای تکمدلی آموزش دادند که میتوانستند با حوادث غیرمنتظره—مانند عابران هنجارشکن یا علائم مبهم—بهخوبی مقابله کنند و از مدلهای مبتنی بر داده صرفاً واقعی پیشی گرفتند. این موفقیتها نشان میدهد: کیفیت داده، قابلیت مدل را چند برابر میکند.
با بستن چرخه تولید سناریو، آموزش مدل، اعتبارسنجی در شبیهساز و تنظیم نهایی روی درایوهای واقعی، توسعهدهندگان میتوانند بسیار سریعتر از چرخههای سنتی رانندگی و برچسبگذاری پیش بروند و در نهایت شبکههای ایمنتر و مقاومتری را عرضه کنند.
NVIDIA Halos: ایمنی از سیلیکون تا نرمافزار
ایمنی AV تنها به درک دقیق محدود نمیشود؛ بلکه به تضمین end‑to‑end—از تشخیص خطا در سختافزار تا کاهش شکست در سطح سیستم—نیاز دارد. NVIDIA Halos که اوایل امسال معرفی شد، شامل:
-
سختافزار خودرویی: مسیرهای محاسباتی افزونه، نظارت بلادرنگ و مکانیزمهای پشتیبان.
-
نرمافزار تأییدشده: انطباق با ISO 26262، طراحی مبتنی بر مدل و تأیید رسمی.
-
بازرسی مبتنی بر AI: تستهای خودکار که شبکه را در سناریوهای دشوار و شرایط لبهای آزمایش میکنند.
شرکتهای جدیدی مانند Bosch، Easyrain و Nuro به آزمایشگاه بازرسی سیستمهای Halos پیوستهاند تا یکپارچگی امن محصولاتشان با فناوریهای NVIDIA را تأیید کنند. اعضای قبلی شامل Continental، Ficosa، onsemi و Sony Semiconductor Solutions هستند.
پیام برای توسعهدهندگان AV
اگر در حال ساخت نسل بعدی خودروهای خودران—چه سواری، چه شاتل یا کامیون—هستید، این مراحل را دنبال کنید:
-
کاوش در NVIDIA Omniverse: جهانهای سفارشی بسازید یا از کتابخانههای نقشه موجود استفاده کنید.
-
دانلود Physical AI Dataset: از ۴۰٬۰۰۰ کلیپ Cosmos برای شروع سریع بهره ببرید.
-
ادغام مدلهای Cosmos: Predict‑2 و میکروسرویسهای NIM را روی DGX یا GPU Cloud مورد علاقهتان اجرا کنید.
-
پسآموزی روی لاگهای خود: دادههای داشبورد، لیدار و شبیهسازی را به توالیهای چندنما تبدیل کنید.
-
اعتبارسنجی با Halos: از مجموعههای آزمایشی آزمایشگاه برای تضمین انطباق و ایمنی استفاده کنید.
با ترکیب تولید داده مصنوعی با اعتبارسنجی دنیای واقعی، میتوانید زمان توسعه را کاهش دهید، به تستهای میدانی گرانقیمت کمتر وابسته باشید و در نهایت AVهای ایمنتر و قابلاعتمادتری عرضه کنید.
چشمانداز آینده اکوسیستم خودروهای خودران
پشته داده مصنوعی NVIDIA بهسرعت در حال رشد است. در نقشه راه آینده:
-
رندر متقاطع حسگرها: ادغام لیدار، رادار و RGB برای سنتز جامع حسگر.
-
حلقههای یادگیری فعال: نمونهبرداری خودکار از سناریوها برای شناسایی خلاهای دادهای در مدلهای آموزشدیده و تولید توالیهای هدفمند.
-
اجرای بهینهشده لبه: نسخههای سبکتر Cosmos برای افزونه داده درونخودرو و پخش سناریو در لحظه.
همگام با یکپارچهشدن معماریهای AV end‑to‑end، مرز بین شبیهسازی و واقعیت محو میشود. پلتفرمهای داده مصنوعی مانند NVIDIA Cosmos همچنان نقش محوری خواهند داشت—توانمندسازی توسعهدهندگان در مواجهه با تمام چالشهای رانندگی و ساخت خودروهای هوشمند و مقاوم فردا.
منبع:
NVIDIA Releases New AI Models and Developer Tools to Advance Autonomous Vehicle Ecosystem
