Cosmos Predict-2 مدل‌ جدید هوش مصنوعی NVIDIA برای اکوسیستم خودروهای خودران

نویسنده:
شرکت پیشرو Ai
تاریخ انتشار:
07 تیر 1404
دیدگاه ها:
Cosmos Predict-2

توسعه خودروهای خودران (AV) وعدهٔ تحول در حمل‌ونقل را می‌دهد، اما رسیدن به سیستم‌های کاملاً قابل اعتماد و یکپارچه همچنان راهی پرچالش است. معماری‌های فعلی AV معمولاً از ماژول‌های مجزای «درک»، «پیش‌بینی» و «برنامه‌ریزی» تشکیل…

توسعه خودروهای خودران (AV) وعدهٔ تحول در حمل‌ونقل را می‌دهد، اما رسیدن به سیستم‌های کاملاً قابل اعتماد و یکپارچه همچنان راهی پرچالش است. معماری‌های فعلی AV معمولاً از ماژول‌های مجزای «درک»، «پیش‌بینی» و «برنامه‌ریزی» تشکیل می‌شوند که هر کدام به‌صورت جداگانه آموزش و اعتبارسنجی می‌شوند و سپس خروجی‌ها برای تصمیم‌گیری نهایی رانندگی ترکیب می‌شوند. اگرچه این روش کارآمد است، اما به حجم زیادی از داده‌های دنیای واقعی با برچسب‌گذاری دقیق نیاز دارد تا تمام سناریوهای ممکن را پوشش دهد.

نرم‌افزار و سخت‌افزار NVIDIA قصد دارد این مراحل جداگانه را در یک چارچوب یکپارچه بزرگ (Large Model) ادغام کند؛ مدلی که مستقیماً داده‌های خام حسگرها را دریافت و خروجی فرمان‌های رانندگی را تولید می‌کند. این رویکرد (end‑to‑end) نیاز بسیار بیشتری به داده‌های آموزشی با کیفیت و حجم بالا—داده‌هایی که نه‌تنها موانع و نقشه‌های جاده‌ای ایستا را پوشش دهند، بلکه انیمیشن‌های زمان‌مند از حرکت عابران پیاده، خودروها و تغییرات محیط را نیز به‌دقت شبیه‌سازی کنند—دارد.

برای پاسخ به این نیاز، NVIDIA امروز دو محصول جدید معرفی کرده است:

  1. Cosmos Predict‑2: مدل بنیادین جهان (World Foundation Model) نسل بعدی برای تولید صحنه‌های پیش‌بینی شده و شبیه‌سازی‌شده.

  2. میکروسرویس‌های جدید NIM—از جمله Cosmos Transfer و NuRec Fixer—برای تقویت داده‌ها، تولید ویدئوی فوتورئالیستیک و بازسازی عصبی.

این ابزارها به‌طور یکپارچه با Omniverse و CARLA ادغام می‌شوند تا توسعه‌دهندگان AV بتوانند سناریوهای سفارشی بی‌پایان ایجاد و سرعت توسعه معماری‌های end‑to‑end را تسریع کنند.

نیاز روزافزون مدل‌های بزرگ end‑to‑end به داده‌های با کیفیت

خط لوله‌های مدرن AV مبتنی بر شبکه‌های عصبی عمیق هستند که دو ویژگی را می‌طلبند: مقیاس و تنوع. در بخش درک، شبکه‌های مبتنی بر کانولوشن علائم راهنمایی، خطوط جاده و عابران پیاده را تشخیص می‌دهند. در بخش پیش‌بینی، مدل‌های بازگشتی و ترنسفورمر حرکت سایر عوامل را پیش‌بینی می‌کنند. در برنامه‌ریزی، الگوریتم‌های یادگیری تقویتی یا بهینه‌سازی مسیرهای ایمن را می‌یابند. هر یک از این شبکه‌ها روی چند ترابایت داده‌های دوربین، لیدار و رادار با برچسب‌های دقیق آموزش می‌بینند، اما همچنان در مواجهه با رویدادهای نادر—مانند دویدن ناگهانی عابر پیاده، مناطق ساخت‌وساز یا سیلاب—ضعف دارند.

مدل‌های بزرگ یکپارچه قصد دارند این مراحل را در هم ادغام کنند: به جای پردازش مجزا، یک مدل تمام داده‌های خام حسگر (مانند تصاویر و ابر نقاط) را دریافت و مستقیماً مسیر یا فرمان‌های کنترلی تولید می‌کند. نمونه‌های اولیه موفق بوده‌اند، اما به مقادیر بسیار بیشتری از داده‌ها نیاز دارند—به‌ویژه ویدئوهای زمان‌مند با کیفیت بالا که فیزیک واقعی را شبیه‌سازی کنند:

  • واقع‌گرایی ظاهری: محیط‌های شبیه‌سازی باید ویژگی‌های نورپردازی و نویز دوربین‌های واقعی را در شرایط نوری و آب‌وهوایی مختلف تقلید کنند.

  • تداوم زمانی: توالی تولیدشده باید ثبات جسمی را حفظ کند؛ خودروها نباید پرش یا تغییر شکل ناگهانی داشته باشند و مسیر حرکت باید با قوانین فیزیک مطابقت کند.

  • درست بودن زمینه: علائم ترافیکی، اطلاعات نقشه و رفتارهای متعارف رانندگان باید به‌درستی در صحنه لحاظ شوند.

پلتفرم Cosmos از NVIDIA با پیوند دادن مدل‌های بنیادین جهان با شبیه‌سازی شتاب‌یافته با GPU و رندرینگ عصبی، به توسعه‌دهندگان اجازه می‌دهد میلیاردها فریم آموزشی تولید و سناریوها را در لحظه سفارشی‌سازی کنند.

معرفی Cosmos Predict‑2

بر پایه موفقیت Cosmos Predict‑1، مدل بنیادین جدید NVIDIA با نام Cosmos Predict‑2 سه قابلیت کلیدی جدید دارد:

  1. دریافت بهتر متن و تصویر

  2. کاهش خطاهای شبیه‌سازی (هالوسینیشن)

  3. افزایش سرعت اجرا روی سیستم‌های GB200 و DGX Cloud

درک عمیق‌تر از متن و تصویر

در نسخه اول، مدل می‌توانست با دریافت دستور متنی، تصویر یا ویدئو، توالی‌های ویدئویی چندثانیه‌ای از آینده صحنه تولید کند؛ اما در صحنه‌های پیچیده ممکن بود خطاهایی در چیدمان یا فیزیک ظاهر شوند. Predict‑2 با معماری ترنسفورمر دوگانه که توجه متقابل عمیق‌تر به ورودی‌های متنی و بصری دارد، این مشکلات را رفع کرده است. اکنون اگر بخواهید «تابلو توقف در تقاطع خیابان پنجم و اصلی» را تولید کنید، مدل تابلو را دقیقاً در محل و با نورپردازی مناسب قرار می‌دهد و باهوش‌تر از محدودات فیزیکی و قوانین ترافیک پیروی می‌کند.

جزئیات بیشتر و خطاهای کمتر

به‌علاوه، ثبات زمانی صحنه بهبود یافته است: افکت‌های تاری حرکت، پویایی سایه‌ها و نویز دوربین به‌طور منسجم در فریم‌ها اعمال می‌شود. این واقع‌گرایی حیاتی است، زیرا شبکه‌های درک AV ممکن است به راحتی به نویزهای مصنوعی آشنا شوند و بر عملکرد در دنیای واقعی تأثیر منفی بگذارند. Predict‑2 با کاهش هالوسینیشن‌ها—مانند اجسام خیالی، تغییرات رنگ غیرطبیعی یا اشکالات هندسی—داده‌هایی تولید می‌کند که بسیار به ورودی‌های واقعی دوربین‌ها نزدیک است.

توان عملیاتی بالا روی سخت‌افزار NVIDIA

تولید میلیون‌ها فریم در روز نیازمند توان محاسباتی عظیم است. Predict‑2 کاملاً برای شتاب‌دهنده‌های GB200 NVL72 بهینه شده و نسبت به نسخه اول تا دو برابر توان عملیاتی بیشتر دارد. همچنین در DGX Cloud به‌صورت انعطاف‌پذیر مقیاس‌پذیر است؛ توسعه‌دهندگان می‌توانند فرآیندهای چندGPU را اجرا کرده و توالی‌های مصنوعی را مستقیماً به خطوط آموزش انتقال دهند.

پس‌آموزی (Post‑Training): بهره‌برداری از منابع داده جدید

داده‌های مصنوعی قدرتمندند، اما وقتی با سناریوهای واقعی هم‌راستا شوند ارزششان چند برابر می‌شود. جریان کاری پس‌آموزی NVIDIA به تیم‌های AV امکان می‌دهد مدل‌های Cosmos را روی لاگ‌های رانندگی اختصاصی خود آموزش دهند—به‌عنوان مثال تبدیل ویدئوی تک‌نما از دوربین داشبورد به توالی‌های چندنما.

افزایش نماهای دوربین از ویدئوی داشبورد

در عملیات‌های معمول، هر خودرو تنها یک یا دو دوربین جلو دارد. اما سیستم‌های کامل AV از ۶–۸ دوربین در اطراف خودرو استفاده می‌کنند. با پس‌آموزی مدل روی ۲۰۰۰۰ ساعت داده رانندگی واقعی، به مدل آموزش می‌دهیم که زاویه‌ها و نماهای مفقود را بازیابی کند. یک ویدئوی ساده از بزرگراه را به مدل بدهید و ویدئوهای هم‌زمان از نماهای جانبی و پشت خودرو خروجی می‌گیرید—با همان مسیر حرکت و نورپردازی.

مزایای اصلی:

  1. مقیاس‌پذیری: ناوگان‌ها می‌توانند لاگ‌های داشبورد فراوان را ارسال کرده و بدون نیاز به رانندگی جدید، مجموعه داده‌های چنددوربینی تولید کنند.

  2. تاب‌آوری: در صورت قطع یا خلأ در داده‌های حسگر، مدل می‌تواند نماهای جایگزین تولید کند و از هدررفت داده جلوگیری نماید.

انطباق بهتر در شرایط دشوار

تیم تحقیقاتی NVIDIA نشان داده است که شبکه‌هایی که با داده‌های چندنما آموزش دیده‌اند، در مه، باران شدید و نور کم به‌مراتب مقاوم‌ترند. با شبیه‌سازی سناریوهایی چون توده‌های مه متراکم یا باران سیل‌آسا، می‌توان شبکه‌ها را در شرایط خطرناک برای ضبط واقعی، به‌خوبی آزمایش کرد.

پذیرش صنعتی: از کامیون‌های خودران تا ناوگان شهری

چندین شرکت پیشرو AV هم‌اکنون از Cosmos Predict‑2 در جریان‌های کاری خود استفاده می‌کنند:

  • Plus

    «ما مدل را روی داده‌های عظیم حمل‌ونقل جاده‌ای پس‌آموزی می‌کنیم تا سناریوهای واقعی بزرگراه و پارک‌سازی تولید کنیم و عرضه کامیون‌های خودران را ماه‌ها جلو بیندازیم.»
    به‌عنوان یکی از رهبران خودران در کامیون‌ها، Plus از پلتفرم NVIDIA DRIVE AGX بهره می‌برد و با تولید سناریوهایی چون عبور از هم‌ترافیک‌های کند یا تغییر ناگهانی محدودیت سرعت، برنامه‌ریزی را روی حالات نادر و چالش‌برانگیز آموزش می‌دهد.

  • Oxa

    «وفاداری چنددوربینی و هماهنگی زمانی بسیار مهم است. معماری جدید Predict‑2 هر دو را در مقیاس بالا ارائه می‌دهد.»
    Oxa در حوزه رانندگی شهری فعالیت می‌کند و با Cosmos خیابان‌های اروپا، کوچه‌های توکیو و بلوک‌های شبکه‌ای نیویورک را با عابران، دوچرخه‌سواران و وسایل نقلیه ریزشونده به‌صورت طبیعی شبیه‌سازی می‌کند.

  • Uber ATG (اکنون بخشی از Aurora)
    گروه ATG اوبر در کاربردهای حمل‌ونقل اشتراکی پیشگام بود. با Cosmos، روی مدیریت پویا خط‌کشی خیابان‌ها و مناطق سوار/پیاده تمرکز می‌کنند—مناطق کم‌نمونه در دیتاست‌های عمومی.

Cosmos Predict-2

میکروسرویس‌های NIM: استقرار ساده‌سازی‌شده

تولید و تقویت داده AV در مقیاس بزرگ نیاز به سرویس‌های کانتینری و انعطاف‌پذیر دارد. چارچوب NIM (NVIDIA Inference Microservice) دو میکروسرویس پیش‌نمایش جدید ارائه می‌دهد:

Cosmos Transfer NIM

  • وظیفه: تبدیل خروجی شبیه‌سازی ساختاریافته (نقشه عمق، ماسک تقسیم‌بندی) به ویدئوی فوتورئالیستیک.

  • ورودی: داده‌های ground-truth از دنیای Omniverse (موقعیت عوامل، هندسه نقشه، پارامترهای محیط).

  • خروجی: ویدئوهای با وضوح بالا (۴K+) که نویز دوربین و اعوجاج لنز را بازتولید می‌کنند.

این میکروسرویس جریان کاری را از موتور فیزیک تا مجموعه داده‌های آموزشی به‌صورت خودکار پیش می‌برد، بدون نیاز به مراحل رندر جداگانه.

NuRec Fixer

بازسازی عصبی اغلب با خلأهایی در ابر نقاط لیدار و نقشه عمق مواجه است. NuRec Fixer این مشکلات را برطرف می‌کند:

  • پرکردن فضاهای خالی: استفاده از الگوهای یادگرفته‌شده برای inpainting نقاط گمشده.

  • چک‌های ثباتی: حفظ یکپارچگی بافت‌ها در طول فریم‌ها.

  • رابط‌های API: امکان اسکریپت‌نویسی برای ترکیب با ابزارهای بازسازی اختصاصی.

ادغام با CARLA: دموکراتیزه کردن داده مصنوعی

CARLA به‌عنوان شبیه‌ساز متن‌باز پیشرو در تحقیقات AV با بیش از ۱۵۰٬۰۰۰ کاربر شناخته می‌شود. در نسخه بعدی CARLA:

  • Cosmos Transfer و NuRec به‌صورت افزونه‌های بومی عرضه می‌شوند.

  • کاربران می‌توانند سناریوها را با API پایتون CARLA تعریف کنند، موقعیت دوربین‌ها را تنظیم و شرایط نور و آب‌وهوا را تغییر دهند، سپس Cosmos را برای رندر درون‌خط فراخوانی کنند.

  • مجموعه‌داده NVIDIA Physical AI شامل ۴۰٬۰۰۰ کلیپ تولیدشده با Cosmos و نمونه‌های بازسازی عصبی است.

این ادغام به:

  1. تنوع بی‌نهایت: زمین‌های تصادفی، پوشش گیاهی رویه‌ای و ترافیک پویا.

  2. تکرار سریع: تغییر کد، رندر جدید در چند دقیقه.

  3. همکاری پژوهشی: اشتراک اسکریپت‌ها و مجموعه‌داده‌ها در سراسر موسسات.

شکل‌گیری مدل‌های end‑to‑end

آزمون واقعی استراتژی NVIDIA در داده مصنوعی، چالش Grand Challenge end‑to‑end در CVPR امسال بود. برای دومین سال متوالی، تیم‌های تحقیقاتی NVIDIA با استفاده از خط لوله‌های Cosmos مدل‌های تک‌مدلی آموزش دادند که می‌توانستند با حوادث غیرمنتظره—مانند عابران هنجارشکن یا علائم مبهم—به‌خوبی مقابله کنند و از مدل‌های مبتنی بر داده صرفاً واقعی پیشی گرفتند. این موفقیت‌ها نشان می‌دهد: کیفیت داده، قابلیت مدل را چند برابر می‌کند.

با بستن چرخه تولید سناریو، آموزش مدل، اعتبارسنجی در شبیه‌ساز و تنظیم نهایی روی درایوهای واقعی، توسعه‌دهندگان می‌توانند بسیار سریع‌تر از چرخه‌های سنتی رانندگی و برچسب‌گذاری پیش بروند و در نهایت شبکه‌های ایمن‌تر و مقاوم‌تری را عرضه کنند.

NVIDIA Halos: ایمنی از سیلیکون تا نرم‌افزار

ایمنی AV تنها به درک دقیق محدود نمی‌شود؛ بلکه به تضمین end‑to‑end—از تشخیص خطا در سخت‌افزار تا کاهش شکست در سطح سیستم—نیاز دارد. NVIDIA Halos که اوایل امسال معرفی شد، شامل:

  • سخت‌افزار خودرویی: مسیرهای محاسباتی افزونه، نظارت بلادرنگ و مکانیزم‌های پشتیبان.

  • نرم‌افزار تأییدشده: انطباق با ISO 26262، طراحی مبتنی بر مدل و تأیید رسمی.

  • بازرسی مبتنی بر AI: تست‌های خودکار که شبکه را در سناریوهای دشوار و شرایط لبه‌ای آزمایش می‌کنند.

شرکت‌های جدیدی مانند Bosch، Easyrain و Nuro به آزمایشگاه بازرسی سیستم‌های Halos پیوسته‌اند تا یکپارچگی امن محصولاتشان با فناوری‌های NVIDIA را تأیید کنند. اعضای قبلی شامل Continental، Ficosa، onsemi و Sony Semiconductor Solutions هستند.

پیام برای توسعه‌دهندگان AV

اگر در حال ساخت نسل بعدی خودروهای خودران—چه سواری، چه شاتل یا کامیون—هستید، این مراحل را دنبال کنید:

  1. کاوش در NVIDIA Omniverse: جهان‌های سفارشی بسازید یا از کتابخانه‌های نقشه موجود استفاده کنید.

  2. دانلود Physical AI Dataset: از ۴۰٬۰۰۰ کلیپ Cosmos برای شروع سریع بهره ببرید.

  3. ادغام مدل‌های Cosmos: Predict‑2 و میکروسرویس‌های NIM را روی DGX یا GPU Cloud مورد علاقه‌تان اجرا کنید.

  4. پس‌آموزی روی لاگ‌های خود: داده‌های داشبورد، لیدار و شبیه‌سازی را به توالی‌های چندنما تبدیل کنید.

  5. اعتبارسنجی با Halos: از مجموعه‌های آزمایشی آزمایشگاه برای تضمین انطباق و ایمنی استفاده کنید.

با ترکیب تولید داده مصنوعی با اعتبارسنجی دنیای واقعی، می‌توانید زمان توسعه را کاهش دهید، به تست‌های میدانی گران‌قیمت کمتر وابسته باشید و در نهایت AVهای ایمن‌تر و قابل‌اعتمادتری عرضه کنید.

چشم‌انداز آینده اکوسیستم خودروهای خودران

پشته داده مصنوعی NVIDIA به‌سرعت در حال رشد است. در نقشه راه آینده:

  • رندر متقاطع حسگرها: ادغام لیدار، رادار و RGB برای سنتز جامع حسگر.

  • حلقه‌های یادگیری فعال: نمونه‌برداری خودکار از سناریوها برای شناسایی خلاهای داده‌ای در مدل‌های آموزش‌دیده و تولید توالی‌های هدفمند.

  • اجرای بهینه‌شده لبه: نسخه‌های سبک‌تر Cosmos برای افزونه داده درون‌خودرو و پخش سناریو در لحظه.

همگام با یکپارچه‌شدن معماری‌های AV end‑to‑end، مرز بین شبیه‌سازی و واقعیت محو می‌شود. پلتفرم‌های داده مصنوعی مانند NVIDIA Cosmos همچنان نقش محوری خواهند داشت—توانمندسازی توسعه‌دهندگان در مواجهه با تمام چالش‌های رانندگی و ساخت خودروهای هوشمند‌ و مقاوم فردا.

منبع: 

NVIDIA Releases New AI Models and Developer Tools to Advance Autonomous Vehicle Ecosystem

 

پرسش‌های متداول

1. Cosmos Predict‑2 چیست و چه تفاوتی با نسخه قبل دارد؟

Cosmos Predict‑2 مدل بنیادی نسل جدید NVIDIA است که با معماری پیشرفته‌تر، درک بهتر ورودی‌های متنی و بصری، کاهش هالوسینیشن و سرعت اجرا تا دو برابر بر روی شتاب‌دهنده‌های GB200 و DGX Cloud ارائه می‌شود.

2. میکروسرویس‌های NIM مانند Cosmos Transfer و NuRec Fixer چه کاربردی دارند؟

این میکروسرویس‌ها برای تبدیل داده‌های ساختاریافته شبیه‌سازی (نقشه عمق، ماسک تقسیم‌بندی) به ویدئوی فوتورئالیستیک و پرکردن خلأهای لیدار و نقشه عمق با inpainting عصبی طراحی شده‌اند.

3. چگونه می‌توان از داده‌های تک‌نمای داشبورد برای تولید داده‌های چندنمایی استفاده کرد؟

با پس‌آموزی (post-training) Cosmos Predict‑2 روی داده‌های واقعی رانندگی، می‌توان نماهای جانبی و عقب را از ویدئوی دوربین جلو بازسازی و برای تقویت مجموعه‌های آموزشی AV تولید کرد.

4. ادغام Cosmos با CARLA چه مزایایی برای توسعه‌دهندگان AV دارد؟

با پلاگین‌های Cosmos Transfer و NuRec در CARLA، توسعه‌دهندگان می‌توانند سناریوها را کدگذاری کنند و بدون نیاز به رندر دستی، ویدئوهای فوتورئالیستیک و داده‌های neural-rendered تولید نمایند.

5. NVIDIA Halos چه نقشی در تضمین ایمنی خودروهای خودران دارد؟

Halos پلتفرم جامع ایمنی NVIDIA است که سخت‌افزار خودرویی دارای افزونگی، نرم‌افزار ISO 26262 و تست‌های AI-driven برای اعتبارسنجی انتها به انتها را فراهم می‌کند.

مشتاقانه منتظر دریافت نظرات شما دوستان عزیز هستیم





مطالب مرتبط

کربن رباتیکس

کنترل هوشمند علف‌های هرز با لیزر و GPUهای انویدیا: انقلاب کربن رباتیکس در کشاورزی

Jetpack جتسون

Jetpack جتسون: راهنمای جامع برای تسلط بر مغز متفکر ربات‌های هوشمند

پردازش تصویر با Jetson Nano

پردازش تصویر با Jetson Nano

شهر هوشمند

انویدیا هوش مصنوعی فیزیکی را با برنامه‌ای جدید به شهرهای اروپایی می‌آورد

کاربردهای Jetson

کاربردهای Jetson: گشودن افق‌های هوش مصنوعی

کاربردهای جتسون در صنعت

تحول هوش مصنوعی صنعتی: کاربردهای جتسون در صنعت