بهبود یادگیری ربات با داده‌های مصنوعی مسیر حرکتی تولیدشده توسط World Foundation Models

نویسنده:
شرکت پیشرو Ai
تاریخ انتشار:
24 تیر 1404
دیدگاه ها:
مدل‌های بنیادین دنیایی (World Foundation Models)

در سال‌های اخیر، پیشرفت‌های چشمگیری در زمینهٔ مکاترونیک و مدل‌های پایهٔ هوش مصنوعی باعث شکل‌گیری مفهوم جدیدی به نام «ربات‌های عمومی» (Generalist Robotics) شده‌اند. این نسل از ربات‌ها باید بتوانند طیف گسترده‌ای از وظایف مختلف…

در سال‌های اخیر، پیشرفت‌های چشمگیری در زمینهٔ مکاترونیک و مدل‌های پایهٔ هوش مصنوعی باعث شکل‌گیری مفهوم جدیدی به نام «ربات‌های عمومی» (Generalist Robotics) شده‌اند. این نسل از ربات‌ها باید بتوانند طیف گسترده‌ای از وظایف مختلف را—from مونتاژ قطعات ساده گرفته تا انجام بازرسی‌های پیچیده—در محیط‌های ناآشنا اجرا کنند.

اما یک چالش جدی همچنان پابرجاست: آموزش این ربات‌ها نیازمند حجم عظیمی از داده‌های مسیر حرکتی (trajectories) است. داده‌هایی که معمولاً با استفاده از اجرای دستی و ثبت حرکات توسط انسان‌ها به‌دست می‌آید—فرایندی که بسیار زمان‌بر، پرهزینه، و به‌سختی قابل گسترش در مقیاس وسیع است.

برای رفع این مشکل، شرکت انویدیا راهکاری نوآورانه به نام Isaac GR00T‑Dreams blueprint معرفی کرده است. این رویکرد با بهره‌گیری از مدل‌های بنیادین دنیایی (World Foundation Models) و هوش مصنوعی مولد (Generative AI)، می‌تواند تنها از طریق یک تصویر و یک دستور زبانی، حجم بزرگی از «رویاهای مصنوعی» یا مسیرهای حرکتی شبیه‌سازی‌شده تولید کند.

این مسیرهای مصنوعی همان داده‌هایی هستند که ربات‌ها برای یادگیری مهارت‌های جدید و سازگاری با محیط‌های ناآشنا به آن نیاز دارند—بدون نیاز به جمع‌آوری گستردهٔ داده‌های انسانی. به‌این‌ترتیب، Isaac GR00T‑Dreams به‌طور چشمگیری هزینه و زمان آموزش ربات‌ها را کاهش داده و امکان توسعهٔ ربات‌های عمومی در مقیاس گسترده را فراهم می‌کند.

چالش داده‌های آموزشی در رباتیک

  • عدم مقیاس‌پذیری جمع‌آوری دستی: هر مهارت جدید به صدها تا هزاران دموی انسانی در محیط‌های مختلف نیاز دارد. حتی کوچک‌ترین تغییر در پارامتر محیط یا شیء کار (اندازه، بافت، رنگ) مستلزم تکرار تمام مجموعه‌های آموزشی است.

  • هزینه و زمان بالا: جمع‌آوری، ویرایش و برچسب‌گذاری مسیرهای حرکتی توسط اپراتورهای خبره می‌تواند ماه‌ها طول بکشد و هزینه‌های نیروی انسانی و زیرساخت را به‌طور چشمگیری بالا ببرد.

  • تعمیم‌ناپذیری محدود: داده‌های ثبت‌شده در یک آزمایشگاه بعید است به شکل مستقیم به محیط صنعتی یا خانگی کاملاً متفاوت تعمیم یابند. برای هر کاربرد جدید، داده‌های تازه باید تولید شود.

این موانع، توسعه سیستم‌های رباتیک عمومی را کند و پر هزینه ساخته بود—تا اینکه Isaac GR00T‑Dreams blueprint وارد میدان شد.

معرفی Isaac GR00T‑Dreams blueprint

Blueprint Isaac GR00T‑Dreams یک گردش کار مرجع برای تولید انبوه مسیرهای حرکتی مصنوعی است که می‌توان از آن برای آموزش ربات‌های انسان‌نما در انجام وظایف جدید در محیط‌های ناشناخته بهره برد. این طرح:

  1. داده‌های واقعی محدود را با مجموعه‌ی کوچکی از دموهای انسانی آغاز می‌کند.

  2. با بهره‌گیری از مدل‌های بنیادین دنیایی (WFMs) در بستر NVIDIA Cosmos، صدها هزار «رویا» (سناریوهای وظیفه‌ای جدید) را تولید می‌کند.

  3. سپس با فرآیندی هوشمند، «رویاهای» بی‌کیفیت را حذف کرده و بهترین‌ها را برای تبدیل به مسیرهای سه‌بعدی نگاشت می‌زند.

  4. در نهایت، این مسیرهای سه‌بعدی را به‌عنوان مجموعه بزرگ داده‌ای برای تربیت سیاست‌های دید-حرکت (visuomotor policies) به کار می‌گیرد.

نتیجه: یک مجموعه‌ی آموزشی با حجم معادل هزاران دمو انسانی، صرفاً با چند نمونه اولیه، و در کسری از زمان.

مدل‌های بنیادین دنیایی (World Foundation Models)

تفاوت با طرح Isaac GR00T‑Mimic

در کنار Dreams، انویدیا طرح دیگری با نام Isaac GR00T‑Mimic دارد که:

  • از داده‌های واقعی موجود برای تقویت عمق مهارت در یک وظیفه شناخته‌شده استفاده می‌کند؛

  • با بهره‌گیری از NVIDIA Omniverse و مدل Cosmos Transfer‑1، دقت و پختگی ربات را در همان مهارت ارتقاء می‌دهد.

اما Dreams در نقطه مقابل، به‌دنبال گسترش افق‌هاست؛ ایجاد داده‌های کاملاً جدید برای وظایف و محیط‌های نامأنوس، تا ربات به یک «عالم‌گیر» تبدیل شود.

معماری و گردش کار GR00T‑Dreams

فرآیند در پنج گام انجام می‌شود:

۱. پس‌آموزش (Post‑train) با دموهای انسانی

توسعه‌دهندگان تعداد محدودی مسیر حرکتی انسانی tele‑operated (مثلاً pick‑and‑place) در یک محیط ثابت را ثبت می‌کنند. سپس این داده‌ها برای پس‌آموزش مدل Cosmos Predict‑2 به‌کار می‌رود تا مدل ویژگی‌های حرکتی خاص آن ربات را بیاموزد.

۲. تولید «رویاها» (Generate “Dreams”)

با وارد کردن یک تصویر اولیه از محیط و دستور متنی جدید، مدل fine‑tuned شده می‌تواند سناریوهای متنوع و نوآورانه‌ای مانند باز و بسته کردن، چیدمان اشیاء یا تفکیک و مرتب‌سازی تولید کند—که همه در قالب ویدیوهای دوبعدی ظاهر می‌شوند.

۳. استدلال و پالایش (Reason and Filter)

مدل Cosmos Reason سناریوهای ناموفق یا ناصحیح را حذف می‌کند تا تنها ویدیوهای آموزشی با کیفیت و مرتبط باقی بمانند.

۴. استخراج مسیرهای عصبی (Extract Neural Trajectories)

ویدیوهای دوبعدی پالایش‌شده از طریق Inverse Dynamics Model (IDM) پردازش می‌شوند. با مقایسه دو فریم «قبل» و «بعد» در ویدیو، IDM توالی حرکات سه‌بعدی را پیش‌بینی می‌کند. نتیجه، مجموعه‌ای از مسیرهای سه‌بعدی است که ربات می‌تواند مستقیماً روی آن تمرین کند.

۵. تربیت سیاست دید-حرکت (Train Visuomotor Policy)

این مسیرهای عصبی بزرگ‌مقیاس می‌توانند به‌تنهایی یا در ترکیب با داده‌های واقعی، برای تربیت سیاست‌های دید-حرکت مورد استفاده قرار گیرند. در نتیجه، ربات قادر می‌شود به رفتارهای ناآموخته و محیط‌های کاملاً جدید تعمیم یابد.

مدل‌های بنیادین دنیایی (World Foundation Models)

قابلیت‌های پیشرفته یادگیری ربات

با GR00T‑Dreams، ربات‌ها به سطوح جدیدی از یادگیری دست می‌یابند:

  • رفتارهای نوین: تنها با یک دمو از pick‑and‑place، ربات می‌تواند دستوراتی مانند باز کردن لپ‌تاپ یا جابجایی اشیاء ناشناخته را اجرا کند.

  • محیط‌های جدید: ربات توانایی تعمیم به آزمایشگاه‌های کاملاً متفاوت یا خط تولید صنعتی را دارد.

  • انواع ربات متنوع: از ربات‌های انسان‌نما تا بازوهای مکانیکی (Franka, SO‑100) و زاویه‌‌های دید متعدد را پشتیبانی می‌کند.

  • وظایف پیچیده: شامل دستکاری اجسام تغییرشکل‌پذیر (تا کردن) یا کاربرد ابزار (چکش‌کاری) در سناریوهای تماس‌محور.

تسریع توسعه GR00T N1.5 با Dreams

انویدیا با استفاده از GR00T‑Dreams توانست مدل GR00T N1.5 را در ۳۶ ساعت آموزش بدهد—فرآیندی که جمع‌آوری دستی معادل آن به تقریباً سه ماه تلاش انسانی نیاز داشت.

GR00T N1.5، به‌عنوان نسخه به‌روز‌شده GR00T N1، اولین مدل بنیادین باز برای استدلال و مهارت‌های ربات انسان‌نماست که:

  • از ورودی چندرسانه‌ای (زبان، تصویر) پشتیبانی می‌کند؛

  • درک مکانی قوی‌تر و grounding در دنیای باز را با استفاده از Eagle 2.5 ارائه می‌دهد؛

  • دقت اجرای دستورهای زبانی و تعمیم به اشیاء و محیط‌های جدید را بهبود بخشیده؛

  • نرخ موفقیت در وظایف مواد و تولید را افزایش می‌دهد.

مجموعه داده باز NVIDIA Physical AI Dataset

برای تسهیل پژوهش و کاربردهای صنعتی، انویدیا مجموعه NVIDIA Physical AI Dataset را گسترش داده است—پربازدیدترین داده‌ست رباتیک در Hugging Face. این مجموعه که از مارس ۲۰۲۵ آغاز شد، اکنون شامل:

  • داده‌های واقعی از ربات Unitree G1؛

  • ۲۴,۰۰۰ مسیر tele‑operation شبیه‌سازی‌شده؛

  • صدها هزار داده مصنوعی تولیدشده توسط Omniverse و GR00T‑Dreams.

اکوسیستم و پذیرش صنعتی

چندین بازیگر کلیدی در صنعت رباتیک به GR00T N پیوسته‌اند:

  • AeiRobot: ربات‌های صنعتی را برای اجرای وظایف پیچیده pick‑and‑place با درک زبان طبیعی مجهز می‌کند.

  • Foxlink: انعطاف‌پذیری و کارایی بازوهای صنعتی خود را با GR00T افزایش می‌دهد.

  • Lightwheel: برای استقرار سریع‌تر ربات‌های انسان‌نما، داده‌های مصنوعی را اعتبارسنجی می‌کند.

  • NEURA Robotics: توسعه سیستم‌های اتوماسیون خانگی را با بهره از مدل‌های بنیادین تسریع می‌بخشد.

مدل‌های بنیادین دنیایی (World Foundation Models)

شروع کار با Isaac GR00T‑Dreams و N1.5

برای ورود به دنیای ربات‌های عمومی:

  1. به مخزن Isaac GR00T‑Dreams blueprint در GitHub مراجعه کنید.

  2. مدل Cosmos Predict‑2 را برای تولید رویاها امتحان کنید.

  3. مقاله DREAMGEN: Unlocking Generalization in Robot Learning through Neural Trajectories را برای جزئیات تحقیق مطالعه نمایید.

  4. روی Hugging Face، مدل Isaac GR00T N1.5 را دانلود و با اسکریپت‌های نمونه آن را پست‌آموزش دهید.

همچنین می‌توانید در دوره‌های Robotics Fundamentals انویدیا ثبت‌نام کنید و در انجمن‌ نودا به بحث و تبادل تجربه بپردازید.

چشم‌انداز آینده

بهره‌گیری از Synthetic Trajectory Data تولیدشده توسط World Foundation Models، نقطه عطفی در مسیر دستیابی به ربات‌های عمومی است. اکنون با صرف کسری از زمان و هزینه گذشته، می‌توان حجم عظیمی از تجربیات مجازی را به دنیای واقعی منتقل کرد. هرچه WFMها و Omniverse پیشرفته‌تر شوند، توان تولید رویاهای دقیق‌تر و متنوع‌تر افزایش می‌یابد و ربات‌ها سریع‌تر از همیشه به مهارت‌های نوآورانه مسلط خواهند شد.

نهایتاً این فناوری می‌تواند در صنایع تولیدی، خدماتی، پزشکی و حتی مأموریت‌های فضایی به ابزار اصلی تربیت ربات‌ها تبدیل شود—جایی که قابلیت تعمیم سریع و خودآموزی بی‌وقفه، برگ برنده خواهد بود.

با الهام از طرح Isaac GR00T‑Dreams، آینده‌ی رباتیک عمومی روشن‌تر از همیشه است—و شما می‌توانید در خط مقدم این انقلاب قرار بگیرید. موفق باشید!

منبع:

Enhance Robot Learning with Synthetic Trajectory Data Generated by World Foundation Models

پرسش‌های متداول

1. Isaac GR00T‑Dreams blueprint چه کاری انجام می‌دهد؟

این blueprint یک گردش کار مرجع است که با استفاده از مدل‌های بنیادین دنیایی و چند «دموی» انسانی، انبوهی از مسیرهای حرکتی مصنوعی را برای آموزش ربات‌ها تولید می‌کند.

2. مراحل کلیدی در pipeline گریوت‑دریمز چیست؟

پنج مرحله اصلی: پس‌آموزش با دموهای انسانی، تولید «رویاها» (سناریوهای جدید)، پالایش با Cosmos Reason، استخراج مسیرهای سه‌بعدی با IDM، و تربیت سیاست دید–حرکت.

3. چگونه «رویاهای» دوبعدی به حرکت‌های سه‌بعدی تبدیل می‌شوند؟

با استفاده از مدل Inverse Dynamics (IDM) که بین دو فریم «قبل» و «بعد» در ویدیو ارتباط برقرار می‌کند و توالی حرکت سه‌بعدی را پیش‌بینی می‌کند.

4. مزیت اصلی استفاده از داده‌های مصنوعی در GR00T‑Dreams چیست؟

امکان تولید سریع و کم‌هزینهٔ حجم عظیمی از داده‌های آموزشی برای ربات‌های عمومی، بدون نیاز به هزاران دموی انسانی و زیرساخت گران‌قیمت.

5. GR00T N1.5 چگونه توسط Dreams تسریع شد؟

استفاده از GR00T‑Dreams امکان تولید داده‌های آموزشی مصنوعی را فراهم کرد و مدل N1.5 در ۳۶ ساعت آموزش یافت—در حالی که به‌صورت دستی نزدیک به سه ماه زمان می‌برد.

مشتاقانه منتظر دریافت نظرات شما دوستان عزیز هستیم





مطالب مرتبط

کربن رباتیکس

کنترل هوشمند علف‌های هرز با لیزر و GPUهای انویدیا: انقلاب کربن رباتیکس در کشاورزی

Jetpack جتسون

Jetpack جتسون: راهنمای جامع برای تسلط بر مغز متفکر ربات‌های هوشمند

پردازش تصویر با Jetson Nano

پردازش تصویر با Jetson Nano

شهر هوشمند

انویدیا هوش مصنوعی فیزیکی را با برنامه‌ای جدید به شهرهای اروپایی می‌آورد

کاربردهای Jetson

کاربردهای Jetson: گشودن افق‌های هوش مصنوعی

کاربردهای جتسون در صنعت

تحول هوش مصنوعی صنعتی: کاربردهای جتسون در صنعت