بهبود یادگیری ربات با دادههای مصنوعی مسیر حرکتی تولیدشده توسط World Foundation Models
در سالهای اخیر، پیشرفتهای چشمگیری در زمینهٔ مکاترونیک و مدلهای پایهٔ هوش مصنوعی باعث شکلگیری مفهوم جدیدی به نام «رباتهای عمومی» (Generalist Robotics) شدهاند. این نسل از رباتها باید بتوانند طیف گستردهای از وظایف مختلف…
در سالهای اخیر، پیشرفتهای چشمگیری در زمینهٔ مکاترونیک و مدلهای پایهٔ هوش مصنوعی باعث شکلگیری مفهوم جدیدی به نام «رباتهای عمومی» (Generalist Robotics) شدهاند. این نسل از رباتها باید بتوانند طیف گستردهای از وظایف مختلف را—from مونتاژ قطعات ساده گرفته تا انجام بازرسیهای پیچیده—در محیطهای ناآشنا اجرا کنند.
اما یک چالش جدی همچنان پابرجاست: آموزش این رباتها نیازمند حجم عظیمی از دادههای مسیر حرکتی (trajectories) است. دادههایی که معمولاً با استفاده از اجرای دستی و ثبت حرکات توسط انسانها بهدست میآید—فرایندی که بسیار زمانبر، پرهزینه، و بهسختی قابل گسترش در مقیاس وسیع است.
برای رفع این مشکل، شرکت انویدیا راهکاری نوآورانه به نام Isaac GR00T‑Dreams blueprint معرفی کرده است. این رویکرد با بهرهگیری از مدلهای بنیادین دنیایی (World Foundation Models) و هوش مصنوعی مولد (Generative AI)، میتواند تنها از طریق یک تصویر و یک دستور زبانی، حجم بزرگی از «رویاهای مصنوعی» یا مسیرهای حرکتی شبیهسازیشده تولید کند.
این مسیرهای مصنوعی همان دادههایی هستند که رباتها برای یادگیری مهارتهای جدید و سازگاری با محیطهای ناآشنا به آن نیاز دارند—بدون نیاز به جمعآوری گستردهٔ دادههای انسانی. بهاینترتیب، Isaac GR00T‑Dreams بهطور چشمگیری هزینه و زمان آموزش رباتها را کاهش داده و امکان توسعهٔ رباتهای عمومی در مقیاس گسترده را فراهم میکند.
چالش دادههای آموزشی در رباتیک
-
عدم مقیاسپذیری جمعآوری دستی: هر مهارت جدید به صدها تا هزاران دموی انسانی در محیطهای مختلف نیاز دارد. حتی کوچکترین تغییر در پارامتر محیط یا شیء کار (اندازه، بافت، رنگ) مستلزم تکرار تمام مجموعههای آموزشی است.
-
هزینه و زمان بالا: جمعآوری، ویرایش و برچسبگذاری مسیرهای حرکتی توسط اپراتورهای خبره میتواند ماهها طول بکشد و هزینههای نیروی انسانی و زیرساخت را بهطور چشمگیری بالا ببرد.
-
تعمیمناپذیری محدود: دادههای ثبتشده در یک آزمایشگاه بعید است به شکل مستقیم به محیط صنعتی یا خانگی کاملاً متفاوت تعمیم یابند. برای هر کاربرد جدید، دادههای تازه باید تولید شود.
این موانع، توسعه سیستمهای رباتیک عمومی را کند و پر هزینه ساخته بود—تا اینکه Isaac GR00T‑Dreams blueprint وارد میدان شد.
معرفی Isaac GR00T‑Dreams blueprint
Blueprint Isaac GR00T‑Dreams یک گردش کار مرجع برای تولید انبوه مسیرهای حرکتی مصنوعی است که میتوان از آن برای آموزش رباتهای انساننما در انجام وظایف جدید در محیطهای ناشناخته بهره برد. این طرح:
-
دادههای واقعی محدود را با مجموعهی کوچکی از دموهای انسانی آغاز میکند.
-
با بهرهگیری از مدلهای بنیادین دنیایی (WFMs) در بستر NVIDIA Cosmos، صدها هزار «رویا» (سناریوهای وظیفهای جدید) را تولید میکند.
-
سپس با فرآیندی هوشمند، «رویاهای» بیکیفیت را حذف کرده و بهترینها را برای تبدیل به مسیرهای سهبعدی نگاشت میزند.
-
در نهایت، این مسیرهای سهبعدی را بهعنوان مجموعه بزرگ دادهای برای تربیت سیاستهای دید-حرکت (visuomotor policies) به کار میگیرد.
نتیجه: یک مجموعهی آموزشی با حجم معادل هزاران دمو انسانی، صرفاً با چند نمونه اولیه، و در کسری از زمان.
تفاوت با طرح Isaac GR00T‑Mimic
در کنار Dreams، انویدیا طرح دیگری با نام Isaac GR00T‑Mimic دارد که:
-
از دادههای واقعی موجود برای تقویت عمق مهارت در یک وظیفه شناختهشده استفاده میکند؛
-
با بهرهگیری از NVIDIA Omniverse و مدل Cosmos Transfer‑1، دقت و پختگی ربات را در همان مهارت ارتقاء میدهد.
اما Dreams در نقطه مقابل، بهدنبال گسترش افقهاست؛ ایجاد دادههای کاملاً جدید برای وظایف و محیطهای نامأنوس، تا ربات به یک «عالمگیر» تبدیل شود.
معماری و گردش کار GR00T‑Dreams
فرآیند در پنج گام انجام میشود:
۱. پسآموزش (Post‑train) با دموهای انسانی
توسعهدهندگان تعداد محدودی مسیر حرکتی انسانی tele‑operated (مثلاً pick‑and‑place) در یک محیط ثابت را ثبت میکنند. سپس این دادهها برای پسآموزش مدل Cosmos Predict‑2 بهکار میرود تا مدل ویژگیهای حرکتی خاص آن ربات را بیاموزد.
۲. تولید «رویاها» (Generate “Dreams”)
با وارد کردن یک تصویر اولیه از محیط و دستور متنی جدید، مدل fine‑tuned شده میتواند سناریوهای متنوع و نوآورانهای مانند باز و بسته کردن، چیدمان اشیاء یا تفکیک و مرتبسازی تولید کند—که همه در قالب ویدیوهای دوبعدی ظاهر میشوند.
۳. استدلال و پالایش (Reason and Filter)
مدل Cosmos Reason سناریوهای ناموفق یا ناصحیح را حذف میکند تا تنها ویدیوهای آموزشی با کیفیت و مرتبط باقی بمانند.
۴. استخراج مسیرهای عصبی (Extract Neural Trajectories)
ویدیوهای دوبعدی پالایششده از طریق Inverse Dynamics Model (IDM) پردازش میشوند. با مقایسه دو فریم «قبل» و «بعد» در ویدیو، IDM توالی حرکات سهبعدی را پیشبینی میکند. نتیجه، مجموعهای از مسیرهای سهبعدی است که ربات میتواند مستقیماً روی آن تمرین کند.
۵. تربیت سیاست دید-حرکت (Train Visuomotor Policy)
این مسیرهای عصبی بزرگمقیاس میتوانند بهتنهایی یا در ترکیب با دادههای واقعی، برای تربیت سیاستهای دید-حرکت مورد استفاده قرار گیرند. در نتیجه، ربات قادر میشود به رفتارهای ناآموخته و محیطهای کاملاً جدید تعمیم یابد.
قابلیتهای پیشرفته یادگیری ربات
با GR00T‑Dreams، رباتها به سطوح جدیدی از یادگیری دست مییابند:
-
رفتارهای نوین: تنها با یک دمو از pick‑and‑place، ربات میتواند دستوراتی مانند باز کردن لپتاپ یا جابجایی اشیاء ناشناخته را اجرا کند.
-
محیطهای جدید: ربات توانایی تعمیم به آزمایشگاههای کاملاً متفاوت یا خط تولید صنعتی را دارد.
-
انواع ربات متنوع: از رباتهای انساننما تا بازوهای مکانیکی (Franka, SO‑100) و زاویههای دید متعدد را پشتیبانی میکند.
-
وظایف پیچیده: شامل دستکاری اجسام تغییرشکلپذیر (تا کردن) یا کاربرد ابزار (چکشکاری) در سناریوهای تماسمحور.
تسریع توسعه GR00T N1.5 با Dreams
انویدیا با استفاده از GR00T‑Dreams توانست مدل GR00T N1.5 را در ۳۶ ساعت آموزش بدهد—فرآیندی که جمعآوری دستی معادل آن به تقریباً سه ماه تلاش انسانی نیاز داشت.
GR00T N1.5، بهعنوان نسخه بهروزشده GR00T N1، اولین مدل بنیادین باز برای استدلال و مهارتهای ربات انساننماست که:
-
از ورودی چندرسانهای (زبان، تصویر) پشتیبانی میکند؛
-
درک مکانی قویتر و grounding در دنیای باز را با استفاده از Eagle 2.5 ارائه میدهد؛
-
دقت اجرای دستورهای زبانی و تعمیم به اشیاء و محیطهای جدید را بهبود بخشیده؛
-
نرخ موفقیت در وظایف مواد و تولید را افزایش میدهد.
مجموعه داده باز NVIDIA Physical AI Dataset
برای تسهیل پژوهش و کاربردهای صنعتی، انویدیا مجموعه NVIDIA Physical AI Dataset را گسترش داده است—پربازدیدترین دادهست رباتیک در Hugging Face. این مجموعه که از مارس ۲۰۲۵ آغاز شد، اکنون شامل:
-
دادههای واقعی از ربات Unitree G1؛
-
۲۴,۰۰۰ مسیر tele‑operation شبیهسازیشده؛
-
صدها هزار داده مصنوعی تولیدشده توسط Omniverse و GR00T‑Dreams.
اکوسیستم و پذیرش صنعتی
چندین بازیگر کلیدی در صنعت رباتیک به GR00T N پیوستهاند:
-
AeiRobot: رباتهای صنعتی را برای اجرای وظایف پیچیده pick‑and‑place با درک زبان طبیعی مجهز میکند.
-
Foxlink: انعطافپذیری و کارایی بازوهای صنعتی خود را با GR00T افزایش میدهد.
-
Lightwheel: برای استقرار سریعتر رباتهای انساننما، دادههای مصنوعی را اعتبارسنجی میکند.
-
NEURA Robotics: توسعه سیستمهای اتوماسیون خانگی را با بهره از مدلهای بنیادین تسریع میبخشد.
شروع کار با Isaac GR00T‑Dreams و N1.5
برای ورود به دنیای رباتهای عمومی:
-
به مخزن Isaac GR00T‑Dreams blueprint در GitHub مراجعه کنید.
-
مدل Cosmos Predict‑2 را برای تولید رویاها امتحان کنید.
-
مقاله DREAMGEN: Unlocking Generalization in Robot Learning through Neural Trajectories را برای جزئیات تحقیق مطالعه نمایید.
-
روی Hugging Face، مدل Isaac GR00T N1.5 را دانلود و با اسکریپتهای نمونه آن را پستآموزش دهید.
همچنین میتوانید در دورههای Robotics Fundamentals انویدیا ثبتنام کنید و در انجمن نودا به بحث و تبادل تجربه بپردازید.
چشمانداز آینده
بهرهگیری از Synthetic Trajectory Data تولیدشده توسط World Foundation Models، نقطه عطفی در مسیر دستیابی به رباتهای عمومی است. اکنون با صرف کسری از زمان و هزینه گذشته، میتوان حجم عظیمی از تجربیات مجازی را به دنیای واقعی منتقل کرد. هرچه WFMها و Omniverse پیشرفتهتر شوند، توان تولید رویاهای دقیقتر و متنوعتر افزایش مییابد و رباتها سریعتر از همیشه به مهارتهای نوآورانه مسلط خواهند شد.
نهایتاً این فناوری میتواند در صنایع تولیدی، خدماتی، پزشکی و حتی مأموریتهای فضایی به ابزار اصلی تربیت رباتها تبدیل شود—جایی که قابلیت تعمیم سریع و خودآموزی بیوقفه، برگ برنده خواهد بود.
با الهام از طرح Isaac GR00T‑Dreams، آیندهی رباتیک عمومی روشنتر از همیشه است—و شما میتوانید در خط مقدم این انقلاب قرار بگیرید. موفق باشید!
منبع:
Enhance Robot Learning with Synthetic Trajectory Data Generated by World Foundation Models


