NVIDIA TAO Toolkit

نویسنده:

شرکت پیشرو Ai

تاریخ انتشار:

18 آذر 1403

دیدگاه ها:

دیدگاه‌ها برای NVIDIA TAO Toolkit بسته هستند

یک چارچوب هوش مصنوعی با کد پایین برای تسریع توسعه مدل هوش مصنوعی بینایی مناسب برای تمام سطوح مهارت، از مبتدیان تازه کار گرفته تا...

یک چارچوب هوش مصنوعی با کد پایین برای تسریع توسعه مدل هوش مصنوعی بینایی مناسب برای تمام سطوح مهارت، از مبتدیان تازه کار گرفته تا دانشمندان داده خبره، فراهم می کند. با NVIDIA TAO (Train, Adapt, Optimize) Toolkit، توسعه‌دهندگان می‌توانند از قدرت و کارایی یادگیری انتقال برای دستیابی به دقت پیشرفته و توان تولید در زمان رکورد با سازگاری و بهینه‌سازی استفاده کنند.

در NVIDIA GTC 2023 ،NVIDIA NVIDIA TAO Toolkit 5.0 را معرفی کرد که ویژگی های پیشگامانه ای را برای بهبود هر مدل AI به ارمغان می آورد. ویژگی های جدید شامل معماری منبع باز، مدل های از پیش آموزش دیده مبتنی بر ترانسفورماتور، حاشیه نویسی داده به کمک هوش مصنوعی و قابلیت استقرار مدل ها بر روی هر پلتفرمی است.

مدل‌های NVIDIA TAO را در هر پلتفرمی و در هر مکانی استقرار دهید

NVIDIA TAO Toolkit 5.0 از استخراج مدل در ONNX پشتیبانی می کند. این امر امکان استقرار یک مدل آموزش‌دیده با NVIDIA TAO Toolkit را بر روی هر پلتفرم محاسباتی (GPU، CPU، MCU، DLA، FPGA) در لبه یا در فضای ابری ممکن می‌سازد. NVIDIA TAO Toolkit فرآیند آموزش مدل را ساده می کند و مدل را برای خروجی استنتاج بهینه می کند و هوش مصنوعی را در صدها میلیارد دستگاه نیرو می دهد.

یک رهبر جهانی در میکروکنترلرهای تعبیه شده، NVIDIA TAO Toolkit را در گردش کار توسعه دهندگان STM32Cube AI خود ادغام کرد. این آخرین قابلیت‌های هوش مصنوعی را در اختیار میلیون‌ها توسعه‌دهنده STMicroelectronics قرار می‌دهد. این برای اولین بار توانایی ادغام هوش مصنوعی پیشرفته را در موارد استفاده گسترده اینترنت اشیاء و استفاده از لبه با پشتیبانی از STM32Cube فراهم می کند. اکنون با NVIDIA TAO Toolkit، حتی مبتدی‌ترین توسعه‌دهندگان هوش مصنوعی می‌توانند مدل‌های هوش مصنوعی را برای اجرا بر روی STM32 MCU در محدوده بودجه محاسباتی و حافظه میکروکنترلر بهینه‌سازی و کمی سازی کنند. توسعه دهندگان همچنین می توانند مدل های خود را بیاورند و با استفاده از TAO Toolkit آن را تنظیم کنند.

اطلاعات بیشتر در مورد این کار در نسخه ی نمایشی زیر از STMicroelectronics گرفته شده است.

حاشیه نویسی و مدیریت داده به کمک هوش مصنوعی

حاشیه نویسی داده ها همچنان یک فرآیند گران و زمان بر برای تمام پروژه های هوش مصنوعی است. این امر به ویژه برای کارهای CV مانند تقسیم بندی که نیاز به تولید یک ماسک تقسیم بندی در سطح پیکسل در اطراف شی دارند، صادق است. به طور کلی، ماسک های تقسیم بندی 10 برابر بیشتر از تشخیص یا طبقه بندی اشیا هزینه دارند.

حاشیه نویسی ماسک های تقسیم بندی با قابلیت های جدید حاشیه نویسی به کمک هوش مصنوعی با استفاده از TAO Toolkit 5.0 سریع تر و کم هزینه تر است. اکنون می‌توانید از معماری تقسیم‌بندی با نظارت ضعیف، Mask Auto Labeler (MAL) برای کمک به حاشیه‌نویسی تقسیم بندی و در فیکس کردن و قرار دادن جعبه‌های مرزی برای تشخیص اشیا استفاده کنید. جعبه‌های مرزی شل در اطراف یک شی در داده‌های حقیقت زمینی می‌تواند منجر به نتایج تشخیص نامطلوب شود، اما با حاشیه‌نویسی به کمک هوش مصنوعی، می‌توانید جعبه‌های محدود خود را بر روی اشیاء قرار دهید و به مدل‌های دقیق‌تر برسید.

MAL یک چارچوب برچسب‌گذاری خودکار مبتنی بر ترانسفورماتور است که به‌عنوان مثال، تنها با استفاده از حاشیه‌نویسی جعبه، تقسیم‌بندی می‌شود. MAL تصاویر برش داده شده در جعبه را به عنوان ورودی می گیرد و به صورت مشروط برچسب های شبه ماسک را تولید می کند. از فرمت حاشیه نویسی COCO برای برچسب های ورودی و خروجی استفاده می کند.

MAL به طور قابل توجهی شکاف بین برچسب گذاری خودکار و حاشیه نویسی انسانی را برای کیفیت ماسک کاهش می دهد. نمونه‌های تقسیم‌بندی نمونه‌ای که با استفاده از ماسک‌های تولید شده توسط MAL آموزش داده شده‌اند، می‌توانند تقریباً با عملکرد همتایان کاملاً نظارت شده مطابقت داشته باشند و تا ۹۷.۴ درصد عملکرد مدل‌های کاملاً نظارت شده را حفظ کنند.

هنگام آموزش شبکه MAL، یک شبکه وظیفه و یک شبکه معلم (که ساختار ترانسفورماتور یکسانی دارند) با هم کار می کنند تا به خودآموزی کلاسی-آگنوستیک دست یابند. این امکان پالایش ماسک‌های پیش‌بینی را با از دست دادن میدان تصادفی شرطی (CRF) و از دست دادن یادگیری چند نمونه‌ای (MIL) فراهم می‌کند.

TAO Toolkit از MAL در خط لوله برچسب‌گذاری خودکار و خط لوله افزایش داده استفاده می‌کند. به طور خاص، کاربران می‌توانند ماسک‌های کاذب را روی تصاویر تقویت‌شده فضایی (مثلاً برش داده شده یا چرخانده) ایجاد کنند و با استفاده از ماسک‌های تولید شده، جعبه‌های محدود مربوطه را اصلاح و سفت کنند.

ترانسفورماتورهای بینایی پیشرفته

ترانسفورماتورها عمدتاً به دلیل توجه به خود به معماری استاندارد در NLP تبدیل شده اند. آنها همچنین برای طیف وسیعی از وظایف هوش مصنوعی بینایی محبوبیت پیدا کرده اند. به طور کلی، مدل‌های مبتنی بر ترانسفورماتور به دلیل استحکام، تعمیم‌پذیری و توانایی انجام پردازش موازی ورودی‌های مقیاس بزرگ، می‌توانند از مدل‌های مبتنی بر CNN سنتی بهتر عمل کنند. همه اینها کارایی آموزش را افزایش می‌دهد، استحکام بهتری در برابر خرابی و نویز تصویر ارائه می‌کند و بر روی اشیاء نادیده تعمیم بهتری دارد.

TAO Toolkit 5.0 دارای چندین ترانسفورماتور بینایی پیشرفته (SOTA) برای کارهای محبوب CV است که در زیر توضیح داده شده است.

شبکه کاملاً توجه (Fully Attentional Network)

شبکه کاملاً توجه (FAN) یک خانواده ستون فقرات مبتنی بر ترانسفورماتور از تحقیقات NVIDIA است که به SOTA در استحکام در برابر فسادهای مختلف دست می یابد. این خانواده از ستون فقرات می‌توانند به راحتی به دامنه‌های جدید تعمیم داده شوند و در برابر نویز، تاری و موارد دیگر قوی‌تر باشند. یک طراحی کلیدی در پشت بلوک FAN، ماژول پردازش کانال توجه است که منجر به یادگیری بازنمایی قوی می شود. FAN را می توان برای کارهای طبقه بندی تصویر و همچنین کارهای پایین دستی مانند تشخیص اشیا و تقسیم بندی استفاده کرد.

همانطور که در جدول 2 نشان داده شده است، خانواده FAN از چهار ستون فقرات پشتیبانی می کند.

تبدیل کننده چشم انداز زمینه جهانی

Global Context Vision Transformer (GC-ViT) یک معماری جدید از NVIDIA Research است که به دقت و کارایی محاسباتی بسیار بالایی دست می یابد. GC-ViT عدم تعصب القایی در ترانسفورماتورهای بینایی را برطرف می کند. با استفاده از توجه محلی به نتایج بهتری در ImageNet با تعداد پارامترهای کمتری می رسد.

خود توجهی محلی همراه با خود توجهی به زمینه جهانی می تواند به طور موثر و کارآمدی تعاملات فضایی بلند و کوتاه برد را مدل کند. شکل 6 معماری مدل GC-ViT را نشان می دهد. برای جزئیات بیشتر، Global Context Vision Transformers را ببینید.

همانطور که در جدول 3 نشان داده شده است، خانواده GC-ViT شامل شش ستون فقرات است که از GC-ViT-xxTiny (کارآمد محاسبه) تا GC-ViT-Large (بسیار دقیق) را شامل می شود. مدل‌های GC-ViT-Large می‌توانند به دقت بالای 1 85.6 در مجموعه داده ImageNet-1K برای وظایف طبقه‌بندی تصویر دست یابند. این معماری همچنین می تواند به عنوان ستون فقرات برای سایر وظایف CV مانند تشخیص شی و تقسیم بندی معنایی و نمونه استفاده شود.

دینو (DINO)

DINO (ترانسفورماتور تشخیص با لنگر حذف نویز بهبودیافته) جدیدترین نسل از ترانسفورماتورهای تشخیص (DETR) است. زمان همگرایی آموزشی سریع تری نسبت به نسخه قبلی خود به دست می آورد. تغییر شکل‌پذیر DETR (D-DETR) به حداقل 50 دوره برای همگرایی نیاز دارد، در حالی که DINO می‌تواند در 12 دوره در مجموعه داده COCO همگرا شود. همچنین در مقایسه با D-DETR به دقت بالاتری دست می یابد.

DINO از طریق استفاده از حذف نویز در طول آموزش به همگرایی سریع‌تری دست می‌یابد که به فرآیند تطبیق دوبخشی در مرحله تولید پروپوزال کمک می‌کند. همگرایی آموزشی مدل‌های شبه DETR به دلیل ناپایداری تطابق دوبخشی کند است. تطبیق دو بخشی نیاز به عملیات NMS دست ساز و محاسباتی سنگین را از بین برد. با این حال، اغلب به آموزش بسیار بیشتری نیاز داشت زیرا حقایق زمینی نادرست با پیش‌بینی‌ها در طول تطبیق دوبخشی مطابقت داشت. برای رفع چنین مشکلی، DINO جعبه‌های حقیقت پایه مثبت نویز و جعبه‌های حقیقت پایه منفی را برای رسیدگی به سناریوهای «بدون شی» معرفی کرد. در نتیجه، آموزش برای DINO خیلی سریع همگرا می شود. برای اطلاعات بیشتر، به DINO: DETR با جعبه‌های لنگر حذف نویز بهبودیافته برای تشخیص اجسام انتها به انتها مراجعه کنید.

DINO در TAO Toolkit انعطاف‌پذیر است و می‌تواند با ستون‌های مختلف CNN‌های سنتی مانند ResNets و ستون‌های مبتنی بر ترانسفورماتور مانند FAN و GC-ViT ترکیب شود. جدول 4 دقت مجموعه داده COCO را در نسخه های مختلف DINO با YOLOv7 محبوب نشان می دهد. برای جزئیات بیشتر، به YOLOv7 رجوع کنید: کیسه‌های رایگان آموزش‌پذیر، پیشرفته‌ترین را برای آشکارسازهای شی در زمان واقعی تنظیم می‌کند.

SegFormer

SegFormer یک تقسیم بندی معنایی مبتنی بر ترانسفورماتور سبک وزن است. رمزگشا از لایه های سبک وزن MLP ساخته شده است. از استفاده از رمزگذاری موقعیتی (بیشتر توسط ترانسفورماتورها استفاده می شود) اجتناب می کند، که استنتاج را در وضوح های مختلف کارآمد می کند.

افزودن ستون فقرات FAN به رمزگشای SegFormer MLP منجر به یک مدل تقسیم بندی معنایی بسیار قوی و کارآمد می شود. ترکیبی پایه FAN + SegFormer معماری برنده در چالش Robust Vision 2022 برای تقسیم بندی معنایی بود.

وظایف CV فراتر از تشخیص و تقسیم بندی شی

NVIDIA TAO Toolkit طیف وسیعی از وظایف CV را فراتر از تشخیص و تقسیم بندی سنتی اشیاء سرعت می بخشد. مدل‌های جدید تشخیص و تشخیص کاراکتر در TAO Toolkit 5.0 توسعه دهندگان را قادر می‌سازد تا متن را از تصاویر و اسناد استخراج کنند. این تبدیل سند را خودکار می کند و موارد استفاده را در صنایعی مانند بیمه و امور مالی تسریع می کند.

تشخیص ناهنجاری ها در تصاویر زمانی مفید است که شی طبقه بندی شده بسیار متفاوت است، به طوری که آموزش با تمام تغییرات غیرممکن است. مثلاً در بازرسی صنعتی، عیب می تواند به هر شکلی باشد. استفاده از یک طبقه‌بندی‌کننده ساده می‌تواند منجر به بسیاری از نقص‌های از دست رفته شود، اگر نقص قبلاً توسط داده‌های آموزشی دیده نشده باشد.

برای چنین موارد استفاده، مقایسه جسم آزمایشی به طور مستقیم با یک مرجع طلایی می تواند منجر به دقت بهتر شود. TAO Toolkit 5.0 دارای یک شبکه عصبی سیامی است که در آن مدل تفاوت بین شی مورد آزمایش و یک مرجع طلایی را محاسبه می کند تا اگر شیء معیوب است طبقه بندی کند.

آموزش خودکار با استفاده از AutoML برای بهینه سازی هایپرپارامتر

یادگیری ماشین خودکار (autoML) کار دستی یافتن بهترین مدل‌ها و فراپارامترها برای KPI مورد نظر در یک مجموعه داده را خودکار می‌کند. این می تواند به صورت الگوریتمی بهترین مدل را استخراج کند و بسیاری از پیچیدگی های ایجاد و بهینه سازی مدل هوش مصنوعی را از بین ببرد.

AutoML در TAO Toolkit برای بهینه سازی خودکار فراپارامترهای یک مدل کاملاً قابل تنظیم است. هم به متخصصان هوش مصنوعی و هم غیرمتخصصان پاسخ می دهد. برای افراد غیرمتخصص، نوت بوک هدایت شده Jupyter راهی ساده و کارآمد برای ایجاد یک مدل دقیق هوش مصنوعی ارائه می دهد.

برای کارشناسان، TAO Toolkit به شما کنترل کاملی می دهد که کدام هایپرپارامترها را تنظیم کنید و از کدام الگوریتم برای جاروها استفاده کنید. TAO Toolkit در حال حاضر از دو الگوریتم بهینه سازی پشتیبانی می کند: بهینه سازی Bayesian و Hyperband. این الگوریتم‌ها می‌توانند طیف وسیعی از فراپارامترها را برای یافتن بهترین ترکیب برای یک مجموعه داده معین جستجو کنند.

AutoML برای طیف گسترده ای از وظایف CV، از جمله چندین ترانسفورماتور بینایی جدید مانند DINO ،D-DETR ،SegFormer و غیره پشتیبانی می شود. جدول 6 فهرست کامل شبکه های پشتیبانی شده را نشان می دهد (موارد پررنگ در TAO Toolkit 5.0 جدید هستند).

API های REST برای یکپارچه سازی گردش کار

TAO Toolkit ماژولار و بومی ابری است، به این معنی که به صورت کانتینر در دسترس است و با استفاده از Kubernetes قابل استقرار و مدیریت است. TAO Toolkit را می توان به عنوان یک سرویس خود مدیریت بر روی هر ابر عمومی یا خصوصی، DGX یا ایستگاه های کاری مستقر کرد. TAO Toolkit API های REST به خوبی تعریف شده را ارائه می دهد و ادغام آن را در گردش کار توسعه شما آسان می کند. توسعه دهندگان می توانند برای تمام کارهای آموزشی و بهینه سازی، نقاط پایانی API را فراخوانی کنند. این نقاط پایانی API را می توان از هر برنامه کاربردی یا رابط کاربری فراخوانی کرد، که می تواند کارهای آموزشی را از راه دور فعال کند.

بهینه سازی استنتاج بهتر

برای ساده سازی تولید و افزایش توان استنتاج، TAO Toolkit چندین تکنیک بهینه سازی عملکرد را ارائه می دهد. اینها شامل هرس مدل، کوانتیزاسیون با دقت کمتر و بهینه‌سازی TensorRT می‌شود که می‌تواند در مقایسه با یک مدل قابل مقایسه از باغ‌وحش‌های مدل عمومی، عملکرد 4 برابری تا 8 برابری را افزایش دهد.

باز و انعطاف پذیر، با پشتیبانی بهتر

یک مدل هوش مصنوعی خروجی را بر اساس الگوریتم های پیچیده پیش بینی می کند. این امر می‌تواند درک اینکه سیستم چگونه به تصمیم خود رسیده و اشکال‌زدایی، تشخیص و رفع خطاها را به چالش می‌کشد. هوش مصنوعی قابل توضیح (XAI) با ارائه بینشی در مورد چگونگی رسیدن مدل‌های هوش مصنوعی به تصمیمات خود، به این چالش‌ها رسیدگی می‌کند. این به انسان کمک می کند استدلال پشت خروجی هوش مصنوعی را درک کند و تشخیص و رفع خطاها را آسان تر می کند. این شفافیت می تواند به ایجاد اعتماد در سیستم های هوش مصنوعی کمک کند.

برای کمک به شفافیت و توضیح پذیری، TAO Toolkit اکنون به عنوان منبع باز در دسترس خواهد بود. توسعه‌دهندگان می‌توانند نقشه‌های ویژگی را از لایه‌های داخلی و همچنین نقشه‌های حرارتی فعال‌سازی را برای درک بهتر استدلال پشت پیش‌بینی‌های هوش مصنوعی مشاهده کنند. علاوه بر این، دسترسی به کد منبع به توسعه دهندگان انعطاف پذیری برای ایجاد هوش مصنوعی سفارشی، بهبود قابلیت اشکال زدایی و افزایش اعتماد به مدل های خود می دهد.

NVIDIA TAO Toolkit برای سازمانی آماده است و از طریق NVIDIA AI Enterprise (NVAIE) در دسترس است. NVAIE به شرکت‌ها پشتیبانی حیاتی تجاری، دسترسی به کارشناسان هوش مصنوعی NVIDIA و اصلاحات امنیتی اولویت‌دار ارائه می‌دهد. برای دریافت پشتیبانی از کارشناسان هوش مصنوعی به NVAIE بپیوندید.

ادغام با خدمات ابری

NVIDIA TAO Toolkit 5.0 در سرویس‌های هوش مصنوعی مختلفی که ممکن است قبلاً از آنها استفاده کنید، مانند Google Vertex AI، AzureML، سرویس Azure Kubernetes و Amazon EKS ادغام شده است.

خلاصه

TAO Toolkit پلتفرمی را برای هر توسعه‌دهنده، در هر سرویس و هر دستگاهی ارائه می‌کند تا به راحتی مدل‌های سفارشی خود را منتقل کند، یاد بگیرد، کمی‌سازی و هرس را انجام دهد، گردش‌های کاری پیچیده آموزشی را مدیریت کند، و حاشیه‌نویسی به کمک هوش مصنوعی را بدون نیاز به کدنویسی انجام دهد. در GTC 2023، NVIDIA در حال معرفی TAO Toolkit 5.0 است. ثبت نام کنید تا از آخرین به روز رسانی های TAO Toolkit مطلع شوید.

مطالب مرتبط

کنترل هوشمند علف‌های هرز با لیزر و GPUهای انویدیا: انقلاب کربن رباتیکس در کشاورزی

1 شهریور 1404

Jetpack جتسون: راهنمای جامع برای تسلط بر مغز متفکر ربات‌های هوشمند

28 مرداد 1404

پردازش تصویر با Jetson Nano

20 مرداد 1404

انویدیا هوش مصنوعی فیزیکی را با برنامه‌ای جدید به شهرهای اروپایی می‌آورد

13 مرداد 1404

کاربردهای Jetson: گشودن افق‌های هوش مصنوعی

7 مرداد 1404

تحول هوش مصنوعی صنعتی: کاربردهای جتسون در صنعت

30 تیر 1404