آشنایی با YOLO-NAS: مدل جدید تشخیص اشیا YOLO که از YOLOv6 و YOLOv8 پیشی میگیرد.
شرکت Deci.ai مدل YOLO-NAS را عرضه کرده است که تواناییهای برتری در تشخیص اشیا به صورت زمان واقعی و عملکرد عالی برای استفاده در محیطهای تولیدی ارائه میدهد.
دیتاست و مدل رایگان در ویترین بینااکسپرتز
به بینا اکسپرتز خوش آمدید. برای دریافت رایگان دیتاستها و مدلهای هوش مصنوعی به hub.binaexperts.com مراجعه کنید.
اکتشاف ویترینایجاد یک معماری جدید مبتنی بر YOLO با هدف رفع محدودیتهای فعلی و بهرهگیری از جدیدترین پیشرفتهای یادگیری عمیق، میتواند مرزهای جدیدی را در زمینه تشخیص اشیا بازسازی کند و استانداردهای فعلی را به چالش بکشد. شرکت Deci.ai اخیراً مدل YOLO-NAS را عرضه کرده است. این مدل پیشرفته، تواناییهای برتری در تشخیص اشیا به صورت زمان واقعی و عملکرد عالی برای استفاده در محیطهای تولیدی ارائه میدهد. مدلهای YOLO-NAS با استفاده از فناوری AutoNAC™ NAS توسعه یافتهاند و توانستهاند عملکرد بهتری نسبت به نسخههای قبلی مانند YOLOv7، YOLOv8 و حتی YOLOv6-v3.0 که به تازگی معرفی شدهاند، ارائه دهند. علاوه بر این، YOLO-NAS با بهینهسازی معماری خود، مصرف منابع را کاهش داده و سرعت پردازش را افزایش میدهد، که این امر آن را به گزینهای ایدهآل برای کاربردهای گسترده در صنایع مختلف تبدیل کرده است.
YOLO-NAS چیست؟
YOLO-NAS یک مدل جدید و پیشرفته در زمینه تشخیص اشیا به صورت زمان واقعی است که توانسته از مدلهای قبلی مانند YOLOv6 و YOLOv8 در دو معیار میانگین دقت متوسط (MAP) و تأخیر استنتاج پیشی بگیرد. این مدل با استفاده از فناوری AutoNAC™ NAS توسعه یافته و بهینهسازیهای متعددی را به کار گرفته است تا دقت بالاتری در شناسایی اشیا و سرعت پردازش بهتری ارائه دهد.
مزایای YOLO-NAS شامل مصرف بهینهتر منابع، کاهش زمان پردازش و قابلیت اجرای بهتر در محیطهای تولیدی و صنعتی میباشد. این ویژگیها YOLO-NAS را به گزینهای ایدهآل برای کاربردهای متنوعی همچون نظارت ویدئویی، خودرویی خودران و تحلیل تصاویر در زمان واقعی تبدیل کرده است. همچنین، با بهبودهای مستمر در معماری و الگوریتمهای یادگیری عمیق، YOLO-NAS میتواند به راحتی با نیازهای روزافزون صنعتهای مختلف هماهنگ شود و عملکرد بهینهای را ارائه دهد.
توسعه معماری جدید YOLO-NAS
توسعه یک معماری جدید مبتنی بر YOLO با هدف رفع محدودیتهای فعلی و ادغام آخرین پیشرفتهای یادگیری عمیق، میتواند استانداردهای جدیدی را در حوزه تشخیص اشیا تعیین کند و مرزهای فعلی حالت هنر ((State-of-the-Art یا به اختصار SOTA)) را بازتعریف کند. حالت هنر به بالاترین سطح پیشرفت و بهترین عملکرد موجود در یک حوزه علمی یا فنی اشاره دارد که به عنوان معیار استاندارد برای مقایسه مدلها و روشهای جدید استفاده میشود.
YOLO-NAS، مدل پایه جدیدی برای تشخیص اشیا است که توسط شرکت Deci.ai عرضه شده است. تیم توسعه Deci.ai با بهرهگیری از آخرین دستاوردهای یادگیری عمیق، تلاش کرده است تا عوامل محدودکننده کلیدی مدلهای قبلی YOLO را بهبود بخشد. از جمله این بهبودها میتوان به پشتیبانی بهتر از کوانتیزاسیون و بهینهسازی تعادل بین دقت و تأخیر (latency) اشاره کرد. این اقدامات منجر به پیشرفت قابل توجهی در قابلیتهای تشخیص اشیا به صورت زمان واقعی شده است و YOLO-NAS را به یکی از مدلهای SOTA در این حوزه تبدیل کرده است.
یکی از ویژگیهای برجسته YOLO-NAS، توانایی بالاتر در تشخیص اشیا کوچک و بهبود دقت مکانیابی آنهاست. علاوه بر این، این مدل نسبت عملکرد به محاسبه بهتری دارد که آن را برای استفاده در دستگاههای لبه (Edge Devices) و برنامههای زمان واقعی ایدهآل میسازد.
مزایای YOLO-NAS شامل موارد زیر است:
- دقت بالاتر: بهبود در تشخیص اشیا کوچک و افزایش دقت مکانیابی.
- بهینهسازی منابع: کاهش مصرف منابع محاسباتی بدون افت دقت.
- سرعت بالاتر: کاهش تأخیر استنتاج، مناسب برای برنامههای زمان واقعی.
- انعطافپذیری بیشتر: قابلیت اجرا در دستگاههای لبه با محدودیتهای سختافزاری.
این ویژگیها YOLO-NAS را به گزینهای جذاب برای کاربردهای متنوعی همچون نظارت ویدئویی، خودروهای خودران و تحلیل تصاویر در زمان واقعی تبدیل کرده است. با ادامه بهبودها و نوآوریها، انتظار میرود که YOLO-NAS نقش مهمی در پیشرفتهای آینده در زمینه تشخیص اشیا ایفا کند و جایگاه خود را به عنوان یکی از مدلهای حالت هنر (SOTA) حفظ نماید.
مدلهای تازه منتشر شده عبارتند از:
YOLO-NAS که به طور اختصاصی برای استفاده در تولید و صنعت طراحی شده است، کاملاً با موتورهای استنتاج با عملکرد بالا مانند NVIDIA® TensorRT™ سازگار است و از کوانتیزاسیون INT8 برای عملکرد بسیار عالی در زمان اجرا پشتیبانی میکند.
در زمان نگارش این مقاله، سه مدل YOLO-NAS منتشر شدهاند که میتوانند در دقتهای FP32، FP16 و INT8 استفاده شوند.
"NAS" در YOLO-NAS مخفف چیست؟
"NAS" در YOLO-NAS به معنای "جستجوی معماری عصبی" (Neural Architecture Search) است. این تکنیک پیشرفته برای خودکارسازی فرآیند طراحی معماریهای شبکههای عصبی به کار میرود. به جای اتکا به طراحی دستی و تجربه کارشناسان، NAS از الگوریتمهای بهینهسازی استفاده میکند تا بهترین معماری ممکن را برای یک وظیفه خاص شناسایی کند. هدف اصلی NAS یافتن معماریای است که بهترین تعادل را بین دقت مدل، پیچیدگی محاسباتی و اندازه مدل فراهم کند.
با استفاده از NAS، YOLO-NAS قادر است به طور خودکار و کارآمد معماری مناسبی را انتخاب کند که نه تنها دقت بالایی در تشخیص اشیا دارد، بلکه مصرف منابع محاسباتی را نیز بهینه میکند. این امر به ویژه برای کاربردهایی که نیاز به پردازش سریع و کارآمد دارند، مانند دستگاههای لبه (Edge Devices) و سیستمهای زمان واقعی، بسیار اهمیت دارد. به کمک NAS، YOLO-NAS میتواند به سرعت با تغییر نیازها و شرایط محیطی سازگار شود و عملکرد بهینهای را در انواع مختلفی از سناریوها ارائه دهد.
مزایای استفاده از NAS در YOLO-NAS شامل موارد زیر است:
- طراحی خودکار معماری: کاهش نیاز به مداخله انسانی در فرآیند طراحی شبکه عصبی.
- بهینهسازی عملکرد: دستیابی به بهترین تعادل بین دقت، سرعت و مصرف منابع.
- انعطافپذیری بالا: قابلیت تنظیم و تطبیق با نیازهای مختلف کاربردی.
- صرفهجویی در زمان و هزینه: کاهش زمان لازم برای طراحی و آزمایش معماریهای مختلف.
با این ویژگیها، NAS نقش مهمی در ارتقا کارایی و قابلیتهای YOLO-NAS ایفا میکند و آن را به یکی از پیشرفتهترین مدلهای تشخیص اشیا در بازار تبدیل کرده است.
برخی نکات کلیدی معماری در YOLO-NAS
معماری مدلهای YOLO-NAS
نقاط قرمز از چپ به راست نشاندهنده مدلهای کوچک، متوسط و بزرگ هستند.
معماری مدلهای YOLO-NAS با فناوری پیشرفته AutoNAC شرکت Deci طراحی شده است.
معماری مدلهای YOLO-NAS با بهرهگیری از فناوری اختصاصی NAS شرکت Deci به نام AutoNAC طراحی و بهینهسازی شده است. این موتور پیشرفته برای تعیین اندازهها و ساختارهای بهینه مدلهای تشخیص اشیا استفاده شده است که شامل انتخاب نوع بلوک، تعداد بلوکها و تعداد کانالها در هر مرحله میباشد.
در مجموع، فضای جستجوی NAS شامل ۱۰۱۴ پیکربندی معماری ممکن بوده است. با در نظر گرفتن مشخصات سختافزاری و دادههای موجود، موتور AutoNAC تمامی اجزای موجود در پشته استنتاج، از جمله کامپایلرها و تکنیکهای کوانتیزاسیون را بررسی میکند و به منطقهای به نام "مرز کارایی" میپردازد تا بهترین مدلها را شناسایی کند. در این فرآیند، سه مدل YOLO-NAS موفق به یافتن جایگاه خود در این منطقه از فضای جستجو شدهاند.
در طول فرآیند NAS، بلوکهای Quantization-Aware RepVGG (QA-RepVGG) به معماری مدل اضافه میشوند تا سازگاری مدل با کوانتیزاسیون پس از آموزش (Post-Training Quantization یا PTQ) تضمین شود. این بلوکها باعث میشوند که مدل بتواند با دقت بالا و مصرف منابع بهینه عمل کند.
استفاده از ماژولهای "QSP" و "QCI" که از بلوکهای QA-RepVGG تشکیل شدهاند، مزایای قابل توجهی در زمینه کوانتیزاسیون ۸ بیتی و بازپارامترسازی فراهم میکند. این ماژولها امکان کاهش حداقلی دقت در طول فرآیند PTQ را فراهم میکنند، که به بهبود کارایی و سرعت مدل کمک میکند.
محققان همچنین از روش کوانتیزاسیون ترکیبی استفاده کردهاند که به صورت انتخابی لایههای خاصی از شبکه را کوانتیزه میکند. این روش بهینهسازی تعادل بین دقت و تأخیر را فراهم میکند و در عین حال عملکرد کلی مدل را حفظ میکند. این تکنیک به مدلهای YOLO-NAS اجازه میدهد تا در محیطهای مختلف با نیازهای متنوع به بهترین شکل عمل کنند.
علاوه بر این، مدلهای YOLO-NAS از مکانیزمهای توجه (Attention Mechanisms) و بازپارامترسازی در زمان استنتاج استفاده میکنند تا قابلیتهای تشخیص اشیا را بهبود بخشند. این ویژگیها باعث میشوند که مدل بتواند به طور دقیقتری اشیا را شناسایی کرده و در زمان واقعی به تحلیل تصاویر بپردازد.
خلاصهای از آموزش مدلهای YOLO-NAS
مدلهای YOLO-NAS با هدف دستیابی به دقت بالا و تأخیر کم در تشخیص اشیا، از فرآیندهای پیشرفتهای برای آموزش خود استفاده کردهاند:
- پیشآموزش بر روی دیتاست Object365: مدلها ابتدا بر روی دیتاست معروف Object365 که شامل ۲ میلیون تصویر و ۳۶۵ دستهبندی مختلف است، پیشآموزش دیدهاند. این دیتاست گسترده به مدلها امکان میدهد تا قابلیتهای تشخیص اشیا را در تنوع بالایی از شرایط یاد بگیرند.
- پیشآموزش اضافی با برچسبگذاری شبه: پس از مرحله اولیه، یک دور پیشآموزش دیگر بر روی ۱۲۳ هزار تصویر بدون برچسب COCO با استفاده از تکنیک برچسبگذاری شبه انجام شده است. این فرآیند به مدلها کمک میکند تا از دادههای بدون برچسب نیز بهرهبرداری کنند و عملکرد خود را بهبود بخشند.
- استفاده از تقطیر دانش (Knowledge Distillation) و Distribution Focal Loss (DFL): برای بهینهسازی فرآیند آموزش، از تکنیکهای تقطیر دانش و توزیع فوکال لاس استفاده شده است. تقطیر دانش به مدلهای YOLO-NAS کمک میکند تا از مدلهای بزرگتر و پیچیدهتر یاد بگیرند، در حالی که DFL به بهبود دقت تشخیص اشیا، به ویژه در مواردی که اشیا به سختی قابل تشخیص هستند، کمک میکند.
چگونه از YOLO-NAS برای استنتاج استفاده کنیم؟
شما می توانید از سکوی بینایی ماشین binaexperts برای آموزش و استنتاج با این مدل استفاده نمایید.
پس از پیشآموزش مدلها، به عنوان یک آزمایش، تصمیم بر این شد عملکرد بر روی دیتاست "RoboFlow100" آزمایش شود تا توانایی آن در پردازش وظایف پیچیده تشخیص اشیا نشان داده شود. که YOLO-NAS با حاشیه قابل توجهی از نسخههای دیگر YOLO پیشی گرفت.
نتایج مقایسه YOLO-NAS بر روی دیتاست ROBOFLOW100 در مقابل مدلهای YOLO محبوب را در نمودار زیر مشاهده می کنید.
مقایسه YOLO-NAS با بهترین مدلهای YOLO فعلی بر روی دیتاست COCO
مدل YOLO-NAS و نسخههای مختلف مدلهای یولو YOLOv8 و YOLOv6 در شرایط مختلفی از جمله دقت، تأخیر و تعداد پارامترها با هم مقایسه شدهاند. این مقایسه به خوبی نشان میدهد که چگونه YOLO-NAS با بهرهگیری از تکنیکهای پیشرفته، مانند AutoNAC، عملکردی رقابتی در مقابل مدلهای YOLO فعلی دارد.
مقایسه سرعت استنتاج YOLO-NAS-Lو YOLOv8-L
- YOLO-NAS-L و YOLOv8-L هر دو با دقت و تواناییهای مشابه در تشخیص اشیا، عملکرد خوبی دارند، اما از نظر سرعت پردازش و استنتاج تفاوتهایی دارند.
- هنگام مقایسه سرعت استنتاج (پیشپردازش + عبور به جلو + پسپردازش)، مدل YOLO-NAS-L با دقت FP32 کل ویدئو را در ۲۴ ثانیه پردازش کرد، در حالی که YOLOv8-L تنها به ۱۲ ثانیه زمان نیاز داشت.
- تفاوت در طول ویدئوهای پردازششده توسط این دو مدل به دلیل تفاوت در نرخ فریمهای کدگذاریشده است؛ به طوری که YOLOv8-L ویدئو را با ۲۹ FPS و YOLO-NAS-L با ۲۹.۹۷ FPS (نرخ اصلی) کدگذاری کرده است.
مقایسه مدلهای مختلف:
در جدول زیر، متریکهای اصلی مدلهای مختلف YOLO-NAS، YOLOv8 و YOLOv6 مقایسه شده است:
مدل |
APval50:95 |
دقت |
تأخیر (bs=1) ms |
تعداد
پارامترها (میلیون) |
YOLOv8-S |
44.9 |
FP32 |
3.2 |
11.2 |
YOLOv6-S |
45.0 |
FP32 |
2.9 |
18.5 |
YOLO-NAS
S |
47.5 |
FP16 |
3.21 |
19.0 |
YOLO-NAS
S INT-8 |
47.03 |
INT8 |
2.36 |
19.0 |
YOLOv8-M |
50.2 |
FP32 |
7.0 |
25.9 |
YOLOv6-M |
50.0 |
FP32 |
5.7 |
34.9 |
YOLO-NAS
M |
51.55 |
FP16 |
5.85 |
51.1 |
YOLO-NAS
M INT-8 |
51.0 |
INT8 |
3.78 |
51.1 |
YOLOv8-L |
52.9 |
FP32 |
11.0 |
43.7 |
YOLOv6-L |
52.8 |
FP32 |
10.3 |
59.6 |
YOLO-NAS
L |
52.22 |
FP16 |
7.87 |
66.9 |
YOLO-NAS
L INT-8 |
52.1 |
INT8 |
4.78 |
66.9 |
نکات کلیدی مقایسه:
- دقت (APval50:95):
- YOLO-NAS به طور کلی عملکرد بهتری از نظر دقت نسبت به YOLOv6 و YOLOv8 دارد، به ویژه در نسخههای با کوانتیزاسیون INT8.
- تأخیر (Latency):
- مدلهای YOLO-NAS با دقت FP16 و INT8 به طور قابل توجهی تأخیر کمتری نسبت به مدلهای FP32 دارند. به عنوان مثال، YOLO-NAS S INT-8 تنها 2.36 میلیثانیه تأخیر دارد.
- تعداد پارامترها:
- مدلهای YOLO-NAS دارای تعداد پارامترهای بیشتری هستند که به آنها اجازه میدهد دقت بالاتری را با حفظ تأخیر کم ارائه دهند.
- کاربردهای عملی:
- مدلهای YOLO-NAS به دلیل ترکیب دقت بالا و تأخیر کم، برای کاربردهای زمان واقعی مانند نظارت ویدئویی، خودروهای خودران و دستگاههای لبه (Edge Devices) مناسبتر هستند.
- تکنیکهای پیشرفته:
- استفاده از کوانتیزاسیون و تکنیکهای تقطیر دانش (Knowledge Distillation) به YOLO-NAS امکان میدهد عملکرد بهتری در شرایط مختلف ارائه دهد.
نتیجهگیری
چشمانداز مدلهای حالت هنر (SOTA) تشخیص اشیا به طور مداوم در حال تکامل است، که توسط تحقیقات بیوقفه و نوآوری در زمینه بینایی کامپیوتر و یادگیری عمیق هدایت میشود. در سالهای اخیر، YOLOv6 و YOLOv8 به عنوان بهترین مدلهای تشخیص اشیا در زمان واقعی به صورت آزاد در دسترس شناخته شدهاند. به تازگی، یک مدل رقیب جدید به نام "YOLO-NAS" توسط Deci.ai جایگاه برتر را از نظر ارائه قابلیتهای بهتر تشخیص اشیاء در زمان واقعی به دست آورده است.
پی نوشت:
مدلهای YOLO-NAS با ترکیب پیشرفتهای اخیر در یادگیری عمیق و فناوری AutoNAC، توانستهاند به عملکردی بینظیر در مقایسه با بهترین نسخههای YOLO دست یابند. این مدلها، به ویژه در نسخههای با کوانتیزاسیون INT8، نه تنها دقت بالایی دارند، بلکه با تأخیر کمتر و پردازش سریعتر، انتخابی ایدهآل برای کاربردهای عملی و صنعتی محسوب میشوند.
پی نوشت 2: شما می توانید از سکوی بینایی ماشین binaexperts برای آموزش و استنتاج با این مدل استفاده نمایید.
منابع:
این منبع به معرفی YOLO-NAS توسط شرکت Deci میپردازد و ویژگیهای بهبود یافته این مدل در مقایسه با نسخههای قبلی YOLO را توضیح میدهد.
این منبع به چگونگی دستیابی YOLO-NAS به حالت هنر (SOTA) در تشخیص اشیاء و بهبودهای این مدل در کاهش تأخیر و افزایش دقت میپردازد.
- گیتهاب – YOLO-NAS - https://github.com/Deci-AI/super-gradients/blob/master/src/super_gradients/training/models/detection_models/yolo_nas/README.md:
این منبع شامل اطلاعات فنی و پیادهسازی YOLO-NAS از طریق کتابخانه Super Gradients در گیتهاب است و راهنمای نصب و استفاده از مدل را ارائه میدهد.