مدیر تیم ملی پلتفرم اطلاعات مصنوعی از طراحی و اجرای زیرساخت های محلی برای مدیریت منابع پردازش محدود خبر داده است ، با بیان اینکه وقتی GPU ، CPU و ذخیره سازی محدود هستند ، من با طراحی یک لایه بین سخت افزار و لایه اجرایی ، حداکثر عملکرد این منابع را ارائه می دهم. به گفته وی ، این سه پایه با استانداردهای بین المللی رقابتی است و آماده همکاری با مجموعه های علاقه مند است.
به گفته اینا ، در جلسه ای از فعالان هوش مصنوعی ، جمال امیدی امروز طراحی زیرساخت های پلتفرم را بیان کرد و منابع سخت افزاری محدود مانند GPU ، CPU و فضای ذخیره سازی را نشان داد و گفت که اگر این منابع محدود به صورت عمومی و عمومی مورد استفاده قرار می گرفتند ، آنها این کار را نمی کردند. به همین دلیل ، ما تصمیم گرفتیم که یک لایه بین پلتفرم و سخت افزار موجود را طراحی کنیم تا بیشترین بهره وری این منابع را فراهم کنیم.
وی با اشاره به تجربه قبلی در توسعه سیستم های مقیاس پذیر ، افزود: “هدف استفاده از منابع داخلی محدود و قابلیت های خارجی در یک ساختار منسجم و سازگار بود.” در صنعت ، ما همچنین با چالش های مشابهی روبرو شده ایم که در طراحی این ساختار مشاهده و مورد تجزیه و تحلیل قرار گرفته است.
مدیر تیم پلت فرم هوش مصنوعی با تأکید بر اینکه ما در حال بررسی منابع پردازش مانند GPU ، CPU و فضای ذخیره سازی مانند “رایانه” هستیم: تخمین ما این است که بیش از 5 میلیارد دلار در این زمینه مورد نیاز است. اما هیچ یک از زیرساخت های فعلی آماده حفظ چنین ساختاری نیستند. ما باید بتوانیم چند صد گیگابایت را به طور مستقل نیرو و پردازش کنیم. شبکه همچنین باید بتواند این جلد را بسازد.
وی گفت: یکی از مشکلات مهم انتخاب سیستم عامل های مینیمالیستی و بهینه شده برای استفاده از سخت افزار است و ذکر شده است: ما یک گزینه سیستم عامل بسیار سبک و کم را انتخاب کرده ایم که در جهان به طور گسترده شناخته شده است و با هدف مدیریت دقیق منابع سخت افزاری ، تغییر در سیستم از یک مرکز کنترل به آن هدایت می شود.
توسعه دهنده زیرساخت هوش مصنوعی ادامه داد: به عنوان مثال ، در یک فرآیند یادگیری ماشین توزیع شده ، هزاران فرآیند می توانند حجم زیادی از داده ها را همزمان داشته باشند. زمان و توزیع این کارها به سخت افزار نیاز به یک لایه استاندارد و تخصصی دارد که نمی تواند برای زیرساخت های معمولی اعمال شود. بنابراین ، ما از ابزارهایی استفاده کرده ایم که برای مدیریت توزیع و هماهنگی کارها بسیار مؤثر هستند.
وی همچنین به برخی از راه حل های متعارف مانند Slurm اشاره کرد و گفت: اگرچه از ابزارهایی مانند “شکاف” در پروژه های بین المللی استفاده می شود ، اما با زیرساخت های مدرن سازگار نیستند. ما فقط به تجربه قبلی در استفاده از شکاف نگاه کردیم و ساختار مشابهی را به سیستم عامل خود اضافه کردیم.
این فعال فناوری گفت: این زیرساخت ها قبلاً در سه لایه اصلی طراحی شده اند و آماده کار هستند و توضیح می دهد: RDMA مبتنی بر و نسخه دوم ROCE برای برقراری ارتباط سریع بین پردازنده های گرافیکی. همچنین یک شبکه ذخیره سازی سریع مبتنی بر CEP برای مدلهای هوش مصنوعی تغذیه کننده بالا وجود دارد.
وی چالش ذخیره سازی را به عنوان یکی از مشکلات اساسی در یادگیری عمیق توصیف کرد و گفت: در پروژه های آموزشی عمیق نیاز به دسترسی همزمان به مقدار زیادی از داده ها وجود دارد. در متداول ترین سیستم های ذخیره سازی ، اگر این فرآیند به یک پرونده دسترسی داشته باشد ، سایر فرآیندها نمی توانند همزمان از آن استفاده کنند. به همین دلیل ، هنگام طراحی این ساختار ، لازم است پردازش همزمان و انتقال داده ها با قیمت سودآور ارائه شود.
وی افزود: “ما نمی توانیم از ذخیره سازی تجاری گران در این مقیاس استفاده کنیم.” بنابراین به جای خرید تجهیزات گران قیمت ، از راه حل های تعریف شده و تعریف شده استفاده کردیم که عملکرد کمتری و بالاتر دارند.
امید مربوط به دو ویژگی کلیدی در لایه پردازش گفت: یکی از این خصوصیات امکان کار با مدلهای مبتنی بر پایگاه داده بزرگ است که اجازه می دهد تا مدل به چندین پردازنده گرافیکی تقسیم شود. برای مدل هایی با پارامترهای بسیار بالا ، آنها نمی توانند در یک یا دو پردازنده گرافیکی اجرا شوند و قسمت های مختلف باید به پردازنده های گرافیکی چندگانه تقسیم شوند.
مدیر بستر بسترهای نرم افزاری ملی برای هوش مصنوعی گفت: “ما این ساختار را با زیرساخت های ایالات متحده و همچنین با سیستم عامل شرکت هایی مانند Alibaba و Huawei مقایسه کرده ایم.” خوشبختانه ، نسخه تولید ما در اکثر شاخص ها قادر به رقابت با خدمات مشابه است.
اومیدی خاطرنشان کرد: اگر دوستان در کشور تجربه مشابهی داشته باشند ، ما با آغوش باز از آنها استقبال خواهیم کرد. هدف ما تکرار کار قبلی نیست. هرچه سریعتر و ارزان تر ، در کشور بهتر شود. زیرساخت هایی که ما طراحی کردیم در حال حاضر پیاده سازی شده است و ما آماده همکاری با مجموعه های علاقه مند هستیم.
پایان پیام
منبع خبر: https://www.isna.ir/news/1404031710503/%D8%A8%D9%88%D9%85%DB%8C-%D8%B3%D8%A7%D8%B2%DB%8C-%D8%B2%DB%8C%D8%B1%D8%B3%D8%A7%D8%AE%D8%AA-%D9%87%D9%88%D8%B4-%D9%85%D8%B5%D9%86%D9%88%D8%B9%DB%8C-%D8%AF%D8%B1-%D9%BE%D8%B1%D9%88%DA%98%D9%87-%D8%B3%DA%A9%D9%88%DB%8C-%D9%85%D9%84%DB%8C