Yuqori unumli gibrid hisoblash tizimlarida suyuqliklar dinamikasi muammolarini hal qilish uchun Fortran dvmh tilidan foydalanish


x200x200 ijmax=200 754,01 384,92 206,47 113,64 49,87 29,90 14,52 8,63 5,63 6,01


Download 85.82 Kb.
bet11/12
Sana18.06.2023
Hajmi85.82 Kb.
#1597348
1   ...   4   5   6   7   8   9   10   11   12
Bog'liq
02.06.2023.Использование языка Fortran DVMH для решения задач гидродинамики на высокопроизводительных гибридных вычислительных системах.ru.uz

200x200x200 ijmax=200 754,01 384,92 206,47 113,64 49,87 29,90 14,52 8,63 5,63 6,01
400x400x400 ijmax=100 - 1202,32 630,15 317,36 164,02 85,68 43,10 22,53 13,54 7,66
800x800x800 ijmax=50 - - - - 576,16 318,75 151,78 79,68 41,26 21,91
1600x1600x1600 ijmax=20 - - - - - - - 235,64 117,88 62,68
4-jadval
"Konteyner" dasturining boshqa sonli GPUlarda bajarilish vaqti
To‘r, takrorlashlar soni 1 2 4 8 16 32 64 128 256 512 1024 1280
200x200x200 ijmax=200 166,95 86,05 45,77 26,82 14,95 8,99 6,12 3,99 3,26 3,01 3,60 4,32
400x400x400 ijmax=100 - - 168,80 89,17 47,15 26,09 14,17 8,39 4,86 ​​3,20 2,88 3,26
800x800x800 ijmax=50 - - - - - 92,20 51,80 30,32 13,58 7,56 4,67 4,17
1600x1600x1600 ijmax=20 - - - - - - - - 37,38 20,14 10,74 8,95
200x200x200 va 400x400x400 panjaralar uchun ko'p sonli GPU-lardan foydalanganda vazifa tezlashishni to'xtatadi va hatto sekinlashadi. Buning sababi shundaki, ishlatiladigan GPU sonining ko'payishi bilan bitta GPUda qayta ishlangan ma'lumotlar miqdori sezilarli darajada kamayadi, bu esa apparatni to'liq yuklashga imkon bermaydi. Hisoblash yadrolarini tayyorlash va ishga tushirish, soya qirralarini nusxalash uchun qo'shimcha xarajatlar dasturni parallellashtirish samarasidan oshadi.
200x200x200 panjara uchun 4 ta grafik protsessordan foydalanganda dastur 4 yadroda ishlashga nisbatan 16,47 marta tezlashadi.
400x400x400 panjara uchun 8 ta grafik protsessordan foydalanganda dastur 8 yadroda ishlashga nisbatan 13,48 marta tezlashadi.
800x800x800 panjara uchun 64 ta grafik protsessordan foydalanganda dastur 64 yadroda ishlashga nisbatan 11,12 baravar tezlashadi.
1600x1600x1600 panjara uchun 512 ta grafik protsessordan foydalanganda dastur 512 yadroda ishlashga nisbatan 11,7 baravar tezlashadi.
Fortran DVMH tilida parallellashtirish uchun "Cavern" va "Container" muammolarini tanlash omillaridan biri bu dasturlarning SHMEM/CUDA modelidagi versiyalarini ishlab chiqqanligi edi. GPU yordamida olingan ushbu dasturlarning tezlashishi haqidagi ma'lumotlar 2010 yilda nashr etilgan [6].
DVMH modeli va SHMEM/CUDA modelidagi parallel dasturlarning samaradorligini taqqoslash amalga oshirildi. Buning uchun quyidagi yondashuv qo'llanildi. Dastlabki vazifa 1-GPU (tarmoq 150x150x150) da ishga tushirildi, uning bajarilish vaqti o'lchandi. Keyin hal qilinayotgan muammoning murakkabligi (hisoblash tarmog'ining o'lchami) 2 baravar oshdi va vazifa 2 baravar ko'proq GPUlarda bajarildi va hokazo. 5 va 6-jadvallarda SHMEM/CUDA va Konteyner dasturining DVMH versiyalarining 200 iteratsiyasining turli xil sonli GPUlarda bajarilish vaqtlari ko'rsatilgan.
5-jadval
"Konteyner" SHMEM/CUDA-dasturini bajarish vaqti va samaradorligi
turli xil GPUlar sonida
GPU soni 1 2 4 8 16 32 64 128 256 512 1024
vaqt, s 87,12 87,82 88,8 89,29 90,21 90,99 91,4 91,57 91,97 92,46 92,74
samaradorlik, % 100 99,2 98,1 97,6 96,6 95,7 95,2 95,1 94,7 94,2 93,9
6-jadval
"Konteyner" DVMH-dasturini turli raqamlarda bajarish vaqti va samaradorligi
GPU soni 1 2 4 8 16 32 64 128 256 512 1024
vaqt, s 71,93 74,77 76,12 76,75 80,56 80,76 82,76 82,91 82,03 90,56 88
samaradorlik, % 100 96,2 94,5 93,7 89,3 89,1 86,9 86,8 87,7 79,4 81,7
Zamonaviy GPU'lar har bir SM uchun L1 kesh rejimini sozlash imkonini beradi. Standart L1 uchun 16 KB va umumiy xotira uchun 48 KB. CudaDevice-SetCacheConfig(cudaFuncCachePreferL1) rejimi DVMH dasturining bajarilishini qo'llab-quvvatlash tizimida o'rnatiladi, unda L1 keshi uchun 48 KB va umumiy xotira uchun 16 KB ishlatiladi. SHMEM/CUDA ishlab chiquvchilari dasturning versiyasini hisobga olmadilar
bu imkoniyat. Natijada, DVMH dasturi SHMEM/CUDA dasturidan 1,2 marta tezroq 1-GPU da ishlaydi.
GPU soni ortishi bilan DVMH dasturining samaradorligi pasayadi. Buning sabablaridan biri - soya qirralarining "ortiqcha" almashinuvi. Soya qirralarini almashtirish juda qimmat operatsiya: kerakli soya qirralarini tezlatgich xotirasidan xost xotirasiga ko'chirish, klaster tugunlari o'rtasida mos almashinuvni boshlash va keyin olingan qiymatlarni nusxalash kerak. tezlatgich xotirasiga. Muayyan sharoitlarda siz soya yuzlarini qo'shimcha hisob-kitoblar bilan yangilashingiz mumkin. Bunday mexanizm DVM dasturlari (SHADOW_COMPUTE) uchun amalga oshiriladi. Hozirgi vaqtda tezlatgichlardan foydalanishda ushbu imkoniyatni amalga oshirish uchun Fortran DVMH kompilyatori va dastur bajarilishini qo'llab-quvvatlash tizimi yakunlanmoqda.
Xulosa
Yangi heterojen va gibrid kompyuter arxitekturalarining paydo bo'lishi, xususan, ko'p yadroli hisoblash tezlatgichlariga asoslangan holda, superkompyuterlarning ishlashini sezilarli darajada oshirish imkonini berdi, bu esa tegishli hisoblash tizimlari uchun amaliy dasturlarni ishlab chiqish va optimallashtirishni dolzarb qildi.
Yuqori unumdorlikka ega tizimlar uchun samarali ilovalarni ishlab chiqish usullarining hozirgi holatini baholashda shuni ta'kidlash kerakki, mavjud dasturlash vositalari o'z-o'zidan past darajada bo'lib, ishlab chiqaruvchidan talab qilinadigan sifat darajasiga erishishni kafolatlamasdan katta xarajatlarni talab qiladi. yaratilgan amaliy dastur. Bu erda sifat deganda, birinchi navbatda, qo'llaniladigan muammolarni hal qilishning aniqligini yo'qotmasdan hal qilish vaqtini qisqartirish, shuningdek, dasturiy ta'minotga texnik xizmat ko'rsatish va uni yangi arxitekturalarga ko'chirish qulayligi tushuniladi.
Amaliy matematika institutida ishlab chiqilgan. M.V. Keldysh RASning amaliy dasturlarni yaratishga yondashuvi tezlatgichli superkompyuter tizimlari uchun amaliy dasturlarni yaratishni ancha soddalashtiradi. Fortran DVMH tili boshqa GPU arxitekturali tizimlarga amaliy dasturiy ta'minotning yuqori darajadagi portativligini ta'minlaydi, chunki portlash dasturni o'zgartirishni talab qilmaydi.
Ishlab chiqilgan Cavern va Container ilovalarining xususiyatlarini o'rganish shuni ko'rsatdiki, yuqori darajadagi gibrid DVMH modelida ishlab chiqilgan dasturlarning samaradorligi past darajadagi CUDA texnologiyasidan foydalangan holda yozilgan dasturlarning samaradorligidan juda kam farq qiladi.
Tadqiqot RFBR grantlari № 11-01-00246, 12-01-33003 mol_a_ved, 12-07-31204-mol_a va Rossiya Federatsiyasi Prezidentining NSh-4307.2012.9 granti bilan qo'llab-quvvatlandi.

Download 85.82 Kb.

Do'stlaringiz bilan baham:
1   ...   4   5   6   7   8   9   10   11   12




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling