Jim Keller ဦးဆောင်တဲ့ ချစ်ပ်ကုမ္ပဏီ Tenstorrent ဟာ AI workloads အတွက် သူ့ရဲ့ နောက်မျိုးဆက် Wormhole processor ကို မိတ်ဆက်လိုက်ပြီး ဈေးနှုန်းသင့်တင့်ပြီး ကောင်းမွန်တဲ့ စွမ်းဆောင်ရည်ကို ပေးစွမ်းနိုင်မယ်လို့ မျှော်လင့်ထားပါတယ်။ကုမ္ပဏီသည် လက်ရှိတွင် Wormhole ပရိုဆက်ဆာ တစ်ခု သို့မဟုတ် နှစ်ခုကို ထည့်သွင်းနိုင်သော PCIe ကတ်နှစ်ခုအပြင် software developer များအတွက် TT-LoudBox နှင့် TT-QuietBox workstation များကို ပေးဆောင်လျက်ရှိသည်။ ယနေ့ကြေငြာချက်အားလုံးသည် စီးပွားဖြစ် workloads များအတွက် Wormhole board များကို အသုံးပြုသူများအတွက် မဟုတ်ဘဲ developer များအတွက် ရည်ရွယ်ပါသည်။
“ကျွန်ုပ်တို့ရဲ့ ထုတ်ကုန်တွေကို developer တွေလက်ထဲ ပိုရောက်အောင် ပို့ဆောင်ပေးနိုင်တာက အမြဲတမ်း ကျေနပ်စရာပါပဲ။ ကျွန်ုပ်တို့ရဲ့ Wormhole™ ကတ်တွေကို အသုံးပြုပြီး developer တွေရဲ့ developer တွေကို တိုးချဲ့ပြီး multi-chip AI software တွေ တီထွင်နိုင်အောင် ကူညီပေးနိုင်ပါတယ်” လို့ Tenstorrent ရဲ့ CEO ဖြစ်သူ Jim Keller က ပြောပါတယ်။ဒီမိတ်ဆက်ပွဲအပြင်၊ ကျွန်တော်တို့ရဲ့ ဒုတိယမျိုးဆက်ထုတ်ကုန် Blackhole ရဲ့ တိပ်ခွေထွက်ရှိမှုနဲ့ ပါဝါမြှင့်တင်မှုမှာ ကျွန်တော်တို့ ရရှိနေတဲ့ တိုးတက်မှုတွေကို မြင်တွေ့ရတာ စိတ်လှုပ်ရှားမိပါတယ်။
Wormhole ပရိုဆက်ဆာတစ်ခုစီတွင် Tensix cores ၇၂ ခု (၎င်းတို့အနက် ငါးခုသည် ဒေတာဖော်မတ်အမျိုးမျိုးဖြင့် RISC-V cores များကို ပံ့ပိုးပေးသည်) နှင့် SRAM 108 MB ပါဝင်ပြီး 1 GHz တွင် 262 FP8 TFLOPS ကို 160W ၏ အပူချိန်ဒီဇိုင်းပါဝါဖြင့် ပို့ဆောင်ပေးပါသည်။ single-chip Wormhole n150 ကတ်တွင် 12 GB GDDR6 ဗီဒီယိုမှတ်ဉာဏ် တပ်ဆင်ထားပြီး 288 GB/s bandwidth ရှိသည်။
Wormhole ပရိုဆက်ဆာများသည် workload များ၏ မတူညီသောလိုအပ်ချက်များကို ဖြည့်ဆည်းရန် ပြောင်းလွယ်ပြင်လွယ်ရှိသော scalability ကို ပေးစွမ်းသည်။ Wormhole n300 ကတ်လေးခုပါသည့် စံ workstation setup တွင်၊ ပရိုဆက်ဆာများကို software တွင် ပေါင်းစည်းထားသော၊ ကျယ်ပြန့်သော Tensix core network အဖြစ် ပေါ်လာသည့် တစ်ခုတည်းသော unit အဖြစ် ပေါင်းစပ်နိုင်သည်။ ဤ configuration သည် accelerator အား တူညီသော workload ကို ကိုင်တွယ်နိုင်စေသည်၊ developer လေးဦးအကြား ခွဲဝေပေးနိုင်သည် သို့မဟုတ် AI မော်ဒယ်ရှစ်ခုအထိ တစ်ပြိုင်နက်တည်း လည်ပတ်နိုင်စေသည်။ ဤ scalability ၏ အဓိကအင်္ဂါရပ်မှာ virtualization မလိုအပ်ဘဲ ဒေသတွင်းတွင် လည်ပတ်နိုင်ခြင်းဖြစ်သည်။ data center ပတ်ဝန်းကျင်တွင်၊ Wormhole ပရိုဆက်ဆာများသည် စက်အတွင်း ချဲ့ထွင်ရန်အတွက် PCIe သို့မဟုတ် ပြင်ပချဲ့ထွင်ရန်အတွက် Ethernet ကို အသုံးပြုလိမ့်မည်။
စွမ်းဆောင်ရည်အရ Tenstorrent ၏ single-chip Wormhole n150 ကတ် (72 Tensix cores, 1 GHz frequency, 108 MB SRAM, 12 GB GDDR6, 288 GB/s bandwidth) သည် 160W တွင် 262 FP8 TFLOPS ရရှိခဲ့ပြီး dual-chip Wormhole n300 board (128 Tensix cores, 1 GHz frequency, 192 MB SRAM, aggregated 24 GB GDDR6, 576 GB/s bandwidth) သည် 300W တွင် 466 FP8 TFLOPS အထိ ရရှိစေသည်။
FP8 TFLOPS ၄၆၆ ခုပါ 300W ကို ထည့်သွင်းစဉ်းစားရမယ်ဆိုရင် AI ဈေးကွက်ဦးဆောင်သူ Nvidia က ဒီ thermal design power မှာ ပေးစွမ်းနိုင်တဲ့ အရာနဲ့ နှိုင်းယှဉ်ကြည့်ပါမယ်။ Nvidia ရဲ့ A100 က FP8 ကို မထောက်ပံ့ပေမယ့် INT8 ကို ထောက်ပံ့ပေးပြီး အမြင့်ဆုံးစွမ်းဆောင်ရည် 624 TOPS (ရှားပါးတဲ့အခါ 1,248 TOPS) ရှိပါတယ်။ နှိုင်းယှဉ်ကြည့်မယ်ဆိုရင် Nvidia ရဲ့ H100 က FP8 ကို ထောက်ပံ့ပေးပြီး 300W (ရှားပါးတဲ့အခါ 3,341 TFLOPS) မှာ အမြင့်ဆုံးစွမ်းဆောင်ရည် 1,670 TFLOPS ရရှိပြီး Tenstorrent ရဲ့ Wormhole n300 နဲ့ သိသိသာသာ ကွာခြားပါတယ်။
သို့သော် အဓိကပြဿနာတစ်ခုရှိပါသည်။ Tenstorrent ၏ Wormhole n150 သည် ဒေါ်လာ ၉၉၉ ဖြင့် လက်လီရောင်းချပြီး n300 သည် ဒေါ်လာ ၁၃၉၉ ဖြင့် ရောင်းချပါသည်။ နှိုင်းယှဉ်ကြည့်လျှင် Nvidia H100 ဂရပ်ဖစ်ကတ်တစ်ခုသည် အရေအတွက်ပေါ် မူတည်၍ ဒေါ်လာ ၃၀၀၀၀ ဖြင့် လက်လီရောင်းချပါသည်။ ဟုတ်ပါတယ်၊ Wormhole ပရိုဆက်ဆာ လေးခု ဒါမှမဟုတ် ရှစ်ခုဟာ H300 တစ်ခုတည်းရဲ့ စွမ်းဆောင်ရည်ကို တကယ်ပေးနိုင်မလားဆိုတာ ကျွန်တော်တို့ မသိပေမယ့် သူတို့ရဲ့ TDP တွေကတော့ အသီးသီး 600W နဲ့ 1200W ဖြစ်ပါတယ်။
ကတ်များအပြင်၊ Tenstorrent သည် developer များအတွက် ကြိုတင်တည်ဆောက်ထားသော workstation များကို ပေးဆောင်ထားပြီး၊ ပိုမိုတတ်နိုင်သော Xeon-based TT-LoudBox တွင် active cooling ပါသည့် n300 ကတ် ၄ ခုနှင့် EPYC-based Xiaolong (liquid cooling function) ပါသည့် အဆင့်မြင့် TT-QuietBox အပါအဝင်ဖြစ်သည်။
ပို့စ်တင်ချိန်: ၂၀၂၄ ခုနှစ်၊ ဇူလိုင်လ ၂၉ ရက်
