保證延遲敏感型任務服務質量的情況下利用流處理器內所有并行性以最大化系統(tǒng)吞吐
摘要: 為了應對越來越高的算力需求, GPU在流處理器內集成了多種通用計算單元及專用計算單元(FP32 Core, INT32 Core, FP64 Core, Tensor Core, RT Core).任意一種GPU內可能包含以上計算單元中的部分單元.盡管GPU的流處理器內存在著多種計算單元,它們之間的計算并行性無法從硬件設計白皮書中獲知.與此同時,現有調度接口無法支持使用不同計算... (共18頁)
開通會員,享受整站包年服務