qGPU on TKE騰訊云發布下一代GPU容器共享技術,阿里gpu云TKE騰訊云上的QGPU發布下一代GPU容器共享技術背景QGPU是騰訊云推出的GPU共享技術。支持多個容器間共享GPU卡,并提供容器間內存和計算能力隔離的能力,從而保證使用粒度更小的GPU卡的基礎上的業務安全,達到提高GPU利用率,降低客戶成本的目的......
背景
QGPU是騰訊云推出的GPU共享技術。支持多個容器間共享GPU卡,并提供容器間內存和計算能力隔離的能力,從而保證使用粒度更小的GPU卡的基礎上的業務安全,達到提高GPU利用率,降低客戶成本的目的。
TKE上的QGPU依托騰訊云TKE開源的Nano GPU調度框架[1],可以實現GPU計算能力和顯存的細粒度調度,支持多容器共享GPU和多容器跨GPU資源分配。同時,依托底層強大的qGPU隔離技術,可以將GPU的顯存和計算能力進行強隔離。在通過共享使用GPU的同時,盡可能保證業務性能和資源不受干擾。
功能優勢
qGPU方案通過更有效地調度NVIDIA GPU卡上的任務,達到在多個容器之間共享和使用的目的。支持的功能如下:
靈活性:用戶可以自由配置GPU的顯存大小和計算能力比例。
云原生:支持標準Kubernetes,兼容NVIDIA Docker解決方案。
兼容性:不修改鏡像/不替換CUDA庫/不編譯業務,易于部署,業務無感知。
高性能:底層操作GPU設備,高效收斂,吞吐量接近零損耗
強隔離:支持顯存和計算能力嚴格隔離,業務共享不受影響。
技術架構
TKE上的QGPU采用Nano GPU調度框架,通過Kubernetes擴展調度機制,同時支持GPU計算能力和內存資源調度。并且依托Nano GPU的容器定位機制,支持精細化GPU卡調度、多容器GPU卡共享分配和多容器GPU跨卡分配。
QGPU直接利用NVIDIA GPU的底層硬件特性進行調度,實現了細粒度的計算能力隔離,打破了傳統CUDA API劫持方案只能使用CUDA內核進行計算能力隔離的限制,提供了更好的QoS保障。
客戶收入
1.多任務靈活共享GPU,提高利用率
2.GPU資源被強隔離,業務共享不受影響。
3.完全面向Kubernetes,商業使用零成本
未來規劃
1.支持細粒度的資源監控:TKE上的qGPU將支持Pod和容器級GPU使用情況的收集,從而實現更細粒度的資源監控和與GPU靈活性的集成。
2.支持線下混合:TKE上的qGPU將支持線上業務和線下業務的高低優先級混合,最大化GPU利用率。
3.支持qGPU計算能力池化:基于qGPU的GPU計算能力池化可以解耦CPU、內存資源和異構計算資源。
參考數據
[1]Nano GPU調度框架:[https://github.com/nanogpu]
特別聲明:以上文章內容僅代表作者本人觀點,不代表ESG跨境電商觀點或立場。如有關于作品內容、版權或其它問題請于作品發表后的30日內與ESG跨境電商聯系。
二維碼加載中...
使用微信掃一掃登錄
使用賬號密碼登錄
平臺顧問
微信掃一掃
馬上聯系在線顧問
小程序
ESG跨境小程序
手機入駐更便捷
返回頂部