
Sirius關(guān)注機器學(xué)習(xí)研發(fā)團隊在業(yè)務(wù)層之外的所有需求,希望以最簡單的方式,合理分配GPU集群資源給工程師團隊,優(yōu)化資源使用效率。同時,Sirius還簡化并整合了數(shù)據(jù)管理、實驗管理和應(yīng)用發(fā)布等機器學(xué)習(xí)流程到一個平臺,便于統(tǒng)一管理。
預(yù)約演示 →
作為 NVIDIA Inception Program 的一員,速石科技致力于彌合研發(fā)團隊與AI基礎(chǔ)設(shè)施間的差距,簡化AI模型的研發(fā)流程,借助自身優(yōu)勢減少研發(fā)過程中技術(shù)和流程的重復(fù),大幅優(yōu)化企業(yè)的研發(fā)效率和體驗。
速石科技為企業(yè)提供端到端的一站式機器學(xué)習(xí)研發(fā)平臺——Sirius,并為AI/ML提供全生命周期的產(chǎn)研支持,實現(xiàn)AI/ML模型的部署和落地,從而幫助企業(yè)更快地將ML/LLM模型推向生產(chǎn)環(huán)境,提升整體產(chǎn)研效率,助力企業(yè)實現(xiàn)自身商業(yè)價值。

機器學(xué)習(xí)的體系復(fù)雜而龐大,諸如數(shù)據(jù)處理、生產(chǎn)環(huán)境部署、算力資源管理、多個開發(fā)環(huán)境的管理等,會降低企業(yè)的研發(fā)效率和研發(fā)人員的工作體驗。
MLOps就是將機器學(xué)習(xí)(ML)、開發(fā)(Dev)和運維(Ops)串連為一個整體,向人工智能領(lǐng)域提供了系統(tǒng)性的生產(chǎn)過程管理方案,從而針對性地解決前述AI領(lǐng)域問題。


GPU集群的自動配置,自動部署
存儲統(tǒng)一配置
資源監(jiān)控、告警以及運營分析

面向機器學(xué)習(xí)負載的集群調(diào)度器
豐富的企業(yè)級調(diào)度策略配置
結(jié)合并行化計算的調(diào)度框架,提升訓(xùn)練效率

數(shù)據(jù)權(quán)限分級
數(shù)據(jù)可視化
版本管理
數(shù)據(jù)清洗及標注
面向LLM的訓(xùn)練數(shù)據(jù)格式化

面向不同類型推理服務(wù)的網(wǎng)關(guān)
服務(wù)規(guī)模自動伸縮
Web端可視化向?qū)渲?/p>
可觀測性指標

Sirius內(nèi)置眾多機器學(xué)習(xí)常用鏡像,讓算法工程師能夠通過直觀的網(wǎng)頁界面快速拉起開發(fā)環(huán)境,并以他們熟悉的方式(如Jupyter/SSH)接入。為了進一步提高開發(fā)效率,我們允許用戶將定制化的開發(fā)環(huán)境保存為私有鏡像,從而消除重復(fù)配置環(huán)境的需要,確保工程師能夠?qū)⒕性诤诵臉I(yè)務(wù)開發(fā)上。
查看AI云平臺
Sirius作為全方位的機器學(xué)習(xí)平臺,支持用戶根據(jù)需要自定義數(shù)據(jù)集和模型,并提供了數(shù)據(jù)集與模型的版本管理功能。平臺的實驗管理模塊能夠自動記錄提交的計算任務(wù),確保所有實驗活動可復(fù)現(xiàn)、可追蹤。此外,當團隊需要將模型部署為服務(wù)時,我們的應(yīng)用發(fā)布功能可以大幅簡化部署流程,幫助團隊快速推進應(yīng)用的上線過程。

資源分配是Sirius的核心能力,平臺支持將單張GPU卡拆分給多個用戶使用,允許對用戶及團隊可用的GPU、CPU及內(nèi)存資源進行上限配置。通過靈活的調(diào)度策略,Sirius能夠精準、合理地調(diào)配GPU資源,最大化GPU集群的使用效率。

Sirius將機器學(xué)習(xí)的研發(fā)流程統(tǒng)一集成在平臺內(nèi)部,使工程師能夠直觀地實時監(jiān)控機器學(xué)習(xí)任務(wù)的執(zhí)行狀態(tài)和資源消耗,并根據(jù)關(guān)鍵監(jiān)控指標設(shè)定預(yù)警。同時,管理員可以全面管理和監(jiān)控所有任務(wù)及計算節(jié)點的運行情況。

應(yīng)用
Pytorch、TensorFlow、MXNet
場景
機器人控制
客戶挑戰(zhàn)
本地資源有限,需要給研究員合理分配GPU資源;
使用工作站無法滿足一些規(guī)模較大的模型訓(xùn)練的算力需求;
實驗室沒有專人負責(zé)基礎(chǔ)架構(gòu),需要進行管理并提供基本的運維監(jiān)控;
研究員希望保持GPU資源的接入方式不變。

應(yīng)用
Pytorch、TensorFlow、MXNet
場景
嵌入式環(huán)境模型開發(fā)
客戶挑戰(zhàn)
不同團隊共享GPU,資源分配手動完成,效率很低且管理復(fù)雜;
開發(fā)環(huán)境管理混亂,且因網(wǎng)絡(luò)限制,安裝流程繁瑣,影響開發(fā)團隊效率;
所有GPU的使用情況沒有監(jiān)控,無法得知資源使用效率;
實驗管理、超參數(shù)調(diào)優(yōu)、分布式訓(xùn)練等需求無法滿足。

應(yīng)用
基于Yolo v5的圖形檢測應(yīng)用
場景
實時推理
客戶挑戰(zhàn)
GPU資源有限且資源利用率不高,難以支撐快速增長的業(yè)務(wù)需求;
缺乏IT人員,難以針對所有GPU資源、任務(wù)進行監(jiān)控和告警;
現(xiàn)有推理平臺較為陳舊,無法根據(jù)模型規(guī)模自動分配資源,導(dǎo)致大量珍貴的GPU資源浪費。

應(yīng)用
基于Pytorch、TensorFlow、MXNet、Transformer框架的機器學(xué)習(xí)訓(xùn)練項目
場景
大語言模型
客戶挑戰(zhàn)
ML基礎(chǔ)架構(gòu)組件繁多,構(gòu)建過程復(fù)雜易出錯,標準化需要高度專業(yè)的人力投入;
并行化計算依賴基礎(chǔ)架構(gòu)層的軟硬件框架,傳統(tǒng)模式下資源管理和計算并行需要大量手工調(diào)試工作;
模型開發(fā)依賴的高質(zhì)量數(shù)據(jù),需要大量的人工清洗、標注和格式轉(zhuǎn)換工作。

應(yīng)用
Pytorch、TensorFlow、MXNet
場景
機器人控制
客戶挑戰(zhàn)
本地資源有限,需要給研究員合理分配GPU資源;
使用工作站無法滿足一些規(guī)模較大的模型訓(xùn)練的算力需求;
實驗室沒有專人負責(zé)基礎(chǔ)架構(gòu),需要進行管理并提供基本的運維監(jiān)控;
研究員希望保持GPU資源的接入方式不變。

應(yīng)用
Pytorch、TensorFlow、MXNet
場景
嵌入式環(huán)境模型開發(fā)
客戶挑戰(zhàn)
不同團隊共享GPU,資源分配手動完成,效率很低且管理復(fù)雜;
開發(fā)環(huán)境管理混亂,且因網(wǎng)絡(luò)限制,安裝流程繁瑣,影響開發(fā)團隊效率;
所有GPU的使用情況沒有監(jiān)控,無法得知資源使用效率;
實驗管理、超參數(shù)調(diào)優(yōu)、分布式訓(xùn)練等需求無法滿足。


速石科技行業(yè)知識庫聊天應(yīng)用Megrez,面向企業(yè)客戶提供大語言模型的私有化部署能力,解決了許多企業(yè)用戶關(guān)注的數(shù)據(jù)安全問題,允許用戶自定義行業(yè)知識庫,實現(xiàn)領(lǐng)域知識的問答。
速石科技支持用戶在平臺上自定義這款應(yīng)用的部署,實現(xiàn)從基礎(chǔ)架構(gòu)到最終應(yīng)用的端到端掌控。
技術(shù)咨詢 →

















.png)
在線咨詢

.png)
公眾號

掃碼關(guān)注我們

.png)
微信咨詢
添加小F@速石科技

說出你的應(yīng)用
我們就有故事

.png)
免費試用
上海 深圳北京
聯(lián)系我們:+86-21-31263638 上海速石信息科技有限公司 ?2025 fastone 滬ICP備18017266號-1

