熱門(mén)關鍵詞: 信息安全 雲計算(suàn) 弱電(diàn)工(gōng)程 機(jī)房建設 IT基礎架構
日期:2022-11-18 閱讀(dú)數:540
11月(yuè)16日,OFweek第七屆人工(gōng)智能(néng)産業(yè)大會(huì)暨行業(yè)年(nián)度頒獎典禮在深圳舉辦。深信服AIOps技(jì)術(shù)憑借在人工(gōng)智能(néng)領域的實力和優勢,獲得維科杯 · OFweek 2022 人工(gōng)智能(néng)行業(yè)“技(jì)術(shù)突破獎”。當天,深信服高(gāo)級研發技(jì)術(shù)專家易佳受邀出席大會(huì),發表《桌面雲場景下(xià)的AIOps技(jì)術(shù)實踐》的演講,介紹了桌面雲運維遇到(dào)的挑戰,以及如何利用AIOps簡化桌面雲運維等内容。
人工(gōng)智能(néng)産業(yè)大會(huì)現場
桌面雲運維面臨諸多(duō)挑戰
近年(nián)來,桌面雲為(wèi)數字化辦公提供了有力支撐。與此同時,桌面雲也容易面臨第三方軟件(jiàn)兼容性、藍屏、木(mù)馬、應用卡慢(màn)、響應延遲等問題,這些問題的背後暴露出來的可能(néng)是私有雲資源不足、硬件(jiàn)故障難以定位、網絡故障等深層次問題。
桌面雲運維的挑戰
為(wèi)此,深信服提出了AIOps 智能(néng)運維一(yī)體化技(jì)術(shù)方案。該方案通(tōng)過采集桌面雲的日志(zhì)、鏈路(lù)和指标數據,執行故障預測、異常檢測、關聯推理等算(suàn)法,為(wèi)用戶提供智能(néng)分析服務。
“AIOps的數據采集引擎基于Golang實現了插件(jiàn)化探針,支持采集Windows、Linux、Docker等多(duō)類指标數據,可以跨平台、多(duō)應用地進行動态采集,也支持Prometheus協議和導出,在數據采集上(shàng)實現了高(gāo)效和可擴展。”易佳補充。
曆經三次叠代,打造更優運維體驗
易佳介紹,随著(zhe)用戶訴求和用戶體量的的不斷變化,深信服AIOps數據模型與AI框架演進了三個(gè)版本。
第一(yī)個(gè)版本适用于小(xiǎo)規模用戶,是一(yī)套輕量級監控分析系統,支持時序數據、告警數據、統計分析和容器(qì)化部署,也支持主機(jī)、虛拟機(jī)數據采集做簡單AI分析,但是DB/存儲與業(yè)務耦合嚴重,算(suàn)法效果難保障,難以支撐大規模虛拟機(jī)接入。
第二個(gè)版本是輕量級AIOps引擎,支持OpenAPI和數據統一(yī)調度,引入緩存機(jī)制,實現了存算(suàn)分離。但OpenAPI、Requests Handler和Prometheus容易遇到(dào)瓶頸,導緻體驗欠佳。
從(cóng)第三個(gè)版本開(kāi)始,深信服打造了全棧的AIOps引擎。在該版本中,面對數據上(shàng)報(bào)的性能(néng)瓶頸問題,抽象數據接口,實現Requests Handler負載均衡;其次是設計了投遞分級,内存磁盤雙對列的模式,為(wèi)低(dī)優先級數據設立單獨通(tōng)路(lù),可以優先保障高(gāo)優先級數據入庫;同時,設計了多(duō)級分表,優化了數據結構,這樣可以保留橫向擴展能(néng)力。
另外,為(wèi)了平衡實時性與準确度,減少重複數據,AIOps可以按采集指标區分不同采集周期,例如設定10s采集一(yī)次CPU,20s采集一(yī)次memory;服務器(qì)型号、磁盤大小(xiǎo)等靜(jìng)态數據盡量隻采集一(yī)次。
最後,針對多(duō)維異構數據進行了冷熱分層處理,冷數據存檔供AI離線分析和模型訓練,熱數據實時監控和展示。
在AI算(suàn)法方面,易佳介紹,“桌面雲AIOps算(suàn)法包括基于bagging策略的分段線性回歸算(suàn)法、基于網格搜索的縮擴容模型、基于資源約束算(suàn)法和貪心策略的虛拟機(jī)新增模型、基于時間序列特征提取和随機(jī)森林的閑置資源識别模型等”,基于這些算(suàn)法,最終形成了包含AIOps算(suàn)法、AI調度決策、OpenAPI、數據管理、服務化等功能(néng)在内的AIOps基礎結構。
AIOps 實踐與落地效果
易佳表示,AIOps可以快速識别出卡慢(màn)故障等異常問題。通(tōng)過引入50多(duō)個(gè)規則、采集800多(duō)個(gè)維度數據,實現20多(duō)個(gè)機(jī)器(qì)學習算(suàn)法,診斷出30+核心卡慢(màn)場景。AIOps的監測分析能(néng)力已經能(néng)夠全方位地支撐大盤、集群、主機(jī)、虛拟機(jī)、網絡、存儲、應用軟件(jiàn)全棧監控與分析。
在算(suàn)法效果上(shàng),桌面雲卡慢(màn)/故障異常檢測準确率達到(dào)87%。實施卡慢(màn)緩解建議後,約有47%的問題能(néng)夠得到(dào)明顯緩解,AIOps的智能(néng)診斷能(néng)力,可以覆蓋桌面雲65%的已知資源卡慢(màn)問題。
易佳最後總結,AIOps未來會(huì)增加更多(duō)的反饋和模型的自(zì)更新機(jī)制,實現多(duō)業(yè)務場景的覆蓋。同時,基于業(yè)務畫(huà)像和運維知識圖譜,實現精細化故障診斷,打造讓用戶滿意的産品體驗。
上(shàng)一(yī)篇:2022世界互聯網大會(huì)|深信服:跨越鴻溝,安全如何跟上(shàng)數字化轉型?
下(xià)一(yī)篇:VMware ESXi 服務器(qì)的大規模勒索攻擊事(shì)件(jiàn)「防禦指南(nán)」,含風險自(zì)查與勒索防護!