案例名稱
新一代智能運維系統(tǒng)
案例簡介
(相關(guān)資料圖)
新一代智能運維系統(tǒng)旨在解決傳統(tǒng)運維系統(tǒng)人工干預(yù)多、監(jiān)控手段單一、無法適應(yīng)技術(shù)快速迭代等問題,打造一個自動化、智能化、可持續(xù)升級的全能型運維平臺。基于云原生的微服務(wù)架構(gòu),該平臺實現(xiàn)了十余個高內(nèi)聚、低耦合的能力中心,涵蓋了日常運維工作的各個方面;同時通過應(yīng)用質(zhì)量撥測、智能巡檢、全方位數(shù)據(jù)采集、自適應(yīng)機器學(xué)習(xí)算法等創(chuàng)新技術(shù),顯著地提高了運維人員的工作效率,保障了系統(tǒng)和應(yīng)用的安全穩(wěn)定運行。
創(chuàng)新技術(shù)/模式應(yīng)用
新一代智能運維系統(tǒng)在創(chuàng)新技術(shù)/模式應(yīng)用上主要有五個方面。
(一)面向云原生,基于微服務(wù)架構(gòu)
本系統(tǒng)在底層依托開源的Spring Cloud框架,對搭建在其上的應(yīng)用按照業(yè)務(wù)范圍劃分為十余個能力中心。每個能力中心即是一個微服務(wù),互相之間通過Restful API進行調(diào)用,方便了后續(xù)功能的擴展和架構(gòu)的持續(xù)升級。另外,劃分的每個微服務(wù)都能以容器方式進行部署,并利用Kubernetes進行容器編排,實現(xiàn)微服務(wù)的動態(tài)擴容和自動運維。整體系統(tǒng)架構(gòu)圖如圖1所示。
圖1 系統(tǒng)架構(gòu)圖
(二)敏捷開發(fā),擁抱DevOps
在本系統(tǒng)的開發(fā)、測試、部署過程中,團隊使用了基于DevOps的軟件開發(fā)管理模式。DevOps是在敏捷開發(fā)模式的基礎(chǔ)上,將運維并入進來,是軟件開發(fā)、運維和質(zhì)量保證三個部門之間的一體化溝通機制。基于持續(xù)集成的軟件交付方式,編譯、打包、發(fā)布、測試等行為能夠更高效,更穩(wěn)定。整體研發(fā)流程如圖2所示。
圖2 DevOps流程圖
(三)主動出擊,應(yīng)用質(zhì)量撥測
重慶農(nóng)商行在智能運維系統(tǒng)建設(shè)過程中敏銳地發(fā)現(xiàn)運維系統(tǒng)的智能化不僅體現(xiàn)在對系統(tǒng)、應(yīng)用的被動監(jiān)控上,還應(yīng)主動出擊,對應(yīng)用進行質(zhì)量撥測。系統(tǒng)通過應(yīng)用主動撥測技術(shù)來模擬各業(yè)務(wù)環(huán)節(jié)的訪問流程,化被動處置為主動感知,實時洞察客戶端存在的各類風(fēng)險,并進行有效干預(yù)。現(xiàn)階段,系統(tǒng)主要對應(yīng)用及數(shù)據(jù)庫的健康狀態(tài)進行撥測,包括基于HTTP協(xié)議的RestFul請求,以及基于TCP的心跳指令。應(yīng)用撥測架構(gòu)如圖3所示。
圖3 質(zhì)量撥測架構(gòu)圖
(四)智能巡檢,業(yè)務(wù)安全防護
盡早發(fā)現(xiàn)故障、處置風(fēng)險是智能運維系統(tǒng)建設(shè)的目的之一。該行通過融合多維度業(yè)務(wù)安全指標(biāo)實現(xiàn)對應(yīng)用的智能防護,主要包含三個方面:一是交易鏈路時序分析;二是用戶異常交易檢測;三是敏感交易監(jiān)控。所有的業(yè)務(wù)安全指標(biāo)既可自定義固定閾值,也可以基于智能運維系統(tǒng)生成的動態(tài)基線,實現(xiàn)智能化業(yè)務(wù)安全告警。
(五)應(yīng)用預(yù)警,自適應(yīng)式機器學(xué)習(xí)
該系統(tǒng)梳理各應(yīng)用系統(tǒng)指標(biāo)模型,形成標(biāo)準(zhǔn)化的指標(biāo)拓?fù)鋱D和指標(biāo)模板。通過引入自適應(yīng)式的機器學(xué)習(xí)算法,根據(jù)歷史運行數(shù)據(jù)建立融合多種異常檢測模型,對指標(biāo)曲線實現(xiàn)高準(zhǔn)確率的異常檢測,系統(tǒng)生成各指標(biāo)動態(tài)閾值基線,實現(xiàn)智能預(yù)警。目前可供融合的算法包括:Ripple、Dtmos、Spider等。同時,系統(tǒng)根據(jù)波動分析、根因量化,能夠智能地提供處理建議,有效地提高了問題處理效率。
項目效果評估
(一)打通各個系統(tǒng)運維信息孤島
該系統(tǒng)的建成解決了傳統(tǒng)運維場景分散建設(shè),各種煙囪式的系統(tǒng)之間存在數(shù)據(jù)重復(fù)、數(shù)據(jù)割裂、數(shù)據(jù)不準(zhǔn)等問題,實現(xiàn)有效整合,達到數(shù)據(jù)集中存儲,統(tǒng)一分析,集中展示,高效處置的目標(biāo)。同時,各業(yè)務(wù)系統(tǒng)運維數(shù)據(jù)的統(tǒng)一歸集,也形成了海量的數(shù)據(jù)。在此基礎(chǔ)上,系統(tǒng)利用大數(shù)據(jù)、人工智能技術(shù),能夠快速挖掘系統(tǒng)之間交易的關(guān)聯(lián)性,并由此構(gòu)建場景特定的智能算法學(xué)件,實現(xiàn)智能運維功能,有效地打通各系統(tǒng)信息孤島,形成全行統(tǒng)一的智能數(shù)據(jù)湖。
(二)實現(xiàn)自動化作業(yè)代理的統(tǒng)一
系統(tǒng)采用統(tǒng)一的自動化作業(yè)代理agent,代替了以往為網(wǎng)絡(luò)、系統(tǒng)運維需求而開發(fā)的單一功能代理,實現(xiàn)了日志采集、指標(biāo)巡檢、應(yīng)用發(fā)布、運維工具箱等各業(yè)務(wù)模塊所需的底層能力,減少了因部署多個agent而導(dǎo)致的服務(wù)器性能損耗。目前行內(nèi)已經(jīng)部署2159臺agent,涵蓋150個應(yīng)用系統(tǒng),制定了107條定制化日志采集規(guī)則,平均每日處理日志量為5.5TB。
(三)重要信息系統(tǒng)應(yīng)用發(fā)布自動化
自動化應(yīng)用發(fā)布依據(jù)傳統(tǒng)流水線操作流程,結(jié)合定制化的作業(yè)腳本進行優(yōu)化,實現(xiàn)應(yīng)用版本發(fā)布自動化。目前已接入50余套業(yè)務(wù)系統(tǒng),實現(xiàn)了三百余次上線。固定的上線流程6個,可實現(xiàn)應(yīng)用服務(wù)器的分批備份上線。應(yīng)用發(fā)布時間由之前的90分鐘左右縮短至30分鐘之內(nèi),除去人工檢查上線結(jié)果所花費的時間外,自動化發(fā)布時間可縮短至15分鐘左右,發(fā)布效率提升了至少3倍,運行至今所有變更流程全部執(zhí)行成功,0失敗。
(四)智能預(yù)警實踐銀行AIOPS
應(yīng)用智能預(yù)警服務(wù)通過融合多種機器學(xué)習(xí)算法生成動態(tài)基線,目前支持單指標(biāo)異常檢測類算法6個,單指標(biāo)預(yù)測類算法4個,多指標(biāo)分析類算法2個,已監(jiān)控1963個指標(biāo),涉及55個系統(tǒng)。異常檢測準(zhǔn)確率96%,5分鐘內(nèi)可完成根因定位,速度提升70%。平臺上線以來,準(zhǔn)確預(yù)警因第三方機構(gòu)重啟服務(wù)器導(dǎo)致行內(nèi)支付交易失敗的問題,使我行開發(fā)人員迅速定位處理問題,并與第三方機構(gòu)取得聯(lián)系,盡快恢復(fù)服務(wù),避免了用戶的投訴,提升了系統(tǒng)的穩(wěn)定性。
項目牽頭人
常學(xué)亮 科技信息部副總經(jīng)理
項目團隊成員
譚勇、李倩、廖偉、茍瑞、周濤、呂斌、范攀峰、田若坪、代斯科、吳昱君、邱昌良、張穎、馬藝、趙偲為、姚寅、蔡宇
關(guān)鍵詞: