運維未來的(de)發展方向是智能運維

近年(nián)來運維技術飛(fēi)速發展,運維團隊大多建設好了各種系統,虛拟化、容器化、持續集成等等。但是如(rú)何有(yǒu)效的(de)利用這些系統最終實現站點的(de)高(gāo)可(kě)用、高(gāo)性能、高(gāo)可(kě)擴展?随着智能化技術的(de)發展,為(wèi)了解決上述運維領域的(de)問題,智能運維的(de)呼聲越來越高(gāo)。

在日志易産品總監饒琛琳看來,目前國(guó)內(nèi)智能運維發展還處于一(yī)個探索階段,要想盡快在智能運維領域有(yǒu)所突破,首先要主抓好監控系統和(hé)告警系統,并利用機(jī)器學(xué)習算法進行(xíng)快速監控和(hé)排障。饒琛琳,日志易産品總監,曾任新浪微博系統架構師、大數據運維技術專家,從事運維 11 年(nián),精通大規模互聯網性能優化,機(jī)器數據處理(lǐ)分析,監控和(hé)管理(lǐ)平台的(de)部署開發。

這裏,就将饒琛琳對智能運維的(de)發展一(yī)些早期觀點和(hé)看法整理(lǐ)出來,和(hé)大家一(yī)起探讨下運維未來的(de)發展方向。

1對當下國(guó)內(nèi)運維領域現狀的(de)看法

簡單來講,目前國(guó)內(nèi)運維界在自(zì)動化方面已經達到了一(yī)定的(de)水平,就現階段而言,自(zì)動化和(hé)監控兩部分還是有(yǒu)一(yī)定距離(lí)。例如(rú),你拿到了監控類的(de)報警,可(kě)能不清楚立馬去(qù)做(zuò)哪一(yī)項自(zì)動化的(de)部署。如(rú)果能把自(zì)動化和(hé)監控這兩部分有(yǒu)機(jī)的(de)結合起來,運維的(de)工作會運轉的(de)更加順利。

2移動端和(hé)微服務給運維工作帶來的(de)挑戰

在 PC 端的(de)時代,運維的(de)很多工作受限于浏覽器,運維人員拿不到用戶端真實的(de)數據。這種狀況下,大家就會普遍采購一(yī)些第三方服務,嘗試獲取終端數據。而在移動端時期,我們都有(yǒu)自(zì)己的(de) IP,可(kě)以把一(yī)些采點的(de)邏輯放在自(zì)己的(de) IP 裏,然後獲取到更準确、更真實的(de)客戶數據。相對于挑戰來說,這其實是移動端帶來的(de)好處。

微服務的(de)出現給運維工作帶來一(yī)些難題。沒有(yǒu)出現微服務之前,運維人員在一(yī)台或者兩三台機(jī)器中就可(kě)以完成問題排查。出現微服務之後,這些問題可(kě)能拆到了好幾十個分布式的(de)地(dì)方,各自(zì)的(de)輸出,甚至啓停會很方便,你有(yǒu)可(kě)能遇到在找問題的(de)時候混淆的(de)情況。而解決這些麻煩就是需要智能運維。

3在大數據時代,智能運維與數據之間、自(zì)動化運維之間有(yǒu)何關系

智能運維的(de)理(lǐ)想狀态就是把運維工作的(de)三大部分:監控、管理(lǐ)和(hé)故障定位,利用一(yī)些機(jī)器學(xué)習算法的(de)方法把它們有(yǒu)機(jī)結合起來。

在大數據時代,智能運維是基于大數據之上。目前看來,運維想要把監控、管理(lǐ)和(hé)故障定位這三部分有(yǒu)機(jī)結合起來,就不可(kě)避免的(de)需要用到智能算法,而體現智能算法價值的(de)一(yī)點就是:智能算法需要大量的(de)數據去(qù)做(zuò)支撐。

自(zì)動化運維這幾年(nián)處在一(yī)個良性發展的(de)狀态,包括像 Puppet 這種配置管理(lǐ)的(de)自(zì)動化,像 Docker 這種部署的(de)自(zì)動化。進一(yī)步的(de)發展就是需要把這三部分融合起來。目前能夠把這三部分融合起來的(de)辦法就是利用人工智能的(de)手段,最後達到一(yī)種智能運維的(de)狀态。

4智能運維當下的(de)狀況及智能運維發展的(de)預測

智能運維當下還是一(yī)個初步探索的(de)階段。可(kě)以舉幾個時間數字,我所看到一(yī)個和(hé)智能運維相關的(de)開源項目是在 2013 年(nián),而我看到的(de)第一(yī)個主動出來宣講和(hé)智能運維相關的(de)應該是在 2015 年(nián)百度在一(yī)個大會上的(de)宣講。然後大量的(de)出現在宣講上有(yǒu)關智能運維的(de)應該是在 16 年(nián)下半年(nián)。而這些宣講和(hé)我的(de)一(yī)些宣講都還是說我們現在有(yǒu)這樣的(de)思路,做(zuò)了一(yī)些嘗試。而這些嘗試的(de)效果還是需要大家去(qù)碰撞,看是否還有(yǒu)什麽更好的(de)辦法,因為(wèi)我們現在是用普通的(de)機(jī)器學(xué)習算法,還沒有(yǒu)用到像 AlphaGo 的(de)深度神經網絡這部分內(nèi)容。轉變為(wèi)智能運維是一(yī)個需要大量投入和(hé)學(xué)習的(de)過程。

想盡快在智能運維領域有(yǒu)所突破,更實際一(yī)點的(de)辦法就是主抓好監控系統和(hé)告警系統。傳統的(de) IT 運維需要管理(lǐ)大量的(de)告警,極大地(dì)分散了企業的(de)注意力,消耗運維人員大量的(de)時間和(hé)創新力。想辦法能把一(yī)天收好幾千封告警這種狀況,高(gāo)效地(dì)解決,把運維人員從紛繁複雜的(de)告警和(hé)噪音中解脫出來。這是一(yī)個在衆多辦法中産生價值的(de)第一(yī)步。

現在比較明确的(de)是大家會朝着智能運維方向發展,并且智能運維的(de)發展一(yī)定是一(yī)個長(cháng)期演進的(de)過程。

對于智能運維的(de)發展預測,我的(de)簡單看法如(rú)下:

第一(yī)步就是前面所說的(de),智能運維在告警系統上的(de)價值,;

第二步就是智能地(dì)去(qù)判斷告警,而不是現在靠人力的(de)經驗去(qù)設定一(yī)個阈值。設定告警阈值是一(yī)項耗時耗力的(de)工作,需要運維人員在充分了解業務的(de)前提下才能進行(xíng),還得考慮業務是不是平穩發展狀态,否則一(yī)兩周改動一(yī)次,運維工程師絕對是要發瘋的(de)。

第三步是利用一(yī)些 NLP(自(zì)然語言處理(lǐ)),把故障報告、文本化的(de)語言提煉出來去(qù)自(zì)動反饋到這個系統裏。這一(yī)點可(kě)能是更遙遠的(de)一(yī)個設想,但是目前來看會是将來發展的(de)一(yī)條道(dào)路。

在智能化時代,大家開始思考:如(rú)何将智能化和(hé)運維工作結合起來,成為(wèi)智能運維?如(rú)何利用機(jī)器學(xué)習來進行(xíng)快速監控和(hé)排障?