來源:人民郵電報(bào) 時(shí)間:2023-01-19 15:51:56 作者:中國信息通信研究院云計(jì)算與大數(shù)據(jù)研究所 秦思思 曹峰 胡慧
典型MLOps流程示意圖。
人工智能研發(fā)運(yùn)營體系(MLOps)是人工智能(AI)工程化的重要組成,核心是面向AI模型全生命周期建設(shè)標(biāo)準(zhǔn)化的生產(chǎn)運(yùn)營體系,推動(dòng)模型生產(chǎn)從分散的小作坊模式過渡到規(guī)?;行虻墓S流水線模式,幫助組織提升AI落地效率和質(zhì)量。當(dāng)前MLOps以提高生產(chǎn)效率為主要目標(biāo),已在金融、IT等行業(yè)得到較廣泛的落地,但組織在建設(shè)相關(guān)能力時(shí)仍存在內(nèi)驅(qū)力不足、工具選型難、模型治理能力缺失等阻礙和問題。未來將通過綜合提升MLOps自動(dòng)化水平和平臺(tái)化能力,構(gòu)建更加系統(tǒng)化的模型治理和可信體系,打造更加自治化的MLOps生態(tài),助力智能技術(shù)規(guī)模化應(yīng)用。
MLOps概念漸清晰
定義內(nèi)涵逐步清晰。MLOps是一套工程化方法,其連接模型構(gòu)建團(tuán)隊(duì)和業(yè)務(wù)及運(yùn)維團(tuán)隊(duì),為AI模型全生命周期建設(shè)標(biāo)準(zhǔn)化、自動(dòng)化、可持續(xù)改進(jìn)的過程管理體系,使組織可規(guī)?;?、高質(zhì)效地持續(xù)生產(chǎn)AI模型。從管理層面,MLOps是面向人工智能項(xiàng)目的一套全鏈路管理體系,在該體系中既要加快模型生產(chǎn)速度,又要確保模型的安全性和有效性;從實(shí)施層面,MLOps是AI模型規(guī)?;a(chǎn)的一組最佳實(shí)踐,包括數(shù)據(jù)工程、特征工程、模型訓(xùn)練、持續(xù)集成、持續(xù)部署、持續(xù)監(jiān)控、實(shí)驗(yàn)管理等,逐步為構(gòu)建完備的AI基礎(chǔ)設(shè)施而努力。
流程步驟逐步明確。AI模型項(xiàng)目生命周期通常包括需求設(shè)計(jì)、開發(fā)、交付和運(yùn)營幾個(gè)階段,MLOps以持續(xù)集成、持續(xù)部署、持續(xù)監(jiān)控和持續(xù)訓(xùn)練為核心,通過流水線的銜接將全生命周期構(gòu)建成全流程閉環(huán)體系。數(shù)據(jù)工程目標(biāo)是生產(chǎn)高質(zhì)量數(shù)據(jù),包括對(duì)源數(shù)據(jù)的處理、存儲(chǔ)、分析等過程,MLOps在其中解決數(shù)據(jù)來源繁雜、數(shù)據(jù)及特征難共享、數(shù)據(jù)不統(tǒng)一等問題。模型開發(fā)目標(biāo)是高效生產(chǎn)模型,包括模型訓(xùn)練、模型評(píng)估、模型選擇等過程,MLOps在其中解決實(shí)驗(yàn)復(fù)現(xiàn)難、實(shí)驗(yàn)跟蹤繁瑣、反復(fù)實(shí)驗(yàn)成本高等問題。模型交付目標(biāo)是向業(yè)務(wù)系統(tǒng)提供模型服務(wù),包括模型集成、模型測試、部署發(fā)布等過程,MLOps在其中解決交付周期長、過程追溯難、自動(dòng)化水平低等問題。模型運(yùn)營目標(biāo)是監(jiān)控和維護(hù)模型于最佳狀態(tài),包括監(jiān)控、反饋、更新等過程,MLOps在其中解決數(shù)據(jù)漂移、內(nèi)容漂移、模型效果下降等問題。
國內(nèi)外MLOps發(fā)展百花齊放
應(yīng)用落地持續(xù)加速,成效顯著。國外MLOps起步較早,應(yīng)用廣泛,包括IT、金融、電子商務(wù)、醫(yī)療、制造業(yè)等領(lǐng)域。國內(nèi)主要集中于IT、金融、電信運(yùn)營商等科技底座較為扎實(shí)的領(lǐng)域,落地場景涉及風(fēng)控、營銷、搜索、視覺識(shí)別等諸多細(xì)分場景。據(jù)咨詢公司IDC預(yù)測,到2024年將有60%的中國企業(yè)通過MLOps來管理其人工智能生命周期。根據(jù)中國信息通信研究院調(diào)研數(shù)據(jù),國內(nèi)某IT企業(yè)通過應(yīng)用MLOps使得開發(fā)周期縮短54%,測試周期縮短67%,人力成本縮減57%;某金融企業(yè)通過應(yīng)用MLOps將模型上線周期從周縮短至天,將模型部署時(shí)間從小時(shí)級(jí)縮短至秒級(jí)。
工具市場持續(xù)活躍,種類繁多。咨詢機(jī)構(gòu)Cognilytica 2020年研究顯示,MLOps市場規(guī)模將從2019年的3.5億美元快速增長到2025年的40億美元。當(dāng)前全球MLOps工具豐富多彩,已超過300個(gè),一類是MLOps端到端全流程平臺(tái),例如谷歌、微軟、亞馬遜、百度、華為、DataRobot、Algorithmia、Kubeflow、MLflow等;另一類是MLOps專項(xiàng)工具,對(duì)特定步驟提供更為集中的支持,包括數(shù)據(jù)處理、模型構(gòu)建、運(yùn)營監(jiān)控等,工具能力更細(xì)分更豐富,例如Cloudera、DVC、DAGsHub、九章云極DataCanvas、第四范式等。
我國MLOps落地穩(wěn)步推進(jìn)
近年來,我國MLOps逐步在多個(gè)行業(yè)得到布局應(yīng)用。從部署階段來看,模型開發(fā)階段的應(yīng)用較為成熟,模型交付階段的應(yīng)用多數(shù)正在進(jìn)行中,模型運(yùn)營階段的應(yīng)用多數(shù)處于規(guī)劃過程中。但是,在這個(gè)漸進(jìn)式過程中,MLOps落地仍然存在阻礙和問題。
第一,落地內(nèi)驅(qū)力不足。絕大多數(shù)組織已經(jīng)認(rèn)可落地MLOps帶來的合規(guī)統(tǒng)一、效率提升、安全可信等同業(yè)競爭優(yōu)勢,外部驅(qū)動(dòng)力逐漸增強(qiáng)。但是在內(nèi)部落地時(shí),仍面臨內(nèi)部驅(qū)動(dòng)力不足的困難,主要體現(xiàn)在以下幾個(gè)方面:一是短期內(nèi)MLOps價(jià)值不明顯、投入成本高,使得可行性分析難度增加;二是MLOps技術(shù)棧不清晰、組織自有AI能力和規(guī)模不確定、目標(biāo)成熟度模糊,使得技術(shù)方案制定困難;三是組織結(jié)構(gòu)固化,自上而下對(duì)MLOps認(rèn)識(shí)不一,使得MLOps落地職責(zé)界定不清,協(xié)作困難。
第二,工具選型難、集成難。在MLOps工具市場蓬勃發(fā)展的現(xiàn)階段,工具種類繁多、功能復(fù)雜,解決某一問題的工具往往有許多個(gè),缺乏統(tǒng)一的能力標(biāo)準(zhǔn)。另外,盡管MLOps 開源工具占多數(shù),但如何使用開源工具,如何將多個(gè)工具有效集成和打通,很大程度依賴于組織和人員的技術(shù)能力。這使得組織落地MLOps時(shí)面臨解決方案難決策、平臺(tái)難選取、工具鏈難集成等問題,導(dǎo)致難以實(shí)現(xiàn)MLOps落地的穩(wěn)步推進(jìn)。
第三,模型治理和可信道阻且長。各業(yè)務(wù)場景面臨的風(fēng)險(xiǎn)大小和模型所需更新頻次不同,不同類別模型所需的生產(chǎn)過程和風(fēng)險(xiǎn)等級(jí)亦不同。同時(shí),模型面臨的風(fēng)險(xiǎn)包括生產(chǎn)過程不可追溯、線上模型效果下降、模型存在偏見、推理結(jié)果不可解釋、無法審計(jì)等。這些問題導(dǎo)致模型治理邊界模糊、AI可信落地難,使得組織MLOps硬著陸且信心不足。
MLOps未來更趨于自治化
AI產(chǎn)業(yè)正在經(jīng)歷前所未有之大變革,通過MLOps提升AI模型生產(chǎn)效率和質(zhì)量是大勢所趨。當(dāng)前MLOps的實(shí)現(xiàn)主要集中在規(guī)范化、模塊化、自動(dòng)化、流程化等方向,未來MLOps將朝著自治化的方向發(fā)展,圍繞全流程自動(dòng)化水平的提高、工具平臺(tái)化能力的提升、AI可信治理體系的完善,加速智能技術(shù)的規(guī)?;瘧?yīng)用,提高組織智能化轉(zhuǎn)型的可持續(xù)發(fā)展能力。
MLOps流程自動(dòng)化水平進(jìn)一步提高。當(dāng)前諸多MLOps實(shí)踐過程中自動(dòng)化水平不高。未來,模型測試、部署發(fā)布、監(jiān)控運(yùn)營、模型重訓(xùn)等流水線的自動(dòng)化水平及流水線間的銜接效率將得到進(jìn)一步提升。同時(shí)MLOps將與數(shù)據(jù)平臺(tái)、管理平臺(tái)及各業(yè)務(wù)平臺(tái)等高效打通,并與各資產(chǎn)倉庫進(jìn)行有效對(duì)接,與各信息系統(tǒng)進(jìn)行靈活調(diào)度,從而實(shí)現(xiàn)可持續(xù)的人工智能項(xiàng)目全生命周期管理能力和全鏈路自動(dòng)化能力,提高組織落地MLOps的內(nèi)驅(qū)力。
MLOps平臺(tái)化能力持續(xù)提升。隨著AI模型越來越多、業(yè)務(wù)需求越來越復(fù)雜,面臨工具選型和集成難的問題,MLOps平臺(tái)化能力將成為趨勢,以幫助組織更體系化、更便捷、更靈活、更快速地使用MLOps助力產(chǎn)業(yè)升級(jí)。Gartner預(yù)測,到2026年將有80%的軟件工程組織建立平臺(tái)團(tuán)隊(duì)。未來,組織將通過端到端平臺(tái)工具,或工具鏈加解決方案的方式,以平臺(tái)化模式開展更大范圍、更大規(guī)模的落地。
可持續(xù)發(fā)展成為MLOps長期目標(biāo)。落地MLOps的短期目標(biāo)通常是提升模型迭代能力及效率,且在諸多組織中得以實(shí)現(xiàn)。而長期目標(biāo)是在效率提升的基礎(chǔ)上更多地關(guān)注模型安全與風(fēng)險(xiǎn)。通過筑牢AI風(fēng)險(xiǎn)管理防線,提高AI治理能力,構(gòu)建AI可信體系,為組織生產(chǎn)更加安全、更加可信、更加透明、更加合規(guī)、更加穩(wěn)定、更加負(fù)責(zé)任的AI,幫助重塑各業(yè)務(wù)領(lǐng)域,助力組織可持續(xù)發(fā)展,將是未來持續(xù)探索的方向。
責(zé)任編輯:藺弦弦