來源:人民郵電報 時間:2023-12-07 10:06:23 作者:薛新龍 陳潤愷
人工智能正在深刻改變生產生活的各個領域,尤其是ChatGPT問世以來,國際社會對人工智能技術的關注和期待空前高漲,新的技術樣態(tài)與商業(yè)模式不斷涌現。英國《經濟學人》調查顯示,僅2023年上半年,全球人工智能企業(yè)就吸引了超過400億美元的風險投資,相關產業(yè)正處于快速變革和激烈競爭階段。我國應緊跟國際人工智能產業(yè)發(fā)展趨勢,積極采取措施應對競爭與挑戰(zhàn)。
全球人工智能產業(yè)蓬勃發(fā)展
算力競爭——降本增效成為首要任務。
算力是制約人工智能發(fā)展的首要因素,模型的訓練和運行需要龐大的計算資源。根據分析機構SemiAnalysis的數據,GPT-4的訓練過程投入了約25000顆英偉達A100芯片,單次訓練成本高達6300萬美元。成本壓力導致許多公司延緩新一代模型的研發(fā),例如,OpenAI公司經過權衡,選擇將現有的GPT-4模型優(yōu)化至GPT-4.5版本,而非直接開發(fā)GPT-5模型。但這也為谷歌等財力雄厚的競爭對手創(chuàng)造了競爭空間,其計劃推出的Gemini模型有望在性能上超越OpenAI的現有產品。
因此,降低算力成本、提高計算效率已成為人工智能企業(yè)普遍面臨的問題。具體而言,一是加強芯片新架構的研發(fā),以集成芯片、光芯片和類腦芯片為代表的新一代芯片技術,具有提升良率、提高傳導效率、低能耗和自適應學習等優(yōu)點,正引領行業(yè)發(fā)展的新方向。二是優(yōu)化算力資源管理,增強調度能力。通過GPU資源池化等方式,實現資源并行使用,不僅提升算力利用率,還能有效降低硬件消耗和縮短調度時間。三是利用綠色電力或可再生能源為模型訓練和運行提供算力,從而降低碳排放,提高能源效率。
數據爭奪——拓展來源渠道豐富數據形式。
數據是決定人工智能競爭力的關鍵,優(yōu)質、豐富的數據能夠顯著提高模型的理解力和內容生成精度。在技術快速發(fā)展的驅動下,企業(yè)對數據的渴求日益強烈。谷歌和Meta等科技巨頭的最新模型已經接受了超過1萬億單詞的訓練,相當于250多個英語版維基百科的內容。研究機構Epoch AI預計,可用于訓練的高質量文本庫可能在2026年之前耗盡。
為獲取更多優(yōu)質的數據,人工智能企業(yè)在拓展數據來源形式方面展開了激烈的競爭。一是與專業(yè)機構簽約,拓展數據來源渠道,通過與新聞、攝影、科研機構合作,將視頻、音頻、圖像等形式的數據納入訓練范圍,提升數據專業(yè)度,讓模型更準確地回答與特定領域相關的問題,例如,OpenAI通過與美聯社和圖庫Shutterstock合作,利用其數據庫提升模型的訓練質量;二是開發(fā)“合成”訓練數據,利用算法生成的模擬數據,可以有效解決由于數據安全、隱私保護、采集成本等造成的數據來源不足問題,例如在訓練自動駕駛汽車的圖像識別系統(tǒng)時,可以使用合成數據模擬各種復雜的道路條件、天氣變化和交通狀態(tài),不僅提高了數據的多樣性,還大大降低了數據的采集成本;三是積極利用用戶與軟件的交互數據,企業(yè)通過在軟件中建立反饋機制了解用戶對生成內容的滿意度,這些反饋數據將被用于模型的再次訓練,形成所謂的“數據飛輪”,谷歌就通過分析用戶是否復制翻譯文本判斷生成內容的可靠性,據此改進產品。
商業(yè)創(chuàng)新——從吸引公眾用戶轉向打造專業(yè)社群。
打造專業(yè)社群正成為國際人工智能企業(yè)的發(fā)展策略。相比公眾用戶,專業(yè)用戶對產品的需求更為穩(wěn)定、具有更高的付費能力,傾向于與模型制造者建立長期合作,共同解決問題和改進模型。這種策略有助于深化企業(yè)與用戶的互動,增強產品的市場黏性和用戶忠誠度。同時,專業(yè)社群的構建也為企業(yè)提供了持續(xù)的數據流和反饋,極大促進了產品的優(yōu)化與創(chuàng)新。
具體模式上:一是從研發(fā)通用模型轉變?yōu)閷S媚P?,相較于通用模型,專用模型在算力成本和資源消耗上更具優(yōu)勢,更適應特定領域的需求。例如,微軟基于GitHub(軟件代碼存儲庫)開發(fā)的編程輔助工具,以及谷歌對BERT模型進行微調所形成的文本摘要和翻譯模型T5均屬這一類型。二是從面向公眾用戶轉變?yōu)槊嫦蚱髽I(yè)用戶,隨著市場逐漸成熟,企業(yè)開始傾向于提供商用的付費服務,而不再試圖通過免費或低價的產品吸引大量用戶。OpenAI就將其模型授權給包括摩根士丹利、Salesforce在內的企業(yè),為其打造更契合業(yè)務需求的定制化工具。
多措并舉提升產業(yè)競爭力
我國應在進一步加大核心技術的研發(fā)力度、加強算力基礎設施建設、促進算力資源有效配置和高效運用、提升數據運算能力和業(yè)務處理能力的基礎上,從數據資源、專業(yè)模型和商業(yè)模式等方面持續(xù)提升人工智能產業(yè)的國際競爭力。
豐富數據資源,保障供給質量和規(guī)模。加快培育數據要素市場,鼓勵人工智能基礎數據服務商開發(fā)數據標注和清洗服務,提升數據的應用價值,重視專業(yè)領域數據集開發(fā),鼓勵專業(yè)機構、行業(yè)組織、科研院所提供高質量、高信任度的專業(yè)數據;積極推進各類數據資源的開發(fā)利用,建立健全公共數據資源目錄和開放清單,根據數據敏感度構建有條件多層次的公共數據開放格局,細化個人信息數據處理規(guī)則,探索個人信息相對匿名化路徑,為企業(yè)提供明確清晰的合規(guī)指引,提高數據處理效率;拓展數據來源新渠道,發(fā)展合成數據訓練技術,通過模擬器模擬、算法合成、數據增強等方式,擴充模型訓練數據集,支持模型訓練的多樣化需求。
培育專業(yè)模型,提升人工智能應用能力。開發(fā)專業(yè)模型是提升產品應用效率和行業(yè)滲透力的有效途徑。相對通用模型,專業(yè)化模型的計算成本較低,可使用較少的參數和計算資源來訓練和運行,并且能夠根據具體應用場景、知識體系和行業(yè)需求進行定制,提供更多的專業(yè)化解決方案,滿足不同用戶的需求。因此,推動發(fā)展行業(yè)和垂直領域大模型對提高人工智能的行業(yè)應用能力至關重要。具體而言,一方面應加強專業(yè)化模型的開發(fā)、測試,提供反饋和評價,促進專業(yè)化模型的持續(xù)優(yōu)化和迭代;另一方面,要創(chuàng)造安全高效的研發(fā)與應用環(huán)境,推動醫(yī)療、金融等關鍵領域數據的開發(fā)利用,支持模型與具體場景深度融合,持續(xù)推動各領域的數智化轉型。
創(chuàng)新商業(yè)模式,打造可持續(xù)發(fā)展生態(tài)系統(tǒng)。商業(yè)模式創(chuàng)新將有助于促進技術成果的轉化,提升產品與服務的附加值,增強企業(yè)競爭力。應推動人工智能企業(yè)從提供單一產品或服務轉向構建多元、開放、協(xié)同的人工智能生態(tài)系統(tǒng)。培育以開源社區(qū)為代表的人工智能產業(yè)生態(tài)體系,通過為開發(fā)者提供工具和資源,吸引更多專業(yè)用戶。根據市場需求,提供多樣化訂閱服務,提高客戶滿意度和忠誠度。利用人工智能技術發(fā)揮數據賦能作用,提供營銷、管理、研發(fā)等決策支持,為客戶提供個性化、差異化、專業(yè)化的解決方案。同時鼓勵跨機構跨領域合作,與政府、學術機構、行業(yè)協(xié)會等建立良好的合作關系,共同推進人工智能領域政策、標準、法規(guī)的制定與實施。
(作者單位:對外經濟貿易大學國家對外開放研究院)
責任編輯:張薇