積極打造高性能大模型算力集群,加快構建高質量數據集!

五度易鏈 2024-07-29 3306 0

專屬客服號

微信訂閱號

大數據治理

全面提升數據價值

賦能業(yè)務提質增效

人工智能作為引領新一輪科技產業(yè)革命的戰(zhàn)略性技術和新質生產力重要驅動力，正在引發(fā)經濟、社會、文化等領域的變革和重塑。2023年以來，以ChatGPT、GPT-4為代表的大模型技術因其強大的內容生成及多輪對話能力，引發(fā)全球新一輪人工智能創(chuàng)新熱潮，隨著技術演進、產品迭代的日新月異，大模型正在成為科技產業(yè)發(fā)展強勁動能。

　　大模型對數據數量和質量提出新要求

　　人工智能大語言模型的訓練需要強大的高性能算力和海量訓練數據供應，從行業(yè)發(fā)展前沿趨勢來看，大模型訓練使用的數據集規(guī)模呈現爆發(fā)式的持續(xù)增長。據工業(yè)和信息化部賽迪研究院發(fā)布的研究報告預測，到2024年年底我國將有5%~8%的企業(yè)大模型參數從千億級躍升至萬億級，算力需求增速會達到320%。

　　公開資料顯示，2018年GPT-1數據集約4.6GB，2020年GPT-3數據集達到了753GB，而2021年Gopher數據集已達10550GB，2023年GPT-4的數據量更是GPT-3的數十倍以上。同時，大模型快速迭代對訓練數據的數據量、多樣性和更新速度方面也提出了更高的要求。

　　大語言模型是基于注意力機制的預訓練模型，足夠多的用于自監(jiān)督學習過程的基礎訓練數據是大模型區(qū)別于傳統人工智能算法模型的主要特點，海量數據可以為模型提供更多的學習樣本和更廣泛的知識覆蓋，有助于模型學習到更多的特征和關系。只有海量多源的數據支持預訓練，大模型在后續(xù)的專門任務中才會表現出更強大的性能和更具啟發(fā)性的生成能力。

　　數據的豐富性對大模型后續(xù)的泛化和涌現能力非常重要。豐富的數據可以為模型提供更多的學習場景和挑戰(zhàn)，有助于模型學習到更復雜的特征和關系，從而提高其泛化能力。大模型的目標是能夠適應各種不同的輸入，并對未見過的數據進行準確的預測。通過使用多維度的訓練數據，模型可以學習更廣泛的上下文和語言規(guī)律，提高其泛化能力，節(jié)約資源和時間，使模型更具有實用性和可靠性。數據維度多樣性的提升能夠推動大模型從單一領域向多領域知識的躍遷，而非僅僅是數量的增加，如果是簡單的同類型數據反饋，單條數據反饋和十條同類型數據反饋雖然在數據的數量上增加了10倍，但模型的智能并沒有得到拓展和增加，因此數據維度多樣性可直接提升大模型在跨領域知識的理解和應用的深度，實現了從單一領域向多領域知識遷移的質變。

　　數據的質量對模型的訓練結果至關重要。數據存在大量的噪聲、錯誤或冗余，模型可能會學習到錯誤的特征和關系，導致其性能下降。高質量的數據可以為模型提供更準確、更可靠的學習樣本，有助于模型學習到更真實的特征和關系，從而提高其性能和泛化能力。

　　數據的時效性對于大模型的即時學習和適應能力具有顯著作用。通過提高數據服務交付時效提升數據服務開發(fā)效率，實現大模型對新興趨勢和緊急事件的快速響應。

　　只有具備以上條件，大模型才能在訓練過程中學習到更多的知識和規(guī)律，從而在面對新數據時表現出更好的性能和泛化能力。

　　積極打造高性能大模型算力集群

　　在當前的數字科技領域，算力的發(fā)展已經達到了萬卡級別的龐大規(guī)模，即單體智算集群擁有上萬個GPU計算節(jié)點。這種前所未有的強大算力為深度學習等復雜計算任務提供了堅實的算力支撐。目前，我國骨干廠商正積極探索打造高性能算力集群，并通過協同優(yōu)化、工具支持等實現高效穩(wěn)定的大模型訓練，提高算力使用效率。

　　百度百舸2.0在計算、AI存儲、AI容器等模塊上增強能力、豐富功能，并發(fā)布了AI加速套件。AI加速套件通過存訓推一體化的方式，對數據的讀取和查詢、訓練、推理進行加速，進一步提升AI作業(yè)速度。為了提升集群通信效率，百度發(fā)布了彈性RDMA網卡，相比傳統專用的RDMA網絡，彈性RDMA網絡和VPC網絡進行了融合，使用戶的使用成本更低，同時通信延時降低了50%以上。此外，百度在萬卡集群的運維和穩(wěn)定性方面也進行了大量優(yōu)化工作，如通過自研的集群組網故障管理機制，降低了工程師在容錯和故障恢復上的時間成本，優(yōu)秀的運維能力和穩(wěn)定性為大模型的訓練提供了有力的保障。

　　騰訊云發(fā)布了新一代HCC高性能計算集群，用于大模型訓練、自動駕駛、科學計算等領域。基于新一代集群，騰訊團隊在同等數據集下，將萬億參數的AI大模型混元NLP訓練由50天縮短到4天。其自研星脈高性能計算網絡和高性能集合通信庫TCCL，具備業(yè)界最高的3.2T RDMA通信帶寬，在搭載同等數量的GPU情況下，為大模型訓練優(yōu)化40%負載性能，消除多個網絡原因導致的訓練中斷問題。

　　浪潮信息AI團隊在2023年相繼研發(fā)了OGAI(Open GenAl Infra)大模型智算軟件棧、源2.0大模型，從軟硬協同層面去持續(xù)提升基礎大模型的能力，同時通過開放算力發(fā)展生態(tài)去探索可能突破的場景。OGAI面向以大模型為核心技術的生成式AI開發(fā)與應用場景，提供從集群系統環(huán)境部署到算力調度保障和大模型開發(fā)管理的全棧全流程的軟件，從而降低大模型算力系統的使用門檻、優(yōu)化大模型的研發(fā)效率，保障大模型的生產與應用。

　　加快構建高質量數據集

　　首先，深入生產生活場景挖掘高質量數據集。數據是日常活動的科學記錄，人工智能之所以能夠發(fā)揮支撐和驅動數字經濟的重要作用，本質上在于忠實而有效地處理現實數據。深入生產生活場景中挖掘高質量數據集，是數據驅動時代的關鍵任務。

　　以明確的目標為先導，通過精準的數據采集策略，從源頭獲取真實、全面的原始數據。在數據清洗與預處理環(huán)節(jié)，要運用專業(yè)技術和細致的分析，去除噪聲、填補缺失值，確保數據的準確性和完整性。以制造業(yè)為例，企業(yè)可收集設備型號、維修記錄等靜態(tài)數據，以及溫度、振動等實時動態(tài)數據，經過清洗和標注后，用于訓練預測模型。數據集的劃分同樣重要，須確保訓練集、驗證集和測試集的合理分布，以充分驗證模型的性能和泛化能力。此外，數據集的文檔編寫和元數據管理也不容忽視，它們?yōu)閿祿拈L期維護和更新提供了堅實的基礎。

　　在實際操作中需要面對數據來源的多樣性、數據質量的參差不齊、數據采集和處理成本的高昂問題，需要制定周密的數據采集計劃，選擇合適的數據源，并運用先進的數據清洗和預處理技術，以確保數據的準確性和一致性。同時，還需要注重數據的時效性和動態(tài)性，及時更新和維護數據集，以適應業(yè)務的發(fā)展和變化，從海量數據中提煉出有價值的信息，為業(yè)務決策和模型訓練提供有力支持。同時，在數據集構建全流程過程中，人的因素同樣重要。需要組建專業(yè)的數據團隊，具備深厚的數據分析能力和豐富的業(yè)務知識，能夠深入理解業(yè)務需求，從海量數據中挖掘出有價值的信息。與此同時，還需要建立科學的數據管理制度和流程，確保數據的安全性和隱私性，防止數據泄露和濫用。能夠反映生產生活實際中深層次現實規(guī)律的數據是具有天然價值的，而對其進行科學的加工和處理則使其具備了工程上的利用價值，需要專門的團隊以科學的態(tài)度、專業(yè)的能力和嚴謹的精神，不斷探索和實踐。

　　其次，利用人工智能技術構建高質量數據集。目前，利用現有人工智能技術構建高質量數據集仍是一項富有挑戰(zhàn)性和發(fā)展前景的任務。通過充分發(fā)揮人工智能技術的優(yōu)勢，可以提高數據集的準確性、效率和可解釋性，為人工智能應用的發(fā)展提供堅實的數據基礎。

　　一是借助人工智技術的自動標注工具正在成為基礎數據服務商和Al算法公司降低成本和提高效率的利器。首先，通過自然語言處理和機器學習技術，可以對大量的文本、圖像、音頻等數據進行自動標注和分類，從而快速生成帶有標簽的數據集。這種方法可以大大減少人工標注的成本和時間，同時提高標注的準確性和一致性。其次，人工智能技術還可以幫助進行數據清洗和預處理。利用數據清洗算法和異常檢測模型，可以自動識別和修正數據中的錯誤、噪聲和異常值，確保數據的準確性和可靠性。同時，通過數據增強技術，可以在不增加實際數據量的情況下，擴充數據集的多樣性和泛化能力。此外，人工智能技術還可以支持數據集的動態(tài)更新和維護。通過監(jiān)控數據源的變化和引入新的數據，可以及時發(fā)現和更新數據集中的過時信息，保持數據集的時效性和準確性。另外，利用自動化測試和驗證技術，可以確保數據集的質量和性能在更新過程中得到保障。

　　二是利用現有大模型批量構建高質量數據。大語言模型憑借強大的上下文學習能力可以從示例樣本和原始素材中快速構建出高質量的指令-輸出對，形成種類多樣、內容翔實的指令微調數據集，有力地提升了指令數據的數量、質量和可控性，基于這些指令數據微調后的模型，其性能表現也得到了大幅增強。

　　作者：中國軟件評測中心楊璨莊金鑫范振銳　　來源：中國電子報、電子信息產業(yè)網

產品演示在線咨詢

本文為本網轉載，出于傳遞更多信息之目的，并不意味著贊同其觀點或證實其內容的真實性，如涉及侵權，請權利人與本站聯系，本站經核實后予以修改或刪除。

大模型算力數據

收藏|0 贊|0

您可能感興趣的文章

產業(yè)專題

點擊進入

上一篇：中國聯通發(fā)布了“AI+數智創(chuàng)新”行動計劃!

下一篇：英特爾展示硅光子集成電路新突破，助力AI基礎設施！

四虎影视大全-四虎影视成人永久在线观看-四虎影视成人永久在线播放-四虎影视成人精品-四虎影视成人-四虎影视必出精品

首頁

數據API商城

產品與解決方案

行業(yè)觀察

關于我們

首頁

積極打造高性能大模型算力集群,加快構建高質量數據集!

大數據治理

評論

您可能感興趣的文章

中國成為全球新能源汽車產業(yè)的引領者！

光伏設備退役潮將至，“新型污染源”亟待規(guī)范治理

政策、市場、需求不斷利好，創(chuàng)新藥行業(yè)發(fā)展步入快車道！

車企競逐固態(tài)電池量產應用仍在路上

美的集團、海爾智家、格力電器相繼發(fā)布2024年三季度財報!

熱門標簽

產業(yè)專題

010-68321050

產品與解決方案

行業(yè)觀察

關于我們

產品與解決方案

行業(yè)觀察

關于我們

010-68321050

申請產品定制

*姓名

*手機號

*驗證碼

*您的郵箱

*政府/園區(qū)/機構/企業(yè)名稱

您的職務

備注

產品與解決方案

行業(yè)觀察

關于我們

積極打造高性能大模型算力集群,加快構建高質量數據集!

大數據治理

評論

您可能感興趣的文章

中國成為全球新能源汽車產業(yè)的引領者！

光伏設備退役潮將至，“新型污染源”亟待規(guī)范治理

政策、市場、需求不斷利好，創(chuàng)新藥行業(yè)發(fā)展步入快車道！

車企競逐固態(tài)電池 量產應用仍在路上

美的集團、海爾智家、格力電器相繼發(fā)布2024年三季度財報!

熱門標簽

產業(yè)專題

010-68321050

010-68321050

申請產品定制

*姓名

*手機號

*驗證碼

*您的郵箱

*政府/園區(qū)/機構/企業(yè)名稱

您的職務

備注

車企競逐固態(tài)電池量產應用仍在路上