【資料圖】
3月7日,受證監(jiān)會科技監(jiān)管局局長姚前建議重點(diǎn)發(fā)展基于AIGC技術(shù)的合成數(shù)據(jù)產(chǎn)業(yè)消息影響,A股ChatGPT、AIGC概念午后拉升,截至發(fā)稿,中文在線(300364)(300364.SZ)漲超8%,神思電子(300479)(300479.SZ)、山水比德(300844.SZ)、視覺中國(000681)(000681.SZ)、宣亞國際(300612)(300612.SZ)、湯姆貓(300459.SZ)、浪潮信息(000977)(000977.SZ)等股拉升上漲。
證監(jiān)會科技監(jiān)管局局長姚前在《中國金融》雜志撰文稱,建議重點(diǎn)發(fā)展基于AIGC技術(shù)的合成數(shù)據(jù)產(chǎn)業(yè)。以更高效率、更低成本、更高質(zhì)量為數(shù)據(jù)要素市場“增量擴(kuò)容”,助力打造面向人工智能未來發(fā)展的數(shù)據(jù)優(yōu)勢。在強(qiáng)化數(shù)據(jù)要素優(yōu)質(zhì)供給方面,應(yīng)統(tǒng)籌兼顧自立自強(qiáng)和對外開放??煽紤]對Wikipedia、Reddit等特定數(shù)據(jù)源建立過濾后的境內(nèi)鏡像站點(diǎn),供國內(nèi)數(shù)據(jù)處理者使用。
有研究預(yù)測,按照目前的發(fā)展速度,到2026年ChatGPT類大模型的訓(xùn)練將耗盡互聯(lián)網(wǎng)上的可用文本數(shù)據(jù),屆時(shí)將沒有新的訓(xùn)練數(shù)據(jù)可供使用。因此,算力瓶頸之外,訓(xùn)練數(shù)據(jù)將成為大模型產(chǎn)業(yè)化的最大掣肘之一。從更深層次考慮,大模型在訓(xùn)練數(shù)據(jù)方面還存在各種治理問題,比如數(shù)據(jù)采集標(biāo)注費(fèi)時(shí)費(fèi)力成本高、數(shù)據(jù)質(zhì)量較難保障、數(shù)據(jù)多樣化不足難以覆蓋長尾和邊緣案例、特定數(shù)據(jù)在獲取與使用分享等方面存在隱私保護(hù)、數(shù)據(jù)偏見等問題。由此可見,人工智能產(chǎn)業(yè)的高質(zhì)量發(fā)展離不開高質(zhì)量的訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)的安全合規(guī)使用是大模型人工智能長期健康發(fā)展的基礎(chǔ)。
關(guān)鍵詞: 重點(diǎn)發(fā)展 人工智能 對外開放