1、大模型范式下的預訓練階段數據需求和傳統的數據需求有什么區別?
大模型預訓練階段的數據需求和深度學習技術路線下的傳統訓練數據需求,兩者在形態上基本一致,都是文本、語音和圖像,但在數據規模、質量、來源等方面,預訓練數據較傳統訓練數據會存在一定差異。例如,規模上,預訓練數據的token量普遍在萬億量級,而傳統模型數量則大約在10億量級。從數據來源的角度看,由于大模型所需數據規模遠超傳統模型,因此其數據來源將更加豐富以滿足規模化、多元化數據需求。具體來說,大模型數據來源除了來自傳統的定向采集外,還將涉及版權數據、公共數據等新型海量高質量數據來源。
此外,數據處理的核心技術也存在一定差異。例如,由于大模型預訓練階段的原料數據規模更大,因此大模型預訓練數據更加注重數據清洗的工程化能力,在預訓練階段需要結合原料數據特點以及所涉及的主題、領域等,對海量數據完成高質量清洗,這對數據服務商的工程化數據處理能力以及過往服務經驗的積累都提出了更高要求。
2、怎么看大模型時代下,多模態數據的需求?
大模型向多模態發展后,將會產生更多的新型數據需求。例如文生圖的多模態大模型,通過文字輸入生成對應圖片,這就需要機器理解文字語義的同時將理解的關鍵詞與圖片的關鍵標簽進行映射,通過對齊兩種獨立模態關鍵特征的方式,實現按指令的創作,以此完成學習訓練過程。因此,當大模型向多模態能力維度拓展時,高質量多模態訓練數據集的持續學習訓練的重要性將更加凸顯,多模態的發展將推動數據服務行業進入更大的增量空間。
3、今年上半年公司收入同比下滑的原因是什么?預計什么時候止跌回升?
上半年,公司境外收入受境外部分客戶階段性裁員、業務方向調整,以及數據出境相關法規落地實施的階段性影響,同比下降,導致公司整體收入下滑。但另一方面,公司境內收入,受智能駕駛業務增長驅動,已在二季度呈現同比增長態勢。公司認為收入的下降主要受短期因素影響。未來,預計隨著境外客戶人員調整進入尾聲,以及出境安全評估逐漸轉向常態化,境外收入水平將逐步恢復;同時公司也將持續發力智能駕駛、大模型等新興戰略型業務,并積極探索數據要素市場,力爭通過多主線合力,實現未來業績的穩步回升。