一、公司概況
今天我們先用一段時間跟大家介紹下公司相關情況,去年12月份,“數據二十條”推出以后,整個行業對于數據要素市場發展的確定性有了更強的信心,并且搭建了數據“三權分置”的產權運行機制,即數據資源持有權、數據加工使用權、數據產品經營權。數據確權這塊非常重要,它不同于傳統的所有權,我們也在持續研究、持續跟蹤、持續探索。早在2019年的天津“網安周”上,公司就提出了嚴把數據采集入口、劃清數據流轉邊界、守正數據運用場景三個主張,現在也成為行業比較認可的三個原則,并在數據安全合規上面做了很多探索。今年3月,全國兩會決定組建國家數據局,7月份,國務院任命國家數據局首任局長,這對整個行業有著非常積極的推動。
我們的業務主要涉及到兩大塊,一塊是面向政府的公共服務,會受到公共預算的影響,第二塊是商業服務,與宏觀經濟有密切的關系。以前我們跟大家分享過公司戰略、戰術,從戰略來看,我們分成三步走,即自數-治數-置數,第一階段是用自己的數據實現數據積累、數據治理到數據應用的閉環;第二階段,我們除了自己的數據外,也結合客戶的數據,把兩部分數據價值融合在一起后賦能客戶,形成一個X戰略,即下方是我們的D(數據)和客戶的D’(數據),中間是M層(數據治理層),上面是我們在大數據行業的專業能力P和客戶在垂直領域的專業技術P’;第三階段就是走向數據的加工貿易,在推動數安港建設以后,我們可以把多源異構的數據在數安港的大數據聯合計算中心的框架下,實現數據價值的交叉融合,可以把甲方、乙方的數據一起賦能于丙方,實現了真正的數據價值的流轉。公司的戰略在很多年前就提出來了,大家看我們定期報告的話會發現我們都在穩扎穩打地推進。
從戰術來看,我們就是沿著D-M-P(Data-Machine-People)的三層業務結構,今年半年報公司總體業績差強人意,營業收入2.12億元,歸母凈利潤大概800萬。沿著D-M-P三層結構來看:
D層:數據積累方面,我們持續突破,SDK累計安裝量突破1,000億,這是個非常值得慶祝的事情,其中IoT設備SDK累計安裝量超3億,特別值得一提的是我們用戶運營平臺日活已突破9,000萬,積累的數據資源更為豐富、也更有深度。同時,這也推進了我們“讓數好用,把數用好”的理念,開發者作為我們最早的服務對象,以前只提供便利的推送服務,現在能夠深入到APP的用戶運營。
M層:數據治理方面,我們打造了DiOS數據智能操作系統,讓客戶能夠更好的對多元異構數據進行處理。上半年,我們進一步推動DiOS的輕量化改造,讓客戶能夠用幾臺比較簡單的服務器就能部署,既要省錢又要好用,這樣就可以覆蓋更多的客戶,讓小規模的客戶也能夠非常低成本的用起來。今年以來大家對向量化技術的關注非常高,很多人通過定期報告發現我們很早就使用了向量化技術,向量化技術其實最早源自于國外的一篇論文,現在在大模型里面的描述叫Embedding,嵌入之后可以把不同結構的數據對齊到向量空間內看距離。我們在2014年的時候就設立了首席數據官,這也是我們真正成為大數據公司的開始。2015年,公司就開始使用向量化技術,把APP列表數據或者行為數據等進行向量化后進行使用,滿足業務智能化需求,所以現在大家看到向量化這個詞非常熱門,其實我們已經用了8年。
P層:數據應用方面,我們還是兩部分業務,商業服務和公共服務。
商業服務中,主要是今年互聯網客戶拉新促活的預算下降很多,增長服務這一塊就受到了大幅影響;與此同時,大家會更加關注對存量用戶的高效運營,進而降本增效,所以增能服務已經實現同步穩步增長。另外一塊是品牌服務,我們深耕了10年,尤其是前幾年也受到了階段性的影響,但是行業在不斷迭代,有望迎來更好的春天,我們后面也會提到和明略集團的合作,已經覆蓋了世界知名的美妝、餐飲、零食等品牌,大家都在進行或者深入探討合作,這部分業務值得期待。所以從傳導來看,消費起來以后,品牌主才會舍得投入廣告,進而影響互聯網公司的投放預算。
公共服務中,整體繼續保持穩健增長,覆蓋了2,800多個區縣客戶,大家會關注到我們的客戶數有所降低,這主要是因為我們把部分直客轉為代理客戶,就相當于把原來的一些客戶打包在一起了。我們選擇非常可靠的合作方作為我們的代理,能夠在本地更好的服務好我們的客戶,同時也利用他們在當地的業務資源,能夠更好滲透其他的場景。公共服務方面我們雖然還是會受制于整個預算,但在二季度還是實現了強勢復蘇。
在公司發展過程中,我們已經創業大概19年,穿越了4個時代。在以諾基亞為代表的無線時代,我們當時做的是數據的備份;到了移動互聯網時代,我們開發了個信互動APP,后來我們把中間的技術拿了出來做了個推,從開發者“送水工”模式開始做起,在2014年的時候探索大數據,并設立了首席數據官,負責數據的合規資產管理和數據平臺的建設和數據應用開發,也是國內最早設立首席數據官的企業之一。2015年我們開始使用向量化等的前沿技術。最近幾年,行業逐步進入大模型時代,向量化、數據編織等前沿技術在垂直領域得到應用,所以今年我們也在三個垂直領域里面深度使用了大模型,或者叫大模型思維等。
最后,我們想大家分享一些前瞻性的布局,去年我們就創造性的提出了大數據聯合計算這種模式,在你的數據不能給我,我的數據不能給你的情況下,共同創造一個公信力背書的機構,可以把數據放在上面。由此在溫州市委市政府的極力推動以及省里的支持下,去年5月份成立了中國(溫州)數安港。一年多過去,像中國電子、聯仁健康這些央企,以及每日互動、安恒我們這樣的民企等合計78家企業已經入駐,浙江省大數據聯合計算中心也在營
銷、金融等領域被廣泛接受,場景評審工作也非常繁忙,因此未來甚至有可能會發展出第三方社會化的數據產品評審服務機構。就像法律法規出來以后,促進了律師行業發展;證券市場出現后,會計師事務所等機構也迅速崛起;《網絡安全法》出臺后,網絡安全行業也快速發展;相信《數據安全法》出來后,對于中國(溫州)數安港這樣的機構,會有更多的發展機遇。
另外一個是大家都很關心的大模型,我們認為大模型的基礎要素由算法、算力和算料(數據)構成。算法和算力已經快速崛起。目前,高質量的垂直領域數據是大模型發展的稀缺要素,這在我們的幾個模型里面已經有非常深刻的體會,我們推行的是可控大模型在垂直領域的應用,這是我們公司未來幾年在大模型里面探索我們自己的定位,現在主要在以下幾個領域進行應用。
第一個是數智交通領域,公司聯合生態伙伴引入大模型理念與方法,幫助杭州把400多公里的道路配成了綠波帶,在杭州開車,很多時候都是遇到好幾個綠燈之后才會碰到一個紅燈,所以大家的通勤舒適度非常好,提升了整體行駛速度。
第二個是精準營銷領域,以前很多的客戶要給我們Y值,從訓練到建模,成本非常高,現在在我們個燈的平臺,幾分鐘就可以得出非常細致的詞云結果。同時,我們發現在《個人信息保護法》《數據安全法》后,部分品牌客戶在哪怕在聯合計算的框架下,剛開始也有建立信任的壁壘,那如何實現在無數據的情況下就能幫它建好模,我們利用大模型和數據編織能力,非常方便的形成每日互動特征詞云下的詞云表,幫他獲得人群包進行精準的投放,并實現閉環的監測。
第三個在公共安全領域,公司依托大語言模型技術和深度學習模型訓練生成本地知識庫,實現智能線索擴線指引、結果智能解析、研判報告自動生成等,省去了非常多的人力物力。
我們的大數據模型在數智交通、數字營銷、公共安全三個領域,都已經充分的落地。今天我就前面介紹下公司概況和行業的情況,以及我們的發展思路,大家有問題我們可以隨時的互動交流。
二、溝通交流
1、近日財政部發印發了《企業數據資源相關會計處理暫行規定》,公司積累了大量數據,請問這個文件對公司有什么具體影響?
答:關于數據資產入表之前也有征求意見稿,相關的進度都在推動。其實我們自己在積累和治理數據的過程當中,已經很早感知到數據是我們的生產資料。比如我們在開發者服務業務上除了賺一部分收入之外,也做了很多的投入,就相當于采購成本,我們給業務部門的指標也包括創造了多少數據資產,所以在公司內部自然而然就把數據按照資產來對待。但是會受制于當時的框架,這次財政部印發《企業數據資源相關會計處理暫行規定》,我們覺得對行業是非常有意義的。
首先,數據資產入表,可以使數據資源作為企業擁有的資產,其價值能夠得到體現,這是個非常好的事情。當然數據資產在會計處理過程中有作為無形資產的,也有作為開發支出或者存貨等形式的,能夠擴增公司的資產規模。在未來政策細化以及政策的鼓勵和允許下,我們也會積極去探索。
其次,數據資產入表的過程,能夠讓大家更真實了解公司情況。比如像我們今年上半年利潤雖然薄,但是1,000億的SDK累計安裝量,其實更加夯實了我們的數據資產,包括我們跟其他數據方合作,在合規合法的情況下,業務中形成的數據資產,都能夠更加合理的反映企業更真實的情況。另外很多無形資產,比如說我們的DiOS數據智能操作系統在大規模投入開發后,其收益是在未來幾年里體現出來,所以當期的投入可能反映在未來的收益上。如果數據可以形成資產并入表,能夠更好的鼓勵我們這樣的公司探索和積累更多的數據,或者為此做更多的前期準備和投入。
最后,非常重要的是相關政策出臺對行業影響更加深遠,對數據要素市場的參與者來講,數據資源形成資產之后,對于企業、政府的資產負債表等都會有影響,進而可以通過交易、擔保、融資等方式盤活數據資產,能夠釋放出更大的市場空間,我們對此也充滿期待。
2、近期看到省內出臺了《浙江省公共數據授權運營管理辦法(試行)》,想問一下公司能否切入到公共數據運營的相關業務中去?未來這個文件對我們會有什么影響?
答:在公共數據授權運營方面,浙江省其實非常早就出了公共數據授權運營的征求意見,期間相關部門給出了很多意見,所以這次正式稿是經過了很多實質性的討論,能夠出臺已經過非常充分的醞釀和產業界的交流。總的來講是圍繞著無場景、不授權,所有東西都拿著場景來對接,對企業也有規模、安全等相關方面要求。最近我們自己也在高速預警等方面儲備了一批案例,通過跟我們投資的浙江高信等國資公司進行協同,在省內開展試點,未來我們也會積極向監管單位提出授權申請。
另外全國各地的公共數據授權運營管理細則都在陸續出臺,以溫州為例,也發布了《溫州市公共數據授權運營管理實施細則(試行)》。我們也會依托溫州數安港和大數據聯合計算中心的平臺,不僅和生態伙伴打造智慧高速方面的成功案例,也希望在大健康領域做探索,比如跟相關央企等形成更好的協同。另外,我們的參股公司也有在醫療數據大模型方面進行研究,未來在有數據積累和合規情況下,我們也會聯合生態伙伴做進一步探索。
3、剛剛也提到數據的重要性等等,今年也看到高質量數據在大模型發展過程中確實是非常重要的,公司有哪些高質量的數據,包括未來可以通過哪些途徑可以再獲取高質量的數據?
答:一方面,我們積累線上APP行為特征數據。比如我們可以洞察10億臺設備上用戶使用APP的行為特征,全國大概有三千萬種不同的APP,我們做了非常細致分類,可以通過聚類算法把各種相關APP聚在一起。比如兩個APP經常被同一個人安裝,那這兩個APP之間會存在某種聯系,我們可以通過算法把它們聚在一起。大模型出來之后,我們還可以根據網絡上對APP的充分評價以及對APP本身的描述,用NLP的方式按相關屬性進行聚類。這在我們業務的運用在起到非常不錯的結果,這些日常的積累和梳理是非常重要的。
另一方面,我們積累很多線下場景數據。我們公司內部一直以來有個“百千工程”,就是希望某一個標簽提出來,它下面有100萬到1,000萬的人群擁有這個標簽,既有區分度又有顆粒度,我們形成了大概5,000多個標簽體系,也就是5,000多個人群包的特征,這些都會成為我們非常重要的數據資產。
上述提到的場景都是我們高質量數據在背后起的作用。此外,結合剛才提到的公共數據開放,如果過程中只是開放原始數據,其實利用還是蠻難的,對這種數據的治理能力,就需要我們積累的M層的能力,我們的DiOS能夠很好的把公共數據中非結構化數據結構化,對數據