內容來源: 本文為藍獅子出版社書籍《AI3.0:人工智能落地的商業邏輯》書摘,筆記俠經出版社授權發布。 作者簡介: 王曉梅, 前IBM大數據和分析業務全球負責人, 深耕大數據分析與AI領域20多年。 責任編輯 | 浮燈 值班編輯 | 金木研 第 5339 篇深度好文:3001字 | 4分鐘閱讀
思維方式
筆記君說:
未來的商業競爭,是數據之爭,
如何打贏這場競爭?這就要看你對數據了解多少,
人工智能只是一種技術手段,數據資產最終決定人工智能的行業應用發展,以及企業新的市場,
隨著互聯網、開源、云計算等技術的發展,企業在技術上會越來越接近,
不久的將來,超級摩爾定律下芯片計算力會有更大突破,人工智能作為一種技術能力將越來越普及,長期來看,技術能力上的差異會越來越小,
在行業應用上,真正能建構牢固“護城河”的核心要素一定落在數據上。
那么,數據又從哪些維度展開競爭呢?
第一,數據的品質,
比如數據的準確性、完整性、可追溯性、持續性、真實性和共享性。這些品質決定著人工智能模型的質量,也決定最終的落地成果。
第二, 數據競爭存在先發優勢。
那些占據著特定的應用場景,并且更早、更多地獲取數據的領域,人工智能的優勢會更明顯,
第三,數據的安全和隱私保護,決定了人工智能應用最終可以走多遠。
一、提升數據品質
針對特定領域的數據集越龐大、越真實、越準確、越可追溯、維度越豐富、越協同共享,越能得出最佳算法并帶來競爭優勢,
比如,在奈飛的網站上,圍繞用戶的維度,有性別、年齡、瀏覽過的電影、喜歡的明星、過往閱覽記錄等;圍繞某個電影的維度,有年代、導演、演員、風格、題材、用戶評價等,
繞兩個主體的數據維度越豐富,越能在兩者間建立精準匹配的關系,讓企業以更好的體驗擴大用戶群,不斷強化自己的優勢。
我們看到,App的用戶規模越大,往往越能更精準地滿足個性化體驗,
比如,現在我們使用的一些音樂App已經能夠精洞悉每個用戶喜歡的音樂風格,并準確推送喜歡的音樂,
對如何提升數據品質,企業可以在兩方面同時努力:
內部,要有系統的規劃,實時采集和整理數據,建立長期數據積累; 在外部,要有意識地構建生態體系或者尋找合作伙伴,盡可能多地獲得相關數據,且搭建統一架構,幫助數據互通。
二、數據的先發優勢
數據競爭一定存在先發優勢。企業越是占據特定的場景,更早、更多地獲取數據,人工智能的優勢就越明顯。
現在,數據尚未全面商品化,企業與企業之間的數據交換尚未暢通。
由于市場的復雜和競爭、數據安全和監管等原因,企業或機構不敢輕易開放數據,企業或機構需要通過自己的產品和生態體系來獲得更多數據,
從這個角度看,平臺型科技公司基于自己強大的數據基因,占有完全優勢。
長期來看,數據是可以創造收益的資產,是公司的核心競爭力,越早入局規劃,越能占據主動。未來數據全面商品化之后,價值會非常明顯。
三、數據安全和隱私保護
對數據安全和個人隱私的保護程度,決定了人工智能可以走多遠,
數據安全有兩層含義:
一是保證用戶數據不損壞、不丟失,這種情況發生的概率不大,數據存儲在云端也安全得多; 二是保證數據不泄露或者濫用,這是主要的關注點。
無論在電子商務、航空旅行、金融借貸還是醫療行業,全球已發生多起數據泄露的件,引發公眾的憤慨,
2017年,單是美國征信企業艾可菲(Equifax)一家公司的資訊泄露就涉及多達1.43億人的姓名、住址、出生日期、社會保障號和駕照等敏感資訊。
人們不可能縱容自己的數據隱私被侵犯,任由資訊泄露和濫用,公司會陷入輿論的漩渦,商業發展的困境最終會阻礙人工智能的發展。
四、找到“強相關數據”
首先,無論大數據或小數據,有價值的就是好數據;其次,“大數據”這個詞,更多是一種思維方式和一個時代標志,
實際的場景中使用的數據往往是有限的,真正有用的是“小數據”,
兵法上講,“傷其十指不如斷其一指”,大數據是一樣的道理,要用力在關鍵的“一指”上,不必追求“十指”面面俱到,
用戶源源不斷地產生數據,目前對于企業來說,數據的收集和存儲能力并不構成障礙。
癥結在于,90%的數據沒有被真正利用起來,成了“廢數據”。
主觀上,這與機構的數據思維文化有關,并不是所有公司都能像奈飛、亞馬遜那樣推崇用數據說話。
客觀上,則與數據的相關度有關,
比如一名用戶10年前的互聯網數據,對于分析當下或預測未來并沒有太多的作用,時間序列上的弱相關度,大大減弱了數據的效力。
相關數據,特別要強調與特定場景的相關度。現在,人工智能的應用針對的是某個具體任務或具體目標,需要的數據類型不盡相同,
比如,傳媒、金融、醫療等各行業需要的細分數據不同,具體到同一行業的子領域也不同,比如,在醫療領域,心血管疾病和癌癥診斷所要的細分數據就不一樣,
大部分人工智能的應用場景,都是針對一個具體的任務。
比如,個人信貸鑒別申請者的信用風險,餐飲外賣確定最優的派送路線,資訊資訊流做精準的個性化推薦……具體的場景中,起作用的主要是相關度高的數據,
五、重視小數據
相對大數據來說,能直接用起來的相關數據,往往是一種特定的小數據,
這里的小數據,指的是使用場景單一、對應算法簡單、及時性較高、數量規模較少的數據。
可以說,大數據是宏觀、全面的分析,小數據則是針對特定任務的具體分析。現階段真正好用的其實是小數據。
同樣以奈飛為例。
1997年,它以DVD在線出租起家,還沒有那么強的數據能力,幸運的是,它早年就上線了用戶打分功能,
2007年,奈飛推出流媒體業務“Watch Now”(立即觀看)的時候已經積累了20億條用戶打分數據,
通過這些數據,就能夠非常容易了解用戶對內容的偏好。這個打分數據就是小數據,維度很單一,卻非常契合奈飛的業務場景,對內容決策非常有用。
當然,在大數據時代,小數據的內涵也會發生延展,比如,圍繞個體的全方位數據更加重要,
這里的“個體”不只是自然人的個體,也包括社會組織,如商店、企業、社會團體等。
掌握全方位的個體數據,一個直接的好處就是可以精準推送個性化服務,
數據競爭是未來競爭的核心,而在人工智能商業落地的過程中,掌握數據的核心要義,才能在未來的競爭中,構建自己的護城河。
*文 章為作者獨立觀點,不代表筆記俠立場,
呵呵真開闊的思路!