u1s1是什么意思?干飯人又是個啥?
當在北戴河阿那亞的劇場里被突然問到類似稀奇古怪的問題,一時發懵的我只想當場掏出行動電話,給對方來個“百度一下”。
說起來,搜索這項“舊技術”最近的討論聲浪還真有點大。
君不見那邊新搜索工具廣告天天見,這廂聽著海風看話劇的百度萬象大會現場,老牌搜索引擎也打出了“百度一下 生活更好”的新Flag,
其實,正如百度集團執行副總裁沈抖現場所說,大家對搜索太過熟悉,以至于感受不到其中技術的變革,搜索的技術存在感那是真“感知不強”,
但實際上,“AI技術為搜索提供了持續進化的動力”。
要知道,從古早的文本檢索到今天的人工智能,網路世界的網頁數量已經從千萬級別,增長到了千億級別,其中囊括的內容可能比世界上所有圖書館加起來還要豐富,
在今天,想要高效連接今天的互聯網用戶和海量資訊,搜索引擎其實真的沒那么簡單,
那么,究竟是怎樣的技術在驅動搜索引擎更智能地讀懂你的需求,連接豐富而又準確的資訊?
技術本身在海量資訊增長面前,又經歷了怎樣的進化?
今天,不如就借著這陣勢,我們來好好說道說道。
從文本檢索到人工智能
現在,在使用搜索引擎時,你可能不只會用幾個關鍵詞,還會直接輸入你想問的問題,
但其實早期的搜索引擎采用的是文本檢索的方式,只能做到用戶查詢關鍵詞和網頁文本內容的匹配。
可想而知,雖然這樣的方式也能把不同網頁的關聯度進行排序,但總體的搜索質量是比較差的。
而實際上,網頁之間有著豐富的鏈接關系,就像高引論文往往本身質量更高,高質量的網頁通常也會被更多的網頁鏈接。
為了進一步挖掘和利用這種鏈接資訊,1996年,李彥宏開發了Rankdex,即超鏈分析算法,這是世界上首個使用超鏈接來衡量網站質量的搜索引擎。
也就是說,搜索引擎在收到一個用戶查詢之后,不僅僅會去匹配網頁的內容,還會看看其他網頁對這個頁面的“評價”。
在此之后,谷歌也提出并使用了類似的PageRank技術,并大獲成功。
超鏈分析算法,可以說是當今每個主要搜索引擎排名算法的基礎。值得一提的是,在谷歌創始人拉里·佩奇的第一項網頁排名專利申請中,也引用了Rankdex,
如果說早期的搜索技術門檻不算高,從超鏈分析這個階段開始,一些今天大家伙普遍依賴的搜索引擎,就開始一騎絕塵,拉開差距了,比如谷歌,比如百度,
并且這些做搜索引擎起家的公司,如今也都成為了人工智能領域的先行者,
而事實上,甚至在人工智能未成顯學之時,為了讓搜索結果更快、更精準、更個性化,搜索領域的巨頭們就已經著手將機器學習的方法引入到搜索引擎中。
谷歌就在2016年上線了基于反向傳播技術的RankBrain算法。該算法可以基于語義分析和詞庫聯想,幫助用戶更快地搜索冷門的搜索結果。
而如今在NLP領域大火的BERT,也已被部署到谷歌搜索當中,有了預訓練語言模型的加持,即使你輸入的是一大段文字,搜索引擎也能夠get到你想查什么。
根據谷歌的數據,BERT的引入為至少10%的搜索結果帶來了改善,
大陸,百度同樣是最早投入人工智能技術研發的科技公司,在2010年就成立了單獨的NLP部門,
以搜索引擎技術為核心,在過去十余年中,百度演化出了語音、圖像、知識圖譜、自然語言處理等人工智能技術,這些長期的技術積累,甚至在今天進一步拓展到了自動駕駛、AI芯片等領域。
這也是為什么,在今天,搜索引擎不僅僅能按照你輸入的文字進行搜索,甚至直接給一張圖、一段音樂,AI也能理解你想要獲取怎樣的資訊,
正如沈抖所說,打開百度App,你說出想問的問題,可能旁邊的人還沒聽清,百度搜索已經能夠提供精準的答案。而當你在阿那亞的任何一個角落,看到不認識花草苗蟲,打開相機使用視覺搜索,也能快速得到答案,
智能搜索時代背后的關鍵技術
所以,進化到智能搜索時代,讓搜索引擎高效連接你和資訊的核心技術,具體又有哪些?
正好,在百度萬象大會上,沈抖也介紹了百度AI是如何推動搜索持續進化的,我們一項一項來看個仔細,
深度語義匹配模型
2013年,百度搜索就上線了基于百億級用戶行為數據的SimNet語義匹配模型,使得搜索結果的相關性得到明顯提升,
簡單來說,SimNet利用詞向量技術解決了關鍵詞匹配失敗的問題,可以有效得到同義詞、近義詞之間的相似度,并且具有較強的泛化能力,
在實際應用場景下,海量的用戶點擊行為數據會被轉化為大規模弱標記數據,再搭配并行訓練算法,SimNet首次實現了可完全取代基于字面匹配的策略,而且可以直接建模非相似度類的匹配問題,
其核心網路結構形式,包括BOW、CNN、RNN、MMDNN等,
而基于這樣的深度語義模型,百度搜索已經將一次全庫語義檢索的時間優化到了10ms。
跨模態深度閱讀理解技術
前文也說到,有AI加持的搜索引擎,不僅僅能讀懂文字,還能聽懂語音、看懂圖片。
其實,機器認知世界的方式,也不僅僅局限在自然語言,還包括對語音、視覺等多模態資訊的綜合應用,
為此,百度重點研發了知識增強的跨模態深度語義理解技術。
一方面,打造擁有超過50億實體和5500億事實的多元異構知識圖譜,通過將知識作為背景資訊,增強了模型的語義推理能力,
另一方面,通過知識關聯跨模態資訊,運用語言描述不同模態資訊的語義,進而讓機器實現圖像和語言、語音和語言的一體化理解。
基于這項閱讀理解技術,百度還在EMNLP-MRQA 2019閱讀理解國際測評中,以超出第二名近2個百分點的優勢獲得冠軍,
智能化多模搜索技術
2015年,百度就提出了多模搜索的理念,探索從文本搜索向語音、視覺、視訊等多模態搜索的演進。
而這或許也是智能化搜索在用戶層面最直觀的體現——在百度App中,你可以體驗語音搜索、拍照搜索、實時翻譯、植物識別、視訊搜索等豐富的搜索方式。
除了前面提到的跨模態語義理解,在語音搜索上,百度搜索還集成了語音識別、語音合成等多項AI技術,讓搜索引擎能“聽”會“說”,不僅能夠聽清、聽懂,還能深入理解語義,給出繪“聲”繪色的最佳搜索答案,讓搜索引擎與用戶之間的交互方式變得更加自然、流暢、便捷。
在視覺搜索上,百度搜索綜合了圖像識別、人臉識別、OCR、物體檢測、實體匹配等多項視覺技術,并依托于搜索系統對全網圖像、視訊內容的索引以及用戶行為,得以細粒度的識別用戶實時錄制的視訊流、拍照及上傳圖片中的實體和文字,進而圍繞實體在用戶視覺場景下的需求,鏈接并組織相關內容及服務提供給用戶,實現諸如拍題搜索、商品搜索、實時翻譯、植物識別等智能視覺搜索能力。
是的,不僅僅是圖文,作為當前最紅火的通用資訊載體,視訊現在也可以直接用來搜索,并且結合百度超大規模的知識圖譜,能實現精準的搜索、定位,
本次萬象大會上,百度短視訊生態平臺總經理宋健還最新發布了好看視訊知識圖譜產品功能,并提出“幀視訊”的概念,
“幀視訊”能延伸知識資訊的密度,讓短視訊的知識含量濃縮到“幀”的顆粒度,推動短視訊成為更好的知識獲取的載體,
智能搜索不只是搜索
說了這么多,有沒有覺得日常的搜索背后,涉及到的資訊量屬實龐大?
在今天,資訊的獲取方式看似便捷,但海量資訊涌來的同時,也帶來了越來越多的無效資訊。
這也是為什么我們會希望搜索的結果更加精準,
而在此之外,我們還更希望搜索更能讀懂人的意圖,更節省時間、更高效地解決問題。
基于這樣的用戶需求,如百度,一方面在持續增強搜索本身的屬性,形成知識服務產品體系,提高首條搜索滿意度,
而另一方面,因為搜索天然與各種服務場景具有連接性,百度也在圍繞“搜索+服務”做加法,以進一步降低用戶的決策成本,提升服務能力。
所以,這也就解釋了為什么百度App品牌升級為“百度一下 生活更好“,
在這樣的背景之下,智能時代的搜索不再是簡單的資訊檢索,而是人們與資訊、服務等各種解決方案之間的高效連接方式,
此外,智能搜索和智能推薦融合,還會進一步擴大化這種效率的提升。
沈抖對此解釋說:
互聯網基礎設施日益完善,整個社會資訊度在提升,用戶希望更快速地完成閉環需求。
百度正是基于這一需求的變化,提出了“人格化”和“服務化”戰略,
所謂“人格化”,是放大每一個創作者的才能,并把生態里的創作者和用戶直接相連,更快速地滿足用戶需求,
百度副總裁、百度App總經理平曉黎就舉了這樣的例子:在知識分享領域,以往通過搜索,人們只能找到相關的靜態頁面;而搜索進化后,百度還可以直接將搜索結果連接到能提供該結果的人,如專家、自媒體、知識原PO等,進一步消除資訊差。
而“服務化”,則是讓用戶“所見即所得”。
圍繞這樣的核心戰略,基于搜索,百度把短視訊和重點垂類放在了關鍵位置上,百度健康、百度電商業務也在萬象大會上首次公開亮相。
歸根結底,從搜索到服務的落地,有很多的場景可以選擇,而這些場景的服務實現,又恰恰需要搜索不斷進化,從搜索到智能搜索。而想要做到這一點,背后對技術能力的要求著實不低,
事實上,也有不少業內人士認為,搜索自誕生之初,就擁有類似于人工智能的屬性:你在搜索框中提問題,機器來找出答案提供服務。
而作為人工智能技術的第一塊試驗田,不論是搜索還是機器都在不斷進化,搜索現在也確實成為了人工智能技術的集大成者。
其越來越“機智”的進化背后,驅動力正是來自百度這樣的企業、研究機構長期積累的AI能力,讓搜索從原來的搜索分發,到提供服務,提供人格化的內容和交互體驗。
下一個十年,搜索技術還會有怎樣的超進化?
你還有怎樣的期待,不妨在評論區一起聊一聊~