2016年,人工智能AlphaGo戰勝人類圍棋冠軍李世石,被業界視作是第三次人工智能產業浪潮的開始。在神經網路及深度學習等新方向出現后,AI產業迎來了前所未有的新革命,
而到了2021年,這輪AI浪潮中的諸多技術已經完成廣泛的產業落地。例如,AI視覺及語音識別技術已經進入我們的日常生活——我們早已習慣在微信上使用語音轉文字,或是在電商App上搜圖購物。但直至今日,AI最初的命題——人機對話,卻仍然是一個前沿話題,
1950年,人工智能之父圖靈發表了《機器能思考嗎》的經典論文,并提出了此后被稱作「圖靈測試」的新概念——人類向機器隨機發問,如果人類無法判斷回答者是機器還是人類,就說明了機器具有了與人類相當的思考能力。
通過圖靈測試,自此成為了劃分強弱AI的分水嶺,而圖靈測試關注的核心,則是AI的人機對話能力,如今,盡管人類尚未制造出通過圖靈測試的強AI,但在一定范圍內能聽懂、會思考、可互動的智能人機對話技術,已經開始在產業界落地,并運用于智能客服等領域,幫助人類完成一部分話務員的工作,
在像人類一樣思考的道路上,AI仍然只是個國小生,但AI眼下在人機交互方面的能力,已經足以讓其成為輔助人類工作的利器。在智能人機交互這個前沿方向,大陸科技企業的探索還在繼續,
智能人機交互,緣何成為整個AI產業的明珠?
智能人機交互的探索道路,遠不如外界想象中的容易,
如今,業界公認,智能人機交互是整個AI產業的一顆明珠,極高的技術門檻,讓智能人機交互成為了AI領域最前沿的交叉學科之一。
以智能語音對話為例,其涉及多個AI前沿領域。要想實現智能人機交互,AI需要先將人類的語音轉換為文字,再理解文字的內容,給出對話策略,生成對話文字,最后再將文字轉換為語音,全流程涉及語音識別、知識圖譜、自然語言處理(NLP)、對話管理、文字語音轉換(TTS)等多項AI技術。
一個成熟的智能人機交互產品,不能在上述任何一個環節出現明顯短板,否則,也會影響產品最終的用戶體驗。
如此之高的技術難度,對AI從業者而言是一個巨大的挑戰。但AI從業者們一直在直面挑戰。因為智能人機交互擁有著極為廣闊的市場前景。
例如,基于智能人機交互技術的智能客服可以幫助一部分話務員工作,為用戶提供熱線咨詢服務,其中,政務便民服務熱線就是智能客服落地的絕佳場景。
以往,政務便民服務熱線存在一些問題,數據分析機構「零點有數」此前發布的《全國政務熱線運行質量年度評價報告(2011-2020)》指出,2020年,政務熱線接通率僅為68.43%,接通率在95%以上的熱線只有72條,占比僅為20.87%。
限制政務熱線服務水平的一大原因,在于智能化水平的不足。傳統的人工服務模式需要投入大量人力且效率不高。而AI則可以成為人工話務員的有效補充,
而這一趨勢,也得到了國家政策層面的支持。日前發布的“十四五”規劃綱要指出,要提高數字政府建設水平,將數字技術廣泛應用于政府管理服務,而2020年12月,國務院辦公廳也下發了《關于進一步優化地方政務服務便民熱線的指導意見》,指出要加強12345熱線能力建設,拓展互聯網渠道,加強智能語音等智能化應用,方便企業和群眾反映訴求建議,
今年2月,大同市人民政府就在京東科技的支持下,上線了新一代的12345熱線,該熱線基于京東人機交互平臺「言犀」的技術能力,大同市民呼入電話后,當人工客服溢出時,客服機器人可以直接對常規問題提供智能解答,并自動下發工單,將問題反饋給對應的委辦部門來處理;而對于較復雜的問題,智能客服機器人會轉交給人工坐席來回答。此外,大同12345熱線還具備智能回訪功能,撥打過12345熱線的市民,會接到由智能客服撥出的回訪電話。
而在新一代大同12345熱線的建設過程中,京東科技也遇到了不小的挑戰。
第一個挑戰是來自方言,大同位于山西北部,隸屬于晉語區,大同話與國語之間的差異并不算小,
撥打12345電話的大同市民中,有一部分市民特別是中老年人,很多只習慣說大同話。如果客服機器人不能聽懂當地方言,就很難服務好所有市民。為此,京東智能政務熱線專門開發了一個口音適配的模型和算法,可以用最少的代價、最快速的方式對大同本地的口音進行識別,目前,大同12345熱線已經能夠聽懂使用大同話咨詢的高頻問題,并提供針對性的解答。
大同12345智能熱線的第二個挑戰,來自于對話中的情感感知與表達, “大家認為人機交互主要就是理解用戶語言,其實這是一個比較膚淺的看法。雙方對談包含著情感的理解,說話要有同理心,不僅僅是理解和生成對話,也需要理解對方的情緒變化。這些對于AI的模型就有更高的需求,” 京東集團副總裁、京東科技集團智能客服產品部負責人、京東人工智能研究院常務副院長何曉冬對36氪表示。
為此,京東智能客服團隊通過訓練讓AI 學習人在生氣、失望、憤怒、焦慮等情緒下的說話方式,并根據七種不同的情緒做了精細粒度情緒識別模型,能夠對每一種情緒的高中低濃度進行更細致的檢測,最后形成整個情緒檢測矩陣,從而更好地感知用戶的情緒,大同12345熱線的智能客服機器人在與市民交流時,當在市民的聲調和語氣中檢測到特別的情感變化,會在交流過程中加入更多安撫性的話語,實現更具同理心的服務體驗,
智能客服,已成互聯網公司專利
大同12345的智能化改造獲得了顯著的效果。在引入京東智能政務熱線后,大同12345的響應率、解決率、滿意率均出現了明顯的提升,
官方數據顯示,大同12345傳統人工坐席日均受理量約2500件,最高日受理量為4000件,在熱線智能化以后,大同12345目前的日均呼入總量為5269通,高峰呼入總量超7000通,其中,高峰部分全部由AI接待,目前,大同12345日均有效訴求3340件,其中1188件由AI完成。大同12345高峰時期的市民排隊現象基本消失。
事實上,智能人機交互的用武之地不止在政務熱線市場。在幾乎所有客服及泛客服場景,智能人機交互都可以派上用場,因此,智能人機交互也成為了幾乎所有科技巨頭的共同研究領域,
2018年,Google推出了AI客服行業解決方案Contact Center AI;2019年,Google再次推出了面向中小企業的AI客服產品CallJoy,月費僅39美元。而Facebook、Amazon也都在近些年推出了類似的產品及解決方案。
顯而易見,智能客服可以解放大量人力,直接提升商家的運營效率,而智能客服帶來的市場空間也極為廣闊。36氪旗下數據服務平臺鯨準此前發布的《大陸智能客服行業研究報告》顯示,大陸客服軟體當前存量市場規模在100-150億元,而未來的AI智能化市場空間有望達到500-800億元,其中,智能客服機器人的市場空間在200-300億元,
而在大陸,互聯網企業在智能人機交互領域的積累不可小覷,特別是電商企業,往往都具備成熟的智能客服解決方案,而這也與智能人機交互的產品設計流程有關,
早年,智能客服尚未普及時,電商行業流行使用技術門檻較低的「客服機器人」,這類機器人大多基于關鍵詞和模版匹配技術,例如,在電商客服機器人中,如果用戶詢問「幫我查查快遞」,則會發出規則關鍵詞「查快遞」,客服機器人會自動給出商品的物流資訊。但當用戶使用「幫我看看我的東西到哪了」一類的復雜提問方式,客服機器人就無能為力了,
而進入AI時代后,智能客服的對話能力獲得了極大的提升,這既離不開AI底層技術的發展,也離不開大量數據的喂養。其中,兩類數據最為重要:一類是用戶與人類客服之間的對話語料,可以幫助智能客服建立準確的問答;另一類則是說明書、產品手冊等商品資訊,它可以培養AI形成知識圖譜的能力,讓智能客服對商品更「專業」,給用戶滿意的回答。
不難看出,在互聯網行業,京東等科技企業是為數不多具備以上兩類資源的,在積累了大量語料資訊后,京東很早就在自有電商平臺上線了“京東智能情感客服”,并在近年開始將自己的智能人機交互能力輸出給包括政務、零售、金融、教育等領域的合作伙伴,幫助全行業實現客服領域的智能交互。
未來,智能人機交互將走向何方?
在未來,智能人機交互將走向何方?
多模態,是一個行業內公認的發展方向。所謂多模態,即AI可以通過多個感知維度,如視覺、語音、文字等識別資訊,感知用戶的需求,在傳統的AI客服產品中,用戶與AI之間使用文字或語音這一單模態的方式互動。而在現實世界中,面對面的客戶服務往往是多模態的,人工客服的表情、動作和語言,都可以影響到用戶對服務的感知,
因此,多模態也被視作是智能人機交互領域的一個前沿方向,而在部分場景中,這一技術也可以直接提升用戶的體驗。例如,在銀行等重度交易場景,人工服務仍然是行業首選。而相比冷冰冰的AI語音,客戶往往更想看到一個能說會動的AI虛擬人,
而在傳媒領域,近年來的兩會中已頻頻出現虛擬AI主播的身影,據了解,每日經濟新聞今年在全國兩會期間就與京東科技合作,利用人工智能技術,依據真人形象,合成出形象和聲音“完全真實”的財經主播,替代傳統主持人對“兩會”內容進行24小時滾動播報,以AI應用重構了媒介的生產環節。
何曉冬還透露,京東科技目前也在研發適用于直播帶貨場景的AI虛擬形象,AI可以自動讀取說明書、產品手冊,自動挖掘賣點,自動撰寫推銷話術,并生成虛擬形象和語音,完成AI直播帶貨。
「這將改變整個商業規則,等到多模態技術成熟時,許多商業模式都可以被打開,并為我們帶來許多意想不到的機會。」何曉冬表示。
而在未來,智能人機交互的遠期目標,也許是變革整個人機交互領域的交互形態。
早年,計算機行業使用打孔紙帶作為編程工具;而鍵盤的出現,讓用戶可以使用命令行控制計算機;此后,圖形界面與滑鼠的出現,讓計算機開始普及;而現在,iPhone帶來的觸摸屏革命,讓智能行動電話成為人手一臺的隨身計算機,人人上網的時代最終到來。
「人機交互的每一次變革,都帶來了十倍以上的用戶量增長,并伴隨著巨大的產業潛力釋放,」何曉冬指出,「如果說過去的五年是AI在學術領域的爆發,那么爆發帶來的紅利未來五年將會在產業上實現,」
而到那時,AI將再一次豐富人機交互的外延——用戶不再需要鍵盤、滑鼠、觸摸屏這樣的交互工具,而是開始使用手勢、語音這樣最自然的交互模式,當交互無處不在,計算和服務也將變得無處不在。