葫蘆娃、黑貓警長……你們的童年回憶被承包了,
隨著 4K 修復技術普及,每過一段時間,人們就能重溫高清版的「回憶」,
2019 年北京國際電影節,4K 修復版《2001 太空漫游》開票,5 秒售罄;2020 年,《哈利波特與魔法石》4K 版上映,4 日票房突破了 1 億元,
大銀幕上的光影僅是回憶的一部分,葫蘆娃、黑貓警長、哪吒、大頭兒子和小頭爸爸、舒克和貝塔……這些形象已定格成表情包和網路梗,
不久后,這些童年回憶,也同樣會以 4K 高清的模樣,重新出現在你的行動電話屏幕上。
這是西瓜視訊在 4K 修復上的「大動作」,背后的技術承擔方是字節跳動面向企業的技術服務平臺:火山引擎,
簡單理解,經過了多年 to C 服務的積累,火山引擎要把字節跳動最好的技術開放出去,服務企業的數字化升級,
視訊技術是字節跳動多年來積累的重要內容。「經典中視訊 4K 修復計劃」,是西瓜視訊與火山引擎共同發布的公益計劃,
這個計劃將在一年內用技術手段,4K 修復百余部經典中視訊,
修復后,人們可以免費在西瓜視訊 App 上觀看這些動畫片。目前,已經有《葫蘆兄弟》、《黑貓警長》、《大頭兒子小頭爸爸》等 6 部修復過的動畫上線,
首批合作伙伴有央視動漫和上海美術電影制片廠。
名單內的動畫除了葫蘆娃、舒克和貝塔這樣 80、90 后的童年回憶公約數,還有大陸動畫史中值得反復凝視的經典:大陸第一部水墨畫風動畫片《小蝌蚪找媽媽》(1960),帶有敦煌畫風的《九色鹿》(1981),小眾的木偶動畫片《鏡花緣》(1991)……
字節跳動多年技術沉淀如何發揮最大的效用?
火山引擎或許可以給出一種答案:一邊將技術服務企業實現商業價值,一邊服務公益計劃實現社會價值,
4K 修復經典動畫片更有一層「醉翁之意」,讓原先「潤物細無聲」的中臺技術獲得展示,
4K修復技術秀「肌肉」人們口中常說的 4K 解析度,是指顯示屏幕達到 4096×3112 的像素級別。它的分辨率是 2K 的四倍。2003 年,加拿大一家公司推出首個商業用途的電影攝像機,從此 4K 逐漸普及,
老動畫片受限于制作年代,清晰度早已不適應人們的觀看習慣。
幾十年前的老動畫片,像《小蝌蚪找媽媽》、《九色鹿》還是用膠片進行拍攝。將年代久遠的膠片修復到 4K 的清晰度,其中的難度可想而知,
從膠片的物理修復做起,先要對原始膠片上的污垢、劃痕、掉色等部分進行修復,再將膠片轉錄為磁帶,才能進行數字修復。
數字修復的過程中,增加清晰度、補上缺失幀數等技術之外,還需要匹配原片的藝術風格,以保持「修舊如舊」的效果。這樣才不僅實現了「修」,還做到了「復」。
動畫片《布谷鳥》修復效果對比
面對這樣的勞動密集型工作,火山引擎提供的 AI 功能可以幫助修復師減輕不少勞力,甚至能夠比傳統的修復方式更有優勢。
火山引擎品牌在今年 6 月份正式發布,4K 修復用到的技術都屬于視訊云產品。
作為中臺技術,比起前端的推薦算法、定制內容,視訊云一般都隱藏在后方,支持內容傳輸和播放,鮮少為人感知。
借由「經典中視訊 4K 修復計劃」中的具體環節,人們可以一瞥這些技術讓視覺體驗升華的能力,
影片常見的資訊損耗就是噪點和劃痕,其來源方式也各不相同,
一方面,膠片存放過程中會有物理損耗,這會帶來噪點;一方面,轉錄到磁帶過程中也可能增加新噪點和劃痕,
對于這些瑕疵,火山引擎結合了傳統信號處理和機器學習算法,讓修復更為高效。
老膠片的第一道工序是物理修復。即使經過物理修復,膠片上的劃痕依然會對畫面有損傷,傳統人工修復能夠保證質量,但是成本極高,速度也很慢,
火山方案采用算法+人工兩道工序,算法能夠對 95% 的瑕疵進行修改,對藝術效果或者視訊內容的困難部分,則通過人工來進行判斷。
分辨率升到 4K 之后,原有的畫質一定會資訊量不夠。比如細節不足,幀數偏少而不夠流暢,暗景畫面模糊,
火山引擎的「智能超分」和「智能插幀」功能在提升畫面質感上可以發揮所長。
人工修復中,如果遇到油污、劃痕、變形等問題,修復師可能一天只能修 24 幀,也就是一秒,
如果是夜戲、煙霧戲等模糊的畫面,畫面資訊本身不足,修復困難極大。用深度學習,能夠根據已有圖像建模,做到「修舊如舊」,
像《葫蘆兄弟》,人物近景是剪紙風格,遠景是水墨筆觸,算法可以智能分辨不同的風格來進行處理,提升前景的清晰度的同時,又能保留遠景的朦朧感。
應用端打磨技術
「智能超分」、「智能插幀」屬于標準化功能,已封裝成可調用的產品,向企業客戶開放,
除此之外,西瓜視訊也提供了內測,個人賬號可以在「視訊剪輯」菜單中點擊體驗,
修復中也會遇到新問題。比如,在老影片掃描轉數字化的過程中,由于采樣算法欠佳,導致畫面中的線條出現鋸齒。
由于這個問題是數字化掃描階段帶來的,常見算法和修復工具不能很好地處理,火山引擎就針對這種場景單獨設計了算法,
這種處理問題的能力,與火山引擎對抖音、西瓜視訊進行技術支持的歷練有關。
在視訊云產品負責人 Keith 看來,視訊技術中臺的最大優勢,就是與生俱來的視訊播放經驗。簡單說,就是「同一套人馬做 to B 和 to C」。這讓技術團隊對 C 端的需求更敏感,
經過疫情催化,音視訊企業級服務的市場更加成熟,
企業級服務商中,除了騰訊、阿里云這樣的老牌互聯網大廠之外,聲網這樣專注音視訊實時互動的技術商得到更多關注,
在此背景下,火山引擎在 C 端的歷練,成為了獨特的服務能力。
比如,在打磨播放體驗時,團隊意識到播放第一幀「滑順感」的重要性,于是率先開發了「零首幀」技術。
首幀即是視訊播放的第一幀,當你被一個視訊封面吸引,點擊播放到首幀渲染出來的耗時小于 200ms 時,基本就沒有延時和卡頓感,
視訊云團隊在這個指標上的追求是小于 100ms,
人類無感的 100ms 的背后,技術程式上需要完成「頁面創建」、「網路連接」、「視訊解碼」、「播放器策略建立」四個環節。
技術團隊針對每一個環節都做了技術優化,才實現了播放體驗上的「零首幀」。
這項技術已經運用在客戶服務上,
火山引擎與足球社區 App「懂球帝」共同建立了視訊云解決方案,幫助「懂球帝」解決了播放中首屏卡頓的問題。球迷在瀏覽 App 中的視訊時,首幀時間降低 30% 以上。
音視訊技術能夠縮短時空距離,因此,遠程會議、在線課堂、電商直播是更具潛力的應用領域,
在 2020 年疫情尚未消退期間,財新傳媒年度峰會在北京線下舉辦,
這是一次多時空串聯的任務,4 天議程中有 50 多場直播,其中既涉及海內外嘉賓連線,又涉及峰會全程的線上直播。
火山引擎技術團隊做到了高清視訊連線,全程無卡頓。這背后的技術,是實時通訊技術(RTC Real-times comunication),
各種趨勢表明,RTC 將會成為下一代互聯網通信標準的基礎和模式,
未來的視訊:流量少,更清晰
如今語音和視訊功能,已經基本滿足日常實時通訊,但是未來各種場景下的時空串聯,對技術提出更高要求,
同步與清晰度的提升帶來更大的帶寬,與之匹配的下一代的編碼壓縮技術也被需要。
視訊編碼的最主要目的是數據壓縮,讓存儲和傳輸更便捷,目前,新一代國際視訊編解碼標準(H.266/VVC)已正式公布,
標準貢獻者排行榜上,字節跳動排名第三。排行榜前五的企業中,字節跳動是唯一一家沒有參與上一代標準開發的公司。
這份成績來源于「火山引擎多媒體實驗室」,這個團隊至今已經研發了基于 H.266 的編碼器 2.0 版本——BVC2.0,
使用這個編碼器,同樣質量的視訊內容,可以節約 8%-15% 的帶寬和存儲成本,
這意味著,同樣網速和帶寬的條件下,在行動電話上能用更少的流量享受更清晰的視訊。未來的云游戲、VR 應用如果想成為現實,也需要依靠新編碼技術,
自研H.266的歷史
除了參與標準制定、開發編碼器,火山引擎還站在全鏈路傳播的角度來思考技術,
比如,在抖音 App 上,生產端和播放端可以按照不同的需求處理。
為了照顧投稿率,生產端需要降低碼率;為了照顧觀看體驗,播放端需要提升碼率。為了實現全局的最優解,各個環節的不同策略配合,需要更豐富的方案。
應用場景是視訊技術的催化劑,MR、VR 已經想象了豐富的場景,但這尚是遠景,
從眼下直播、連線、點播的不同需求開始,技術也會在實戰中反復被打磨,走到創新的場景中去。