要不是我媽突然在家庭群里失去了往日的活躍,我應該是不會關注到人口普查的。
10月底,一向熱衷于短視訊或者淘寶購物的母親,沒有像往年一樣在群里給我們各種推薦,積極備戰“雙十一”,相反,她晚上時間都被一張張表格填滿了。
幾天之后,我才知道,身為多年黨員的她,被征集去做了人口普查員,今年已經50歲的母親現在已經有些眼花了,面對字如螞蟻的人口普查表,她只能付出更多的時間和精力,甚至要搭上我爸。
由于長期關注云計算,我早就聽聞有一些科技公司中標了這次人口普查項目,但既然技術助力,為何還需要這樣如此原始的填報方式?
帶著質疑,我們開始好奇2020年人口普查背后,到底做了什么樣的技術革新,
每10年一次的大陸人口普查
在談這次人口普查之前,我們不妨先來了解下關于人口普查的歷史。
公開資料顯示,人口普查可以回溯至很久以前,事實上,它幾乎與國家一樣古老,
歷史的經驗告訴我們,人口普查證明了各國了解其居民的固有愿望,而其動機有時候主要出于軍事目的,有時則出于稅收,數千年前的古埃及和古大陸就開展過人口普查。
而伴隨著時間的推移,人口普查也變得越來越振奮人心,
每10年一次的人口普查,如果把一次次的數據匯總起來,其實可以看出社會的變化,
而這些數據不過是萬千個體故事的集合,這些故事與年邁父母、前途未卜的嬰兒的命運以及做出在新地方開始新生活的抉擇有關,
所以不可否認,每一次普查都是一次橫向分析,是對社會的一次必要解剖。而解剖的時間,是人為決定的,
一般地,近年來每次人口普查基本上都會問兩次,第一次主要是調查每次都會問到的基本問題,比方問“有幾口人,有沒有在這里住,學歷什么的”,
另外,每一次人口普查也都會增加一些新問題,各個部委,比方說像人社局、民政部、人社部,甚至工信部,都會跟統計局去申請,能不能在人口普查里面搭一些他們關心的問題,
但這部分問題是在正式登記的過程中發生,在進行普查之后,會抽查10%的人群再問一次。問的就是上面提到的特殊問題,
據公開資料記載,新大陸成立后,大陸先后共進行了六次人口普查,今年的人口普查是第七次,這七次人口普查具體情況及變化如下表所示:
虎嗅制圖
其中,2000年進行的第五次大陸人口普查,首次采用光電錄入技術,為大陸經濟社會進一步發展提供重要的人口依據,這次人口普查在大陸普查史上添加了厚重的一筆,
但是,人口普查如此全面系統,也具有一些局限性,
人口普查涉及范圍廣、調查單位多,因而人口普查相對較為耗時、耗力,而且成本也很高,同時,人口普查多是十年進行一次,因而數據的時效性不夠強,不能有效并及時地反映人口動態變化。
與以往不同,此次的人口普查首次采用了移動端的電子化普查手段,一來是為了提高普查效率,二來也為了對行動電話進行更好的儲存和分析,
今年年初,騰訊以4541.7萬中標了第七次全國人口普查數據處理環境建設,主要承接的便是技術保障工作,
關于這個項目,統計局提出了兩個要求,一方面,希望通過云計算、大數據等手段提高人口普查的效率和準確度,另一方面,希望數據收集上來后,數據在后臺,系統的安全性、可靠性上能夠支撐住,
當時騰訊給出的一套方案,是希望14億老百姓用已有的微信、700萬普查員用企業微信這個現成產品,同時把數據審核關系放在上面,并定制一套數據審核關系,
雖然戶籍數據整理看起來很容易,但人口普查,是要求15天之內14億人的資訊全部到位,所以從交易量上來講,騰訊的壓力并不小。
再加上疫情的影響,雙方在實施過程中遇到了意想不到的困難。
不過,橫向來看,相比于國外人口普查基于PC的電子化采集模式,大陸用智能終端做普查,在技術上相對比較先進,
簡言之,即便技術應用到人口普查領域已經小有成就,但在技術幫助人口普查更快更好落地,就事實來看,困難仍然很大。
當中標遇上疫情:15天,14億
“我們2月14日開標,3月5日集中。那時候疫情還沒有結束,要把一個隊伍集中起來做應用開發,做技術方案,很艱難,”騰訊云相關負責人王景田如此談到。
據悉,當時全北京都找不到飯店,沒有地方,
禍不單行,
項目剛開始不久,原定交付團隊又全部撤出了。于是,在3月20日,架構師王飛所在的部門接到通知,被臨時派遣過來承接統計局第七次人口普查的項目。
雖然標準的普查時間是11月1日,但很多工作需要在疫情期間完成,包括軟體的功能設計、開發,整個云架構的設計,云產品的組裝以及一些壓測,功能儀式點的保障,
關于入駐之后的經歷,給王飛留下肌肉記憶的可能就是接二連三地換辦公酒店了,據王飛回憶,一開始接到任務的時候客戶只說封閉20天,但實際上封閉時間一直從3月份持續到了9月初,長達200多天。
當然,辦公地點只是眾多困難中的一小項。更多更復雜的困難,則體現在業務上。
王飛認為,最一開始大家對這個項目的預計是不足的,主要是由于困難程度的評估多來自于聽別人說,因此,在項目試點前期出了很多問題,包括很多功能沒有上線,上線不符合預期,各種各樣的前端去反饋等等。
另一個困難是,最初人手嚴重不足,直到后來,以黃謙代表的新的優化團隊進來,情況才得以好轉,
不過,對于黃謙來講,當時的情況也非常艱難,他談到,“比如我們最開始去盤一些性能問題的接口,最初有問題的接口只有30多個,可隨著不斷地深入,這個數字由30變為了60,又變為了100,知道最后一輪發現有超過150多個問題接口。”
他接著補充道:“當時就我一個人在,要負責三、四十款產品所有的配置,包括跟客戶的溝通,架構的設計、運維保障等等。確實是完全超負荷的。”
屋漏偏逢連夜雨,
在客戶側,隨著合作的深入,需求也在不斷地更改和增多,這樣一來,包括應用、架構、資源都要跟著變,十分耗時耗力。
好不容易,終于一路闖關捱到了試點上線,新的問題又出現了,
根據計劃,這次人口普查主要分為五次試點,第一次是在福建,第二次是在江蘇鎮江,第三次、第四次、第五次都是十幾個省在普查,這幾次試點工作主要集中在五六月份進行。
其中,最為驚險的一次發生在第三次試點上線的時候。
“我印象中到第三次,這是小程式離線模式第一次正式上線,而且是十幾個省第一次一起上線試點,當時暴露出非常多問題,”王飛現在提起這段,還有點心有余悸,
在統計局看來,有兩個底線是不能突破的——第一個,小程式不能有大范圍的登入不上;第二個,采集的數據不能丟,因為丟一條數據證明少一個人,
但是,這次試點測試時,一線普查員反饋出現了漏報問題。而這種情況使得統計局直接質疑了騰訊的設計:以小程式的模式去做采集是否OK,以至于想把整個方案推翻掉重做。
對此,黃謙談到,這次是首次進行的嘗試,所以沒有太多前面可參考的東西,大家也是摸石頭過河,
另外,統計局沒有給一個線上架構優化的空間,上來就這么多量。它不是一個逐步迭代的過程,而是一步到位的過程,所以要考慮到太多突發并發的情況。
找一個14億人的通解
在整個大體框架搭建進行的同時,騰訊的另一只隊伍也在如何更好地交互和使用上進行探索著,因為這涉及到要包容14億人口,知情人士透露,在第六次人口普查的時候,其實嘗試過能夠部分進行電子化采集,但當時好像效果不是很好,就沒有繼續進行,
作為統計局,則需要考慮一些很實際的問題,比方說一個普查員負責80到100戶,那如何在一個普查小區里把這些戶分配給不同的普查員,一棟樓是按一個樓梯間分80戶還是一樓到十樓是80戶,
騰訊團隊人員Afina回憶稱:“當時有一個很具體的問題,南方跟北方樓門的叫法是不一樣的。我們討論了好久,一直都發現那個表數沒有對上,最后才明白說的不是同一個東西,”
像這樣的問題,統計局也會比較擔心,想找到一套標準能夠全國通用的方法,但是,另一個困難的地方在于客戶都不確定是不是要開放自主填報,因為從來沒有試過。
從騰訊角度,希望給到更開放的自主填報模式,比如不需要通過普查員,在電梯上面或者其他渠道掃二維碼就能夠自己填。
但最終實行的自主填報模式,必須要普查員找到本人后,提供一個獨立密碼,甚至還要加一下微信,才開始自己去填。這其實是在一定限度里一個沒有完全放開的自主填報。
而統計局的擔心也不無道理,畢竟并不是每個人都能很好地完成自主填報,
關于這一點,一直跑在一線調研的Afina感受尤其明顯,她談到:“部分用戶操作能力差一些,有一些上了年紀的用戶,他們使用各方面都有問題。”
實際上確實是有很多大爺大媽,譬如有一個環節是教大家去打開iPad,真的是連開機都不會開。工程師們心里面是很涼的——按照老人對智能化工具的理解與操作水平,怎么用數字化的工具完成普查呢,他們非常害怕,
后面隨著調研的深入,還有驚訝的情況出現,
有一些基層普查員表示,按照以往普查的經驗,要求他們先填在紙上面,再填到機器上面,
實際上這次應該是由機器去錄的,但他們還是依照了固有的經驗,并沒有使用機器,背后原因則在于,普查員覺得同一時間發表、收表能夠節約時間,其次,他們并不熟悉機器錄入的操作,
這樣的情況,也就有了很多像開篇我老母親一樣的普查員的操作,
另一方面是面向普通大眾的,Afina坦言“很多資訊是存在缺失的。比如去棚戶區的時候,我們進去需要打著手電,就像一座廢棄的大樓,里面是一個已經拆掉的地方,普查員帶著我們走過很黑很黑的房間,完全空曠的房間,突然發現這兒有一個燈,居然還有個床,有人住在這里。”
隨之而來的,Afina當時還有一個念頭,“就覺得可能普世化調查中很多人群,我們原先設定的那種上報條件在他們看來還是比較高端或者是不太好實現。”
所以,這就要求在設計高頻操作,就是錄常規資訊的時候,要盡量把這個過程便捷性上做到極致,操作的容錯做到極致,
這樣,不管是上年紀的叔叔阿姨,還是其他被調查者,都能夠在很大程度上接納這樣一種數字化的錄入方式。
企業微信是除了騰訊云團隊之外,另一個自始至終參與這個項目的團隊,
一個有意思的事情是,雖然雙方已經明確要用企業微信來管理普查員,但具體的普查人數,一直也沒有明確的數量級,直到后來才預估出了這樣的數目,
企業微信的壓力主要就來自于這突然上來的700萬人,
舉一個最簡單的例子,如何能讓這700萬人順利地把企業微信應用安裝在行動電話上?這個通知用什么手段發下去,讓每一個普查員知道且會用?
全都是難題,
另外,因為企業微信是一個公開的平臺類產品,對于統計的業務、普查的一些具體場景,一開始會有能力上的不足。
還有個細節是,每次的人口普查都會有一些不法分子冒充普查員。
為了避免這種情況發生,今年的普查員都會佩戴一個證件,而這個證件上面印有普查員的企業微信二維碼,老百姓可以通過掃這個二維碼看到普查員的真實身份資訊。
同樣,在如果有需要的情況下,他還可以去加普查員的好友,比如說去預約一個上門時間。
總之,在2020年人口普查中,普查員仍然是一個必不可少的崗位,甚至仍然耗費著人的大量精力,而技術在這其中,則偶爾扮演著一個吃力不討好,但正在緩慢適應的角色,
結尾:
轉眼之間,2020年人口普查已經進入抽查階段,到12月幾乎接近尾聲,
當被問及,內部是如何定位這個項目時,譚旭表示,可以用他們一個群名來概括,那就是“TOP1重點保障”,
據悉,對于這次人口普查,馬化騰也有話說。
他曾在朋友圈發文稱:“企業微信+小程式:700萬B端內部組織,連接14億C端,這個規模罕見了。”
但是,技術的局限性,也在這場浩浩蕩蕩的社會大解剖中,暴露無遺,