抖音背后的算法推薦邏輯
推薦算法已并非新生事物,但圍繞它的爭議卻從未間斷。這些爭議包括推薦算法帶來標(biāo)題黨、低質(zhì)量、甚至虛假內(nèi)容以及信息繭房的問題。很多人對推薦算法技術(shù)存在誤解,認(rèn)為算法是給內(nèi)容打上對應(yīng)標(biāo)簽,再給用戶打上對應(yīng)的屬性,最后通過數(shù)據(jù)運(yùn)算,把對應(yīng)標(biāo)簽的內(nèi)容推薦給有對應(yīng)屬性的用戶。實(shí)際上,隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,抖音的推薦系統(tǒng)已幾乎不依賴對內(nèi)容或者用戶打標(biāo)簽,而是通過復(fù)雜的神經(jīng)網(wǎng)絡(luò)計(jì)算,直接預(yù)測每個用戶對每條內(nèi)容可能產(chǎn)生的互動行為概率。
本文引用地址:http://www.bjwjmy.cn/article/202504/469675.htm機(jī)器學(xué)習(xí)對推薦算法的主要貢獻(xiàn)在于建立評分系統(tǒng),在海量算力和海量供給的環(huán)境里,把用戶行為抽象成數(shù)學(xué)里的映射關(guān)系,給用戶推薦以他為標(biāo)準(zhǔn)的高評分內(nèi)容的目標(biāo)。
算法會圍繞用戶的反饋建模,有沒有點(diǎn)贊、看到了第幾秒、寫了什么評論、是否點(diǎn)開了作者主頁……等等,這些互動都會讓算法對一個用戶的了解逐漸加深,是抖音推薦算法的「北極星指標(biāo)」,最終越來越準(zhǔn)確的“預(yù)測”用戶行為的發(fā)生率,就是把反饋價(jià)值最高的視頻推給用戶。這意味著,在這個高密度的數(shù)據(jù)化時(shí)代,算法無需深入理解內(nèi)容的具體類型或語義,就能高效預(yù)測用戶的潛在興趣和行為。
抖音背后的算法
過去短視頻平臺的推薦算法是在給內(nèi)容和用戶打標(biāo)簽,然后去做相互匹配,甚至產(chǎn)生了很多教人在養(yǎng)號時(shí)怎么引導(dǎo)系統(tǒng)給自己打標(biāo)簽的玄學(xué)。然而,標(biāo)簽機(jī)制是人工編輯時(shí)代的經(jīng)驗(yàn)殘余,是讓算法模仿人類的糊涂做法,只有在非常早期的推薦算法里才有用過,當(dāng)機(jī)器學(xué)習(xí)的技術(shù)成熟之后,依靠幾百個標(biāo)簽去理解內(nèi)容的做法就完全被淘汰掉了。
近日,抖音安全與信任中心網(wǎng)站已上線試運(yùn)營,公開了抖音算法推薦系統(tǒng)的原理、用戶行為背后的算法推薦邏輯以及平臺人工治理識別各類風(fēng)險(xiǎn)等內(nèi)容。當(dāng)前抖音推薦算法的核心邏輯可以簡化為“推薦優(yōu)先級公式”:綜合預(yù)測用戶行為概率×行為價(jià)值權(quán)重=視頻推薦優(yōu)先級。
推薦優(yōu)先級公式
抖音推薦算法作為人工智能機(jī)器學(xué)習(xí)技術(shù)的重要應(yīng)用場景,本質(zhì)上是一套高效的信息過濾系統(tǒng)。在抖音的實(shí)際應(yīng)用中,所有在平臺發(fā)布的內(nèi)容都會經(jīng)過評估,流量越高的內(nèi)容經(jīng)過評估的次數(shù)越多,標(biāo)準(zhǔn)也越嚴(yán)格,“人工+機(jī)器”審核相互分工又密切配合 —— 機(jī)器負(fù)責(zé)「寬度」評估所有投稿,人工負(fù)責(zé)「深度」。創(chuàng)作者將內(nèi)容上傳至后,首先進(jìn)入機(jī)器識別環(huán)節(jié):如果內(nèi)容被識別出含有高危特征,將被直接攔截;若未命中高危特征但模型判斷有問題,則會送至人工審核,若問題概率較低,則獲得基礎(chǔ)流量進(jìn)入下一環(huán)節(jié)。內(nèi)容被舉報(bào)、評論區(qū)出現(xiàn)集中質(zhì)疑、流量激增等情況出現(xiàn),均可能觸發(fā)再次審核,并導(dǎo)致停止進(jìn)一步推薦和分發(fā)的處置。
抖音基于用戶行為的推薦方法包含多種技術(shù)模型,如協(xié)同過濾、雙塔召回、Wide&Deep模型(均為推薦系統(tǒng)中常用模型)等。算法可以在完全“不理解內(nèi)容”的情況下,找到興趣相似的用戶,把其他人感興趣的內(nèi)容推薦給該用戶。
· 協(xié)同過濾推薦算法是最經(jīng)典的推薦算法,基于內(nèi)容的協(xié)同過濾算法會分析和比較用戶行為。比如,用戶A觀看了內(nèi)容X、Y、Z,用戶B觀看了內(nèi)容X、Z、W,用戶C觀看了內(nèi)容X、Z、V,算法就會判定X和Z之間就有較高的相似度,系統(tǒng)會根據(jù)用戶對已觀看或已評分內(nèi)容的偏好,為用戶推薦與這些內(nèi)容相似的其他內(nèi)容。其原理就是,找到和你興趣相似的用戶,把他們感興趣的內(nèi)容也推薦給你。
· Wide&Deep模型是抖音推薦算法主力模型之一,由Wide部分和Deep部分組成。Wide部分的主要作用是讓模型具有較強(qiáng)的“記憶能力”,模型可直接學(xué)習(xí)并利用歷史數(shù)據(jù)中物品或者特征的“共現(xiàn)頻率”;Deep部分的主要作用是讓模型具有“泛化能力”,能夠發(fā)掘稀疏甚至從未出現(xiàn)過的稀有特征與最終標(biāo)簽相關(guān)性。以知識圖譜的跨域推薦,助力信息高效分發(fā)和連接,能夠解決協(xié)同過濾算法推薦結(jié)果頭部效應(yīng)比較明顯的問題。
當(dāng)Wide&Deep模型與協(xié)同過濾算法共同發(fā)揮作用,平臺既可以快速推薦熱門內(nèi)容,又能挖掘用戶潛在的多樣化興趣,讓小眾內(nèi)容能被更多用戶關(guān)注。從推薦算法來看,抖音與國內(nèi)外大部分內(nèi)容推薦平臺相似,包含召回、過濾、排序等環(huán)節(jié),而從數(shù)以億計(jì)逐漸減少到數(shù)以萬計(jì)、數(shù)以千計(jì),直到篩選出幾條用戶能夠刷到的內(nèi)容,一切都要依靠算法的「召回」能力。
如何簡單地理解「召回」:假設(shè)問一個知道結(jié)果的球迷“哪支球隊(duì)是冠軍”,那么需要猜多少次才能知道世界杯冠軍?「召回」方式是把32支球隊(duì)編號,從1到32,然后提問“冠軍在1號到16號之中嗎”?如果猜對了,就繼續(xù)問“冠軍在1號到8號之中嗎”?如果猜錯了,那么就知道冠軍必然在9號到16號之間。這就是數(shù)學(xué)模型的本事,它并不需要知道這32支球隊(duì)的強(qiáng)弱關(guān)系,卻能以低且簡潔的成本最大概率「召回」答案。
基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)構(gòu)建的推薦算法,提升了超大規(guī)模信息分發(fā)、推薦的效率,能交付人類難以快速高效完成的任務(wù)。從行為發(fā)生到現(xiàn)實(shí)有效反饋的時(shí)間已經(jīng)非常短,這種近似即時(shí)調(diào)整的機(jī)制,有助于算法更精準(zhǔn)地預(yù)判用戶行為。抖音已經(jīng)實(shí)現(xiàn)了“分鐘級”實(shí)時(shí)反饋更新。
但由于算法是通過數(shù)據(jù)收集、特征工程、模型訓(xùn)練等復(fù)雜流程嘗試復(fù)刻用戶選擇的不確定性,其本質(zhì)是數(shù)學(xué)模型的運(yùn)算過程,而非理解內(nèi)容本身,因此依然有其局限性。也正是因?yàn)檫@個特性,抖音曾嘗試直接給知識、歷史、科技等深度內(nèi)容做加熱,但實(shí)際效果不佳。此舉改變了算法的正常邏輯,會影響數(shù)據(jù)循環(huán),導(dǎo)致這些內(nèi)容的后續(xù)推薦受到干擾;此后,抖音轉(zhuǎn)換思路,針對深度內(nèi)容訓(xùn)練,預(yù)估收藏和重復(fù)觀看概率的模型,使平臺中的深度內(nèi)容分發(fā)效率更高。
價(jià)值模型就是對用戶的互動行為進(jìn)行價(jià)值計(jì)算,并通過不斷調(diào)整參數(shù),對各類價(jià)值進(jìn)行加權(quán),代表了抖音對于哪些動作可能更重要的理解。簡單來說,如果僅考慮用戶交互概率,可能會造成一些問題,比如,一些精心制作的中長優(yōu)質(zhì)視頻可能因?yàn)橥瓴ヂ瘦^低,而在分發(fā)中處于劣勢地位。通過對這些因素的深入分析和權(quán)衡,「價(jià)值最大化」原則能夠?yàn)槊總€候選內(nèi)容計(jì)算出反映其潛在價(jià)值的分?jǐn)?shù),從而為后續(xù)的推薦提供有力的依據(jù)。
而正是由于算法推送內(nèi)容的規(guī)律性,近年來在實(shí)踐層面,用戶對于“反向馴化”算法樂此不疲 —— 不連續(xù)點(diǎn)贊同類視頻、不使用平臺搜索記錄、不定期清除瀏覽痕跡,通過這種刻意制造“數(shù)據(jù)噪聲”更積極地馴化、制衡算法,主動告訴算法自己的需求和偏好,倒逼平臺算法提升推薦服務(wù)水平。
算法大時(shí)代
推薦算法的本質(zhì)是信息過濾系統(tǒng),這和信息爆炸的環(huán)境有關(guān)。根據(jù)IDC的報(bào)告顯示,全球產(chǎn)生的數(shù)據(jù)量2024年達(dá)159ZB,到2028年將達(dá)384ZB。需要說明的是,1ZB等于10萬億億個Byte,如果以一部約兩小時(shí)的4K電影約20G的大小來衡量,159ZB相當(dāng)于7.95萬億部電影,連續(xù)播放這些電影需要約18億年。這已完全超出了歷史上任何一個時(shí)代需要處理的信息體量。
抖音每天新增視頻高達(dá)億數(shù)量級,而普通用戶平均每天能夠消費(fèi)的視頻撐死了也就幾百條,那么在這有限的幾百條視頻里,怎么盡可能的確保它們都是用戶喜歡的,就是算法需要不斷精進(jìn)的母題。不少人將算法視作信息繭房推手,但事實(shí)與之相去甚遠(yuǎn)。
信息繭房一詞來源于美國法學(xué)教授凱斯·R·桑斯坦2006年出版的《信息烏托邦》,指如果人只關(guān)注和選擇自我愉悅的內(nèi)容,信息接觸面便會越來越窄,困于自我編織的繭房中。事實(shí)上,這一概念提出時(shí)并非針對算法,也沒有實(shí)證研究和量化數(shù)據(jù)支撐。
社交媒體、搜索引擎等不同網(wǎng)絡(luò)平臺實(shí)際上擴(kuò)充了用戶的信息源,不同觀點(diǎn)的網(wǎng)絡(luò)用戶集群之間不會完全隔離,使用戶接觸到的信息多樣性高于不使用這些平臺的用戶。但即使是最優(yōu)秀的算法工程師,也無法脫離算法技術(shù)的種種理論和架構(gòu),簡單解釋為什么把某個視頻推薦給了這些用戶而非那些用戶 —— 當(dāng)每個用戶都變成數(shù)據(jù)里的“點(diǎn)”時(shí),用戶無法縱覽全貌,必然極易感覺身處黑盒當(dāng)中。
此外,算法治理已成為當(dāng)今平臺面臨的共同問題。中央網(wǎng)信辦以壓實(shí)網(wǎng)站平臺主體責(zé)任為抓手,出臺系列政策法規(guī),構(gòu)建算法備案、安全評估、監(jiān)測檢查、執(zhí)法處罰等全流程監(jiān)管體系,加強(qiáng)算法治理。只有提高算法設(shè)計(jì)的透明度和算法運(yùn)行的可解釋性,才能守好算法應(yīng)用“責(zé)任田”。
評論