新聞中心

EEPW首頁 > 智能計(jì)算 > 編輯觀點(diǎn) > 抖音背后的算法推薦邏輯

抖音背后的算法推薦邏輯

作者：陳玲麗時(shí)間：2025-04-22 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

推薦算法已并非新生事物，但圍繞它的爭(zhēng)議卻從未間斷。這些爭(zhēng)議包括推薦算法帶來標(biāo)題黨、低質(zhì)量、甚至虛假內(nèi)容以及信息繭房的問題。很多人對(duì)推薦算法技術(shù)存在誤解，認(rèn)為算法是給內(nèi)容打上對(duì)應(yīng)標(biāo)簽，再給用戶打上對(duì)應(yīng)的屬性，最后通過數(shù)據(jù)運(yùn)算，把對(duì)應(yīng)標(biāo)簽的內(nèi)容推薦給有對(duì)應(yīng)屬性的用戶。實(shí)際上，隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展，抖音的推薦系統(tǒng)已幾乎不依賴對(duì)內(nèi)容或者用戶打標(biāo)簽，而是通過復(fù)雜的神經(jīng)網(wǎng)絡(luò)計(jì)算，直接預(yù)測(cè)每個(gè)用戶對(duì)每條內(nèi)容可能產(chǎn)生的互動(dòng)行為概率。

本文引用地址：http://www.bjwjmy.cn/article/202504/469675.htm

機(jī)器學(xué)習(xí)對(duì)推薦算法的主要貢獻(xiàn)在于建立評(píng)分系統(tǒng)，在海量算力和海量供給的環(huán)境里，把用戶行為抽象成數(shù)學(xué)里的映射關(guān)系，給用戶推薦以他為標(biāo)準(zhǔn)的高評(píng)分內(nèi)容的目標(biāo)。

截屏2025-04-22 13.12.06.png

算法會(huì)圍繞用戶的反饋建模，有沒有點(diǎn)贊、看到了第幾秒、寫了什么評(píng)論、是否點(diǎn)開了作者主頁……等等，這些互動(dòng)都會(huì)讓算法對(duì)一個(gè)用戶的了解逐漸加深，是抖音推薦算法的「北極星指標(biāo)」，最終越來越準(zhǔn)確的“預(yù)測(cè)”用戶行為的發(fā)生率，就是把反饋價(jià)值最高的視頻推給用戶。這意味著，在這個(gè)高密度的數(shù)據(jù)化時(shí)代，算法無需深入理解內(nèi)容的具體類型或語義，就能高效預(yù)測(cè)用戶的潛在興趣和行為。

抖音背后的算法

過去短視頻平臺(tái)的推薦算法是在給內(nèi)容和用戶打標(biāo)簽，然后去做相互匹配，甚至產(chǎn)生了很多教人在養(yǎng)號(hào)時(shí)怎么引導(dǎo)系統(tǒng)給自己打標(biāo)簽的玄學(xué)。然而，標(biāo)簽機(jī)制是人工編輯時(shí)代的經(jīng)驗(yàn)殘余，是讓算法模仿人類的糊涂做法，只有在非常早期的推薦算法里才有用過，當(dāng)機(jī)器學(xué)習(xí)的技術(shù)成熟之后，依靠幾百個(gè)標(biāo)簽去理解內(nèi)容的做法就完全被淘汰掉了。

近日，抖音安全與信任中心網(wǎng)站已上線試運(yùn)營(yíng)，公開了抖音算法推薦系統(tǒng)的原理、用戶行為背后的算法推薦邏輯以及平臺(tái)人工治理識(shí)別各類風(fēng)險(xiǎn)等內(nèi)容。當(dāng)前抖音推薦算法的核心邏輯可以簡(jiǎn)化為“推薦優(yōu)先級(jí)公式”：綜合預(yù)測(cè)用戶行為概率×行為價(jià)值權(quán)重=視頻推薦優(yōu)先級(jí)。

截屏2025-04-22 13.13.09.png

推薦優(yōu)先級(jí)公式

抖音推薦算法作為人工智能機(jī)器學(xué)習(xí)技術(shù)的重要應(yīng)用場(chǎng)景，本質(zhì)上是一套高效的信息過濾系統(tǒng)。在抖音的實(shí)際應(yīng)用中，所有在平臺(tái)發(fā)布的內(nèi)容都會(huì)經(jīng)過評(píng)估，流量越高的內(nèi)容經(jīng)過評(píng)估的次數(shù)越多，標(biāo)準(zhǔn)也越嚴(yán)格，“人工+機(jī)器”審核相互分工又密切配合 —— 機(jī)器負(fù)責(zé)「寬度」評(píng)估所有投稿，人工負(fù)責(zé)「深度」。創(chuàng)作者將內(nèi)容上傳至后，首先進(jìn)入機(jī)器識(shí)別環(huán)節(jié)：如果內(nèi)容被識(shí)別出含有高危特征，將被直接攔截；若未命中高危特征但模型判斷有問題，則會(huì)送至人工審核，若問題概率較低，則獲得基礎(chǔ)流量進(jìn)入下一環(huán)節(jié)。內(nèi)容被舉報(bào)、評(píng)論區(qū)出現(xiàn)集中質(zhì)疑、流量激增等情況出現(xiàn)，均可能觸發(fā)再次審核，并導(dǎo)致停止進(jìn)一步推薦和分發(fā)的處置。

抖音基于用戶行為的推薦方法包含多種技術(shù)模型，如協(xié)同過濾、雙塔召回、Wide&Deep模型（均為推薦系統(tǒng)中常用模型）等。算法可以在完全“不理解內(nèi)容”的情況下，找到興趣相似的用戶，把其他人感興趣的內(nèi)容推薦給該用戶。

· 協(xié)同過濾推薦算法是最經(jīng)典的推薦算法，基于內(nèi)容的協(xié)同過濾算法會(huì)分析和比較用戶行為。比如，用戶A觀看了內(nèi)容X、Y、Z，用戶B觀看了內(nèi)容X、Z、W，用戶C觀看了內(nèi)容X、Z、V，算法就會(huì)判定X和Z之間就有較高的相似度，系統(tǒng)會(huì)根據(jù)用戶對(duì)已觀看或已評(píng)分內(nèi)容的偏好，為用戶推薦與這些內(nèi)容相似的其他內(nèi)容。其原理就是，找到和你興趣相似的用戶，把他們感興趣的內(nèi)容也推薦給你。

· Wide&Deep模型是抖音推薦算法主力模型之一，由Wide部分和Deep部分組成。Wide部分的主要作用是讓模型具有較強(qiáng)的“記憶能力”，模型可直接學(xué)習(xí)并利用歷史數(shù)據(jù)中物品或者特征的“共現(xiàn)頻率”；Deep部分的主要作用是讓模型具有“泛化能力”，能夠發(fā)掘稀疏甚至從未出現(xiàn)過的稀有特征與最終標(biāo)簽相關(guān)性。以知識(shí)圖譜的跨域推薦，助力信息高效分發(fā)和連接，能夠解決協(xié)同過濾算法推薦結(jié)果頭部效應(yīng)比較明顯的問題。

當(dāng)Wide&Deep模型與協(xié)同過濾算法共同發(fā)揮作用，平臺(tái)既可以快速推薦熱門內(nèi)容，又能挖掘用戶潛在的多樣化興趣，讓小眾內(nèi)容能被更多用戶關(guān)注。從推薦算法來看，抖音與國(guó)內(nèi)外大部分內(nèi)容推薦平臺(tái)相似，包含召回、過濾、排序等環(huán)節(jié)，而從數(shù)以億計(jì)逐漸減少到數(shù)以萬計(jì)、數(shù)以千計(jì)，直到篩選出幾條用戶能夠刷到的內(nèi)容，一切都要依靠算法的「召回」能力。

如何簡(jiǎn)單地理解「召回」：假設(shè)問一個(gè)知道結(jié)果的球迷“哪支球隊(duì)是冠軍”，那么需要猜多少次才能知道世界杯冠軍？「召回」方式是把32支球隊(duì)編號(hào)，從1到32，然后提問“冠軍在1號(hào)到16號(hào)之中嗎”？如果猜對(duì)了，就繼續(xù)問“冠軍在1號(hào)到8號(hào)之中嗎”？如果猜錯(cuò)了，那么就知道冠軍必然在9號(hào)到16號(hào)之間。這就是數(shù)學(xué)模型的本事，它并不需要知道這32支球隊(duì)的強(qiáng)弱關(guān)系，卻能以低且簡(jiǎn)潔的成本最大概率「召回」答案。

基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)構(gòu)建的推薦算法，提升了超大規(guī)模信息分發(fā)、推薦的效率，能交付人類難以快速高效完成的任務(wù)。從行為發(fā)生到現(xiàn)實(shí)有效反饋的時(shí)間已經(jīng)非常短，這種近似即時(shí)調(diào)整的機(jī)制，有助于算法更精準(zhǔn)地預(yù)判用戶行為。抖音已經(jīng)實(shí)現(xiàn)了“分鐘級(jí)”實(shí)時(shí)反饋更新。

但由于算法是通過數(shù)據(jù)收集、特征工程、模型訓(xùn)練等復(fù)雜流程嘗試復(fù)刻用戶選擇的不確定性，其本質(zhì)是數(shù)學(xué)模型的運(yùn)算過程，而非理解內(nèi)容本身，因此依然有其局限性。也正是因?yàn)檫@個(gè)特性，抖音曾嘗試直接給知識(shí)、歷史、科技等深度內(nèi)容做加熱，但實(shí)際效果不佳。此舉改變了算法的正常邏輯，會(huì)影響數(shù)據(jù)循環(huán)，導(dǎo)致這些內(nèi)容的后續(xù)推薦受到干擾；此后，抖音轉(zhuǎn)換思路，針對(duì)深度內(nèi)容訓(xùn)練，預(yù)估收藏和重復(fù)觀看概率的模型，使平臺(tái)中的深度內(nèi)容分發(fā)效率更高。

價(jià)值模型就是對(duì)用戶的互動(dòng)行為進(jìn)行價(jià)值計(jì)算，并通過不斷調(diào)整參數(shù)，對(duì)各類價(jià)值進(jìn)行加權(quán)，代表了抖音對(duì)于哪些動(dòng)作可能更重要的理解。簡(jiǎn)單來說，如果僅考慮用戶交互概率，可能會(huì)造成一些問題，比如，一些精心制作的中長(zhǎng)優(yōu)質(zhì)視頻可能因?yàn)橥瓴ヂ瘦^低，而在分發(fā)中處于劣勢(shì)地位。通過對(duì)這些因素的深入分析和權(quán)衡，「價(jià)值最大化」原則能夠?yàn)槊總€(gè)候選內(nèi)容計(jì)算出反映其潛在價(jià)值的分?jǐn)?shù)，從而為后續(xù)的推薦提供有力的依據(jù)。

而正是由于算法推送內(nèi)容的規(guī)律性，近年來在實(shí)踐層面，用戶對(duì)于“反向馴化”算法樂此不疲 —— 不連續(xù)點(diǎn)贊同類視頻、不使用平臺(tái)搜索記錄、不定期清除瀏覽痕跡，通過這種刻意制造“數(shù)據(jù)噪聲”更積極地馴化、制衡算法，主動(dòng)告訴算法自己的需求和偏好，倒逼平臺(tái)算法提升推薦服務(wù)水平。

算法大時(shí)代

推薦算法的本質(zhì)是信息過濾系統(tǒng)，這和信息爆炸的環(huán)境有關(guān)。根據(jù)IDC的報(bào)告顯示，全球產(chǎn)生的數(shù)據(jù)量2024年達(dá)159ZB，到2028年將達(dá)384ZB。需要說明的是，1ZB等于10萬億億個(gè)Byte，如果以一部約兩小時(shí)的4K電影約20G的大小來衡量，159ZB相當(dāng)于7.95萬億部電影，連續(xù)播放這些電影需要約18億年。這已完全超出了歷史上任何一個(gè)時(shí)代需要處理的信息體量。

抖音每天新增視頻高達(dá)億數(shù)量級(jí)，而普通用戶平均每天能夠消費(fèi)的視頻撐死了也就幾百條，那么在這有限的幾百條視頻里，怎么盡可能的確保它們都是用戶喜歡的，就是算法需要不斷精進(jìn)的母題。不少人將算法視作信息繭房推手，但事實(shí)與之相去甚遠(yuǎn)。

信息繭房一詞來源于美國(guó)法學(xué)教授凱斯·R·桑斯坦2006年出版的《信息烏托邦》，指如果人只關(guān)注和選擇自我愉悅的內(nèi)容，信息接觸面便會(huì)越來越窄，困于自我編織的繭房中。事實(shí)上，這一概念提出時(shí)并非針對(duì)算法，也沒有實(shí)證研究和量化數(shù)據(jù)支撐。

截屏2025-04-22 13.16.14.png

社交媒體、搜索引擎等不同網(wǎng)絡(luò)平臺(tái)實(shí)際上擴(kuò)充了用戶的信息源，不同觀點(diǎn)的網(wǎng)絡(luò)用戶集群之間不會(huì)完全隔離，使用戶接觸到的信息多樣性高于不使用這些平臺(tái)的用戶。但即使是最優(yōu)秀的算法工程師，也無法脫離算法技術(shù)的種種理論和架構(gòu)，簡(jiǎn)單解釋為什么把某個(gè)視頻推薦給了這些用戶而非那些用戶 —— 當(dāng)每個(gè)用戶都變成數(shù)據(jù)里的“點(diǎn)”時(shí)，用戶無法縱覽全貌，必然極易感覺身處黑盒當(dāng)中。

此外，算法治理已成為當(dāng)今平臺(tái)面臨的共同問題。中央網(wǎng)信辦以壓實(shí)網(wǎng)站平臺(tái)主體責(zé)任為抓手，出臺(tái)系列政策法規(guī)，構(gòu)建算法備案、安全評(píng)估、監(jiān)測(cè)檢查、執(zhí)法處罰等全流程監(jiān)管體系，加強(qiáng)算法治理。只有提高算法設(shè)計(jì)的透明度和算法運(yùn)行的可解釋性，才能守好算法應(yīng)用“責(zé)任田”。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞：抖音算法 機(jī)器學(xué)習(xí) 神經(jīng)網(wǎng)絡(luò) 標(biāo)簽

熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

新聞中心

抖音背后的算法推薦邏輯

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)