近期,科普視頻博主畢導(dǎo)發(fā)布了一期名為《世界是對(duì)數(shù)的》的視頻,引發(fā)了廣泛討論。視頻中展示了一個(gè)奇妙的現(xiàn)象:生活中有很多數(shù)字符合“本福特定律”,如隨機(jī)在社交媒體上刷新視頻,會(huì)發(fā)現(xiàn)這些視頻的點(diǎn)贊數(shù),其首位數(shù)字(例如,1.8萬贊的首位數(shù)字是1,98萬贊的首位數(shù)字是9)的分布極不均勻——大約有30%的視頻點(diǎn)贊數(shù)是以“1”開頭的。視頻介紹了這個(gè)被稱為“本福特定律”的及更深入的對(duì)數(shù)均勻分布現(xiàn)象,但并未深入解釋其在社交網(wǎng)絡(luò)中的成因。
圖 1 畢導(dǎo)《世界是對(duì)數(shù)的》視頻截圖
本文旨在闡明,這一現(xiàn)象并非巧合或所謂的平臺(tái)“玄學(xué)” ,其背后是數(shù)學(xué)定律與現(xiàn)代推薦算法共同作用的必然結(jié)果 。本文將深入剖析本福特定律如何內(nèi)嵌于社交平臺(tái)以乘法為核心的推薦邏輯之中,并系統(tǒng)論述這一規(guī)律如何塑造了當(dāng)下的信息傳播生態(tài)。理解這一機(jī)制,不僅能幫助我們看清社交媒體信息流的構(gòu)建方式,更能為輿情分析與研判工作提供一個(gè)新穎、深刻且具備數(shù)據(jù)科學(xué)支撐的分析視角 。
本小節(jié)會(huì)帶沒有看過畢導(dǎo)視頻的讀者快速了解下本福特定律,已經(jīng)有所了解的可跳過此節(jié)。
本福特定律,又稱“第一數(shù)字定律”(First-Digit Law),是一種揭示在真實(shí)、自然產(chǎn)生的海量數(shù)據(jù)集中,首位數(shù)字分布規(guī)律的統(tǒng)計(jì)學(xué)原理 。該定律最早在19世紀(jì)末由天文學(xué)家西蒙·紐康所發(fā)現(xiàn) 。與人們通常認(rèn)為數(shù)字1到9作為首位數(shù)出現(xiàn)概率均等(即各占約11.1%)的直覺不同,本福特定律指出,這些數(shù)字的出現(xiàn)概率呈系統(tǒng)性的不均衡分布 。具體而言,以“1”作為首位數(shù)字的數(shù),其出現(xiàn)概率約為30%,而隨著首位數(shù)字的增大,其出現(xiàn)概率則呈現(xiàn)遞減趨勢(shì) 。
這個(gè)定律可以用一個(gè)簡(jiǎn)潔的數(shù)學(xué)公式來描述,即首位數(shù)字為 d(d 是從1到9的整數(shù))的概率 P(d) 為:
本福特定律并非普遍適用,其有效性依賴于數(shù)據(jù)集滿足以下三個(gè)關(guān)鍵前提 :
跨越多個(gè)數(shù)量級(jí):數(shù)據(jù)必須分布在廣闊的范圍內(nèi),例如,數(shù)值涵蓋從幾百到幾百萬 。單一數(shù)量級(jí)內(nèi)(如身高、年齡)的數(shù)據(jù)通常不符合該定律。。
非人為設(shè)定限制:數(shù)據(jù)是自然產(chǎn)生或記錄的,未經(jīng)過人為的編輯、限制或設(shè)定上下限(如考試分?jǐn)?shù)、電話號(hào)碼)。
源于乘法過程:數(shù)據(jù)最好是由多個(gè)因素相乘產(chǎn)生的結(jié)果 。例如,公司利潤(rùn)由“銷售量 × 單價(jià) × 利潤(rùn)率”等多個(gè)變量相乘決定。
該定律廣泛存在于各類真實(shí)世界的數(shù)據(jù)中,如各國(guó)的GDP、人口數(shù)量、財(cái)務(wù)報(bào)表、股票價(jià)格,乃至河流的長(zhǎng)度和物理常數(shù)等 。
為了驗(yàn)證社交媒體上的用戶行為數(shù)據(jù)(以點(diǎn)贊數(shù)為例)為何會(huì)遵循本福特定律,我們需審視其數(shù)據(jù)生成過程是否滿足前述的三項(xiàng)前提條件 。其核心在于理解現(xiàn)代社交媒體的命脈——推薦算法。
過去,各大平臺(tái)的核心推薦算法如同“黑箱”,其運(yùn)行機(jī)制對(duì)外保密 。然而,隨著國(guó)家網(wǎng)信部門對(duì)算法透明化的要求,主流平臺(tái)相繼公開了其推薦算法的基本邏輯 。以抖音公布的推薦模型為例,其核心是“推薦優(yōu)先級(jí)公式”:綜合預(yù)測(cè)用戶行為概率 × 行為價(jià)值權(quán)重 = 視頻推薦優(yōu)先級(jí)。
這個(gè)公式中的“綜合預(yù)測(cè)用戶行為概率”本身就是由用戶點(diǎn)贊、評(píng)論、收藏等多個(gè)概率因子相乘構(gòu)成 ,而“行為價(jià)值權(quán)重”則包含了用戶價(jià)值、作者價(jià)值、平臺(tái)價(jià)值等多個(gè)維度 。
基于此,我們可以判定,由該算法驅(qū)動(dòng)的數(shù)據(jù)完全符合本福特定律的適用前提:
源于乘法過程:推薦算法的核心即為一系列復(fù)雜的乘法運(yùn)算,通過將不同維度的指標(biāo)相乘來決定內(nèi)容的最終推薦權(quán)重 。
跨越多個(gè)數(shù)量級(jí):在算法的加持下,視頻的播放量與點(diǎn)贊數(shù)能夠輕易地跨越從個(gè)位數(shù)到數(shù)千萬的巨大數(shù)量級(jí)范圍 。
數(shù)據(jù)自然產(chǎn)生:視頻的曝光和傳播主要由算法依據(jù)數(shù)據(jù)表現(xiàn)自動(dòng)調(diào)節(jié),而非人為強(qiáng)行干預(yù)或限制,符合自然記錄的特性。
既然“視頻推薦優(yōu)先級(jí)”符合定律,那么“視頻點(diǎn)贊數(shù)”呢??jī)烧咧g存在著清晰的傳導(dǎo)關(guān)系。我們可以進(jìn)行一個(gè)簡(jiǎn)單的邏輯推導(dǎo) :
我們已知:
視頻推薦優(yōu)先級(jí) ≈ (用戶行為概率) × (行為價(jià)值權(quán)重)
并且,平臺(tái)的推薦系統(tǒng)會(huì)根據(jù)這個(gè)“優(yōu)先級(jí)”來分配流量,所以:
推薦次數(shù) ≈ C × 視頻推薦優(yōu)先級(jí) (其中C是一個(gè)由平臺(tái)流量決定的系數(shù))
又因?yàn)椋?/strong>
點(diǎn)贊數(shù) ≈ 推薦次數(shù) × 平均點(diǎn)贊率
將它們結(jié)合起來,我們可以得到:
點(diǎn)贊數(shù) ≈ C × [(用戶行為概率) × (行為價(jià)值權(quán)重)] × 平均點(diǎn)贊率
這個(gè)公式清晰地表明,“點(diǎn)贊數(shù)”這一我們能直接觀測(cè)到的數(shù)據(jù),其最終形成依然是一個(gè)由各類因子環(huán)環(huán)相扣、層層相乘所決定的結(jié)果 。因此,短視頻的點(diǎn)贊數(shù)完美地滿足了本福特定律的全部適用條件,其首位數(shù)字分布自然會(huì)呈現(xiàn)出“1”占主導(dǎo)的現(xiàn)象 。
本福特定律看似神秘,但其背后有堅(jiān)實(shí)的數(shù)學(xué)原理支撐。我們可以從直觀和理論兩個(gè)層面來理解它。
1. 直觀理解:
想象一下一個(gè)視頻的點(diǎn)贊數(shù)正在增長(zhǎng),它就像一個(gè)登山者正在攀登一座數(shù)字高峰:
要從1萬贊爬升到2萬贊,點(diǎn)贊數(shù)需要翻一倍,即實(shí)現(xiàn)100%的增長(zhǎng)。
要從8萬贊爬升到9萬贊,點(diǎn)贊數(shù)僅需增長(zhǎng)12.5%。
要從9萬贊爬升到10萬贊,點(diǎn)贊數(shù)僅需增長(zhǎng)約11%。
這意味著,在一個(gè)數(shù)量級(jí)內(nèi)(如萬位級(jí)),首位數(shù)字“1”所占據(jù)的“賽道”是最寬、最漫長(zhǎng)的 。一個(gè)數(shù)值停留在“1字頭”(如10000-19999)區(qū)間所需完成的“增長(zhǎng)任務(wù)”,遠(yuǎn)比停留在“8字頭”或“9字頭”等后續(xù)區(qū)間更為艱巨和耗時(shí) 。因此,當(dāng)我們?cè)谌我鈺r(shí)間點(diǎn)對(duì)海量視頻數(shù)據(jù)進(jìn)行“隨機(jī)快照”(即我們刷新信息流的行為)時(shí),觀測(cè)到正處于“1字頭”區(qū)間的視頻的概率,自然就遠(yuǎn)高于其他數(shù)字開頭的區(qū)間 。
2. 數(shù)學(xué)原理:
這里用盡量簡(jiǎn)單的語(yǔ)言描述下原理。如需嚴(yán)格的數(shù)學(xué)證明可以參見論文《A Statistical Derivation of the Significant-Digit Law》。其核心邏輯在于,多個(gè)獨(dú)立因素的相乘,在對(duì)數(shù)變換和中心極限定理的作用下,其結(jié)果的首位數(shù)字會(huì)趨向于本福特分布 。
(1)多個(gè)獨(dú)立因素相乘:一個(gè)結(jié)果(Y)由多個(gè)獨(dú)立的隨機(jī)因素(F?, F?, ..., F?)相乘得到 。
(2)對(duì)數(shù)變換:對(duì)等式兩邊取對(duì)數(shù),將乘法關(guān)系轉(zhuǎn)化為加法關(guān)系:log(Y)=log(F1)+log(F2)+?+log(Fn) 。
(3)中心極限定理:根據(jù)中心極限定理,大量獨(dú)立隨機(jī)變量之和,其分布會(huì)趨向于正態(tài)分布 。在本案例中,由于因素眾多,形成的將是一個(gè)方差很大的正態(tài)分布 。
(4)對(duì)數(shù)尾數(shù)均勻分布:一個(gè)關(guān)鍵的數(shù)學(xué)性質(zhì)是,當(dāng)一個(gè)隨機(jī)變量的對(duì)數(shù)服從一個(gè)局部平坦(方差很大)的分布時(shí),其對(duì)數(shù)值的小數(shù)部分(即“對(duì)數(shù)尾數(shù)”)會(huì)趨向于在[0, 1)區(qū)間上均勻分布 。
(5)形成本福特分布:對(duì)數(shù)尾數(shù)的均勻分布,在通過反對(duì)數(shù)運(yùn)算轉(zhuǎn)換回原始數(shù)據(jù)尺度后,直接導(dǎo)致了其首位數(shù)字呈現(xiàn)出本福特定律所描述的非均勻分布 。
3. 從數(shù)學(xué)原理推導(dǎo)出的關(guān)鍵結(jié)論
理解上述數(shù)學(xué)機(jī)理,能為我們提供幾條極具實(shí)踐價(jià)值的推論:
算法的復(fù)雜性是前提:只有當(dāng)算法的乘法因子足夠多(通常認(rèn)為大于10個(gè)),才會(huì)產(chǎn)生顯著的本福特分布效應(yīng) 。這印證了現(xiàn)代推薦算法的高度復(fù)雜性。
結(jié)果對(duì)系數(shù)調(diào)整具有穩(wěn)健性:簡(jiǎn)單地改變算法公式中各個(gè)因子的權(quán)重系數(shù),并不會(huì)改變最終結(jié)果數(shù)據(jù)遵循本福特定律這一事實(shí) 。
結(jié)果對(duì)直接篡改具有敏感性:如果直接對(duì)符合本福特定律的結(jié)果數(shù)據(jù)進(jìn)行人為修改或偽造(如購(gòu)買“水軍”刷贊),會(huì)導(dǎo)致數(shù)據(jù)分布偏離本福特定律 。這為識(shí)別數(shù)據(jù)異常和流量造假提供了有力的檢測(cè)工具。
基于對(duì)推薦算法與本福特定律內(nèi)在關(guān)聯(lián)的剖析,我們可以得出一個(gè)核心結(jié)論:純粹由算法驅(qū)動(dòng)的輿論場(chǎng),其運(yùn)行邏輯必然會(huì)導(dǎo)致熱度的極端分化 。這一規(guī)律深刻揭示了當(dāng)前數(shù)字輿論生態(tài)的結(jié)構(gòu)性特征,并為輿情分析與研判工作提供了全新的、基于數(shù)據(jù)科學(xué)的視角 。
1. 揭示輿論場(chǎng)的內(nèi)在結(jié)構(gòu)性風(fēng)險(xiǎn)
現(xiàn)代推薦算法以乘法為核心的內(nèi)在機(jī)制,塑造了“贏家通吃”的輿論格局,并帶來了以下兩方面的結(jié)構(gòu)性風(fēng)險(xiǎn):
輿論焦點(diǎn)的過度集中與議題窄化:算法的乘法機(jī)制會(huì)天然地將巨大流量匯集于少數(shù)能高效觸發(fā)用戶互動(dòng)(如爭(zhēng)議、情緒)的“爆款”議題上。這導(dǎo)致公共議題日益狹窄和極化,大量雖有價(jià)值但不夠“刺激”的話題因無法在算法競(jìng)賽中勝出而被邊緣化,削弱了輿論場(chǎng)的多元性與深度。
“算法操縱”的隱蔽性與強(qiáng)大威力:平臺(tái)方只需對(duì)乘法公式中的某個(gè)權(quán)重進(jìn)行微調(diào),就能在外界難以察覺的情況下,極大改變輿論場(chǎng)的議題流向和熱度分布。這賦予了平臺(tái)一種隱蔽而強(qiáng)大的議程設(shè)置能力,其背后可能隱藏著商業(yè)利益或其他動(dòng)機(jī)。
為應(yīng)對(duì)算法帶來的輿論極化與隱性議程設(shè)置風(fēng)險(xiǎn),網(wǎng)信部門的核心監(jiān)管思路應(yīng)雙管齊下:一方面,需強(qiáng)制平臺(tái)優(yōu)化算法,在追求用戶互動(dòng)指標(biāo)的同時(shí),主動(dòng)引入內(nèi)容多樣性與公共價(jià)值權(quán)重,以抑制流量過度集中于少數(shù)議題 ;另一方面,應(yīng)建立常態(tài)化的算法透明與審計(jì)制度,要求平臺(tái)報(bào)備核心推薦邏輯并接受外部審查,從而利用本福特定律等工具發(fā)現(xiàn)和規(guī)制潛在的數(shù)據(jù)操縱行為,確保其強(qiáng)大的議程設(shè)置權(quán)力受到有效監(jiān)督。
2. 構(gòu)建輿情分析的全新工具箱
將算法運(yùn)行邏輯及其數(shù)據(jù)規(guī)律引入分析工作,能夠極大提升分析師的“穿透性”視野,形成一套行之有效的分析工具。
從“現(xiàn)象”到“機(jī)制”的歸因分析:在分析熱點(diǎn)事件時(shí),不應(yīng)止步于“事件火了”的觀察。應(yīng)進(jìn)一步追問:“它是通過在算法的哪個(gè)或哪幾個(gè)乘法因子(如完播率、評(píng)論率)上表現(xiàn)突出,從而贏得流量競(jìng)賽的?”。這種基于機(jī)制的分析,有助于更深刻地理解輿情引爆的內(nèi)在邏輯。
作為“數(shù)據(jù)驗(yàn)真”的檢測(cè)工具:輿情分析師可將本福特定律作為一個(gè)強(qiáng)大的“數(shù)據(jù)反?!睓z測(cè)基準(zhǔn)。在面對(duì)熱點(diǎn)事件的互動(dòng)數(shù)據(jù)時(shí),可對(duì)其進(jìn)行首位數(shù)分布檢驗(yàn)。一旦發(fā)現(xiàn)數(shù)據(jù)與定律存在顯著偏差,就可將其作為識(shí)別“偽熱點(diǎn)”或數(shù)據(jù)造假的重要研判線索。
評(píng)估與規(guī)劃議題的“爆款潛質(zhì)”:在進(jìn)行正面宣傳或議題策劃時(shí),可以反向運(yùn)用此規(guī)律。通過思考如何設(shè)計(jì)內(nèi)容,使其能夠在算法的各個(gè)乘法環(huán)節(jié)上獲得較高的初始值(如以懸念保證完播率、以爭(zhēng)議性鼓勵(lì)評(píng)論),從而評(píng)估并提升議題的傳播潛力。
提升輿情研判報(bào)告的科學(xué)性與說服力:在撰寫報(bào)告時(shí),若能從“算法乘法機(jī)制”和“本福特分布”等角度解釋輿情事件的爆發(fā)邏輯或數(shù)據(jù)異常,將極大增強(qiáng)報(bào)告的客觀性、科學(xué)性和專業(yè)深度,使其結(jié)論更具說服力,為決策提供更高質(zhì)量的參考。
本篇文章闡釋了社交媒體上視頻點(diǎn)贊數(shù)等數(shù)據(jù)普遍遵循“本福特定律”(即首位數(shù)字為1的概率約占30%)的現(xiàn)象 。 其根本原因在于,平臺(tái)的推薦算法通過將用戶的點(diǎn)贊率、評(píng)論率等多個(gè)因素進(jìn)行乘法運(yùn)算來決定內(nèi)容的曝光度 。 這一基于乘法核心的算法機(jī)制,不僅天然地促成了“贏家通吃”的輿論極化格局 ,也為輿情工作者提供了一個(gè)全新的分析工具:既可以此為基準(zhǔn)來識(shí)別偽造的“偽熱點(diǎn)” ,也能據(jù)此深入剖析內(nèi)容獲得巨大流量背后的引爆邏輯 。