作者：巨人電商

內(nèi)容APP如何給用戶打標(biāo)簽&內(nèi)容推送？

POST TIME:2021-08-20

17年-18年底我參與了一個(gè)資訊內(nèi)容興趣偏好標(biāo)簽的項(xiàng)目。什么是內(nèi)容興趣偏好標(biāo)簽?zāi)兀?/p>

簡(jiǎn)單來(lái)說(shuō)就是分析用戶喜歡看的文章類型，得到用戶的興趣偏好，在這樣的基礎(chǔ)上，對(duì)用戶進(jìn)行內(nèi)容的個(gè)性化推薦和push推送，來(lái)有效促進(jìn)app的活躍并拉長(zhǎng)用戶生命周期。

這件事情簡(jiǎn)單來(lái)說(shuō)其實(shí)就是兩步走：

一是，給文章進(jìn)行分類，也就是我們俗稱的給文章打標(biāo)簽。
二是，給用戶打標(biāo)簽，也就是用戶閱讀了哪些類型的文章，相應(yīng)的就會(huì)獲取到自己的興趣偏好標(biāo)簽。比如我愛(ài)看科技類型的文章，那我便有極大的可能被打上科技的資訊標(biāo)簽。整體流程如下；

那么在實(shí)際操作中真的如此簡(jiǎn)單嗎？看似簡(jiǎn)單的兩個(gè)環(huán)節(jié)，究竟是如何實(shí)現(xiàn)的呢？

首先我們來(lái)聊一聊給文章進(jìn)行分類

筆者因?yàn)檫@個(gè)項(xiàng)目的原因，看了非常多競(jìng)品app的文章分類，發(fā)現(xiàn)基本上趨于一致，但也有一些細(xì)節(jié)上的差異，更多的問(wèn)題，在于資訊文章的分類很難窮盡，我們參考了市面上已有的分類，并結(jié)合一些資料制定了一整套內(nèi)容興趣偏好體系，在指定分類時(shí)，我們遵循MECE原則，基本達(dá)到了相互獨(dú)立完全窮盡。

接下來(lái)，我們要對(duì)文章進(jìn)行分類，我們采用了分類算法的有監(jiān)督的學(xué)習(xí)。理想情況下，流程是這樣的：

但在實(shí)際中面臨兩個(gè)問(wèn)題，由于選擇了有監(jiān)督的學(xué)習(xí)，就面臨必須要提供有標(biāo)注的樣本的基礎(chǔ)。一般情況下有三種方式獲取樣本：

一是人工對(duì)文章進(jìn)行標(biāo)注，優(yōu)點(diǎn)是準(zhǔn)確，缺點(diǎn)是效率低，對(duì)于算法要求大量樣本的要求，成本非常高。
而另一種方式則是通過(guò)一些開(kāi)源網(wǎng)站提供的關(guān)鍵詞進(jìn)行模型訓(xùn)練，比如可以從搜狗詞庫(kù)獲取，優(yōu)點(diǎn)是成本低，但缺點(diǎn)也很明顯，由于不同的分類體系對(duì)部分分類的理解不一致，導(dǎo)致分類并不夠準(zhǔn)確，后期需要耗費(fèi)大量的人力進(jìn)行矯正。
第三種方式是和一些資訊類app進(jìn)行合作，獲取他們的文章以及分類作為樣本，例如目前做的比較好的如今日頭條、uc等都是不錯(cuò)的選擇。我們當(dāng)時(shí)其實(shí)都嘗試了（一把辛酸淚）。

獲取樣本以后，就是算法模型的訓(xùn)練及其檢驗(yàn)了。算法模型的訓(xùn)練原理，即通過(guò)對(duì)樣本文章進(jìn)行分詞，抽取實(shí)體，建立特征工程，將每一個(gè)特征詞作為向量，擬合出一個(gè)函數(shù)，這樣，當(dāng)有新的文章時(shí)，該文章通過(guò)分詞，并通過(guò)模型計(jì)算出結(jié)果。但模型并不是能夠有樣本一次性就能準(zhǔn)確的，模型還需要進(jìn)行測(cè)試和矯正。一般測(cè)試流程如下：

通過(guò)了測(cè)試的模型也并不是一勞永逸的，仍然可能在后期出現(xiàn)一些分類不準(zhǔn)確的問(wèn)題，這可能是樣本造成的，也可能是算法模型造成的。這需要我們找出這些異常的文章及其分類，并矯正分類，再次作為訓(xùn)練樣本投喂給模型，進(jìn)行模型的矯正。一方面，我們可以對(duì)轉(zhuǎn)化率比較低的分類的文章進(jìn)行人工抽檢，確定問(wèn)題是否出在算法。另外，在這里，由于每一篇文章的標(biāo)簽都被賦予了一個(gè)值，我們可以為這些值設(shè)置一個(gè)閾值，當(dāng)最高值低于某個(gè)閾值，這些文章及其標(biāo)簽將被召回，由人工進(jìn)行標(biāo)注和矯正，并在此投入樣本庫(kù)中。

文章標(biāo)簽的計(jì)算，由于文章具有多種標(biāo)簽的可能，并非一些二分類非此即彼的結(jié)果，因此我們采用的方式是，通過(guò)相似性算法，模型計(jì)算出文章的標(biāo)簽，并賦值，值越高則說(shuō)明和這類標(biāo)簽越接近，并被打上相應(yīng)標(biāo)簽。

至此，文章打標(biāo)簽的部分就已經(jīng)完成了。

如何給用戶打標(biāo)簽

給用戶打標(biāo)簽的方式其實(shí)也可以包含兩種，統(tǒng)計(jì)類的打標(biāo)簽及算法類的打標(biāo)簽。

統(tǒng)計(jì)類相對(duì)簡(jiǎn)單粗暴式的以用戶一段時(shí)間閱讀的文章類型作為用戶的興趣偏好。
而算法類則會(huì)增加更多的影響因素，包括文章閱讀的數(shù)量，閱讀的時(shí)間間隔，文章與當(dāng)前熱點(diǎn)事件的關(guān)系、用戶屬性因素等等。

前者在算法資源不足同時(shí)運(yùn)營(yíng)需求量大的情況下可以先行，而后者可以在前者的基礎(chǔ)上切分一部分流量對(duì)算法模型進(jìn)行驗(yàn)證和調(diào)整，不斷優(yōu)化。

但在用第一種方式進(jìn)行時(shí)我們發(fā)現(xiàn)，用戶在一段時(shí)間內(nèi)閱讀的文章類型并不是穩(wěn)定的，大部分用戶會(huì)有一個(gè)或者幾個(gè)主要的興趣偏好，這些類型閱讀的文章篇數(shù)會(huì)更多，但同時(shí)，用戶也會(huì)或多或少的閱讀一些其他類型的文章，甚至有些用戶是看到哪里算哪里，什么都會(huì)看。

基于這樣的情況，我們需要對(duì)用戶的興趣偏好進(jìn)行排名，即通過(guò)對(duì)用戶一段時(shí)間內(nèi)每種文章類型閱讀的文章數(shù)進(jìn)行排名，并取用戶top 10的標(biāo)簽，清晰告訴運(yùn)營(yíng)用戶喜歡什么類型的文章，這些類型中，用戶喜歡類型的優(yōu)先級(jí)是怎樣的，便于運(yùn)營(yíng)同學(xué)進(jìn)行推送選擇。

因此，用戶的標(biāo)簽也需要更加靈活，能夠讓運(yùn)營(yíng)同學(xué)基于事件發(fā)生時(shí)間及事件發(fā)生次數(shù)等權(quán)重進(jìn)行靈活組合選擇用戶群。

由于目前push推送很大一部分是由人工進(jìn)行的，從選擇文章，到選擇用戶，到文章和用戶的匹配，在正式進(jìn)行推送前一般都會(huì)進(jìn)行大批量的A/B test ，而資訊文章的類型非常多，僅一級(jí)標(biāo)簽已經(jīng)達(dá)到30+種，二級(jí)標(biāo)簽從100到幾百不等，總體的標(biāo)簽極有可能會(huì)有成千的標(biāo)簽，單靠運(yùn)營(yíng)同學(xué)進(jìn)行推送，是絕對(duì)無(wú)法完成的。

因此，在運(yùn)營(yíng)資源有限又無(wú)法實(shí)現(xiàn)自動(dòng)化的的情況下一般運(yùn)營(yíng)同學(xué)會(huì)對(duì)標(biāo)簽進(jìn)行測(cè)試，并選擇其中覆蓋用戶量大且轉(zhuǎn)化率較高的標(biāo)簽。但同時(shí)這樣的情況就會(huì)導(dǎo)致部分興趣偏好比較小眾的用戶被排除出推送的人群。

針對(duì)這樣的情況，我們?nèi)×擞脩魌op 10的二級(jí)標(biāo)簽及其對(duì)應(yīng)的一級(jí)標(biāo)簽作為用戶的一級(jí)和二級(jí)標(biāo)簽。這樣，解決了用戶覆蓋量的問(wèn)題，也可以讓運(yùn)營(yíng)人員集中精力對(duì)主體標(biāo)簽及人群進(jìn)行推送。

但同時(shí)，另一個(gè)問(wèn)題又出現(xiàn)了，選擇用戶一段時(shí)間內(nèi)的行為，那么這個(gè)一段時(shí)間究竟是多長(zhǎng)會(huì)更加合適，使得既達(dá)到能充分反應(yīng)用戶興趣，同時(shí)又覆蓋到更多的人群（每天都會(huì)有流失的用戶，因此時(shí)間線越長(zhǎng)覆蓋用戶量越大，時(shí)間線越短覆蓋用戶量越少）

我們發(fā)現(xiàn)，用戶長(zhǎng)期的興趣偏好趨于某種程度的穩(wěn)定，但短期的興趣偏好卻又反應(yīng)了用戶短期內(nèi)跟隨熱點(diǎn)的行為。因此從這個(gè)層面來(lái)看，短期可能更能滿足用戶的需求，但短期覆蓋用戶量小。在這里，始終有覆蓋量和轉(zhuǎn)化率之間永恒的矛盾。

我們的方式是，對(duì)用戶根據(jù)瀏覽時(shí)間進(jìn)行分段。賦予用戶長(zhǎng)期興趣偏好和短期興趣偏好，并優(yōu)先短期興趣偏好，從長(zhǎng)期興趣偏好中則將短期興趣用戶進(jìn)行排除，進(jìn)行不同的推送。而對(duì)于流失用戶，極有可能在最近3個(gè)月（資訊當(dāng)時(shí)定義流失用戶時(shí)間為3個(gè)月）沒(méi)有任何訪問(wèn)記錄，針對(duì)于這樣的用戶，我們?nèi)∮脩糇詈笠淮斡杏涗浀臉?biāo)簽作為用戶標(biāo)簽，并進(jìn)行流失挽回。

至此，所有的用戶也都有了屬于自己的標(biāo)簽，而運(yùn)營(yíng)同學(xué)也可以根據(jù)用戶的活躍時(shí)間以及閱讀的頻率對(duì)不同的用戶進(jìn)行不同的文章推送，真正的實(shí)現(xiàn)千人千面。

在這個(gè)問(wèn)題上我們可以說(shuō)是踩了不少的坑。

而第二種方式，是通過(guò)算法直接為用戶打上標(biāo)簽，除了時(shí)間和閱讀頻次，在算法模型中還可以增加更多的特征緯度，比如用戶閱讀文章距離現(xiàn)在的時(shí)間、閱讀文章的時(shí)長(zhǎng)、評(píng)論、點(diǎn)贊等等，同時(shí)，還可以針對(duì)于熱點(diǎn)文章、熱點(diǎn)事件，降低文章的權(quán)重。

結(jié)語(yǔ)

當(dāng)我回首去總結(jié)這一段經(jīng)歷的時(shí)候，甚至當(dāng)讀者你跟隨我去了解這一段經(jīng)歷的時(shí)候可能會(huì)覺(jué)得其實(shí)很簡(jiǎn)單，但是，在這一段經(jīng)歷中我們真的踩了無(wú)數(shù)的坑，尤其是我們不僅僅要去采集數(shù)據(jù)、制作標(biāo)簽，甚至還要去指導(dǎo)業(yè)務(wù)進(jìn)行投放以及問(wèn)題分析，那段經(jīng)歷可以說(shuō)是痛苦并快樂(lè)的——

痛苦是因?yàn)閱?wèn)題實(shí)在太多，業(yè)務(wù)每天都在追著我問(wèn)今天為什么轉(zhuǎn)化率又低了；快樂(lè)是因?yàn)槲覀冏罱K轉(zhuǎn)化率終于提高了一倍不止，甚至高于行業(yè)水平，也算是最好的回報(bào)了。

作者：糖糖是老壇酸菜女王

來(lái)源：糖糖是老壇酸菜女王

標(biāo)簽：中山云浮錫林郭勒盟三亞新鄉(xiāng) 南昌肇慶南充

上一篇：上一篇：抖音種草分成哪幾種，上熱門(mén)的那些抖音種草視頻都需要自己拍嗎？

下一篇：下一篇：抖音如何有小黃車？怎么操作？

精彩推薦更多: 我自己想的推廣方法，大家看看哦; 如何做好關(guān)聯(lián)銷售讓顧客買更多寶; 淘寶客啥時(shí)候創(chuàng)立的？怎么做淘寶; 新手做亞馬遜詳細(xì)步驟,新手做亞; 抖音櫥窗掛別人商品傭金有嗎,抖; 亞馬遜想要做到0差評(píng)？亞馬遜索

專題推薦更多: 抖音怎么刷贊？; 抖音怎么快速漲粉？; 抖音加粉工具有哪些？能帶來(lái)粉絲; 抖音增加粉絲軟件,刷抖音粉絲真; 抖音漲粉1000多少錢？抖音如何買; 抖音怎么才能漲粉我抖音粉絲太少

內(nèi)容APP如何給用戶打標(biāo)簽&#038;內(nèi)容推送？

內(nèi)容APP如何給用戶打標(biāo)簽&內(nèi)容推送？