摘要:
隨著深度學(xué)習(xí)等技術(shù)的發(fā)展,人工智能應(yīng)該會更加深入地與算法保舉相結(jié)合,技術(shù)會更為理智和人性化,進(jìn)一步克服當(dāng)前存在的缺陷,從而生產(chǎn)出真正優(yōu)質(zhì)的內(nèi)容。昨日,《人民日報》刊載了一篇題為《新聞莫被算法“綁架”》的文章。文章中指出,一些癡迷于技術(shù)算法的新聞客戶端愈發(fā)“簡單粗暴”。點開某篇文章之后,就會迅速被大量相似內(nèi)容刷屏,而且無法拒絕?!度嗣袢請蟆氛J(rèn)為,媒體被算法、流量和點擊量綁架,而削弱了對新聞?wù)鎸?、全面、獨立等?zhǔn)則的堅守。
隨著人工智能的發(fā)展,算法保舉越來越成為了科技界乃至媒體圈推崇的技術(shù)手段。從長遠(yuǎn)角度來看,算法保舉是技術(shù)與時代發(fā)展到必然程度所出現(xiàn)的一定現(xiàn)象。算法保舉在全球范圍內(nèi)都已成為一種不成阻擋的趨勢,而且隨著時代的發(fā)展,算法保舉一定會成為未來內(nèi)容領(lǐng)域的主流之一。
當(dāng)然,在算法保舉發(fā)展的過程中,也不成制止地出現(xiàn)了一些問題。在《人民日報》的文章中,指出了算法保舉中存在的簡單粗暴、低質(zhì)量等一系列缺陷。這些問題是確實存在的,也不該回避。雖然目前算法保舉非常火爆,但還需要更加理智和人性化。如果能提升技術(shù)水安然安祥樹立正確的態(tài)度,相信在未來,這些問題也是可以被克服的。
一、算法保舉種類頗多,應(yīng)用領(lǐng)域愈發(fā)廣泛
算法保舉,就是利用用戶的一些行為,通過數(shù)學(xué)算法,推測出用戶可能喜歡的東西。保舉算法大致可以分為基于內(nèi)容的保舉算法、協(xié)同過濾保舉算法和基于知識的保舉算法。
基于內(nèi)容的保舉算法,是按照用戶的愛好和關(guān)注過的條目(Item)而進(jìn)行保舉的。好比你看了《死神來了》第一部,那么基于內(nèi)容的保舉算法就會發(fā)現(xiàn)這個電影的后四部和你之前不雅觀看的內(nèi)容有很大的聯(lián)系,并加以保舉。
這種方法有效地制止了Item冷啟動的問題。所謂冷啟動,就是如果Item未被關(guān)注過,那么其他保舉算法就很少會去保舉。但基于內(nèi)容的保舉算法則否則,它可以分析Item間的關(guān)系,從而實現(xiàn)保舉行為。
不過,這種方法也有毛病,就是Item有很大程度上的重復(fù)可能。好比你看了一則關(guān)于馬航的新聞,那么很多保舉就可能是你瀏覽過的,甚至是內(nèi)容一致的新聞。此外,基于內(nèi)容的保舉算法很難提取到如音樂、電影等多媒體內(nèi)容的特征,因此很難進(jìn)行保舉。而目前的解決措施是給這些Item人工打標(biāo)簽,耗費成本較大,不太劃算。
協(xié)同過濾算法的原理是保舉興趣相似的用戶喜歡過的內(nèi)容。好比你的伴侶喜歡《死神來了》,那么也會保舉給你,這便是最簡單的基于用戶的協(xié)同過濾算法。別的還有一種是基于Item的協(xié)同過濾算法。二者都是將用戶的全部數(shù)據(jù)讀入到內(nèi)存中進(jìn)行運算的。此方法訓(xùn)練過程較長,但訓(xùn)練完成后保舉過程快。
基于知識的保舉算法是通過構(gòu)建領(lǐng)域本體或建立必然的規(guī)則進(jìn)行保舉,也有將此方法歸為基于內(nèi)容保舉中去的。
還有一種方法是混合保舉算法,即以加權(quán)或者串聯(lián)、并聯(lián)等方式對上述方法進(jìn)行融合。
基于多種多樣的算法保舉,全球范圍內(nèi)的新聞媒體開始逐漸使用這種方法向用戶推送新聞。
在這方面最早的應(yīng)該是Facebook。2012年,F(xiàn)acebook在廣告領(lǐng)域開始應(yīng)用定制化受眾功能,“受眾發(fā)現(xiàn)”這一概念得到了大規(guī)模應(yīng)用。一年前,F(xiàn)acebook頒布頒發(fā)新的動態(tài)消息演算機制。這一計劃來自于對上千位用戶的調(diào)查,依據(jù)結(jié)果對算法進(jìn)行改善。對此,F(xiàn)acebook發(fā)言人體現(xiàn),閱讀時間比點贊更能反映興趣。
Facebook通過該項調(diào)查發(fā)現(xiàn),以點贊、留言和分享為基礎(chǔ)的算法,并不足以代表哪些文章對使用者更有意義,好比人們不愛對嚴(yán)肅新聞或伴侶的哀痛消息進(jìn)行點贊或留言。因此,將文章瀏覽時間納入貼文排名機制中,以推測使用者感興趣的文章類型。
在目前國內(nèi)許多的資訊類網(wǎng)站中,也應(yīng)用到算法保舉,揣度用戶感興趣的內(nèi)容并向其進(jìn)行推送。算法保舉不但可以被應(yīng)用于新聞資訊方面,還可以應(yīng)用于其他方面。
好比亞馬遜所使用的主流保舉算法,就是基于物品相似性和用戶瀏覽、喜歡、購買等數(shù)據(jù)的協(xié)同過濾保舉,,即用戶緯度和商品緯度。
由于不依賴用戶而基于商品的相似性,所以不會有冷啟動問題。但也因為不依賴用戶,所以比較死板,缺乏個性化保舉。這一算法廣為人知,但越是簡單的算法要達(dá)到好的效果就越難,特別是這種轉(zhuǎn)化率極低的算法。在國內(nèi),也有許多電商平臺在應(yīng)用這種算法。好比“猜你喜歡”、“相似保舉”等功能,就是這種算法的具體表現(xiàn)。