當(dāng)前位置:首頁 >  站長 >  建站經(jīng)驗 >  正文

如何設(shè)計一個簡單的新聞聚合產(chǎn)品?

 2017-06-30 08:56  來源:   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

如何設(shè)計一個簡單的新聞聚合產(chǎn)品?文章介紹了制作極簡的新聞聚合產(chǎn)品的7步驟,好奇的你和我一起來看看。

你知道在三四線的縣城,用戶在哪里看新聞么?不是在今日頭條里,而是在微信中的那個騰訊新聞里。這是我在安徽青陽做用戶調(diào)研時絕大多數(shù)給我的回答。這或許說明一點:用戶沒有像設(shè)計師那樣的潔癖,期望每一個app都有明確的邊界。誰說不能在一個社交app里看新聞,我還要加一句,誰說不能在本地頭條(我正在負(fù)責(zé)的產(chǎn)品)里看全國頭條。說是這么說了,但是心里清楚這只是產(chǎn)品的外延,既然是外延就應(yīng)該追求做產(chǎn)品的性價比,所以才有了這個極簡的新聞聚合產(chǎn)品。

先定個產(chǎn)品的小目標(biāo):通過全技術(shù)的方式,給用戶提供一個高頻更新的新聞列表,運營可進行微調(diào)干預(yù)。

整個過程7步完成,對,就是七步成詩那七步。

1.構(gòu)建標(biāo)簽庫

標(biāo)簽庫其實就是詞條庫,詞條哪里來?或者換一個問法,互聯(lián)網(wǎng)上誰最懂中文?答案當(dāng)然是百度咯。跑到百度百科首頁一看,我們要的東西就躺在下面的紅框里。

那我們還客氣啥,爬呀,等等,1400萬是不是有點太多了?那我們就去掉一點吧,只留下名詞好了,這樣可以把詞庫控制在百萬量級。

2.抓取新聞

接下來,就是抓新聞,新聞哪里有,找門戶網(wǎng)站唄,公眾號app就算了,費時費力,爬PC站不是一樣的嘛,以體育為例,我們可以挑選新浪體育,搜狐體育,鳳凰體育,還有什么體育?你也看出來了其實我對體育無感,這里就假設(shè)有10個體育專題網(wǎng)站吧。

我們要抓的是熱門新聞,啥叫熱門,出現(xiàn)在第一屏的就是熱門,所以我們抓取的時候,只抓取首屏新聞。結(jié)果就是我有了一堆標(biāo)題和鏈接,還有鏈接后面的正文。

3.建立新聞和標(biāo)簽的關(guān)聯(lián)

現(xiàn)在到了建立新聞和標(biāo)簽關(guān)聯(lián)的時候了,首先當(dāng)然是要分詞,怎么分?呃,這個好像有很多自然語言詞庫的吧,你自己去找吧,分詞完了之后,計算各個詞的出現(xiàn)頻率,出現(xiàn)頻率越高說明它越可能是這篇文章的關(guān)鍵詞。出現(xiàn)在標(biāo)題里的詞是不是比出現(xiàn)在正文里的詞更重要呢?所以你可以把標(biāo)題里的詞加個N倍權(quán)重,N等于幾?關(guān)注我私信我就告訴你。

這里分出來的詞,其實就是標(biāo)簽庫里的標(biāo)簽。這樣每一篇文章就有一個對應(yīng)的詞頻由高到低的標(biāo)簽列表了,太長了也沒用,就取TOP5吧。

這里有個問題留給你,既然文章要分詞,文章分出來的詞直接做詞庫不就好了,為啥要去百度爬呢?答案還是要關(guān)注我私信我才告訴你。

4.標(biāo)簽熱度排序

現(xiàn)在我們?yōu)轶w育頻道選擇了10個數(shù)據(jù)源(就是新浪體育這樣的網(wǎng)站),每個數(shù)據(jù)源下抓了50篇文章,每篇文章都有5個標(biāo)簽,現(xiàn)在我們要看哪個標(biāo)簽最熱了。我們的方式簡單得很,否則怎么說我們設(shè)計了一個極(jian)簡(lou)的產(chǎn)品呢,方法是如果一個標(biāo)簽在一個數(shù)據(jù)源出現(xiàn)了,就加1,在10個數(shù)據(jù)源都出現(xiàn)了那就是10。通過這種方式你會得到每一個標(biāo)簽的值,這個值除以數(shù)據(jù)源總數(shù)就是“熱度值”,在我們這里就是0.1到1之間的分布。

這個時候運營的妹子來亂入了,她說她的特長就是八卦,而且是先人一步的八卦,讓我們千萬要相信她判斷熱點的是否會大熱的能力。這句話的意思是:她想來人肉預(yù)先提升一個標(biāo)簽的熱度值,雖然現(xiàn)在它還沒有大熱。嗯,平常關(guān)系辣么好,我不信也得做個姿勢選擇相信,于是就有了下面的線框。她可以調(diào)整一個標(biāo)簽次的熱度值。

呀,最后怎么還有兩個詞連接在一起的?實際上多個詞比單個詞更接近于一個熱點事件。當(dāng)然對于這種二元詞,計算方式和一元詞略有不同,細(xì)節(jié)此處不展開。

5.文章按頻道排好序

到這里我們已經(jīng)有了標(biāo)簽的熱度排序,那文章的熱度怎么算呢?文章不是有5個標(biāo)簽嘛,那個最高熱度值標(biāo)簽的熱度就是文章的熱度。

實際上熱度只是文章的一個維度,要給文章排序,你自然還會想到以下的幾個維度:

質(zhì)量分:一篇結(jié)構(gòu)完整、圖片豐富的文章顯然具有更高的質(zhì)量時效分:越新的越優(yōu)先,大家是來看新聞的嘛。

具體算法上可以用高斯衰減,比如72小時內(nèi)基本無衰減,超過72小時后每過12小時就衰減一點。說到衰減,最近看了采銅的效益半衰期理論感覺頗為受用,大意是:一個人管理自己日常的行為,可以考慮這個行為對自己長期受用程度來衡量,有些事情效益半衰期很長比如讀書和健身,就應(yīng)該多做,另外一些事情效益半衰期很短比如游戲,就可以少做。

扯一扯防松一下,接回來說。

文章要排序,就是看這3個因子,編一個數(shù)據(jù)公式把:熱度分,質(zhì)量分,時效分串起來計算出一個數(shù)值就ok了,想要公式?好像不是很方便哎,再說你那么聰明,自己也能搞出來。

6.按頻道權(quán)重整合輸出

文章有了排序,下一步直接輸出么?可是當(dāng)前我們只有一個全國新聞頻道,細(xì)分分頻道啊,個性化呀那都是以后的事情,極簡系統(tǒng)就是千人一面的啦。所以下一步我們要定一下各種頻道的內(nèi)容如何混在一起。這個沒有啥技術(shù)含量,就是給各個頻道定個權(quán)重,然后按這個權(quán)重計算個比例去混合就好了。技術(shù)上可確保,用戶看的越多,實際比例就越接近預(yù)先定義的權(quán)重分布

咦,好像漏了說文章屬于什么頻道的了。在我們第2步里決定去哪些數(shù)據(jù)源抓新聞的時候就決定了。每個數(shù)據(jù)源都對應(yīng)了一個頻道, 那么從這個數(shù)據(jù)源里抓取的文章也就對應(yīng)了一個頻道。主要的幾個頻道是:社會、娛樂、體育、汽車、歷史、房產(chǎn)、科技、財經(jīng)、軍事、國際。

7.過濾用戶已讀

終于來到了最后一步,作詩也沒這么累啊。

對于全國新聞這種用之不盡、取之不竭、看過就忘、不看兩遍的題材來說,給用戶最好的閱讀體驗就是每次都給他沒看過的,過濾掉所有已經(jīng)看過的。

那如何盡可能簡潔地實現(xiàn)呢?簡潔的本質(zhì)就是照顧主要場景忽略次要場景。主要場景是用戶每幾個小時打開一次,打開一次看十來分鐘。如果我們每小時爬取的新聞數(shù)足夠多,衰減做的足夠高,是否需要過濾已讀都是可以商量的了。實操里,我們還是記錄了用戶的已讀信息,然后一次請求里返回足夠多的新聞,比如10個頻道每個頻道300篇,也就是3000篇,然后再過濾一下,性能上完全可接受,主要場景里也不會出現(xiàn)新聞看完的情況。

總結(jié)一下

在設(shè)計這個熱門新聞列表產(chǎn)品的過程中,主要是幾個點:

新聞的熱度本質(zhì)上是標(biāo)簽的熱度,標(biāo)簽用百度的詞條標(biāo)簽的熱度其實就是同時出現(xiàn)在多個網(wǎng)站上的頻度文章的排序就是文章熱度分,質(zhì)量分,時效分的綜合打分作者:大中,內(nèi)容類創(chuàng)業(yè)公司的產(chǎn)品總監(jiān),此前在阿里5年,負(fù)責(zé)過蝦米音樂等產(chǎn)品。平常關(guān)注內(nèi)容、社區(qū)和電商類產(chǎn)品。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)標(biāo)簽
新聞聚合

相關(guān)文章

  • ofo小黃車上線“看看”新聞聚合模塊 網(wǎng)友對此提出質(zhì)疑

    A5創(chuàng)業(yè)網(wǎng)(公眾號:iadmin5)7月3日報道,近日,ofo小黃車在新版APP上線了“看看”新聞聚合模塊,目前設(shè)置了共看點、圖片、視頻、體育、財經(jīng)、社會、科普、讀報等一系列的頻道。對此,網(wǎng)友提出質(zhì)疑,ofo連主營業(yè)務(wù)都沒搞清楚,用戶連車都掃不開,還有心思刷新聞?現(xiàn)在信息流這么多,有誰會專門打開共享

    標(biāo)簽:
    ofo小黃車
    新聞聚合
  • 搜悅:大集合式的全功能互動新聞聚合平臺

    隨著移動互聯(lián)網(wǎng)不斷深化發(fā)展,移動互聯(lián)網(wǎng)的信息接收方式與PC互聯(lián)網(wǎng)的差異越來越明顯,正是因為其中的微妙差異,許多老牌互聯(lián)網(wǎng)企業(yè),如百度、騰訊、阿里、中搜、搜狐、網(wǎng)易等都在尋找適應(yīng)移動互聯(lián)網(wǎng)時代的信息呈現(xiàn)形式,所以出現(xiàn)了百度搜索APP,騰訊微信、阿里UC、中搜搜悅、搜狐新聞客戶端、網(wǎng)易易信等產(chǎn)品。PC互

  • 利用免費空間建立新聞聚合網(wǎng)站經(jīng)過實錄

    核心特點:免費空間+免費軟件+免費內(nèi)容=海量內(nèi)容你只需一個創(chuàng)意,一個模型,就可以收獲海量收錄頁面。

    標(biāo)簽:
    新聞聚合

熱門排行

信息推薦