基于社會(huì)媒體內(nèi)容和網(wǎng)絡(luò)拓?fù)涞奶囟ㄔ掝}推特摘要研究
摘要:推特摘要旨在從話題相關(guān)的社會(huì)媒體短文本中提煉概要的推文集,以獲取有效信息,可用于輿情監(jiān)控、競(jìng)爭(zhēng)情報(bào)分析及電子商務(wù)等.然而社會(huì)媒體的海量、嘈雜及不規(guī)范性使得僅依賴純文本的傳統(tǒng)摘要方法難以直接遷移到社交媒體情景中;而現(xiàn)有的推特摘要方法很少考慮數(shù)據(jù)稀疏性和社會(huì)網(wǎng)絡(luò)傳播帶來(lái)的強(qiáng)冗余性,鮮有通過(guò)挖掘推文之間潛在的社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系進(jìn)行文摘內(nèi)容選擇,忽略了信息可以沿著社交網(wǎng)絡(luò)進(jìn)行傳播.受壓縮感知及社會(huì)學(xué)理論的啟發(fā),該文提出基于社會(huì)網(wǎng)絡(luò)和稀疏重構(gòu)的推特摘要方法(SNSR)以更好地融合社會(huì)媒體內(nèi)容和結(jié)構(gòu)信息.首先,挖掘推文中隱含的摘要模式,將其建模為組稀疏正則項(xiàng),以捕捉代表性的推特摘要組合;其次,建模社會(huì)網(wǎng)絡(luò)中表達(dá)一致性與表達(dá)傳染性為社會(huì)化正則項(xiàng),以探索推文之間的潛在網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系在推特摘要中的作用;再次,建模社會(huì)媒體信息傳播帶來(lái)的強(qiáng)冗余性為多樣性正則項(xiàng),進(jìn)而將這些約束整合到稀疏重構(gòu)的推特摘要框架中;最后,提出基于Nesterov加速梯度下降的推特摘要算法,以解決推特摘要優(yōu)化框架中的覆蓋性、稀疏性以及多樣性等問(wèn)題.同時(shí),由于推特摘要標(biāo)準(zhǔn)語(yǔ)料的缺乏,作者建設(shè)了12個(gè)話題的評(píng)測(cè)數(shù)據(jù)集.相關(guān)的實(shí)驗(yàn)結(jié)果證明了文中提出方法的有效性.
注: 保護(hù)知識(shí)產(chǎn)權(quán),如需閱讀全文請(qǐng)聯(lián)系計(jì)算機(jī)學(xué)報(bào)雜志社