大規(guī)模數(shù)據(jù)的集合相似度估計(jì)研究進(jìn)展
摘要:相似度估計(jì)是實(shí)現(xiàn)近似集合檢索的一個(gè)重要組成部分。針對(duì)于不用的相似度度量方式,主要有使用Jaccard相似度的Min Hash算法和基于海明距離的Sim Hash算法,它們是兩種常用的大規(guī)模數(shù)據(jù)相似度度量技術(shù)。此外,還有基于集合包含度下的集合相似度估計(jì)算法。通過總結(jié)多篇已,詳細(xì)地回顧了不同的相似度度量方式下的集合相似度估計(jì)方法。
注: 保護(hù)知識(shí)產(chǎn)權(quán),如需閱讀全文請(qǐng)聯(lián)系無線通信技術(shù)雜志社