A short text retrieval method combining Wikipedia category graph and topic features
摘要:
社交网络的快速发展催生出大量短文本数据.鉴于短文本具有长度短、信息量少、特征稀疏、语法不规则等特点,根据Wikipedia类图(Wikipedia Category Graph,WCG)中包含的结构信息,通过分析其中的主题特征,提出一种语义特征选择及关联度计算方法.以此为基础,通过计算用户查询与目标短文本之间的语义关联度,实现对短文本的检索和排序.最后通过在Twitter子集上的实验结果表明,融合Wikipedia类图和主题特征的短文本检索方法比现有一些检索方法在评估指标MAP,P@k及R-Prec上具有更好的效果.
The rapid development of social networks has resulted in a large number of short text data.Considering the short length,little information,sparse features and irregular grammar,a semantic feature selection and relatedness computation method are proposed in this paper,which is based on the analysis of the topic features of the structural information contained in the Wikipedia category graph(WCG).On this basis,according to computing the semantic relatedness between user queries and the target short text,a short text retrieval and sorting method is realized.Finally,the experimental results on twitter subsets show that the short text retrieval method combining Wikipedia category graph and topic features outperforms other current retrieval methods on MAP,P@k and R-Prec.
作者:
李璞 肖宝 孙玉胜 张志锋 邓璐娟
Li Pu;Xiao Bao;Sun Yusheng;Zhang Zhifeng;Deng Lujuan(Software Engineering College,Zhengzhou University of Light Industry,Zhengzhou 450000,China;School of Electronics and Information Engineering,Beibu Gulf University,Qinzhou 535000,China)
机构地区:
郑州轻工业大学软件学院 北部湾大学电子与信息工程学院
出处:
《betway官方app 学报:自然科学版》 CAS 北大核心 2019年第6期22-30,共9页
基金:
国家自然科学基金青年科学基金(61802352) 国家自然科学基金(61772210 61872439) 郑州轻工业大学博士科研基金资助(0215/13501050015) 郑州轻工业大学校级青年骨干教师培养对象资助计划(2018XGGJS006) 钦州市科学研究与技术开发计划项目(20189903) 广西高校中青年教师基础能力提升项目(KY2019KY0463)
关键词:
Wikipedia类图 主题特征 短文本 信息检索
Wikipedia category graph topic features short text information retrieval
分类号:
TP391 [自动化与计算机技术—计算机应用技术]
一种融合Wikipedia类图和主题特征的短文本检索方法.pdf