探寻基于语义检索实现知识发现的解决之道

——读徐建民教授新著《基于术语关系的贝叶斯网络检索模型扩展》

2020年04月02日13:13  来源:人民网-河北频道
 

信息检索模型一直是情报学和计算机科学领域最重要的研究内容之一。传统的检索模型(特别是布尔模型)是基于关键词或主题词的字面匹配,忽略了关键词所包含的语义信息,缺少语义匹配能力, 往往会导致查全率和查准率较低,用户体验和满意度较差。所以, 为信息检索系统增加语义匹配或扩展功能, 以提高检索效率,实现知识发现,一直是本领域的研究者努力的重要方向。

20世纪80年代末,贝叶斯网络模型开始应用到信息检索领域。由于术语间的相似性、相关性、共现性等可以用贝叶斯网络的拓扑结构来表示,这就为检索过程中实现语义匹配或扩展提供了一种可行的理论框架[ 白彦霞, 程杰,莫德举.基于语义扩展的复合贝叶斯网络检索模型[J].控制工程,2019(3):602-607]。目前,语义检索研究主要方向是:采用基于语义网资源的检索模式,使传统检索系统具有语义扩展功能[ 王颖,吴振新,谢靖.面向科技文献的语义检索系统研究综述[J]. 现代图书情报技术,2015(5):1-7]。而基于语义的查询扩展则是解决传统的基于字面匹配问题的有效方法之一。

为了从概念层面对语义进行扩展,挖掘词语背后的意义,探索实现基于概念匹配的检索技术和方法,多年来,河北大学徐建民教授及其团队一直致力于从术语关系的视角对贝叶斯网络检索模型展开了系统研究。经过十几年的探索和积累,最终完成了专著《基于术语关系的贝叶斯网络检索模型扩展》的编写工作,并于2019年11月由科学出版社出版。这是一部探索语义检索进而实现知识发现的不可多得的力作,为语义检索领域的学术进步做出了贡献。

从术语关系角度系统研究贝叶斯网络检索模型,探索基于语义而不只是关键词的字面匹配的信息查询,最终实现知识发现,该著作在国内尚属首部。该研究成果的价值主要体现在以下三个方面:

第一,构建了测试参考集,开辟了中文检索系统性能评价实验平台。信息检索系统的性能评测一般要基于一个选定的测试参考集。在作者开展基于贝叶斯网络的信息检索模型扩展研究之时,国内尚未建立起标准的、可用于信息检索测评的小型中文测试集,特别是对于中文信息检索系统评价而言,出于语义理解的需要,必须要有小型中文测试集作为支撑,才能较好评价中文检索系统的性能。为此,作者及其团队开发设计了一个小型中文测试集,而随后的相关研究都是基于此测试集做的实验验证。

第二,理论构建颇具新意,具有原创性。作者提出了概念相似度的计算方法及其算法;提出了一种基于共现分析法改进的PF-IBF方法;提出了一种基于查询术语相似关系的扩展信念网络模型;提出了一种基于术语相似关系的扩展的简单贝斯网络模型;研究了基于贝叶斯网络的结构化文档检索模型。此外,该著作还将贝叶斯网络应用于话题识别与追踪,提出了基于信念网络的话题识别与追踪的静态模型和动态模型。这是作者十几年来进行的具有开创性和前瞻性的系统研究工作的宝贵结晶。

第三,研究视角新颖,具有实践指导价值。作者从研究词语关系入手,对术语关系——贝叶斯网络模型——信息检索系统评价三者之间的关系进行了更高层次的思考。相继研究了利用词语间关系改进传统文本提取方法,利用术语间关系实现对信念网络模型、简单贝叶斯网络模型、基于影响图的结构化文档模型的扩展问题,这些模型可以在一定程度上实现语义检索,对信息检索系统性能评价实践具有较大的指导价值。

从总体上看,《基于术语关系的贝叶斯网络检索模型扩展》是现代信息检索研究领域里的一部学术佳作,在推进语义检索、实现知识发现方面开辟了新视角、构建了新理论、运用了新方法。大数据时代的到来,使信息检索效率问题面临更大的挑战。充分挖掘并利用术语的各种关系,并使它们的价值在检索过程中得到更好的体现,提升信息检索效果,该著作开启了一个良好的开端。期待作者及其团队更多更精彩的后续之作。(北京大学信息管理系 赖茂生)

(责编:祝龙超、史建中)