您好,欢迎来到叨叨游戏网。
搜索
您的当前位置:首页民族文献语义检索模型及关键本体构建研究

民族文献语义检索模型及关键本体构建研究

来源:叨叨游戏网
聚29巷 第8掬 V0I.29.No.8 Aug.2017 2017年8月 DOI:10.13998/j.cnki.issn1002-1248.2017.08.013 民族文献语义检索模型及关键本体构建研究 廖文果’,廖光萍 (1.阿坝师范学院图书馆,四川汶川623002;2.阿坝师范学院人文与社会科学系,四川汶川623002) 摘 要:目前,民族文献信息化资源建设主要基于传统的文本和关键字检索技术,不能够准确理解用户的需求,缺 乏语义理解和关联。笔者试从语义网(Semantic Web)技术条件下构建了基于本体的民族文献语义检索模 型.并通过七步法设计了民族文献的关键本体,为民族文献信息资源数字化建设提供借鉴。 关键词:民族文献;语义检索;本体 中图分类号:G256 文献标识码:A 文章编号:1002-1248(2017)08-0056-03 Rese,ar ̄h on Semantic Rolrieval Model andKey Ontology Conslzuc ̄on ofEthnic Litca'attm) LIAOWenguo ,LIAOGuangping2 (1.Library,ABA Teachers University,Siehuan Wenchuan 623002,China; 2.College ofResources and Environment,ABA Teachers University,Sichuan Wenchuan 623002,China) Absm ̄Atpresent,the constructionofethnicliteratureinformationre,soureoismainlybasedonthetraditionaltextand key_ word retrievaltechnology,which cannotaccuratelyunderstandtheneedsofusersand lack semanticunderstanding nd raelevance.From the technical conditions of Semantic Web,this paper built the ̄lnic literature semantic re- trievalmodelbasedonontology,anddesignedthekeyontologyofethnic literatureby seven stepstOprovide refer- enceforthe constructionofai ̄ifornmationre¥O12eCofetrhniclietrature. Keywords:ethnicliterature;semantic retrieval;ontology 2012年《少数民族事业“十二五”规划》明确指 出,全面开展民族地区公共文化产品与服务建设.大 力扶持民族文化资源产品的开发,逐步加深少数民族 层次结构,实现知识交流与管理、知识共享与重用, 是语义网(Semantic Web)技术条件下民族文献信息资 源数字化建设的重要方向。 资源的信息化建设范围及深度,强化民族信息资源的 宣传力度,加强少数民族语言、文字等规范化信息化 建设【l】。在国家重视民族文化的保护和传承的大背景 下。以民族资源数据库、特色数据库或网站为主的文 化信息平台逐步建立。但是,传统的特色数据库或网 站建设.是基于文本和关键字的通用检索技术来进行 信息组织和检索,仅仅关注检索词本身,最大的问题 是不能够准确理解用户的需求,缺乏语义理解和关联, 不能根据用户的查询,进行查询扩展。构建民族文献 语义检索模型。借助本体有效表达语义模型和概念的 收稿日期:2017-04-05 1民族文献语义检索模型 民族文献语义检索模型(如图1)主要分为两个部 分:信息或资源的组织和检索。由专家构建领域本体, 通过对文本文档、Web和数据库等各种数据信息收集, 进行语义标注和索引.得到文档元数据库和语义索引 库。系统对用户的查询进行获取和查询扩展处理,查 询提问与本体库的概念进行语义匹配,转换为语义查 询语言,查询语义索引库。按检索结果排序算法,返 回给用户。 基金项目:阿坝师范学院重点科研项目“基于语义网技术的藏羌民族文献信息资源体系建设” i目编号:ASA16.O7);四川省教育厅科研项目 “基于语义网技术的藏羌民族文献信息资源体系建设”(项目编号:17ZB0001) 作者简介:廖文果(1982一),男,硕士,助理研究员,研究方向:信息组织与信息检索、语义检索、本体技术、教学管理。廖光萍(1984一),女, 硕士,副教授,研究方向:地理信息系统、旅游信息系统、教学管理。 第8期 廖文果等:民族文献语义检索模型及关键本体构建研究 1.4查询扩展 基于本体的查询扩展可以提高 查询的效率.即将初始查询有关的 词语或者语义概念.添加到初始查 询当中,从而创建一个新的查询的 过程。本体中概念与概念之间依据 -一一- 关联程度进行量化,得到的理化结 果可作为查询扩展的依据和参考. 从而实现领域本体语义扩展查询。 用户查询语句通过客户端.提交检 索服务器,服务器对查询语句进行 语义对比分析,获取关键词,然后 根据优化参数进行优化扩展查询. 与本体库中的信息进行比对.计算 相似度,设置相似度阈值,对结果 图1语义检索模型 进行相似度排序。 1.1信息的搜集 搜集Web、文本文档、数据库等各种信息源是构 2民族文献本体的构建 2.1本体知识 建语义检索的基础。其中对Web信息搜集是重点和难 点。一般通过网络爬虫等技术和工具搜集网络信息。 语义检索一般都是面向某个专业领域,可选择专业图 书馆、专业数据库或具有较高权威性的专业网站做为 专业信息源,这样能降低搜集的难度,同时提高专指 在语义检索模型中,本体是解决资源共享和交换 的关键。在哲学中,本体论是形而上学的一个分支,研究 存在的实质,即什么是最一般意义上真实存在的,以及如 何表述它们。计算机领域延用本体并赋予新的技术内 涵。本体(Ontology)有多种定义,比较有影响力并被 W3C采用的是1998年Studer提出的“本体共享概念模 型的明确的形式化规范说明”【3]。本体具有较强的表达 度,根据宽度、深度优先和启发式的信息获取算法 在Web上循环收集信息[21。 1.2领域本体的构建 原始信息的收集、元数据的提取、用户的检索和 输出都离不开领域本体。民族文献领域本体是有关理 论与研究领域范围内的特定知识,其特定的知识范围 通力,不仅能描述文献的内容特征。还能表达概念间 的相互关系,提供了对特定领域知识的共同理解.减 少概念和术语间的歧义,最终达到共享的目的 。 决定了必须在领域专家的协助下才能构建有效合理的 本体。 1.3元数据提取 2|2民族文献关键本体的构建 目前比较领域本体构建方法主要有骨架法、企业 建模法、七步法和基于叙词表的本体构建方法等几种。 笔者以斯坦福大学开发的七步法方法为基础,根据民族 文献资源本体构建的需要,提出一种较为简单的本体构 建方法IS]: (1)确定本体的专业领域和范畴,明确构 建本体的专业领域和目的,能回答用户什么样的提问: 传统信息检索通过索引器来提取索引信息,建立 索引数据库。索引信息揭示了文档的题名、关键词、 作者等内部信息。索引项的具体内容主要通过贝叶斯 和概念统计等技术和方法来获取。基于语义的信息检 索系统则根据所建立的领域本体,有目的的从原始信息 中抽取其特征信息。二者的原始信息的加工处理方式 (2)复用现有本体,缩短开发周期和降低开发成本: (3)尽可能列出本体中的重要术语; (4)定义类和类 的层次关系,根据实际选择自底向上法或自顶向下法。 不同。传统信息检索的索引信息只关注描述原始文档 内容,不能反映文档在整个文档集的作用和地位,不 能反映文档之间的关联信息。而语义检索模型中的文 自底向上法,从最小的类开始,逐步综合到更大的上 位类,而自顶向下法,从顶层概念开始,向下细化,实 际使用中,有可能综合使用两种方法; (5)定义类的 档元数据是按照领域本体的结构进行组织安排的,除反 映文档的内容信息外。还反映了该文档之间的关联信 息,如上下位关系、相似关系、等同关系。 属性,可以借鉴第三步的术语,定义类的内部和外部属 性,分别表示类的内在属性和外部关联特征。外在属 农业图书情报学刊:嘲络技术 第2-卷 性可以确定类概念问的相互关 系,继承,传递等关系; (6) 定义属性分面.确定取值范围、 取值类型和取值个数等; (7) 创建实例,针对创建的类来构 建与之对应的一个实例,且要 添加该类的属性值。 民族文献语义检索模型构 建应关注文献(Literature1、作者 (Author)、文献源(Literature source)、语种(1anguage)、民族 (nationality)等重要的概念实体。 概念实体代表和定义不同的类. 每个实体可以定义各自的属性。 概念与概念之间通过相应属性 相互关联起来。比如,Is Pub. 图2民族文献关键本体 1ished描述了文献与文献源之间 的出版关系,其定义域是文献类,值域是文献源类。 于语义层面的检索,关键还在于概念及其概念之间关 引用Is Cited等属性的定义域和值域都是文献类.它描 系的推理。下一步工作将使用本体工具实现民族文献 述了论文与论文之间相互引用的关系;对象属性Has 的关键本体,并使用Jena推理机,建立能真实表现概 Author定义域为Author类,值域为Literature类,它描述 念之间关系的规则,实现系统的语义理解,从而检索 了作者与文献之间的关系。Has language代表了文献与 出满足用户需求的信息阎。 著录语种的关系,定义域为Literature,值域为Lan. guage。Has nationality描述了作者与民族的关系,定义 参考文献: 域为Author,值域为nationality。每一个实体或类都有 [1]关于印发少数民族事业“十二五”规划的通知【国办发 自己的属性。如文献Literature属性有题名、摘要、文 (201 2)38号][EB/OL】.[】.http:/0ykjs.seac.gov.crdart/2014/1 1/27/art_3367 献类型、关键字和分类号等。通过检索属性来反映文 -220053.htm1. 献的内容特征,通过检索关联属性揭示实体或类间语 【2]张志浩.基于本体论的语义检索研究【D】.西安:西安电子科技大学, 义关联。比如用户通过检索文献可以了解到,同引和 2O07. 同被引可以通过文献的引用和被引用情况推理出来. 【3】Studer R,Benj amins V R and Fens e l D.Knowl edge Engineering, 检索语言和民族。可以了解文献的语种特征和作者的 Principles and Methods【J1.Data and Knowledge Engineering,1998,25 民族特征。民族文献领域关键本体如图2所示。 (1-2):161—197. [4】袁辉,李延香.一种基于Ontology的文献领域语义检索机制的实现 3结语 【JI.自动化技术与应用,2013,(5):17-20. 通过语义网和本体技术,构建了基于本体的民族 [5]毛玉才.基于语义网技术的语义检索系统模型研究【D】.哈尔滨:黑龙 文献语义检索模型,并通过七步法设计了民族文献的 江大学,2008. 关键本体。基于本体的文献领域语义检索系统,是关 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- gamedaodao.net 版权所有 湘ICP备2024080961号-6

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务