缔冠期刊网

基于主题图的中文自动分类原型系统设计与实现

2022-06-09

吕 世 国

(湖北财税职业学院 湖北 武汉 430064)

摘 要:针对目前基于主题图的中文自动分类的空缺,文章在总结Ontopia对英文和挪威文自动分类的技术基础上,结合中文特殊性,构建了一个基于主题图的中文分类原型系统。该系统通过借助POI、PDF、SAX作为文档文本解析器提取文本,采用盘古分词对文本进行分析,以Java为系统实现主要语言,达到了基于主题图的中文自动分类的目的。

教育期刊网 http://www.jyqkw.com
关键词 :主题图;中文分类;盘古分词;Ontopia

中图分类号:TP274.3 文献标识码:A doi:10.3969/j.issn.1665-2272.2015.06.039

主题图被誉为信息时代的GPS,它是多种技术进行融合而出现的一种新兴技术,其作为一种复杂的元数据、一种数字化的知识组织方式、一种智能化的知识索引方式、一种模型化的知识表示和导航技术、一种灵活的分布式资源链接技术,引起了国内外学者越来越多的关注和思考。近年来出现了主题图在图书情报机构、医疗机构、企业单位、网络教育、电子商务、政府部门等领域的研究和应用。主题图将资源之间的关系透过TAO,即主题(Topics)、资源出处(Occurrences)和关联(Associations)描述出来,它们就如同三维空间中的“点、线、面”,将一定领域的知识结构和他们之间的语义关联具体化。而在实际应用中,一般使用和存储XML 语法形式的XTM(XML Topic Maps)描述。

目前常用的主题图引擎有TM4J、tinyTIM、XTM4XMLDB和OKS等,然而仅有挪威Ontopia公司的OKS(Ontopia Knowledge Suite)获得了成功。Ontopia知识开发组件(Ontopia Knowledge Sui te,OKS)是由Ontopia公司开发的一个由本体驱动,基于Web的Topic Maps构建和管理工具,主要用于创建、维护、配置主题图应用程序,是目前较完整的商业开发工具。

在OKS(Ontopia Knowledge Suite)组件中,提供了基于主题图的自动分类功能,但是仅局限于英语和挪威语,缺乏对中文的支持。图书馆作为文献信息的服务机构,藏有大量历史文献,是众多历史研究者及历史爱好者查找资料、研究学习的场所。面对如此巨大的文献馆藏,若完全由人工来进行分类是不现实的。于是,在Ontopia的基础上实现了基于主题图的中文自动分类系统的原型系统。

1 系统功能模块设计

为实现基于主题图的中文自动分类,基于主题图的中文自动分类系统的目标如下:提供文档内容提交接口;提供文档上传接口;支持中文、英文、以及中英文混合文档;支持多种文档格式;自动提供分类推荐。

2 系统设计思路(见图1)

图1为系统功能模块,系统包括:分别是获取文本、中文分词、词频记录、词频统计、分类推荐。具体是:获取文本模块—其主要功能是通过提供用户接口,由用户提交文档内容或文档,获取文本;中文分词模块—其主要功能是分析文本,采用中文分词工具实现中文分词;词频记录模块—其主要功能是对分词结果进行词频计算;词频统计模块—其主要功能是根据词频记录进行统计排序;分类推荐模块—其主要功能是在词频统计的基础上返回分类推荐结果。

3 系统实现

3.1 获取文本

获取文本模块,其主要功能是与用户交互,从而获取需要分类的文本。

系统提供了两种用户交互的人机界面:一种是直接提交文档内容,一种是直接上传文档。

(1)第一种界面(直接提交文档内容)提供了用户输入文档内容的文本框。通过这个文本框,用户输入文本内容,提交到系统中。采用这种方式,用户的操作比较复杂,需要打开文档,然后再复制文档内容,再粘贴到文本输入框提交文档。虽然使用这种方式比较繁杂,但是在处理一些极少使用到的文档格式的文档时很方便。

(2)第二种界面(直接上传文档)提供用户选择文档的界面,用户可以选择多种文档格式文档,上传文档由系统处理。系统根据不同的文档格式,调用不同的解析工具来解析文档,提取文档文本。

POI解析器用于提取以".doc", ".docx",".dot",".ppt",".pptx",".pot"和".pps"为文档后缀的文档;Pdfbox解析器用于提取以".pdf"为文档后缀的文档;Sax解析器用于提取以“.htm”,“.html”,“.xhtml”,“.shtml”和“.xml”为文档后缀的文档。

3.2 中文分词

中文分词模块对获取的文本进行文本分析,进行中文文本分词。

汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础和关键。为了提高中文分词的精确度,在文本分词时,采用该主题图的专业词库。这样在文本中出现一些特别专业的词语时,系统能够识别,而不至于被系统忽略掉。此外,还需要对词语进行词性标注,在经过词性标注后,可以过滤掉一些对分类无效的词语,比如虚词、代词、连词、副词、形容词等。

本系统在中文分词模块中,采用的中文分词组件是盘古分词。盘古分词是一个开源的中文分词组件,有中文分词功能、英文分词功能、中文词性输出、停用词过滤功能、用户自定义规则、字典管理功能、教育期刊网 http://www.jyqkw.com
关键词 高亮等功能,在Core Duo 1.8 GHz 下单线程,分词速度为 390K 字符每秒,2线程分词速度为 690K 字符每秒。盘古分词,不仅解决了中文分词,还对停用词进行了过滤和对中文词性进行标注,为词频记录模块提供良好的支持。

3.3 词频记录

词频记录模块对盘古分词的结果进行词频分析,根据词性记录每个分词的词频。

首先,读取盘古分词的结果,根据词性排除掉一些对分类起干扰作用的词语,虚词、代词、连词、副词、形容词等;把排除后的词语采用基于KEY-VALUE的数据结构,即键值对的方式,对词频进行记录。KEY保存的是词语,VALUE保存出现的次数和出现的百分比,当KEY存在,VALUE递增,当KEY不存在,新添加一个键值对第二,获取出现词语的总次数。

3.4 词频统计

词频统计模块的主要功能是对词频记录进行统计,生成词频表并对词频进行排序。

通过词频记录模块中,遍历返回的词频记录,计算出每个词语在所有词语中,所占有的百分比。根据词语所占有的词频的百分比,对词频记录进行从高到低的排序,从而获取每个词语在文档中所占有的位置重要程度。

3.5 分类推荐

分类推荐模块,其主要功能是根据词频统计的词频排序,以及主题图的状况,给用户提供分类推荐。

在词频排序时,该词语在文档中占据的重要程度已经非常明显,根据词频从高到低地排序,即可很大程度上展现了该文档所属的分类。

此外,由于主题图中的分类是有限的,并不完全肯定文档比较合适的分类一定存在主题图中,以及文档中存在的某些词语,在主题图中可能已经被定义为了等同关系,所以,还需要对主题图中的主题进行比对,将同义的词语进行合并。将合并后的词频排序结果,给用户推荐作为该文档的分类之一,当对于词频出现比较高,而文档中又不存在的主题,系统将给于文档提示,是否需要在该主题图中,添加该主题。

4 应用效果

选择一篇文档对该系统进行文档自动分类应用。

首先进入文档自动分类界面:

点击浏览按钮后完成文档的选择,系统进入文档上传界面:

提交文档后,系统给出的文档自动分类结果:

点击分页导航,系统自动将结果集翻页:

5 结语

该系统在Ontopia实现对英文和挪威文自动分类的基础上,根据中文的特殊性,实现了基于中文的自动分类系统原型,一定程度上在文档分类上实现了自动化,减轻了用户的负担。当然,该系统也存在二种不足。一是在文档提交上,缺乏批量提交的接口,二是在中文分词上,采用的是基于词典的分词,和采用文本匹配的方式,并没有达到基于语义匹配的方式,因此在分类的精确度上还有欠缺。

教育期刊网 http://www.jyqkw.com
参考文献

1 秦铁辉,郭延吉,孙琳.信息时代的全球定位系统——主题地图[J]. 江西图书馆学刊,2005(1)

2 韩永青,陈卓群,夏立新.国内外主题图应用研究述评[J].图书情报知识, 2008(11)

3 张玉涛,夏立新.基于主题图的电子政务信息资源整合模型研究.情报杂志,2009(7)

3 朱良兵.开源主题图引擎TM4J 应用研究[J].现代图书情报技术,2006(10)

4 李清茂.开源主题图Ontopia 引擎工作机制研究[J].西昌学院学报,2010(6)

5 李彬.基于Topic Maps 技术的历史文献分类组织[J].图书情报知识,2011(1)

6 夏立新,王忠义.基于XML的全文检索原型系统的设计与实现[J].现代图书情报技术,2007(8) (责任编辑 高 平)

论文中心更多

期刊百科
期刊投稿 期刊知识 期刊审稿 核心期刊目录 录用通知 期刊版面费 投稿期刊推荐 学术问答
基础教育
小学语文 中学语文 小学数学 中学数学 小学英语 中学英语 物理教学 化学教学 生物教学 政治教学 历史教学 地理教学 科学教学 音乐教学 美术教学 体育教学 信息技术 班主任管理 校长管理 幼教 教育管理 微课教学 作文教学 德育教学 教学设计
医学论文
内科医学 外科医学 预防医学 妇科医学 检测医学 眼科医学 临床医学 药学论文 口腔医学 中西医 中医学 外科 护理 基础医学 急救医学 老年医学 医学实验 儿科医学 神经医学 兽医学 肿瘤医学 综合医学
职业教育
教育学原理 电影文学教育 学前教育 教育学管理 高等教育学 教育技术学 职业技术教育 成人教育学 特殊教育学 教育心理学 家庭教育 教育毕业 中专中职教育 教学设计 国学教育 学术研究 大学教育
药学卫生
社区门诊 医药学 医患关系 医院管理 疾病预防 保健医学 公共卫生 医学教育
文科论文
农业经济 工商管理毕业 会计毕业 行政管理 法律毕业 市场营销 经济毕业 汉语言文学 财务管理 物流管理 人力资源 旅游管理 国际贸易 物业管理 新闻学 企业管理 金融银行 社会科学 食品安全 办公档案 审计学 税务税收学 外国文学 哲学
理科论文
机电毕业 土木工程 计算机毕业 电气毕业 建筑毕业 电子商务 工程毕业 设计毕业 机械制造 汽车毕业 园林毕业 农学毕业 数控毕业 软件技术 水利工程 环境生态 畜牧渔业 化工毕业 科技创新 石油矿藏
论文格式
开题报告 论文题目 摘要关键词 目录提纲 论文致谢 参考文献 附录其他 论文答辩
职业论文
教育论文 经济论文 科技论文 财会论文 管理论文 医学论文 法学论文 文学论文 工业论文 建筑论文 农业论文 水利论文 计算机论文 社科论文 机械论文 生态环境 中西文化

先发表后付款 不成功可退款

权威机构认证 专注期刊10余年 1000余家杂志社长期合作

缔冠期刊网

首页 网站地图 返回顶部
Copyright © 1998- 缔冠期刊网