缔冠期刊网

农业经济领域非相关文献知识发现用数据集的构建

2022-06-09

  摘要:在分析国内外已有的非相关文献知识发现用数据集的基础上,研究构建用于非相关文献知识发现的农业经济领域数据集的可行性。运用软件技术辅之于少量人工干预的方法,构建出完整的农业经济学领域非相关文献知识发现用数据集,包括汉语文献题录库和完整的词表体系。通过实证研究,发现3条农业经济领域的新知识,验证了该数据集的正确性和可用性。

  关键词:知识发现;非相关文献;汉语文献;农业经济;数据集

  1、非相关文献知识发现

  知识发现技术产生于人们“被数据淹没,却饥渴于知识”的尴尬现状,并伴随着这种现象日渐严峻而得以蓬勃发展。知识发现技术中基于文献的知识发现也于上世纪八十年代得以诞生。

  1986年,Swanson提出了非相关文献知识发现的思想,并以充分的文献证据论证了基于非相关文献知识发现思想的可行性与正确性。Swanson的思想在学术界产生了广泛的影响,各个领域的研究人员包括Swanson本人在以后的二十多年中对非相关文献知识发现的理论基础、算法模型及具体应用进行了持续、深入地研究。但在汉语社会科学文献中,至今还没有非相关文献知识发现的成功实践。

  Swanson的理论可以归纳为:设有概念A、B和C,若文献组S1报道了A和B之间有意义的关联,文献组S2报道了B和C之间的关联,但已知文献中没有任何文献报道A和C之间的关联,则S1和S2被称为“互补”文献,并称A与C通过B存在关联。A与C的关联只有把S1和S2放到一起考查才能得出,而单独考查S1和S2则得不到这种关联。A和C之间的关联为新知识的发现提供了线索。

  2、国内外非相关文献知识发现用数据集的建设

  所谓非相关文献知识发现用数据集,即非相关文献知识发现过程用到的数据对象,包括文献库和词表。文献库即用于非相关文献知识发现的文献集合,根据知识发现对象不同包括文献的题名、摘要、全文和引文。词表即知识发现过程中用到的各种词表,包括停用词词表、通用词表、专业词表和同义词表等。

  非相关文献知识发现的思想最初产生于医学、生物学领域,直到现今绝大多数研究者也仍以医学、生物学领域作为非相关文献知识发现算法的文献源。在医学、生物学领域,以Medline为代表的文献数据库标引质量很高,为开展非相关文献知识发现工作提供了极大的便利。因此,国外医学、生物学领域的非相关文献知识发现,都直接以Medline数据库为文献集合,采用MeSH词表,部分算法用到了UMLS,个别用到了OMIM、HGNO、LocusLink等数据库中的词汇。

  可以看出,所有算法的文献集合都采用Medline,大部分算法以Medline数据库记录中的题名为分析对象,部分算法分析对象扩展到摘要,词表中应用得最广的是MeSH,其次是UMLS。

  北京大学计算语言学研究所的刘耀、段慧明、穗志方成功构建了中医药领域的非相关文献知识发现用数据集,包括中医药文献标注语料库、切分词典、中医药语义词典。这是国内在非相关文献用数据集建设方面最初的也是仅有的尝试。

  3、农业经济领域非相关文献知识发现

  用数据集建设的可行性虽然汉语科技文献只占了世界科技文献总量的很小一部分,但在某些特殊学科与领域汉语文献在国际上具有不可替代的独特优势,非常适合开展非相关文献知识发现工作,如中医中药和人文社会科学。农业经济学就属于这样的学科。

  中国以不足全球10%的耕地养活了全球近1/4的人口,农业经济学方面的研究功不可没。在一定意义上,汉语农业经济文献在世界各语种的农业经济学文献中具有先进性。此外,农业经济学常常要将某种理论、模型、方法应用于某一具体区域、产业、案例,这样就与非相关文献的A词集合与C词集合的要求完全一致了。即农业经济中存在大量的A词集合与大量的C词集合,且A词与C词的关联丰富多样。因此,汉语农业经济学文献完全适合应用Swanson的非相关文献发现思想发现新知识。

  中国期刊网、维普、万方三大国内期刊论文数据库,基本上收录了改革开放以来国内农业经济学术期刊的全部论文,符合非相关文献知识发现方法对文献源的要求。在词表方面,国内的大型综合性词表《汉语主题词表》、《中国分类主题词表》、《社会科黄水清等:农业经济领域非相关文献知识发现用数据集的构建193学检索词表》和农业部情报所编制的《农业科学叙词表》中都收有农业经济学词汇。农业经济期刊论文的作者关键词也是很好的词汇来源。

  综上所述,建设用于农业经济领域非相关文献知识发现的数据集,具有可行性。

  4、农业经济学领域非相关文献知识发现用汉语文献库的构建

  4.1文献源的选择

  到目前为止,以Medline为代表的已成功应用于非相关文献知识发现的数据库收录的文献类型都是期刊论文(或含部分会议论文)。因此,农业经济领域用于非相关文献知识发现的文献集合也宜以期刊论文为收录对象。

  国内的重庆维普资讯、北京万方和中国期刊网三大检索科技期刊数据库各有优劣。通过对比三者在收录量、数据质量以及报道时差等方面的优缺点,综合各项因素,农业经济领域用于非相关文献知识发现的文献数据库选定从维普数据库下载题录数据。

  为加大知识发现的范围,用于农业经济学领域非相关文献知识发现的汉语文献集合拟以题名加文摘为收录对象。为此,须从维普数据库中下载所有分类号标识为农业经济(即《中国图书馆图书分类法》的类号为F3)及下位类、发表在核心期刊(既可以是农业经济核心期刊,也可以是其他学科的核心期刊)上的论文的题录。

  4.2下载程序的设计

  维普数据库收录的数据从1989年开始。若以2008年底为界,20年间,维普数据库收录分类号标识为F3(即农业经济学)的核心期刊论文共有87000多篇。为此,作者用JAVA自行开发了模拟浏览器的维普题录下载程序客户端。首先通过开源的工具分析获得在手工下载过程中产生的HTTP/HTTPS头信息、cookies以及通过GET和POST提交的数据,然后设计程序模拟了浏览器的下载过程,实现了维普题录信息快速高效的获取。具体设计过程不再赘述。

论文中心更多

期刊百科
期刊投稿 期刊知识 期刊审稿 核心期刊目录 录用通知 期刊版面费 投稿期刊推荐 学术问答
基础教育
小学语文 中学语文 小学数学 中学数学 小学英语 中学英语 物理教学 化学教学 生物教学 政治教学 历史教学 地理教学 科学教学 音乐教学 美术教学 体育教学 信息技术 班主任管理 校长管理 幼教 教育管理 微课教学 作文教学 德育教学 教学设计
医学论文
内科医学 外科医学 预防医学 妇科医学 检测医学 眼科医学 临床医学 药学论文 口腔医学 中西医 中医学 外科 护理 基础医学 急救医学 老年医学 医学实验 儿科医学 神经医学 兽医学 肿瘤医学 综合医学
职业教育
教育学原理 电影文学教育 学前教育 教育学管理 高等教育学 教育技术学 职业技术教育 成人教育学 特殊教育学 教育心理学 家庭教育 教育毕业 中专中职教育 教学设计 国学教育 学术研究 大学教育
药学卫生
社区门诊 医药学 医患关系 医院管理 疾病预防 保健医学 公共卫生 医学教育
文科论文
农业经济 工商管理毕业 会计毕业 行政管理 法律毕业 市场营销 经济毕业 汉语言文学 财务管理 物流管理 人力资源 旅游管理 国际贸易 物业管理 新闻学 企业管理 金融银行 社会科学 食品安全 办公档案 审计学 税务税收学 外国文学 哲学
理科论文
机电毕业 土木工程 计算机毕业 电气毕业 建筑毕业 电子商务 工程毕业 设计毕业 机械制造 汽车毕业 园林毕业 农学毕业 数控毕业 软件技术 水利工程 环境生态 畜牧渔业 化工毕业 科技创新 石油矿藏
论文格式
开题报告 论文题目 摘要关键词 目录提纲 论文致谢 参考文献 附录其他 论文答辩
职业论文
教育论文 经济论文 科技论文 财会论文 管理论文 医学论文 法学论文 文学论文 工业论文 建筑论文 农业论文 水利论文 计算机论文 社科论文 机械论文 生态环境 中西文化

先发表后付款 不成功可退款

权威机构认证 专注期刊10余年 1000余家杂志社长期合作

缔冠期刊网

首页 网站地图 返回顶部
Copyright © 1998- 缔冠期刊网