有关基于规范文本的特征词提取技术毕业论文写作资料-论文写作网

简介:关于本文可作为相关专业出现在并将论文写作研究的大学硕士与本科毕业论文出现在并将论文开题报告范文和职称论文参考文献资料。

出现在并将论文范文

摘要：文本特征词提取是一种提炼文本重要信息的实用技术,同时也为文本聚类、自动分类、信息抽取等相关课题提供了技术支持.在规范文本上,利用文本篇章结构的特征,以此为基础设计了一个特征词的加权函数,综合考虑了词频、词长和位置因子,并对比分析了各种位置因子对系统的贡献度.

关键词：规范文本；特征词提取；加权函数；位置因子

中图分类号：文献标志码：A

随着计算机技术和网络通信技术的不断发展,人类在分享信息盛宴的同时,也为电子文本信息过载而困惑.在国内,中文电子文本信息资源也正以惊人的速度急剧增长.如何快速获取中文电子文本的重要信息成为信息处理的核心问题,因此反映文本主题思想的特征词提取技术越来越受到重视,其研究成果会直接应用到文本聚类、自动分类、自动标引、自动文摘和信息检索等相关领域里.

1 特征词提取技术的研究现状

特征词是能够高度概括文献内容的词或词组.因此,特征词应具有高概括性、可区分性、可计量性等特征.目前特征词提取大致可以分为两种技术：基于算法模型和基于统计及规则方法[1-6].

国外的特征词提取研究起步较早,而且已经形成了系统.Frank在预先标注好的语料上学习得到贝叶斯概率模型,计算候选词概率分值,取概率值大的作为特征词.Turney则采用遗传算法通过实例学习预先定义的特征,得到启发式的抽取规则,学习出抽取模型.

国内特征词抽取研究尚处于起步阶段,且多是基于规范文本,有一定的结构要求,韩客松等对Web 页面用统计加匹配的方法,提取了一些特征词串表示Web 页面.索红光在词频及区域特征的基础上加入了语义特征,而罗准辰等设计了分离模型,针对特征词和特征词串提出两种不同的特征,都取得了不错的效果.

文中的特征词抽取算法主要是基于规范文本内容的篇章结构关系,综合考虑了词频、词长、位置因子,尽可能减少对文档结构的依赖,使抽取算法更简单易用.同时在输出特征词时指定输出数量,实验证明这样的方法更有效.

2 实验文本数据

文中实验所处理的文本是格式相对规范的一类文本,这类文本不仅有摘要、关键词等重要信息,同时,文本内容的章节标号也有很明确的分级定义要求,另外,这些文本也有参考文献,这些内容都为特征词提取提供了非常重要的信息.

3 特征词提取算法

3.1 算法流程

这是基于规范文本的一种特征词提取算法,首先利用分词软件对规范文本内容进行分词,通过分词软件标注的词性,仅保留其中的名词和动词,这是因为特征词一般都是名词或动词,同时这种做法也避免了高频虚词的干扰.把经过分词软件结果中的名词、动词存入数据库A,并为每个词统计其词长、词频.然后将数据库中的名词与动词依据规范文本的篇章结构特点和显著标志,划分为标题、关键词、摘要、小标题和参考文献五部分,并把结果分别存入数据库B的5个数据表.第三步是统计各词的特征因子的值,利用权值函数,求出各词的权重,得到文本的特征词.

3.2 规范文本篇章结构划分规则

此文主要任务是读取经过分词软件处理过的文本,并将文本中的每个名词、动词按照其在文本中的位置进行提取并分类存储,主要步骤如下.

1）按段读取文本.将经过分词软件处理的文本按段读取,该段非空且含有汉字（处理时,空行是单独作为一段进行处理的）则进行存储,等待处理,否则直接去除,一次读入一段,并存到数组元素中,直到读入null为文件结束,将段落归类.

2）将属于同一部分的段落按照其在文本中的位置进行分类,并给不同的部分不同的数字标号,合并时采用向后合并的方法即让属于同一部分的前一段合并到下一段中,并将存储该段的数组的元素的位置清空.归类完成后,从前往后依次将字符串数组中非空的元素前移到其前面的第一个空元素处,并将原位置处清空.

3）归类时,默认首段为标题的一部分,且摘要前面的内容都作为标题进行处理；从摘要到关键字（词）之前的内容作为摘要进行处理；关键字默认为只有一段；后面的内容到参考文献为正文,根据是否有标题号来确定小标题；最后一部分为参考文献.

4）词语提取并分类存储到数据库中.从各个部分中提取名词和动词,将每个词作为一条记录存储到数据库中,根据该部分的标号分别给予每个词的位置因子以适当的值,词频为1（重复的词不合并）,并给出其词长.提取时,根据分词软件给出的词性标志进行抽取有用的词语.

3.3 权重的计算

3.3.1 加权因子的选择

在许多文献中都对特征词权重函数的加权因子进行了探讨,考虑到算法时间和空间的复杂度,只选取了词频、词长和词语位置3个因子.

词频：在一篇文本中,通常出现次数多的词要比出现少的词更能反映主题,当然高频虚词除外.

词长：词越长越能反映具体的信息,反之,较短的词的所表示意义通常较抽象,不能很好地反映主题,所以,选取特征词时只考虑词长较长的词.

词语位置：词出现的位置直接反映了其重要性,在文本中,一个词出现的位置通常有标题,关键词和摘要,正文段落的段首、段尾、段中,以及参考文献处.在不同的位置反映了该词所包含的主题信息量是不同的.通常,出现在标题处的词最能反映主题,关键词和摘要其次,段中的词所含信息量最少.而在标准格式的论文中,参考文献中出现的文本信息通常是与主题近似的文本.多次出现在参考文献中的词更有可能是论文的特征词,因此将出现在参考文献中的词作为位置因素之一来考虑.

3.3.2 特征词加权函数的设计

特征词加权函数设计为

3.4 特征词的筛选

通常选择特征词的方法是根据需要人为地给定特征词的数目为10,按特征词权重的大小排序,截取前10个作为全文的特征词.

4 测试与讨论

4.1 评价准则

选用传统的召回率、准确率和F-score来评价算法的优劣标准,其定义为

Precession 等于正确识别的特征词的数目/所提取出的特征词总数.

Recall 等于正确识别的特征词的数目/文中特征词总数.

F-score 等于 2 × precession × recall/（precession + recall）.

4.2 测试结果与分析

分别对不同的特征因子的组合情况进行了评测对比,结果见表1,从该表中,可以发现位置因子的加入对系统性能起到了非常重要的作用,提高了51%.而在各种位置因子当中,标题、摘要和关键字项对系统性能的贡献最大,去掉该项系统的性能就会下降一半多,而正文的小标题贡献最小,去掉该项后性能仅仅下降了1.7%.

而最终该算法的F值只有72.9%,分析原因有4点.一是由于分词软件本身的准确性的因素,会给实验带来一定的影响.二是由于特征词加权算法的位置因子函数中的 α,β值精确度不高,造成最后计算出来的权值有一定的误差.三是位置因子中最重要的部分即标题、摘要和关键字项,由于文本作者给的可能不是特别的规范和准确,使得一些噪音词被赋予很高的信息量,这些因素都会造成不理想的结果.四是文中给出的规范文本篇章结构划分规则不够完善,存在一些漏洞,使得部分词语在进行分类划分时,归类错误.

参考文献：

[1] Turney PD.Learning to extract key phrase from text[C].Na- tional Research Council,1999:1057.

[2] Frank E,painter GW.Domain-specific key phrase extraction[C].Proceedings of the sixteenth international joint confer- ence on artificial intelligence,1999:668-673.

[3] 李素建,王厚峰,俞士汶.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004(9):1192-1197.

[4] 罗准辰,王挺.基于分离模型的中文关键词提取算法研究[J].中文信息学报,2009(1): 63-70.

[5] 索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006(6):25-30.

[6] 韩客松,王永成,腾伟.Web 页面中文文本主题的自动提取研究[J].情报学报,2001(2):217-222.

（责任编辑王雯）

Research on Technology of Extracting Feature Word Based on Regular Text

Sun Xiang,Pan Ting-yong,Li Xiang-qiu,Zhao Yong-chao,Cui Shu-guang

（School of Applied Science, Taiyuan University Of Science And Technology, Taiyuan 030024 China）

Abstract: Extracting feature word of text is a practicable technology of extracting important information from text. At the same time, the technology also is provided support for related subjects of text clustering, automatic classification and extraction of information. Based on regular text and features of structure of text, the authors designed a weighting function of extraction. Combining word frequencies, length of word and position factor, the authors analyzed contribution of all kinds of position factors to system.