您现在的位置是:首页信息安全论文

基于中文多标签分类的特征选择研究

发布时间:2014-02-19 11:50:54更新时间:2014-02-19 11:52:37 1

  如今,寻找一种有效的特征选择方法,降低特征空间维数,提高分类精度和效率,是文本分类需要面对的重要问题。目前常用特征选择方法主要有文档频数DF、互信息MI、信息增益IG和CHI方法,期望交叉熵,文本证据权,优势率,基于词频覆盖度等。这些方法的基本思想都是对每一个特征在这里是中文词,计算某种统计度量值,然后设定一个阈值T,把度量值小于T的那些特征过滤掉,剩下的即认为是有效特征。

  【摘要】在中文多标签文本分类中,面临的一个主要问题就是如何降低文本巨大的特征维数,并且保持分类精度甚至提高分类精度。文本提出的特征选择方法相比于现有最常用的特征选择算法,更注重删除稀疏特征、保留更有区分度、有利于分类的特征。

  【关键词】特征选择,多标签分类,中文信息处理

  1引言

  在文本分类中,特征在文档类中出现的频率越不均匀,即特征分布得越离散,往往特征对类别判定越重要,利用这一性质可以考查特征在分类中的重要程度。离散度通常可以用标准差或方差来计算,本文使用特征在文档类中的概率标准差对特征重要性进行定量描述,此特征概率标准差将作为特征的基本权重参与文本分类。

  2特征选择的工作基础

  2.1信息过滤

  过滤无用信息指的是去除文本中的一些无意义的文字内容及缺省符号,将有意义的文本内容提取出来,以回车符作分隔符进行分隔。

  2.2汉语文本自动分词

  文本的特征表示是文本分类面临的首要问题。

  2.3汉文粗降维

  粗降维指的是训练文本经分词后首先经过去掉停用词的处理,即为去掉一些没有实际分类意义的高频词、稀有词。本文中采用了建立停用词表,通过词表法去掉高频词和稀有词。

  2.4特征选择

  考虑一个特征(词条)对某类别的重要性时,该特征在该类中出现与不出现不应同等对待,该词条出现比不出现要重要。在正特征中,应该选择只在该类出现或者只在少数几个类别中出现的特征。具有强类别信息的特征应该不是高频词条。

  3特征选择方法

  3.1强类别纹理挖掘算法

  强类别纹理指的是文本中的某些特征强烈代表了其属于某一类别,其覆盖了某各类中尽量多的文档数目;强类别纹理具有最强的区分类的能力。强类别纹理选择过程。

  (1)去掉泛滥纹理:对于每个类号,观察C-W链表中的每个W,如果W出现在每个类号中,则去掉这个W。

  (2)标记强纹理:对于C-W链中的每个W,如果出现在主类别的概率大于次类别概率Ω%,则标记为强纹理。

  (3)特征迭代。

  1)结束条件:对于每个类,被标记的强特征和所有D-W链的交集非空,则算法结束。

  2)去掉任意X篇奇异文档:如果D-W链表与所在类的C-W交集为空,说明该文档无分类代表性,去除该文档。满足结束条件,则算法结束。在数据库中增加列:交际是否为空、是否被当作奇异文档或者增加了强特征。

  选择奇异文档或增加强特征的顺序:概念的权重、doccount、classcount等。

  3)根据任意Y篇文档增加强特征:从D-W和C-W交集为空的文档中提取新特征并加入到C-W中,同时标记为强类别纹理。满足结束条件,则算法结束。

  迭代结束时,给出去掉的奇异文档比例。最终得到的记为各个分类的强类别特征纹理。

  3.2改进的特征选择和加权方法

  采取文本特征选择的目的是除去那些不能表示信息或只可表示信息较弱的特征,以提高分类准确度和减少计算复杂度。特征簇是特征集的一个子集,其对某一个类具有代表性。对某个类C具有代表性的特征簇称为类C的特征簇。类C的特征簇用符号SofC(C)表示。令T为经过特征选择后剩余的特征集合,则各个特征簇和T的关系为:T=SofC(C1)∪SofC(C2)∪…∪SofC(CK)。特征选择的最终目的是求出一个特征集,该特征集满足以下两个性质:特征簇之间的交集尽量少;特征簇包含的特征在其对应的类内部分布尽量均匀。

  在上述理论的指导下,本文在吸取传统的特征选择方法和特征加权方法的基础上,对它们进行了改进,提出了新的方法。(1)特征选择函数s(w)

  设f(w,cj)表示w和第j个类的相关性,则特征选择函数定义如下:

  s(w)的值越大,说明特征w对某个类的代表性相对于其他类来说越明显。如果把第j个类中的所有样本看作一个文档集,即假设第j个类由一组文档dx(0传统的特征加权函数的缺点是,他们中有些方法没有用到调节因子,即使有些用到了调节因子,但他们用到的调节因子也仅仅考虑了整个样本集对该特征的影响因素。课题组认为,调节因子应该重点考虑类信息对该特征的影响因素。本项目采用的特征加权函数定义:

  式中,K表示样本集中含有的类个数;fincij表示第i个特征在第j个类中的出现次数;

  为调解因子。当第i个特征均匀分布于各个类中时,其值为-1,此时,aik为最小值0;当第i个特征仅仅出现于一个类中时,其值为0,此时,aik为最大值log(fik+1.0)。

  3.3多标签分类特征选择算法的框架描述

  Input:D:Multi-labeltrainset

  output:Y:featureselevtionresult

  C-W:texturefeaturesforeachcategory

  Process:

  Step1://文本预处理

  Fori=0ton

  TakethewordsegmentationandcomputerthewordfrequencesavedinarrayDWFi

  Endfor

  Step2://计算强类别纹理

  Forj=0ton

  Arrangethe(Dj:W1,W2,W3,…,Wn)

  To(Cy:W1,W2,W3,…)withcount;

  Fork=0tom

  CutdowntheWkwhichbelongstoallcategory

  Forh=0tom

  PicktheWhwhichthemaincategoryfrequency-secondarycategoryfrequency>?赘

  GetthestrongtexturefeaturesarrayC-W

  Endfor

  Step3://计算所有特征的权重函数s(w)

  Fori=0to|n|

  GettheS[i][j]whoholdsthefeatureandweight

  Endfor

  Step4://按照特征选择偏差要求,选择特征个数

  Fori=0to|S|

  If{

  AddSitoarrayResult}

  Endfor

  Step5://计算每个特征在每个类中的权值

  Fori=0to|Result|

  Endfor

  4实验结果及分析

  4.1多标签分类测试选择算法

  Ml-knn算法Multi-Labelk-NearestNeighbor}简称MLkNN是从熟悉的KNN算法派生而来。由于针对每个测试样本,它的KNN都已经在学习样本中确定,所以根据这些已经获取的近邻标记集的统计信息,用最大后验概率原则(MAP)去决定测试样本的标签集合,最大后验概率是基于KNN对每个标签的前验和后验概率。

  Navie-Bayes算法朴素贝叶斯分类器是当前流行的一种文本分类算法,它的简易性使其适合于处理属性个数较多的分类问题,改进的多标签朴素贝叶斯分类方法综合了朴素贝叶斯的简易性以及贝叶斯网表示依赖关系的能力,使其能容纳属性间存在的某种依赖关系。

  RAkEl算法一种基于随机游走模型的多标签分类算法,称为多标签随机游走算法。首先,将多标签数据映射成为多标签随机游走图。当输人一个未分类数据时,建立一个多标签随机游走图系列。而后,对图系列中的每个图应用随机游走模型,得到遍历每个顶点的概率分布,并将这个点概率分布转化成每个标签的概率分布。

  4.2多标签性能测量指标

基于中文多标签分类的特征选择研究

  本文选取的多标签性能指标为HammingLoss、One-Error、RankingLoss、Coverage、AveragePrecision。

  Hammingloss评价了实例标签对错误分类的次数;One-error评价了最高排行的标签不在例子实际分类中的次数;Coverage评估了平均需要降低多少格才能找到合适的标签;Ranki-loss评估了平均标签对的局部排序错误,Average-percision评估了预测出的标签准确精度。前四个方面评估值越小越好,但最后的Average-percision值是越大表现越好。

  4.3语料描述

  本文采用的是一个来自同济大学卫志华老师提供的中文新闻文本语料库,其具体的信息包括训练样本数测试样本数、样本特征数、标签数及平均标签长度。中文文本语料库的样本是取自教育、经济、军事、科技、商务、社会、体育、娱乐、政治共九大类的中文文本新闻数据集。现实的新闻语料的多标签情况受到许多因素的影响,如在人工划分对内容理解的主观影响、概念区分不清晰、标签之间从属关系等。由于在多标签数据中各类样本分布很不均匀,所以要尽量选取较为平均分布的语料。4.4实验结果

  经过强类别纹理挖掘算法的测试,经过1%递增的迭代测试,使用三种不同的多标签分类方法下,采用了各测试性能加权平均的衡量标准,选取了针对此语料库纹理主次类别频率差最佳阈值?赘为42%,得到的各个类别纹理。

  本文实验环境华为E6000刀片服务器,15.9GB内存,1T硬盘,操作系统为Winserver2003,Java版本SunJDK1.7.0。采用10倍交叉验证(10—foldCross—validation)策略对数据集进行了仿真实验。

  从评价指标中可以看出,在MLKNN以及的各项指标上SIFS均好于DF、IG以及MI特征选择方法;在Scene算法性能中上的One-Error分类效果上略逊于DF和IG特征选择中;在RAKEL分类算法上,SIFS在Hamming-loss分类效果稍差。从运行的时间指标看,在非海量数据实例集上测试,SISF由于前期强特征命中率较高,能大幅度地提高单类别文本的分类的分类效率,其多标签文本也都显著高于其余各种测试方法。由于数据分布的复杂性和分类算法达到效果的侧重点不同,由于RAKEL算法的随机游走性带来的样本偏差不确定因素,其他特征选择方法只在RAKEL算法中的Hamming-loss分类效果上稍优于SIFS,但其他方面SIFS方法综合比较还是较为突出的。

  5结束语

  本文采用的一种相关信息加权的自适应多标签特征选择算法,在目前现有的比较成熟的多标签分类算法的应用中,相对于现有的一些特征选择方法在大部分性能指标上有所提高。强特征纹理选择的过程会帮助算法在针对不同领域的语料库有更好的效果。实验可见,SIFS算法提供了一种更为有效、分类可靠性更高的多标签分类算法,本文的后续工作是进一步改进其在分类精度上的进一步改善。

  参考文献

  [1]陈震,吴斌,沈崇玮等.一种改进的基于质心的文本分类算法[J].计算机应用与软件,2013,30(1):43-47,54.

  [2]吕小勇.多标签文本分类算法研究[D].山西财经大学,2010.

  [3]TsoumakasG,KatakisI,VlahavasI.MiningMulti-labelData.DataMiningandKnowledgeDiscoveryHandbook[M]//MaimonO,RokachL.2nded.Springer,2010:667-685.

  [4]张宁.基于语义的中文文本预处理研究[D].西安电子科技大学,2011.

  [5]卫志华.中文文本多标签分类研究[D].上海:同济大学,2010.

相关期刊推荐:《信息技术》

  《信息技术》是由中国电子信息产业发展研究院、黑龙江省信用信息中心主办;主管部门黑龙江省信息产业厅;由黑龙江移动通信公司、黑龙江省诚信建设促进会、黑龙江省软件行业协会、黑龙江省农业信息中心、黑龙江省农垦通信有限公司等单位协办。本刊大力宣传国家信息基础建设和信息产业发展形式,深入报导国内外信息技术(产品)发展趋势,交流信息化建设经验,推介信息产业界精英。

  《信息技术》栏目设置

  主要栏目:综述与评论、研究与探讨、软件与编程、应用技术、信息天地、E-mail风景线、产品与服务、计算机应用。

  《信息技术》收录情况

  中国知网收录、万方数据—数字化期刊群、维普资讯科技期刊数据库收录期刊。


转载请注明来自:http://www.yueqikan.com/xinxianqlw/31380.html