基于多目标进化优化的癌症数据特征选择算法研究
近年来,癌症逐渐成为全球死亡的主要原因,研究人员为了解决癌症问题付出了巨大的努力。随着微阵列技术的发展,基因表达谱数据被广泛接受,并在癌症诊断研究中产生了深远的影响。
基因表达谱数据一般具有高维小样本的特点,研究人员通过不断地研究已经证明了部分基因与癌症相关,但是大部分的基因是与癌症无关或者仅有很少的联系,这些基因的加入对癌症诊断无效甚至会有负面影响。本文为了选取出具有代表性的特征并以提高分类效果而使用特征选择方法去除那些冗余特征。
癌症数据的高维性决定了本文所有解决的问题是一个多目标优化问题,特征子集的分类效果和特征数是本文同时要考虑的问题。同时,有部分癌症数据处于类别不平衡状态,因此,本文基于多目标进化算法针对癌症数据的特点设计出了两个特征选择算法。
本文的主要研究工作如下:(1)本文提出了用于癌症诊断的识别分子特征的启发式算法(HAMS)。在解决数据维度比较大的数据集时,大多数基于多目标进化优化的特征选择方法会选择先对数据集进行预处理使得维度降到一定的程度,缩小了搜索空间以降低搜索难度,但是一般的数据预处理部分只是简单的用相关性等方法去除一部分特征,而本文最终要寻找的是一个特征子集整体,这样简单的预处理可能会去除一些在特征子集整体中很重要的特征。
在HAMS算法中精英指导更新策略贯穿着种群的更新过程,为了使下一代的种群往更好的方向发展,精英指导更新策略使用精英个体计算出一个概率模型,再用概率模型生成一个新的种群。为了加速维度的收敛,本文在生成新种群的过程中加入了截断策略,这种策略使
得特征数随着代数的增加而加速收敛。
最后对精英个体与新种群合并后的种群使用非支配排序方法产生子代种群。本文在五个癌症数据集上对HAMS和七个特征选择方法进行了比较实验,实验表明HAMS在癌症诊断上可以使用更少的特征达到更好的精度。
本文对用HAMS得到的特征进行了生物分析,发现它们中大部分是和癌症相关的。(2)本文提出了解决多类不平衡癌症数据诊断问题的特征选择算法(MOCID-FS)。
癌症数据一般是使用微阵列技术得到的数据集,由于其探针数量、样本来源等原因,癌症数据一般具有高维度小样本的特性。虽然癌症数据的样本数量不多,但是很多癌症数据都有类别不平衡的特点,甚至有的癌症数据还是重度不平衡度状态,这对特征选择的分类性能有很大的影响,在分类器训练的过程中很容易忽略小类别样本的分类。
本文基于多目标进化优化算法提出了MOCID-FS算法,为了更好的解决问题,本文使用数据集中每个类别的AUC(ROC曲线下与坐标轴围成的面积)值和特征数目作为目标函数,此外本文在种群初始化和变异时都使用优化的策略选择对分类精度有促进效果的特征并且尽可能降低特征的数目。本文在四个数据集上和五个在处理不平衡数据方面经典的算法进行比较实验,实验表明MOCID-FS的效果更优秀。