CS计算机代考程序代写 database Bioinformatics deep learning computational biology DNA algorithm decision tree 2020 年 1 月 安徽大学学报(自然科学版) January 2020 第 44 卷第 1 期 Journal of Anhui University (Natural Science Edition) Vol .44 No .1

2020 年 1 月 安徽大学学报(自然科学版) January 2020 第 44 卷第 1 期 Journal of Anhui University (Natural Science Edition) Vol .44 No .1
doi :10 .3969/j .issn .1000-2162 .2020 .01 .007
基于 TCGA 数据库不平衡数据的改进分类方法
侯维岩1 ,刘 超1 ,宋 杨2 ,孙 燚1
(1 .郑州大学 信息工程学院 ,河南 郑州 450001 ;2 .上海大学 机械自动化学院 ,上海 200072)
摘 要 :为解决癌症基因组图谱中 DNA 甲基化数据不平衡导致假阴率上升的问题 ,提出一种基于 TCGA 数 据库不平衡数据的改进分类方法 .使用合成少数类过采样技术和 Tomek Link 算法进行混合采样 ,解决数据 不平衡问题 .在此基础上 ,将经特征选择后的训练集数据输入改进模型进行训练 、学习及分类 .基于 TCGA 数 据库 6 种癌症 DNA 甲基化数据的实验结果表明 :改进方法对少数类样本的分类性能有显著提高 ,对多数类 样本的分类性能也有一定的提升 .
关键词 :DNA 甲基化 ;数据不平衡 ;TCGA ;Tomek Link 算法
中图分类号 :TP181 ;TP391 文献标志码 :A 文章编号 :1000-2162(2020)01-0037-07
Improved classification method based on imbalanced data of TCGA
HOU Weiyan1 ,LIU Chao1 ,SONG Yang2 ,SUN Yi1
(1 .School of Information Engineering ,Zhengzhou University ,Zhengzhou 450001 ,China ; 2 .School of Mechatronic and Automation ,Shanghai University ,Shanghai 200072 ,China)
Abstract :In order to solve the problem that the DNA methylation data imbalance in cancer genomic map led to the increase in false negative rate ,this paper proposed an improved classification method based on the imbalanced data of TCGA database ,which used synthetic minority oversampling technique and Tomek Link algorithm for mixed sampling to resolve data imbalance problems .On this basis ,the training set data after feature selection was input into the improved model for training ,learning and classification .Based on DNA methylation data onto six cancers in the TCGA database ,the experimental results showed that the classification performance of improved model was significantly improved for a few samples ,and the performance of most samples was also improved .
Keywords :DNA methylation ;data imbalance ;TCGA ;Tomek Link algorithm
癌症分类模型是癌症基因组研究的重要组成部分之一 ,研究人员基于各种类型的基因测序数据 ,如 DNA 甲基化 、拷贝数变异和原始测序等 ,研究癌症的精准分类 ,进而探索癌症的发生 、发展机制[1] .目前 的文献首先对获取的各类基因测序数据进行标准化 、降维 、平衡化等预处理 ,然后将其输入癌症分类模 型进行训练和学习 ,在训练过程中不断调整训练参数 、优化模型 ,最终得到性能稳定 、泛化能力较强的癌 症分类系统 .
收稿日期 :2019-05-15
基金项目 :国家自然科学基金资助项目(61573237) 万方数据
作者简介 :侯维岩(1964 – ) ,男 ,河南郑州人 ,郑州大学教授 ,硕士生导师 ,E-mail :houwy@ zzu .edu .cn .

38 安徽大学学报(自然科学版) 第 44 卷
Hao 等[2] 使用 LASSO 算法结合 DNA 甲基化构建癌症分类模型 ,实现了对 4 种常见癌症样本(乳 腺癌 、结肠癌 、肝癌和肺癌)和正常样本的精准分类 .Capper 等[3] 利用随机森林算法结合 DNA 甲基化构 建脑肿瘤分类模型 ,实现了对 82 种脑肿瘤亚型和 9 种对照样本的正确分类 .目前癌症样本的分类准确 率较高 ,但少数类样本的分类准确率较低 ,这主要是数据不平衡造成的 .针对不平衡数据集的癌症分类 方法的上述问题 ,笔者提出一种基于 TCGA 数据库不平衡数据的改进分类方法 .利用合成少数类过采 样技术(synthetic minority oversampling technique ,简称 SMOTE)扩充少数类样本集 ,通过 Tomek Link 算法剔除噪声和边界数据 ,得到相对平衡的数据集 ,经特征选择后 ,将数据导入改进的 gcForest 模 型进行训练 、学习及分类 .
1方法
混合采样集成分类流程如图 1 所示 ,流程分为 4 阶段 :数据获取 、数据预处理 、特征选择 、模型训练 和分类 .使用的 6 种不同癌症类型的 DNA 甲基化测序数据源自 TCGA 官网(https ://portal .gdc . cancer .gov/repository) .在预处理阶段 ,SMOTE 对数据进行平衡化处理 ,用 Tomek Link 算法清理数 据 ,以剔除噪声点 .为减小数据的特征空间 ,仅考虑那些与癌症有因果关系的突变基因 .采用最小冗余最 大相关(mRMR)算法进行特征选择 ,使用改进的 gcForest 模型进行训练 、学习及分类 .
图 1 混合采样集成分类流程
1.1 数据预处理 1.1.1 数据处理
癌症基因组图谱(the cancer genome atlas ,简称 TCGA)[4] 是最全面的癌症测序数据库 ,提供的丰 富的癌症样本数据为开发癌症分类模型提供了基础 .TCGA 数据存在数据不平衡问题 ,多数类的影响 使分类模型的假阴性率大幅增加[5 ] .
TCGA 公布了 28 种癌症类型的 DNA 甲基化数据 .该文使用 Broad Institute 的 FireBrowse[6] 对 DNA 甲基化测序数据进行预处理 ,FireBrowse 将数值映射到基于 HGNC 命名法注释的特定人类基 因[7] .每个样本文件用 TCGA 标识符值注释 ,该值表示样本是肿瘤组织还是正常组织 .表 1 为该文使用 的 DNA 甲基化数据 .
表 1
Tumor type Abbrev
breastinvasive carcinoma BRCA
lung adenocarcinoma LUAD urothelial bladder carcinoma BLCA prostate adenocarcinoma PRAD lung squamous cell carcinoma LUSC
该文使用的 DNA 甲基化数据
thyroid cancer T HCA
.
Normal-0
# Patients Tumor-1
886 789 97 493 461 32 433 412 21 548 498 50 414 372 42 563 507 56
采 样
万方数据 [8 ] 用的分类方法对癌症样本有较高的准确率 ,但对正常样本的敏感性较低
1 .1 .2
表 1 的数据分布表明从 TCGA 中获取的数据严重不平衡 ,这是样本的类分布不统一所致 .目前使
.

第 1 期 侯维岩 ,等 :基于 TCGA 数据库不平衡数据的改进分类方法 39
SM O T E 是基于随机过采样技术的一种改进 ,其主要思想是将新样本插入少量相似样本以平衡数 据 .S M O T E 的 步 骤 [ 9 ] 为 :
(1) 对少数类中每一个样本 x ,以欧氏距离为标准计算它到少数类样本集中所有样本的距离 ,得到 其 k 近邻 .
(2 ) 根据样本不平衡比例确定采样倍率 N .
(3) 对于每一个少数类样本 x ,从其 k 近邻中随机选择若干样本 . (4) 对每一个随机选出的近邻 ,与原样本按下式构建新的样本
pi =x+rand(0,1)×(yi -x),i=1,2,⋯,N, (1) 其中 😡 为样本 ,rand(0 ,1)为 (0 ,1)内的随机数 ,yi 为从 k 近邻中选择的第 i 个样本 .
SM O T E 在平衡类别分布的同时也扩张了少数类的样本空间 ,导致原本属于多数类样本的空间被 少数类“入侵” ,造成模型的过拟合 .采用 Tomek Link 算法剔除噪声点和边界点数据 ,可较好解决“入 侵”问题[10] .Tomek Link 算法的核心思想为 :假设样本点 xi 和 xm 属于不同的类别 ,d(xi ,xm )表示两 个样本点之间的距离,如果不存在第3个样本点xl 使d(xl ,xi)< d(xi ,xm)或d(xl ,xj)< d(xi , xm )成立 ,则称 (xi ,xm )为一个 Tomek Link 对 .容易看出 ,如果两个样本点为 Tomek Link 对 ,则其中 某个样本为噪声(偏离正常分布太多)或者两个样本均在两类的边界上 . 对 SMOTE 算法扩充后的样本集 ,使用 Tomek Link 算法计算新样本与原样本之间的欧式距离以 及原样本与近邻之间的欧氏距离 ,然后比较二者的大小 ,剔除那些相似性低的样本点(即噪声点或者边 界点) ,保证插入数据与原样本具有较好的相似性 . 1.2 特征选择 使用最小冗余最大相关(mRMR)算法[11] 对样本进行特征选择 ,采用互信息作为评估两个随机变量 相关程度的指标 ,筛选出 122 个相关性最大 、冗余性最小的特征值 .互信息的表达式为 I x;y =簇p x,y log p x,y dxdy, (2) pxpy 其中 :p x ,y 为 x ,y 的联合概率密度 ;p(x) ,p(y)分别为 x ,y 的边缘概率密度 . 最大相关性可保证特征和类别的相关性最大 ,其表达式为 maxDS,c , (3) 其中:特征与类别相关性集合D= 1 ∑I xi ;c ,xi 为第i个特征,c为类别变量,S为特征集合. |S|xi∈S 最小冗余性可保证特征间的冗余最小 ,其表达式为 minR S , 其中 :Φ = D - R . 1.3 分类模型 (4) 为 第 j 个 特 征 , S 为 特 征 (5) 其 中 :特 征 间 的 冗 余 集 合 R = 1 ∑ I x i ; x j , x i |S|2x ,x ∈S 集合 . 筛选出的相关性最大 、冗余性最小的特征子集为 ij 为 第 i 个 特 征 , x j maxΦD,R , gcForest 模型[12] 包括两大模块 :级联森林(cascade forest)和多粒度扫描(multi-grained scanning) . 级联森林的每一层均由多个森林(既有随机森林 ,又有完全随机森林)组成 ,而每一个森林由多个决策树 (decision tree)组成 ,随机森林和完全随机森林保证了模型的多样性 . 研究表明 ,一定范围内 ,深度神经网络的网络层数比每层神经元的数量对模型性能的影响更大[13] . 万方数据 该文对 gcForest 模型中的级联森林结构进行了改进(见图 2) . 40 安徽大学学报(自然科学版) 第 44 卷 图 2 改进的级联森林结构 改进的级联结构中 ,每个级联层有两个子层 ,每个子层由 1 个随机森林和 1 个完全随机森林组成 , 第 1 个子层的 2 个随机森林将输出 1 个 2 维类向量 ,该类向量与原始特征结合作为第 2 个子层的输入 , 其他结构和 gcForest 模型相同 . 1.4 评价标准 癌症分类是一个二分类问题 ,二分类模型的性能评价中 ,混淆矩阵是最常使用的指标[14 ] .表 2 展示 了该文在二分类问题中使用的混淆矩阵 .表 1 中 ,少数类样本(即正常样本)用 0 表示 ,多数类样本(即癌 症样本)用 1 表示 .TP(true positive)的含义为 :实际为正常样本 ,分类结果也为正常样本 ;TN(true negatives)的含义为 :实际为癌症样本 ,分类结果也为癌症样本 ;FP(false positive)的含义为 :实际为癌 症样本 ,分类结果为正常样本 ;FN(false negatives)的含义为 :实际为正常样本 ,分类结果为癌症样本 . 真实值 表 2 二分类问题的混淆矩阵 预测值 01 0 TP FN 1 FP TN 召回率(recall)或敏感性(sensitivity )的表达式为 Rec = Sen = TP , (6) TP + FN Pre = TP . Spe = TNR = TN . (8) FP + TN F1 为算术平均数与几何平均数的比值,其表达式为 F1 =2×Rec×Pre. 此值越大 ,漏检越小 . 精确率的表达式为 TP + FP 特异度(specificity)或真阴性率(true negative rate ,简称 TNR)的表达式为 (7) Rec + Pre 接收者操作特征 (receiver operating characteristic ,简称 ROC)是反映敏感性和特异性的综合指 (9) 标 ,ROC 曲线上每个点反映对同一信号刺激的感受性 ,曲线越凸 、越接近左上角(0 ,1)点 ,表明其分类价 值越大 . 伪正类率(false positive rate ,简称 FPR)为预测为正但实际为负的样本占所有负例样本的比值 ,真 万方数据 正类率(true positive rate ,简称 TPR)为预测为正且实际为正的样本占所有正例样本的比值 . 第 1 期 侯维岩 ,等 :基于 TCGA 数据库不平衡数据的改进分类方法 41 2 分类结果及分析 从 TCGA 获取的 DNA 甲基化测序数据按 7 ∶ 3 分为训练集和测试集 .基于 6 种癌症 DNA 甲基化 数据 ,比较 5 种分类方法(logistic regression[15] 、随机森林[16] 、深度置信网络[17] 、gcForest 、改进的 gcForest 方法(下文简称改进方法))的性能 .各方法的主要参数设置如表 3 所示 ,其余参数采用默认值 . 分类方法 logistic regression random forest DBN gcForest 改进方法 表 3 5 种方法的主要参数设置 参数设置 L2 正则化 ,sovler 的参数设置为 liblinear ,正则化系数 C 为 1 .0 决策树个数为 30 ,bootstrap 设置为 True ,放回采样 3 个 RBM 隐藏层 ,节点数分别为 50 ,50 ,200 ,学习速率为 0 .05 随机森林和完全随机森林 ,级联时的森林个数为 4 ,每个森林中树的个数为 30 随机森林和完全随机森林 ,级联时的每层包含 2 个子层 ,每个子层森林个数为 2 ,每个森林中 树的个数为 30 表 4 为基于 DNA 甲基化数据的 5 种分类方法性能对比 .由表 4 可知 ,5 种分类方法对多数类样本 均具有较高的准确率 ,对少数类样本的敏感性较低 ,准确率及 F1 值也偏低 . 表 4 基于 DNA 甲基化数据的 5 种分类方法性能 Sen / Rec Pre F1 010101 分类方法 logistic regression random forest DBN gcForest 改进方法 0 .709 0 .798 0 .759 0 .832 0 .864 0 .972 0 .986 0 .978 0 .987 0 .988 0 .7 9 2 0 .8 4 6 0 .8 2 7 0 .8 4 9 0 .8 8 2 0 .978 0 .989 0 .982 0 .991 0 .992 0 .748 0 .821 0 .792 0 .840 0 .873 0 .9 7 5 0 .9 8 6 0 .9 8 0 0 .9 8 9 0 .9 9 0 图 3 为基于 DNA 甲基化数据的 5 种分类方法的 ROC 曲线图 . (a)ROC 曲线 ;(b)图(a)左上局部的放大 . 图 3 基于 DNA 甲基化数据的 5 种分类方法的 ROC 曲线 由图 3 可知 ,基于 DNA 甲基化数据的 5 种分类方法性能均较差 ,但改进方法性能相对较好 . 为解决上述问题 ,需要对 DNA 甲基化数据做平衡化处理 .表 5 为基于平衡化后的 DNA 甲基化数 据的 5 种分类方法的性能对比 . 万方数据 42 安徽大学学报(自然科学版) 第 44 卷 表 5 基于平衡化后的 DNA 甲基化数据的 5 种分类方法的性能 Sen / Rec Pre F1 010101 分类方法 logistic regression random forest DBN gcForest 改进方法 0 .865 0 .917 0 .897 0 .938 0 .954 0 .978 0 .987 0 .983 0 .988 0 .994 0 .8 7 3 0 .9 1 8 0 .9 0 3 0 .9 4 1 0 .9 6 8 0 .981 0 .990 0 .985 0 .993 0 .994 0 .869 0 .917 0 .900 0 .939 0 .961 0 .9 7 9 0 .9 8 8 0 .9 8 4 0 .9 9 0 0 .9 9 4 对比表 4 ,5 发现 ,基于平衡化后的 DNA 甲基化数据的 5 种分类方法对少数类样本的敏感性 、精确 率和 F1 值均有明显的提高 ,对多数类样本的性能也有一定的提升 . 图 4 为基于平衡化后的 DNA 甲基化数据的 5 种分类方法的 ROC 曲线 .对比图 3 ,4 可以发现 ,基 于平衡化后的 DNA 甲基化数据的 5 种分类方法的性能均得到了明显提升 . (a)ROC 曲线 ;(b)图(a)左上局部的放大 . 图 4 基于平衡化后的 DNA 甲基化数据的 5 种分类方法的 ROC 曲线 分析表 5 及图 4 发现 ,与其他 4 种分类方法相比 ,改进方法的分类效果最佳 ,对少数类样本的分类 性能有显著提高 ,对多数类样本的性能也有一定的提升 .改进方法中 ,多粒度扫描模块利用滑动窗口对 高维 DNA 甲基化数据进行处理和降维 ,故其特征学习的能力得到了提升 .改进方法将多粒度扫描模块 输出的特征向量和数据的原始特征向量一起送入级联森林结构中进行训练和学习 ,其对数据特征的学 习能力相比于其他 4 种方法更强 . 改进方法中 ,SMOTE 算法的近邻 k 值和采样倍率 N 是对方法性能影响较大的两个参数 ,表 6 为 不同 k 值和采样倍率 N 下改进方法的 F1 . 表 6 不同 k 值和采样倍率 N 下改进方法的 F1 k值 30 .892 50 .908 70 .889 0 .982 0 .988 0 .980 0 .912 0 .961 0 .898 0 .990 0 .994 0 .986 0 .887 0 .979 0 .896 0 .984 0 .886 0 .978 N = 100% N = 200% N = 300% 010101 由 表 6 可 知 ,在 不 同 k 值 和 N 值 的 9 组 参 数 组 合 中 ,近 邻 k 值 为 5 、采 样 倍 率 N 为 2 0 0 % 时 ,方 法 的性能最佳 ,因此 ,该文选择此参数组合 .采样倍率 N 为 200% 情况下 :k 值为 3 时 ,方法复杂度高 ,容易 产生过拟合现象 ,学习的估计误差增大 ;当 k 值为 7 时 ,虽然降低了学习的估计误差 ,由于 DNA 甲基化 数据集较小 ,增大了方法学习的近似误差 .近邻 k 值为 5 的情况下 :采样倍率 N 为 100% 时 ,方法性能 无 明 显 提 升 ,是 因 为 平 衡 化 后 的 正 、负 样 本 数 据 依 然 具 有 较 大 的 不 平 衡 性 ;采 样 倍 率 N 为 3 0 0 % 时 ,方 万方数据 法性能较差 ,是因为扩充的样本数远大于原始样本数 ,造成数据特征混乱 . 第 1 期 侯维岩 ,等 :基于 TCGA 数据库不平衡数据的改进分类方法 43 3 结束语 笔者提出了基于 TCGA 数据库不平衡数据的改进分类方法 .采用 SMOTE 和 Tomek Link 算法混 合采样 ,解决了 TCGA 数据库中 DNA 甲基化数据不平衡问题 ,将特征选择后的数据送入改进的 gcForest 分类模型中进行训练 、学习及分类 .5 种分类方法的分类结果对比表明 ,改进方法对少数类样 本的分类性能有显著提高 ,对多数类样本的性能也有一定的提升 . 参考文献 : [1] [2 ] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] LIANG M ,LI Z ,CHEN T ,et al .Integrative data analysis of multi-platform cancer data with a multimodal deep learning approach[J] .IEEE/ACM Transactions on Computational Biology and Bioinformatics ,2015 ,12 (4) :928-937 . HAO X ,LUO H ,KRAWCZY K M ,et al .DNA methylation markers for diagnosis and prognosis of common cancers[J] .Proc Natl Acad Sci U S A ,2017 ,114 (28) :7414-7419 . CAPPER D ,JONES D T ,SILL M ,et al .DNA methylation-based classification of central nervous system tumours[J] .Nature ,2018 ,555 (7697) :469-474 . SEILER R ,BLACK P C ,THALMANN G ,et al .Is the cancer genome atlas (TCGA) bladder cancer cohort representative of invasive bladder cancer [J] .Urologic Oncology Seminars & Original Investigations ,2017 , 35 (7) :458 . LIU C ,WU J ,MIRADOR L ,et al .Classifying DNA methylation imbalance data in cancer risk prediction using smote and tomek link methods[C]//International Conference of Pioneering Computer Scientists , Engineers and Educators ,Zhengzhou ,2018 :1-9 . 徐海福 .基于网络模型的泛癌症驱动基因识别方法 [D ] .西安 :西安电子科技大学计算机学院 ,2018 . GRAY K A ,YATES B ,SEAL R L ,et al .Genenames .org :the HGNC resources in 2015[J] .Nucleic Acids Research ,2015 ,43 :1079-1085 . 张菲菲 ,王黎明 ,柴玉梅 .一种改进过采样的不平衡数据集成分类算法[J] .小型微型计算机系统 ,2018 ,39 (10) :2162-2168 . BLAGUS R ,LUSA L .Smote for high-dimensional class-imbalanced data[J] .Bmc Bioinformatics ,2013 ,14 (1) :1-16 . DEBASHREE D ,SAROJ K B ,BISWAJIT P .Redundancy-driven modified tomek-link based undersampling : a solution to class imbalance[J] .Pattern Recognition Letters ,2017 ,93 (1) :1339-1351 . PENG H ,LONG F ,DING C .Feature selection based on mutual information :criteria of max-dependency , max-relevance ,and min-redundancy[J] .IEEE Transactions on Pattern Analysis and Machine Intelligence , 2005 ,27 (8) :1226-1238 . ZHOU Z H ,FENG J .Deep forest :towards an alternative to deep neural networks [C]//Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence Main Track ,Melbourne ,2017 :3553-3559 . LEON B .Large-scale machine learning with stochastic gradient descent [C]//19th International Conference on Computational Statistics ,Paris ,2010 :177-186 . 王鹏 .面向不平衡数据分类问题的核逻辑回归算法的设计与实现 [D ] .西安 :西安电子科技大学软件学 院 ,2015 . SUN H ,WANG S .Penalized logistic regression for high-dimensional DNA methylation data with case- control studies[J] .Bioinformatics ,2012 ,28 (10) :1368-1371 . DING J ,BARJOSEPH Z .Methrafo :medip-seq methylation estimate using a random forest regressor [J] . Bioinformatics ,2017 ,33 (21) :3477-3479 . BU H ,GAN Y ,YANG W ,et al .A new method for enhancer prediction based on deep belief network [J] . Bmc Bioinformatics ,2017 ,18 :418-423 . 万方数据 (责任编辑 郑小虎 )