近日,我校数理与统计学院王国强教授指导商务统计学专业2017级硕士研究生罗康洋开展了基于F-统计量和mPDC的改进SVM-RFE及其在癌症分类中基因选择的研究,在国际期刊上发表了最新研究成果。
该研究成果以“An improved SVM-RFE based on F-statistic and mPDC for gene selection in cancer classification”为题发表在SCI数据库国际期刊《IEEE Access》(该期刊最新影响因子为4.098,属中科院分区工程技术大类二区)上,并受到国家自然科学基金(Nos. 11971302, 11901382, 11471211)、上海市自然科学基金(No. 14ZR1418900)的支持。
▲部分论文截图
一种新的特征选择分类模型
可更有效地识别癌症样本
世界卫生组织的数据显示,癌症已经成为全球第二大死亡原因,约有六分之一的死亡是癌症引起的。晚期癌症通常无法治疗,但如果能够在早期阶段做出有效的诊断,大多数患者仍然可以康复。
为了提高癌症患者的生存率和治愈率,人们需要从早期诊断中分析相应的癌症微阵列基因数据集。然而,由于样本获得的成本高昂,用于癌症分类的基因表达数据中,集中的样本数量非常少(通常只有几十到数百个),相比之下基因数量非常多(通常为数千个),使得提取有用信息和有效分类变得困难。因此,从大量的癌症微阵列基因数据中选择包含尽可能多的信息的少量基因是一个关键且具有挑战性的问题。此外,数据集中存在的类不平衡问题进一步加大特征选择和分类的难度。
而罗康洋的论文中,基于F-统计量和mPDC提出了一种新的特征选择分类模型ISVM-RFE(FPD),可应用于癌症分类中的基因选择。大量数值实验表明ISVM-RFE(FPD)相对于现有的基于SVM-RFE的特征选择分类算法,能在较少牺牲非癌症样本判别率的情况下更有效地识别癌症样本。
全文历时半年多
英文写作是最大难点
从2018年12月正式开始着手研究。罗康洋同学在王教授的指导下历经了半年多的时间才最终投稿。论文投稿后,又经历了一次大修和一次小修,直到2019年9月收到了录用通知。
每一篇成功的论文都离不开作者长期以来对该领域的深入研究。在这篇论文之前,罗康洋就已经对数据集的类不平衡问题进行过研究,并以题为《基于L-SMOTE与混合核SVM的不平衡数据集分类研究》在北大核心期刊《计算机工程与应用》上发表了文章。近期,在已有研究的基础上,罗康洋还对上市公司财务预警问题进行了研究,最终以题为《基于改进的MRMR算法和代价敏感分类的财务预警研究》被北大核心期刊和南京大学核心期刊《统计与信息论坛》录用。
在谈到如何想到基于F-统计量和mPDC提出了一种新的特征选择分类模型ISVM-RFE(FPD),并应用于癌症分类中的基因选择时,罗康洋谈到:“在已有研究基础上的进一步研究过程中,我发现了具有类不平衡和高维数双重特性的癌症基因数据集。通过阅读国内外大量文献,我构造了多个备选的特征选择算法。在大量数值模拟结果之后发现ISVM-RFE(FPD)算法的效果最好。因此提出了这种新的特征选择分类模型。”
成功的背后没有一帆风顺的,在这篇论文写作过程中,罗康洋同学表示最难的部分是英语的表达。“因为这是我第一次写英文论文。首先遇到的问题是无法准确地用英语表达研究的内容,并且对背景介绍和引言部分的英语表达毫无头绪,一度导致论文的书写无法进行。这时王老师的鼓励给予了我莫大的动力,并教导我这是写英文论文必须要过的坎,坚持就是胜利。同时,针对论文的书写,王老师给出了很多建设性的意见,比如多阅读相关文献、积累好的英语表达并不断理解转化为自己的东西。”
在此期间,国外多名教授来校与王老师交流时,罗康洋积极利用接待外宾的机会练习英语表达。他直言:“这对我的帮助很大!经过不断的坚持和训练,论文的后续写作顺畅了很多。”虽然在论文的写作中遇到了困难,但在王老师的鼓励和指导以及自己一步一个脚印的摸索下,罗康洋最终顺利完成了论文的书写与研究。经王老师的推荐,这篇论文的研究,尤其在英文表达方面也得到了论文第四作者——美国马里兰大学Jiyuan Tao教授的肯定。
这篇论文的发表对罗康洋的科研能力和英语表达及写作能力的提升有很大帮助。此外,SCI论文的发表也拓宽了罗康洋的国际视野。“在以前的研究过程中,我主要关注国内期刊发表的研究成果,导致自己的眼界有些局限。但在这篇SCI论文的研究过程中,通过阅读大量权威外文文献,拓宽了自己的研究思路,找到了困扰自己许久的问题的答案。”罗康洋说,“这一研究作为我毕业论文的核心部分,较大地提升了论文的整体质量和水平。”
导师关怀教导,“做学问,
首先要学会做人!”
在研究过程中,导师的指导和帮助至关重要。罗康洋提到,研究初期通过与王老师的多次讨论确定了研究高维不平衡数据集的选题,并且分析了该选题的前沿性和可行性。在具体的研究过程中,王老师指出研究中存在的问题并给出了行之有效的解决方案,使研究能够顺利的进行,避免了很多的弯路。在论文书写阶段,王老师对论文的表达和整体结构进行了精准的调整和修改并对后续的完善提出了很多建设性的意见。
▲中为王国强教授、右为罗康洋
“王老师在生活中非常的平易近人,能站在我的角度思考问题,并给予我充分的理解和包容。但是,在做研究和做学问上王老师又是非常严格和严谨的,他经常教导我在做研究的过程中容不得一丝马虎。总之,不论在生活上和学习上老师都对我非常关心。”罗康洋说,“有一段时间可能是压力比较大,自己的体重直线下降。这一点被老师察觉后,他就经常叮嘱我多休息、多吃饭,并利用加班以及一起吃晚餐的机会,多次开导我,让我感到非常的温暖”。
优秀的学生离不开优秀的老师,罗康洋在采访中多次提到,自己从老师身上学到了除了学术知识以外的许多东西。“我最佩服老师的一点是王老师对生活、工作和科研都有明确的规划,且能高效地完成。比如说,老师每天都会把未来几天的事情规划好并逐一列出来,以保证每件事情都能高效率地完成。而且,王老师非常注重对我和师弟师妹们的团队协作精神的培养!他经常教导我们:‘大家都在一个课题组学习,这就是缘分!我们就是一家人!大家在生活和学习上应该相互帮助!共同提高!’他也常常告诫我们:‘做学问,首先要学会做人。做一个懂得感恩的人,做一个回报社会的人!’”。
在采访的最后,罗康洋还对学弟学妹们的提出了一些建议:“第一,对自己未来的生活和学习要有规划;第二,要有‘不到黄河心不死’的决心和持之以恒的毅力。”但是,人难免会有陷入迷茫和情绪低落的时候,罗康洋笑谈,“对我来说最好的方法是向比自己优秀的人看齐,不断地激励自己,然后睡一觉基本就没事了。”
出品 | 党委宣传部新媒体中心
来源 | 研究生工作(部)处、党委宣传部新媒体中心
图片 | 受访人提供
编辑 | 杨晓瑞
责任编辑 | 万慧琳
更多专题
1 | 骄傲!这位工程大人是金鸡奖“最佳美术片”《风语咒》的重要贡献者 |
2 | 工程大,整改进行时!| 做有温度的教育,建有温度的校园 |