近日,澳门威尼斯8188威尼斯娱人城计算系统生物学团队的江健教授在药物设计方面取得重要研究进展。相关成果以“A review of machine learning methods for imbalanced data challenges in chemistry”在化学领域顶级期刊《Chemical Science》(中科院一区Top)上发表(文章DOI: 10.1039/d5sc00270b)。江健教授为第一作者,金沙威尼斯欢乐娱人城为第一单位。该工作与美国密歇根州立大学Guo-wei Wei教授团队共同完成。

数据不平衡是指在一个数据集中某些类别显著代表性不足的情况,这是一个药物设计领域广泛存在的机器学习难题,然而目前对它的处理仍不够充分。这种数据不平衡可能导致有偏差的机器学习或深度学习模型,这些模型无法准确预测代表性不足的类别,从而限制了这些模型的鲁棒性和适用性。随着机器学习和深度学习算法的快速发展,针对这一问题已经出现了一些很有前景的解决方案,这就促使我们有必要对当前的方法进行全面回顾。在这篇综述中,我们研究了在化学不同领域中用于应对数据不平衡挑战的主要机器学习方法,包括重采样技术、数据增强技术、算法方法以及特征工程策略。我们在化学的各个研究方向(如药物发现、材料科学、化学信息学和催化)的应用背景下对每种方法进行了评估。

我们还探讨了克服数据不平衡挑战的未来方向,并强调了通过物理模型、大语言模型和先进数学理论进行数据增强的方式。文中讨论了在新材料设计和生产中平衡数据的益处以及仍然存在的挑战。总体而言,这篇综述旨在阐明应用于减轻化学领域中数据不平衡影响的常用机器学习技术,并为未来的研究和应用方向提供理论指导。
江健教授一直从事药物设计、复杂网络建模等交叉学科方面的研究。2021年通过结合几何拓扑和机器学习算法,构建的梯度提升多任务深度学习模型在药物分子脂溶性和溶解度等属性预测上取得领先;2022年结合几何图论和机器学习算法构建多尺度着色图模型在药物分子毒性上取得更好的预测准确度;2023年结合同调论和深度学习构建拓扑推断下的药物致瘾性学习模型,对致瘾性药物分子进行预测,寻找最优的先导化合物分子。相关成果发表在Chemical Reviews、Pain、Journal of Pharmaceutical Analysis等国内外知名期刊上。
江健教授所在的计算系统生物学团队负责人为张本龚教授,主要从事数学与大数据技术、计算系统生物学、机器学习、药物设计等领域交叉科学研究。近5年来,在单细胞测序数据分析、药物设计及发现、蛋白质结构预测和高光谱图像处理等研究领域取得了丰富研究的成果。团队教授2人,副教授4人,讲师2人,承担国家自然科学基金8项(其中面上3项),省部级项目5项,发表SCI论文60余篇。