哟喂 哟喂
  • 首页
  • 科技资讯
  • 企业通用
    • 电子商务
    • 智慧农业
    • 健康医疗
    • 多媒体
    • 系统运维
  • 人工智能
    • AIGC
    • 多智体
    • 数据标注
    • 智能应用
    • 机器学习
    • 自然语言处理
  • 工业物联
    • PCB
    • 工业视觉
    • 工控仿真
    • 数控机床
    • 无人机
    • 物联网
    • 电路设计
    • 自动驾驶
  • 开发运维
    • 云计算
    • 前端开发
    • 后端开发
    • 客户端
    • 嵌入式
    • 开发工具
    • 数据库
    • 系统运维
  • 金融科技
  • 工具软件
  • 首页
  • 科技资讯
  • 企业通用
    • 电子商务
    • 智慧农业
    • 健康医疗
    • 多媒体
    • 系统运维
  • 人工智能
    • AIGC
    • 多智体
    • 数据标注
    • 智能应用
    • 机器学习
    • 自然语言处理
  • 工业物联
    • PCB
    • 工业视觉
    • 工控仿真
    • 数控机床
    • 无人机
    • 物联网
    • 电路设计
    • 自动驾驶
  • 开发运维
    • 云计算
    • 前端开发
    • 后端开发
    • 客户端
    • 嵌入式
    • 开发工具
    • 数据库
    • 系统运维
  • 金融科技
  • 工具软件
  1. 首页
  2. 人工智能
  3. 腾讯AI Lab「云深」平台开源业内首个药物AI大型分布外研究框架DrugOOD

腾讯AI Lab「云深」平台开源业内首个药物AI大型分布外研究框架DrugOOD

  • 哟喂
  • 人工智能、健康医疗
  • 2024-10-22

近日,腾讯AI Lab「云深」平台发布业内首个药物AI大型分布外研究框架DrugOOD,包括数据集整理器(curator)和基准测试(benchmark),以推动药化场景中的分布偏移(distribution shift) 问题研究,助力药物研发行业发展。

 

 

项目主页:https://drug.ai.tencent.com/drugood

开源github地址:https://github.com/tencent-ailab/DrugOOD

 

传统机器学习算法通常假设训练样本和测试样本来自同一概率分布(Independent and Identically Distributed,IID),然而实际场景中,训练样本与测试样本往往有着不一样的分布(Out-of-Distribution,OOD),导致基于训练样本优化得到的模型在实际测试样本上性能急剧下降,降低了模型在实际应用中的稳定性及可靠性。

 

OOD问题同时是AI辅助药物发现领域的一大挑战,从训练数据推广到实际数据,模型的泛化能力面临考验。例如在基于分子和靶点结构的虚拟筛选中,预测模型通常在已知的靶蛋白上训练。若遇到新的病毒靶点, 导致测试分布明显不同于训练分布,此时模型性能就会急剧下降。

 

DrugOOD针对药物AI研究中最重要的活性预测问题,提供大规模、全面的药物AI泛化数据集,覆盖AI药物辅助设计任务中发生分布偏移的各类场景,可帮助药物AI社区更便捷地开展OOD问题研究,未来更有望扩展到属性预测、分子对接等问题。同时DrugOOD还为各类研究方法的泛化性能提供基准测试,进一步促进技术进步。

 

首个药物AI自动化数据整理器

96个可重现数据集覆盖更全面的OOD场景

 

AI制药领域长期存在缺少可靠数据的挑战。过往药物AI领域的公开数据往往整理自药化领域的一些大型数据库存网站,比如库存网站ChEMBL(https://www.ebi.ac.uk/chembl/)持续从公开文献中收集整理大量的药物活性数据。

 

过往少数固定的公开数据集往往不可重现,主要原因在于:1)库存网站上的药化数据格式脏乱且持续更新,数据集无法反映最新的数据情况;2)这些数据集没有公开具体的数据处理流程,比如如何处理不同形式的噪声,如何处理多测量值等;3)药化领域缺乏一些共识,比如关于如何选取活性的阈值不同专家针对不同检验(Assay)有不同观点。因此,在药物AI领域急需一个可定制的自动化数据整理器,以生成可重现的数据集。

 

针对上述痛点,「云深」平台的DrugOOD提供了方便用户定制的数据整理流程,用户只需修改配置(config)文件中的相关参数,即可重新生成新的数据集。这些数据集可充分利用库存网站ChEMBL上多样且持续更新的海量数据。

 

针对有噪声的分布外学习场景(OOD Learning with Noise),DrugOOD集成了5种域标定方法和3种噪声标定水平。5种域标定方法(scaffold、assay、molecule size、protein、protein family)能够反映药物AI中真实的分布偏移场景,3种噪声标定水平(core、refined、general)根据测量置信度,度量标准,截断噪声等来制定,能够锚定数据中不同的噪声水平。

 

根据上述自动化数据整理器,我们生成了总计96个样例数据集,构建了包括Ligand Based Affinity Prediction、Structure Based Affinity Prediction等在不同设置(偏移因素,预测目标,噪声水平)下的评测任务,用于测试不同方法的鲁棒性能。通过基准测试发现,在DrugOOD上现存多种OOD算法的分部内-分布外(ID-OOD)分类性能(AUC score)差异达到了20%以上,验证了此数据集中域标定和噪声标定方法的真实性和挑战性。

 

 

 

 

全面评测标准

推动药化场景OOD问题研究

 

为解决OOD问题,此前行业已提出一些药物AI泛化研究方法,包括元学习、鲁棒优化、迁移学习等。但由于缺乏合适的OOD基准及标准化任务,这些方法的泛化性能难以得到系统性的评测,不利于技术社区形成统一认知,导致技术发展受阻。

 

基于DrugOOD数据集,腾讯AI Lab「云深」平台同时发布了全面的评测标准(Benchmark),比较当前各类OOD问题研究方法的性能,这些研究包括不同的泛化方法(ERM,IRM,DeepCoral等),以及不同网络架构(GIN,GCN,BERT等)。该算法开发与测试平台已经开源:https://github.com/tencent-ailab/DrugOOD

 

 

 

「云深」平台持续助力

AI+药物研究与应用

 

近年来,AI辅助药物设计技术已在多个药物发现任务中取得令人瞩目的成效,证明了人工智能技术助力药物研发的巨大潜力。

 

腾讯AI Lab于2020年发布了首个AI驱动的药物发现平台「云深」(https://drug.ai.tencent.com),整合了腾讯AI Lab在前沿算法、优化数据库的深厚积累,以及腾讯云计算资源上的优势,提供覆盖临床前新药发现流程的五大模块,包括蛋白质结构预测、虚拟筛选、分子设计/优化、ADMET属性预测及合成路线规划。

 

DrugOOD数据集是「云深」平台虚拟筛选模块基础能力的一大补充。未来,「云深」平台将继续推动人工智能、大数据等技术与药物研发需求的深度结合,以先进的技术能力赋能药物研发行业,提高新药发现效率。

* 欢迎转载,请注明来自腾讯AI Lab微信(tencent_ailab)

阅读原文

GitHub logo
tencent-ailab/DrugOOD
Star: 151 | Fork: 22

OOD Dataset Curator and Benchmark for AI-aided Drug Discovery

Recently Commits:
  • 61a70e4 Merge pull request #8 from tencent-ailab/dev show iid ood test/val domain nums by Yatao Bian2022-05-20
  • 5c076ad show iid ood test/val domain nums by JiYuanFeng2022-05-18
  • 24f7a65 Merge pull request #7 from tencent-ailab/dev set seed for reproducing by Yatao Bian2022-05-18
License:OTHER Download

哟喂

为您推荐最优质的软件系统和最专业的技术服务

上一篇
每天骑的共享单车是什么通信原理,有人了解过吗?
下一篇
强烈安利的 3 款 AI 神器

延伸阅读:

PlayEdu:企业级线上培训解决方案,助力多样化学习管理🤖
企业通用

PlayEdu:企业级线上培训解决方案,助力多样化学习管理🤖

项目概述PlayEdu 是由白书科技团队凭借多年线上教培领域的经验,精心打造的一款业内领先的线上培训解决方案。基于 Ja...

哟喂
2024-10-22

开源大马,开源技术分享交流,为您推荐最优质的软件系统和最专业的技术支持

热门分类

人工智能
企业通用
健康医疗
多媒体
嵌入式
工具软件
教育系统
物联网
科技资讯
自然语言处理

图片广告

最新文章

  • CourseLit:构建您自己的在线课程和数字下载平台🤖
  • Celestial Altium Library:高品质的开源电子设计数据库(PCB),超 200,000 个高质量组件及完整 3D 模型 🤖
  • Node-RED 是一种低代码编程工具,适用于物联网
  • Trudesk:高效的开源工单管理系统🤖
  • 图像魔方,一个强大的图像编辑和AI图片生成工具

图册展示

标签云

AI
下载工具
低代码
在线教育
嵌入式
录屏
智慧家居
物联网
知识付费
知识图谱
0060美熙科技说安泊尔调料关于我们
免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。
哟喂 © 2024. All Rights Reserved.