当前位置:网站首页>2021 CIKM |GF-VAE: A Flow-based Variational Autoencoder for Molecule Generation
2021 CIKM |GF-VAE: A Flow-based Variational Autoencoder for Molecule Generation
2022-07-26 03:58:00 【发呆的比目鱼】
2021 CIKM |GF-VAE: A Flow-based Variational Autoencoder for Molecule Generation

Paper: https://dl.acm.org/doi/epdf/10.1145/3459637.3482260
Code: https://github.com/chshm/GF-VAE
GF-VAE:一种基于流的分子生成变分自动编码器
分子生成是具挑战性但具有意义的一项工作,他需要遵循化学价规则的同时优化给定的目标。最近比较有效的方法是分子图与生成模型向结合,但是在计算上成本非常高。因此,作者提出了GF-VAE,一种用于分子图生成的基于流的变分自动编码器(VAE)模型。该模型在原来VAE的基础上增加了Flow模型解码器。其中编码器主要是加速解码的训练,而解码器则依次优化编码器的性能。由于流模型的可逆性,生成过程很容易通过反转解码器来完成。因此,GF-VAE继承了VAE和基于流的方法的优点。在分子生成和重建、学习潜在空间的平滑性、属性优化和约束属性优化方面验证了模型。
模型
近年来, 生成模型主要有生成对抗网络(GAN)、变分自动编码器(VAE)和基于流的模型。它们已应用于分子生成,例如基于GAN的MolGAN和GCPN、基于VAE的CVAE和JT-VAE,基于流的GraphNVP和MoFlow模型。
GF-VAE,是VAE和归一化流模型的无缝结合,用于一次性分子图生成。GF-VAE使用流生成器来引导VAE编码器学习更有意义的高级分子表示,同时它采用VAE编码器使流生成器减轻更少权重。如下图所示:

L A / L B L_A/L_B LA/LB代表整个模块堆叠 L A / L B L_A/L_B LA/LB次,以实现更好的映射性能, K A / K B K_A/K_B KA/KB代表对应方框内耦合层的堆叠次数,后续实验对比选出了最佳参数组合。
数据
- QM9
QM9包含134k分子,最多9个原子,分为4种不同类型。 - ZINC-250K
ZINC-250K由250k分子组成,最多38个原子,分为9种不同类型。
基线
基于VAE的模型
- CVAE
- GVAE
- GraphVAE
基于流的模型
- GraphNVP
- GRF
评估指标
- Validity(V)在所有生成的分子中化学有效分子的百分比;
- Novelty(N)生成的有效分子未出现在训练集中的百分比;
- Uniqueness(U)唯一有效分子占所有生成分子的百分比;
- Reconstruction可以从它们自己的潜在向量重建的分子的百分比。
- Score(S),它是Validity、Novelty和Uniqueness的乘积
实验

(a)和(b)是来自QM9的两个随机采样的分子。和(d)显示了图(a)和(b)中原子-原子余弦相似度的heatmap,它是根据编码器的嵌入向量计算的。(e)和(f)显示了基于来自GF-VAE编码器的原子嵌入向量计算的相似度。
以两种方式定性地检查学习的潜在空间的平滑度。一种是在两个随机正交方向上使用网格搜索方法来查找潜在空间中随机选择的分子的邻域并将它们可视化。另一种是在分子图的两个潜在点之间进行插值。选择Tanimoto指数作为化学相似性指标,并通过heatmap指示它们的相似性值。

上图(a)显示学习到的潜在空间是平滑的,因为相邻的潜在点对应于具有微小变化的分子。(b)还表明,除了第一步之外,两个潜在点之间的插值仅略微改变了分子图。这可能是因为学习到的潜在空间不遵循均匀分布,相似的分子紧密地聚集在一起,而不同的分子松散地分散在周围。
分子优化
- 一种是特性优化,它生成具有最佳特性分数的新分子。
- 另一个是约束性质优化,这意味着找到与给定分子相似但具有更好化学性质的分子。
选择药物相似性的定量估计(QED)和penalized logP(plogp)作为目标属性。分子相似性是通过摩根指纹的谷本相似性来衡量的。
表4.在ZINC-250K上得分前三的plogP和QED优化分子
表5.ZINC-250k上的约束plogP优化


约束属性优化。箭头从原始分子指向优化分子。箭头左侧和右侧的值分别表示给定分子对的性质改进和相似性
参考
https://baijiahao.baidu.com/s?id=1729293722854317823&wfr=spider&for=pc
边栏推荐
- 【数字IC/FPGA】热独码检测
- Visio: how do Gantt charts merge cells? Solution: overwrite cells
- php 实现从1累加到100的算法
- What is the problem of the time series database that has been developed for 5 years?
- 微信小程序实现音乐播放器(4)(使用pubsubjs实现页面间通信)
- Portable power fast charging scheme 30W automatic pressure rise and fall PD fast charging
- 安装VMware报错failed to install the hcmon driver
- Six years of automated testing from scratch, I don't regret turning development to testing
- 5 years, 1.4W times, NFT og's road to immortality Web3 column
- Multi merchant mall system function disassembly lecture 15 - platform side member label
猜你喜欢

Opencv learning notes - edge detection and Canny operator, Sobel operator, lapiacian operator, ScHARR filter

Analysis on the infectious problem of open source license

深度学习之SuperViT

Asemi rectifier bridge gbu1510 parameters, gbu1510 specifications, gbu1510 package

Dracoo Master天龙卡牌大师

Save the image with gaussdb (for redis), and the recommended business can easily reduce the cost by 60%

General test case writing specification

Graduation season & harvest season, leave your beautiful moments

ACM mm 2022 | end to end multi granularity comparative learning for video text retrieval

The B2B2C multi merchant system has rich functions and is very easy to open
随机推荐
微信小程序实现音乐播放器(5)
ASEMI整流桥GBU1510参数,GBU1510规格,GBU1510封装
【程序员必备】七夕表白攻略:”月遇从云,花遇和风,晚上的夜空很美“。(附源码合集)
【单片机仿真项目】外部中断0控制8个发光二极管闪烁
JS upload avatar (you can understand it after reading it, trust me)
Six years of automated testing from scratch, I don't regret turning development to testing
全校软硬件基础设施一站式监控 ,苏州大学以时序数据库替换 PostgreSQL
waf详解
【读书笔记->数据分析】01 数据分析导论
5年1.4W倍,NFT OG 的封神之路|Web3专栏
[digital ic/fpga] Hot unique code detection
Can't the container run? The Internet doesn't have to carry the blame
Div setting height does not take effect
[mathematical modeling - Summary of planning model] | matlab solution
Brief tutorial for soft exam system architecture designer | case analysis and problem solving skills
研发了 5 年的时序数据库,到底要解决什么问题?
Matlab paper illustration drawing template issue 39 - stairs
基于SSM选课信息管理系统
深度学习之DAT
operator new、operator delete补充讲义