Activity cliff-aware reinforcement learning for de novo drug design

1일 전
4분 분량

1.논문 제목: Activity cliff-aware reinforcement learning for de novo drug design

2.저자명: Xiuyuan Hu, Guoqing Liu, Yang Zhao, Hao Zhang

3.Publish: 21 April 2025

4.DOI: https://doi.org/10.1186/s13321-025-01006-3

5.Abstract: The integration of artificial intelligence (AI) in drug discovery offers promising opportunities to streamline and enhance the traditional drug development process. One core challenge in de novo molecular design is modeling complex structure-activity relationships (SAR), such as activity cliffs, where minor molecular changes yield significant shifts in biological activity. In response to the limitations of current models in capturing these critical discontinuities, we propose the Activity Cliff-Aware Reinforcement Learning (ACARL) framework. ACARL leverages a novel activity cliff index to identify and amplify activity cliff compounds, uniquely incorporating them into the reinforcement learning (RL) process through a tailored contrastive loss. This RL framework is designed to focus model optimization on high-impact regions within the SAR landscape, improving the generation of molecules with targeted properties. Experimental evaluations across multiple protein targets demonstrate ACARL’s superior performance in generating high-affinity molecules compared to existing state-of-the-art algorithms. These findings indicate that ACARL effectively integrates SAR principles into the RL-based drug design pipeline, offering a robust approach for de novo molecular design.

6.한글 초록 요약본: 약물 개발에 AI를 적용함으로써 전통적인 신약 개발 과정을 간소화하고 향상시킬 수 있는 가능성이 제시됨. 그러나 de novo 분자 설계에서 중요한 구조‑활성 관계(SAR) 중 하나인 활동 절벽—미세한 분자 변화가 생물학적 활성을 크게 바꾸는 현상—을 모델링하는 것이 큰 도전으로 남아 있음. 이러한 불연속성을 현재 모델들이 제대로 포착하지 못하는 한계를 해결하고자 활동 절벽 인지 강화학습(ACARL) 프레임워크를 제안함. ACARL은 새로운 활동 절벽 지수를 이용해 활동 절벽 분자를 식별하고 이를 강화학습 과정에 맞춤형 대조 손실로 통합하여, SAR 공간에서 영향력이 큰 영역에 모델 최적화가 집중되도록 설계됨. 여러 단백질 표적에 대한 실험 평가에서 ACARL은 기존 최첨단 알고리즘보다 높은 결합 친화도의 분자를 생성하는 우수한 성능을 보여줌. 이는 ACARL이 SAR 원리를 RL 기반 약물 설계

7.한글 논문 요약본

7-1. Introduction

인공지능(AI)을 활용한 신약 개발은 후보물질 발견 과정을 가속화할 가능성이 있지만, 활성 절벽(activity cliff)이라는 복잡한 구조‑활성 상관관계(SAR)의 불연속성을 제대로 모델링하지 못한다는 문제가 있음. 활성 절벽은 분자 구조가 미세하게 변할 시 생물학적 활성 값이 급격히 달라지는 현상으로, 기존의 분자 생성 모델들은 이를 통계적 이상치로 처리하여 설계 과정에 반영하지 않음. 저자들은 이러한 한계를 해결하기 위해 Activity Cliff‑Aware Reinforcement Learning(ACARL) 프레임워크를 제안함. ACARL은 활성 절벽 지수(ACI)를 통해 활성 절벽을 정의하고, 강화학습(RL) 과정에서 이들 분자를 강조하는 대조 손실을 적용하여 모델을 SAR 상에서 영향력이 큰 영역에 집중시키도록 함. 이러한 접근은 AI 기반 약물 설계에 SAR‑특화 통찰을 접목시켜 더 목표 지향적인 분자 생성을 도모함을 강조함.

7-2. Methodology

7-2-1 문제 정의와 활동 절벽 지수(ACI)

약물 설계는 화학 공간 에서 분자 점수 함수 를 최대화(또는 최소화)하는 조합 최적화 문제로 정식화됨. 저자들은 활성 절벽을 정량적으로 검출하기 위해 활동 절벽 지수(ACI)를 정의함. ACI는 두 분자 의 성질 값 차의 절댓값을 탄이미토 거리 로 나눈 값이며, 기존의 SALI 지수를 일반화하여 도킹 점수 같은 다른 분자 특성에도 적용 가능하게 함. 분자 쌍이 활성 절벽으로 간주되려면 (1) 점수 차가 기준 보다 크고 (2) ACI가 임계값 를 넘어야 함.

7-2-2 강화학습 기반 분자 생성과 대조 손실

ACARL은 사전 학습된 GPT‑2 기반 화학 언어 모델을 RL을 통해 미세조정함. 기본 모델은 ChEMBL 데이터베이스의 SMILES 문자열로 학습되어 약 98 %의 유효 분자를 생성하며, RL 단계에서는 정책 경사(policy gradient) 손실에 분자의 도킹 점수 와 사전 학습 모델의 로그 우도 를 결합한 보상 을 사용함.

전통적 손실은 모든 샘플에 동일한 가중치를 주지만, ACARL은 활성 절벽 정보와 SAR의 고득점 영역을 강조하기 위해 대조 손실(contrastive loss)을 도입함. 각 RL 단계마다 생성된 분자들의 손실을 불균등하게 가중하여 고득점 분자와 활성 절벽 분자가 더 큰 영향력을 갖도록 하고, 이를 위해 Mall(전체 생성 분자)과 MAC(활동 절벽 분자)을 기록하는 메모리를 사용하여 가중치를 계산함. 가중치 함수 는 현재 단계의 분자와 이전 단계의 분자가 모두 활동 절벽 조건을 만족할 때 더 큰 값을 갖게 함.

7-2-3 구현과 실험 설정

점수 함수 는 도킹 점수 등 다양한 분자 특성을 0–1 범위로 정규화하며, 유효하지 않은 분자는 을 부여해 RL에서 무효 분자 생성을 억제함. RL에는 Quick Vina 2 도킹 소프트웨어를 오라클로 사용했으며, 5HT1B, 5HT2B, ACM2 세 가지 표적 단백질을 대상으로 1,000 단계의 RL을 수행함. 비교를 위해 Reinvent, JT‑VAE, GCPN, Reinvent 2.0, MARS, GFlowNet, LIMO 등 다양한 최첨단 모델과 네 가지 ACARL 변형(RL‑base, ACARL‑rand, ACARL‑high, ACARL‑low)을 사용함. 성능 평가는 각 표적에 대해 최고 도킹 점수(Top‑1), 최상위 100개 평균(Top‑100) 및 내부 다양성(IntDiv)을 보고하며, 추가적으로 도킹·QED·합성 가능성(SA)을 합친 다중 속성 최적화(MPO)도 수행함.

7-3. Results and Discussion

단일 속성(도킹 점수) 최적화에서 ACARL은 모든 표적에서 최상위 도킹 점수와 평균 도킹 점수에서 경쟁 모델들을 능가함. Table 1의 결과에 따르면 5HT1B 표적에서 ACARL의 Top‑1/Top‑100 점수는 −15.6/−13.0 kcal·mol⁻¹로 Reinvent, GCPN 등 기존 모델보다 크게 낮으며(낮을수록 높은 결합력), 내부 다양성도 비슷한 수준을 유지함. 변형 모델들과 비교한 실험에서 RL‑base와 ACARL‑rand는 성능이 낮았으며, ACARL‑high와 ACARL‑low 변형은 각각 활성 절벽의 상위/하위 점수 분자만을 강조했을 때 일부 성능 향상이 있었지만, 기본 ACARL이 가장 높은 성능을 기록함. 이는 활동 절벽의 양측(높은 점수와 낮은 점수)을 모두 강화하는 것이 약물 설계에 유리함을 시사함.

학습 과정 분석에서 그림 4는 RL 도중 활성 절벽의 발견 수와 각 배치의 평균 점수 변화를 보여줌. 초기 단계에는 활성 절벽이 거의 없어서 평균 점수 향상이 느리지만, 활성 절벽이 발견되고 강조되기 시작하면 평균 점수가 급격히 상승하여 점차 1에 수렴함. 그림 5는 ACARL이 식별한 활동 절벽 분자 쌍의 사례를 제시하는데, RL 이후 생성 모델의 로그우도 차이가 크게 증가하여 모델이 두 분자를 명확히 구분함을 보여줌.

다중 속성(MPO) 실험에서는 도킹, QED, SA를 조합하여 선형 결합 점수를 최적화하였으며, ACARL은 세 표적에서 가장 높은 종합 점수를 갖는 분자를 생성함. 다만 QED 값은 기존 약물과 유사하지 않은 비교적 낮은 값을 보여, 새롭게 발견된 화합물들이 기존 약물 구조와는 다른 화학 공간을 탐색할 수 있음을 의미함.

7-4. Conclusions

ACARL은 활동 절벽 지수와 대조 손실을 결합하여 SAR 불연속성을 직접 강화학습 과정에 반영하는 새로운 de novo 약물 설계 프레임워크임. 실험 결과, ACARL은 5HT1B·5HT2B·ACM2 표적에 대해 우수한 결합력을 지닌 분자를 생성하면서도 다양성을 유지하여 최첨단 모델을 능가함. 활성 절벽을 고려하는 것이 화학자들이 관심을 가지는 SAR 영역에서 더 효과적으로 분자를 설계하는 데 중요한 요소임을 확인함.

8.대표 Figure

Lab of Neurologic recovery & Rejuvenation

Activity cliff-aware reinforcement learning for de novo drug design

최근 게시물

댓글