CSearch: chemical space search via virtual synthesis and global optimization
- 6일 전
- 3분 분량
1.논문 제목: CSearch: chemical space search via virtual synthesis and global optimization
2.저자명: Hakjean Kim, Seongok Ryu, Nuri Jung, Jinsol Yang, Chaok Seok
3.Publish: 05 December 2024
5.Abstract: The two key components of computational molecular design are virtually generating molecules and predicting the properties of these generated molecules. This study focuses on an effective method for molecular generation through virtual synthesis and global optimization of a given objective function. Using a pre‑trained graph neural network (GNN) objective function to approximate the docking energies of compounds for four target receptors, we generated highly optimized compounds with 300–400 times less computational effort compared to virtual compound library screening. These optimized compounds exhibit similar synthesizability and diversity to known binders with high potency and are notably novel compared to library chemicals or known ligands. This method, called CSearch, can be effectively utilized to generate chemicals optimized for a given objective function. With the GNN function approximating docking energies, CSearch generated molecules with predicted binding poses to the target receptors similar to known inhibitors, demonstrating its effectiveness in producing drug‑like binders.
6.한글 초록 요약본: 컴퓨터 기반 분자 설계에서 가상으로 분자를 생성하는 과정과 생성된 분자의 속성을 예측하는 과정이 핵심임. 본 연구는 주어진 목적 함수를 가상 합성과 전역 최적화로 효율적으로 최적화하는 방법에 초점을 맞춤. 사전 학습된 그래프 신경망(GNN)을 사용하여 네 개 표적 수용체에 대한 도킹 에너지를 근사함으로써, 가상 화합물 라이브러리 스크리닝보다 300–400배 적은 계산으로 고도로 최적화된 분자들을 생성하였음. 이렇게 최적화된 분자들은 높은 활성을 가진 알려진 억제제와 비슷한 합성 가능성과 다양성을 보이며, 라이브러리 화학물이나 기존 리간드에 비해 뚜렷한 새로움을 가진다고 보고함. 이러한 방법을 CSearch라고 하며, 주어진 목적 함수에 최적화된 화합물을 효율적으로 생성하는 데 활용할 수 있음. GNN이 도킹 에너지를 근사하도록 설계되어 있기 때문에, CSearch가 생성한 분자들은 표적 수용체에 대한 예측 결합 포즈가 알려진 억제제와 유사하여 약물과 유사한 결합체를 효과적으로 생산함을 보여줌.
7.한글 논문 요약본
7-1.Introduction:
- 기존에는 QED·log P·SA와 같은 단순 지표들을 결합한 목표 함수로 생성 모델을 학습하는 경우가 많았으나, 생성과 속성 예측 모델의 객관적인 평가가 어렵고 평가 기준이 일관되지 않아 더 발전된 방법이 요구됨.
- 연구팀은 Conformational Space Annealing(CSA)을 화합물 공간에 확장하여 가상 합성과 전역 최적화를 결합한 CSearch 방법을 제안하고, 사전 학습된 GNN으로 도킹 점수를 근사한 목표 함수를 사용해 네 개 표적 수용체에 대한 화합물 최적화를 수행함.
7-2. Method:
- CSearch 알고리즘은 초기 은행(initial bank)에 있는 n=60개의 다양한 화합물을 출발점으로 삼아, 반복적으로 가상 합성을 통해 시도 화합물(trial chemicals)을 생성하고 이를 전역 최적화 알고리즘인 CSA로 평가·갱신함.
- 은행 내 각 화합물은 반경 R_cut로 정의된 화학 공간에서 대표자로 간주되며, R_cut는 초기 평균 거리를 반으로 나눈 값에서 시작해 20개의 CSA 사이클 동안 40%로 감소하도록 조절되어 넓은 탐색에서 점차 집중 탐색으로 전환함.
- 각 사이클마다 선택된 6개의 시드 화합물로부터 BRICS 규칙에 기반한 가상 합성을 수행해 최대 120개의 새로운 분자를 생성하고, 이들 중 목표 함수가 개선된 분자로 은행을 교체하거나 갱신함. 조각 선택은 PubChem 프래그먼트 빈도에 기반한 가중치를 적용해 합성 가능성을 높임.
-CSearch의 성능을 가상 라이브러리 스크리닝(Enamine HTS Collection 1,352,699종)과 REINVENT4 강화학습 모델과 비교했으며, 세 방법 모두 동일한 초기 화합물과 목표 함수를 사용하고 상위 300개의 화합물을 비교하였음.
7-3. Result and Discussion:
- 최적화 효율성 측면에서 CSearch는 가상 스크리닝과 REINVENT4보다 훨씬 적은 평가 횟수로 더 낮은(더 좋은) 도킹 점수를 얻었으며, 300개의 최상위 화합물의 평균 점수도 경쟁 방법보다 높았음.
- GNN 대리 모델의 한계를 분석한 결과, 데이터베이스 화합물에서는 GalaxyDock3 도킹 점수와 높은 상관관계를 보였지만 최적화된 화합물에서는 상관계수가 0.18–0.48로 낮아 대리 모델과 실제 점수 간 불일치가 존재함이 드러남. 이는 실제 화합물 최적화에서 더 정교한 목표 함수가 필요함을 시사함.
- 다양성 평가에서는 CSearch 화합물이 실험적 리간드와 유사한 Tanimoto 거리 분포(0.6~1)를 보여 가상 스크리닝, REINVENT4, BindingDB 리간드와 비교해 비슷한 내부 다양성을 유지함을 확인하였음. 하지만 ‘#Circles’ 지표로 본 화학 공간 커버리지에서는 CSearch가 라이브러리 스크리닝보다 낮은 값(예: MPro에서 9)에 그쳐 최적화가 다양성을 일부 희생함을 나타냄.
- 새로움과 화학 공간 탐색에서 t‑SNE 시각화 결과 CSearch와 REINVENT4가 생성한 화합물, 그리고 BindingDB 리간드는 DrugspaceX·ZINC·Enamine HTS 데이터베이스의 주요 클러스터와 다른 영역에 위치해 새로운 화학 공간을 탐색함을 보여줌. 특히 CSearch는 BTK 표적을 제외하고는 데이터베이스에 존재하지 않는 영역으로 이동하여 새로운 화학 모티프를 발견하는 능력을 입증함.
- 실험에서는 또한 MPro에 대한 상위 5개 화합물을 가상 스크리닝, CSearch, 알려진 리간드 간에 비교하였음. CSearch가 생성한 화합물은 알려진 억제제와 유사한 크기와 기능성기를 갖고 도킹 포즈도 매우 비슷해, 단순화된 목표 함수를 사용했음에도 사실적인 결합 포즈를 복원함을 보여줌.
7-4. Conclusions:
- CSearch는 네 가지 단백질 표적에 대해 가상 스크리닝과 강화학습 방법보다 압도적으로 높은 계산 효율과 우수한 최적화 성능을 보여줌. 특히 106 규모의 라이브러리 스크리닝보다 300–400배 적은 평가 횟수로 비슷하거나 더 좋은 최적 값을 도출함.
- 생성된 화합물은 합성 가능성·다양성 면에서 기존 데이터베이스 및 실험적 리간드와 유사하며, t‑SNE 분석에서 기존 화학 데이터베이스에 없는 영역을 탐색하는 높은 새로움을 갖춤.
- 이러한 결과는 CSA 기반의 CSearch가 drug‑like molecule generation 분야에서 기준 모델로 활용될 수 있음을 보여주며, 보다 정확한 목표 함수나 다중 목표 최적화를 통합함으로써 향후 더 복잡한 약물 설계 문제에 적용될 수 있음을 제시함.
8.대표 Figure





댓글