Artificial intelligence in peptide-based drug design
- 임지현
- 4월 28일
- 4분 분량
Silong Zhai 1 2, Tiantao Liu 1, Shaolong Lin 1, Dan Li 2, Huanxiang Liu 1, Xiaojun Yao 1, Tingjun Hou 2 |
February 2025 |
Abstract |
Protein–protein interactions (PPIs) are fundamental to a variety of biological processes, but targeting them with small molecules is challenging because of their large and complex interaction interfaces. However, peptides have emerged as highly promising modulators of PPIs, because they can bind to protein surfaces with high affinity and specificity. Nonetheless, computational peptide design remains difficult, hindered by the intrinsic flexibility of peptides and the substantial computational resources required. Recent advances in artificial intelligence (AI) are paving new paths for peptide-based drug design. In this review, we explore the advanced deep generative models for designing target-specific peptide binders, highlight key challenges, and offer insights into the future direction of this rapidly evolving field. |
한글 초록 요약본 |
단백질-단백질 상호작용(PPIs)은 다양한 생물학적 과정에서 핵심적인 역할을 수행하지만, 상호작용 부위가 크고 복잡하기 때문에 이를 소분자 화합물로 표적화하는 데에는 어려움이 있음. 그러나 펩타이드는 단백질 표면에 높은 친화도와 특이성으로 결합할 수 있어 PPIs를 조절하는 매우 유망한 수단으로 떠오르고 있음. 그럼에도 불구하고, 펩타이드의 고유한 유연성과 막대한 계산 자원 소모로 인해 컴퓨터를 이용한 펩타이드 설계는 여전히 어려운 과제로 남아 있음. 최근 인공지능(AI)의 발전은 펩타이드 기반 약물 설계에 새로운 길을 열어가고 있음. 본 리뷰에서는 타겟 특이적 펩타이드 결합체를 설계하기 위한 첨단 딥 제너레이티브 모델을 소개하고, 주요 과제를 조명하며, 빠르게 발전하는 이 분야의 미래 방향성에 대한 통찰을 제공하고자 함. |
Introduction Protein–protein interactions(PPIs)은 생명현상에 있어 핵심적인 역할을 수행함. 그러나 PPI는 표면이 넓고 얕아 소분자 약물로 표적화하기 어렵다는 한계가 존재함. 이에 반해 펩타이드는 구조적 유연성과 강직성의 균형을 가지고 있어 높은 결합 친화도와 특이성을 지니며, PPIs를 타겟하는 데 유리한 특성을 보임. 펩타이드는 합성 용이성, 낮은 독성, 낮은 면역원성 등의 장점을 추가적으로 보유하고 있음. 인슐린 개발 이후 펩타이드 치료제는 지속적으로 발전하여 현재 100개 이상의 펩타이드 기반 약물이 FDA 승인을 받았음. 그러나 펩타이드 설계는 여전히 유연성으로 인한 구조 예측의 어려움, 제한된 데이터, 높은 계산 자원 소모 등의 문제를 동반함. 이러한 문제를 해결하기 위해 최근 AI, 특히 딥러닝 기술이 펩타이드 기반 약물 설계에 새로운 가능성을 제시하고 있음.
Protein–peptide interactions PpIs(Protein–peptide interactions)는 세포 내 PPIs의 15–40%를 차지하며, 펩타이드 기반 치료제 개발에 있어 필수적인 이해 대상임. PpI 연구를 지원하기 위해 다양한 데이터베이스(CPSet, ProPedia, PepBDB 등)가 구축되어 있음. 하지만 데이터의 품질과 다양성이 부족하며, 업데이트가 활발하지 않아 모델 훈련에 제약이 존재함. PpI 예측을 위해 PepBind, InterPep, CAMP, PepNN, MaSIF 등의 다양한 방법이 개발되었음. 이들 방법은 구조 또는 서열 정보를 활용해 결합 부위를 예측하거나, 표면 기반 딥러닝을 통해 복잡한 상호작용 패턴을 학습함. 복합체 구조 예측은 Template-based docking과 Template-free docking으로 나뉘며, AlphaFold3(AF3), RoseTTAFold All-Atom(RFAA) 등의 최신 AI 기반 방법은 높은 정밀도의 복합체 구조 예측을 가능하게 함. 그러나 짧은 펩타이드(5~30 아미노산)나 비정형 구조에 대한 정확도는 여전히 한계가 존재함.
Target-specific peptide drug design 펩타이드 설계는 결합 친화도와 정확성 간의 균형을 달성하는 데 어려움을 겪고 있음. 많은 기능성 펩타이드가 무질서한 상태로 존재하거나 다양한 구조를 자유롭게 변화할 수 있어, 최적 결합 구조를 예측하고 설계하는 것이 매우 까다로움. 이러한 문제를 해결하기 위해 AI 기반 설계 전략이 제시됨. 첫 번째 접근법은 Hallucination-based methods임. 이는 무작위 서열을 시작점으로 하여, AlphaFold 같은 구조 예측 모델을 이용해 접힘을 최적화함. 대표적 방법으로 ColabDesign, EvoBind, EvoBind2, EvoPlay가 있음. EvoBind2는 타겟 단백질 서열만을 입력으로 사용하여, 결합 부위나 서열 길이에 대한 사전 정보 없이도 설계가 가능함. EvoPlay는 강화학습(RL)을 적용하여 설계 효율성과 다양성을 높였음. 두 번째 접근법은 Structure–sequence co-design methods임. 이는 구조와 서열을 동시에 생성하여, 더 복잡하고 유연한 펩타이드를 설계하는 방법임. 대표적 모델로 DiffPepBuilder, PepGLAD, PepFlow가 있음. 이들 모델은 SE(3) 대칭성을 고려한 diffusion 모델이나 flow matching 기법을 활용하여 펩타이드의 백본과 사이드체인 모두를 정확하게 모델링함. Co-design 전략은 특히 동적이거나 비정형적인 구조를 가진 펩타이드 설계에 강점을 가짐.
Sequence-based methods 구조 데이터가 부족한 문제를 극복하기 위해 Protein Language Models(pLMs)이 등장하였음. 대규모 단백질 서열 데이터로부터 훈련된 이 모델들은 구조 없이도 펩타이드를 설계할 수 있음. 대표적 방법으로 PepMLM이 있으며, 이는 타겟 단백질 서열의 C말단에 마스크를 씌운 후, 그 부분을 복원하는 방식으로 고친화성 펩타이드를 생성함. PepMLM은 38% 이상의 높은 히트율을 기록하였음. moPPIt은 특정 모티프에 기반하여 펩타이드를 설계하는 방법으로, BindEvaluator라는 transformer 모델을 사용함. Cut&CLIP은 대조학습(contrastive learning)을 이용하여 E3 ligase를 통해 타겟 단백질을 분해할 수 있는 펩타이드를 설계함. 이러한 pLM 기반 접근은 특히 구조적 정보가 부족한 타겟, 무질서 단백질(IDPs) 등에 대해 매우 유용한 전략임을 입증하였음.
Evaluation metrics 펩타이드 설계 모델을 평가하는 데 있어 Self-consistency와 Diversity가 주요 지표로 사용됨. Self-consistency는 생성된 서열이 주어진 백본 구조에 잘 맞는지를 평가하며, ProteinMPNN 같은 도구를 통해 검증함. Diversity는 생성된 구조가 얼마나 다양한지를 평가하며, backbone RMSD나 TM-score를 통해 측정함. Binding affinity는 Rosetta binding energy나 AlphaFold의 ipTM 점수 등을 통해 평가함. 그러나 ipTM은 결합 인터페이스가 짧고 유연한 펩타이드의 특성을 충분히 반영하지 못하는 한계가 있어, 이에 대응하기 위해 actifpTM 점수가 새롭게 제안됨. 현재까지는 다양한 연구 그룹마다 서로 다른 기준을 적용하고 있어, 향후에는 표준화된 벤치마크 세트의 마련이 필요함.
Challenges and future perspectives 펩타이드 치료제 개발에는 여전히 많은 장애물이 존재함. 자연 펩타이드는 낮은 안정성, 빠른 체내 분해, 낮은 세포 투과성, 짧은 반감기 등으로 인해 약물화에 한계가 있음. 이를 극복하기 위해 NCAAs(비표준 아미노산), N-methylation, 고급 사이클화 기법 등이 도입되고 있음. 특히 사이클릭 펩타이드는 구조를 고정하여 안정성과 투과성을 향상시키는 데 효과적임. RFpeptides 같은 새로운 diffusion 모델은 다양한 형태의 사이클릭 펩타이드를 설계할 수 있도록 진보함. AI 기반 펩타이드 설계 모델은 점점 발전하고 있으나, 여전히 binding affinity 외에도 drug-likeness, 안정성, 타겟 특이성 등 다목적 최적화가 필요함. 실험적 검증과 통합되지 않은 순수 모델링 접근만으로는 실제 약물 개발로 이어지기 어렵기 때문에, AI 설계와 실험 데이터 간의 긴밀한 통합이 필수적임. 향후에는 AF3, diffusion 기반 모델, flow-matching 모델 등을 활용하여 더욱 정밀하고 효율적인 펩타이드 기반 치료제를 개발할 수 있을 것으로 기대됨. |
