전공자를 위한 생물학/대학원생을 위한 필수 생물학 개념들

[알파폴드] 10편 : AlphaFold3의 작동 방식 - 학습법과 신뢰도

단세포가 되고파🫠 2025. 4. 20. 17:30
반응형

 

 

 

AlphaFold3가 다양한 생체분자의 구조와 상호작용을 예측할 수 있게 된 건 단지 모델 구조 덕분만은 아니에요. 모델을 어떻게 훈련시켰고, 예측 결과를 어떻게 평가했느냐도 엄청나게 중요한 요소였어요.



이번 글에서는 AlphaFold3의 학습 방식과 함께, 예측된 구조가 얼마나 신뢰할 수 있는지를 판단하는 내부 시스템을 소개할게요.

 


학습 데이터는 어떻게 구성돼 있었을까요?


AlphaFold3는 단백질뿐만 아니라 DNA, RNA, 리간드, 금속 이온 등 다양한 분자의 구조와 상호작용을 다룰 수 있어야 했어요. 그래서 훈련에 사용된 데이터도 기존보다 훨씬 다양하고 복합적인 구조들로 구성됐어요.

 

 

 


예를 들어, 단백질-리간드 결합체, 단백질-RNA 복합체, 리보좀처럼 다중 단위체로 이루어진 거대한 복합체도 포함됐고요. 여기에 다양한 이온이나 물 분자와의 상호작용 구조도 포함됐어요. 덕분에 AlphaFold3는 복잡한 생체 환경에서도 분자들이 어떻게 결합하는지를 학습할 수 있었죠.



또 하나 중요한 점은, 정확한 구조만 사용한 게 아니라, 부분 구조, 저해상도 Cryo-EM 데이터, NMR 결과 등도 학습에 포함됐다는 점이에요. 즉, 실험적으로 완전하지 않더라도, 다양한 수준의 데이터에서 유의미한 패턴을 학습할 수 있게 한 거예요.

 


예측 구조의 신뢰도는 어떻게 평가하나요?


AlphaFold3는 예측 결과에 대한 신뢰도(확신 정도)도 함께 제공해요. AlphaFold2에서 제공했던 pLDDT, PAE 점수 외에도, AlphaFold3에서는 새로운 방식의 분자간 상호작용 예측 정확도까지 추가되었어요.

 


대표적인 지표는 다음과 같아요

 


pLDDT

단백질 내부 잔기(residue) 간의 구조 신뢰도 점수예요. 0~100 사이로 표시되며, 90 이상이면 매우 신뢰할 수 있는 구조로 간주돼요.

ipTM

복합체(multimer)에서 체인 간의 상호작용 신뢰도를 평가하는 지표예요.

interface confidence score

AlphaFold3에서 추가된 항목으로, 단백질-리간드, 단백질-DNA 등 이종 분자 간 접촉 면(interaction interface)의 예측 신뢰도를 평가해요.

 


이런 점수 덕분에 단순히 구조를 “보는 것”에 그치지 않고, “어느 부분은 믿을 수 있고, 어느 부분은 불확실하다”는 해석까지 함께 가능해졌어요.

 

반응형



잘못된 예측(hallucination)을 줄이는 비밀


딥러닝 모델은 때로는 말이 안 되는 구조도 자신 있게 만들어낼 수 있어요. 이런 걸 hallucination이라고 해요. AlphaFold3는 이런 현상을 줄이기 위해 몇 가지 전략을 사용했어요.



첫째, 스코어링 기반 필터링이에요. 예측된 구조가 물리적으로 타당한지, 분자 내 충돌이 있는지 등을 자동으로 확인해서 불안정한 구조는 걸러내요.

둘째, diffusion 과정에서의 제약 적용이에요. 디노이징 과정에서 구조적 제약 조건을 함께 넣어줘서, 예측이 지나치게 왜곡되지 않도록 유도해요.

셋째, cross-entropy 기반 loss function과 fine-tuning 단계를 거쳐, 잘못된 구조 패턴은 학습 중에 점점 줄어들도록 조정했어요.

 

 


AlphaFold3는 단순한 구조 예측기를 넘어, 이제는 예측에 대한 해석까지 제공하는 종합 분자 예측 시스템이 되었어요. 신뢰도까지 판단할 수 있기 때문에, 연구자 입장에서는 어떤 결과를 활용하고 어떤 결과는 보류해야 할지를 스스로 판단할 수 있죠.

 


다음 글에서는 AlphaFold3가 실제로 약물 개발, 유전자 조절 연구, 복합체 설계 등 실제 연구 현장에서 어떻게 활용되고 있는지를 소개해드릴게요.

반응형