[알파폴드] 8편 : AlphaFold3의 작동 방식 - 총론
AlphaFold3는 단순한 업그레이드가 아니에요.
완전히 새로운 방식으로 다양한 생체분자의 구조와 상호작용을 예측하는 AI 모델이에요. 특히 ‘단백질 구조만 예측하는 AlphaFold2’에서 ‘생명의 거의 모든 분자를 예측하는 AlphaFold3’로 도약한 만큼, 그 안에 들어간 기술도 완전히 새로워졌어요.
이번 글에서는 AlphaFold3가 어떤 방식으로 작동하는지, 그리고 어떤 점이 AlphaFold2와 달라졌는지를 자세히 설명드릴게요.
단백질만이 아니라 모든 생체분자를 다룰 수 있어요
AlphaFold2는 아미노산 서열을 기반으로 단백질의 3차원 구조를 예측했어요. 핵심은 MSA(다중 서열 정렬)를 이용한 진화 정보 기반 예측이었죠. 하지만 DNA, RNA, 리간드, 금속 이온 등은 그런 방식으로 다루기 어려웠어요. 이들은 단백질과는 완전히 다른 규칙과 상호작용을 따르기 때문이에요.
AlphaFold3는 아예 새로운 형태의 멀티분자 입력 시스템을 사용해요. 즉, 단백질 서열뿐만 아니라 리간드의 화학 구조, RNA 염기서열, DNA 이중 나선의 위치 정보, 이온 종류까지 함께 받아들여서 통합적으로 처리할 수 있어요. 각 분자 종류마다 다른 특징을 학습해, 다양한 조합의 구조 예측을 가능하게 만든 거예요.
이 과정에서 분자들 간의 상호작용을 단순 접촉이 아니라 정교한 물리화학적 관계로 인식하고, 이를 바탕으로 구조를 형성해나가요. 기존의 "이 아미노산은 이웃과 어떻게 붙을까?"라는 접근을 넘어서, "이 단백질은 어떤 구조에서 DNA의 특정 염기와 결합할까?" 같은 예측도 할 수 있게 된 거죠.
MSA 중심에서 벗어난 새로운 프레임워크
AlphaFold3는 또 하나 큰 변화를 가져왔어요. 바로 MSA(다중 서열 정렬)에 의존하지 않는다는 점이에요. AlphaFold2는 수많은 유사 단백질 서열을 비교해 진화적 단서를 찾아내는 방식이었기 때문에, 유사 서열이 없는 경우엔 예측 정확도가 낮아졌어요.
하지만 AlphaFold3는 더 이상 MSA에 전적으로 의존하지 않아요. 대신 분자 간 상호작용을 중심으로 학습한 거대한 언어 모델 기반 아키텍처를 사용해요. 일종의 “분자 언어 모델”인 셈이죠. 이 모델은 입력된 모든 분자 정보를 함께 처리하면서, 구조적 맥락과 결합 패턴을 동시에 고려해요.
그 덕분에 유사한 서열이 거의 없는 단백질이나 합성 분자, 새로운 화합물에 대해서도 비교적 안정적인 예측을 할 수 있게 되었어요. 특히 약물 후보 물질의 단백질 결합 부위 예측, DNA-protein 결합부위 식별, RNA-단백질 복합체 형성 등에서 그 진가를 발휘하고 있어요.
AlphaFold3의 가장 큰 기술적 성취는, ‘서열 기반 단백질 예측’이라는 틀을 깨고, ‘모든 생체분자의 구조와 상호작용 예측’이라는 새로운 틀을 열었다는 점이에요. 예전에는 실험적으로 하나하나 확인해야 했던 분자 상호작용들을, 이제는 AI가 빠르게 예측해줄 수 있다는 거죠.
다음 포스트에서는 보다 더 디테일하게 AlphaFold3 프레임워크에 대해 살펴보도록 할게요.