UMAP(Uniform Manifold Approximation and Projection)은 고차원 데이터를 2차원 또는 3차원 공간으로 압축해 시각화하는 차원 축소(Dimensionality Reduction) 알고리즘이에요. 현재 single-cell RNA-seq 분석에서는 사실상 표준 시각화 방법으로 자리 잡았으며, Seurat이나 Scanpy 같은 대표적인 분석 패키지에서도 기본적으로 사용되고 있죠.

최근 발표되는 single-cell 논문을 보면 PCA 결과는 보조 분석 정도로 제시되는 반면, 실제 세포 군집(cluster) 분류와 생물학적 해석은 대부분 UMAP plot을 기반으로 진행되는 경우가 많아요. 그만큼 UMAP은 단순한 그림이 아니라 데이터를 이해하는 핵심 도구가 된 셈이에요.
왜 UMAP이 필요할까?
Single-cell RNA-seq 데이터를 예로 들어볼게요.
하나의 세포는 보통 수천 개에서 수만 개의 유전자 발현 정보를 가지고 있어요. 즉 하나의 세포를 표현하기 위해 수천 차원이 필요한 셈이죠.
문제는 사람은 이런 데이터를 직접 볼 수 없다는 거예요.
예를 들어 20,000개의 유전자 발현 정보를 가진 세포 50,000개가 있다고 생각해보면, 이 데이터를 그대로 해석하는 것은 사실상 불가능해요.
그래서 필요한 것이 차원 축소예요.
고차원 공간에서 존재하는 데이터를 사람이 이해할 수 있는 2차원 또는 3차원 공간으로 압축해주는 과정이죠.
UMAP은 이 과정에서 데이터가 가진 구조적 특징을 최대한 유지하면서 시각화해주는 역할을 해요.
PCA와 UMAP은 무엇이 다를까?
대부분의 single-cell 분석은 PCA로 시작해요.
PCA는 데이터의 분산을 가장 잘 설명하는 방향을 찾는 선형 차원 축소 기법이에요. 계산 속도가 빠르고 노이즈 제거 효과도 좋아서 지금도 매우 중요하게 사용돼요.
하지만 PCA에는 한계가 있어요.
생물학 데이터는 대부분 비선형 구조를 가지고 있는데, PCA는 이러한 복잡한 관계를 충분히 표현하지 못하는 경우가 많거든요.
반면 UMAP은 비선형 관계를 훨씬 잘 보존할 수 있어요.
그래서 실제 분석에서는 보통
Raw Data → Normalization → PCA → UMAP
순서로 진행하게 돼요.
PCA로 노이즈를 줄이고 주요 정보를 추출한 뒤, UMAP을 이용해 시각화하는 방식이죠.
UMAP은 어떻게 작동할까?
수학적으로 설명하면 꽤 복잡하지만 개념은 생각보다 단순해요.
UMAP은 먼저 고차원 공간에서 어떤 데이터들이 서로 가까운지를 계산해요.
예를 들어 특정 세포 A가 있다면, A와 가장 유사한 주변 세포들을 찾는 거예요.
그 다음 이러한 이웃 관계를 그래프 형태로 구성해요.
이후 저차원 공간에서도 동일한 이웃 관계가 최대한 유지되도록 점들을 재배치하게 돼요.
쉽게 말하면
"고차원에서 가까운 세포는 2차원에서도 가깝게"
"고차원에서 먼 세포는 2차원에서도 멀게"
배치하려는 과정이라고 볼 수 있어요.
t-SNE보다 UMAP이 더 많이 사용되는 이유
몇 년 전까지만 해도 single-cell 분석의 표준은 t-SNE였어요.
실제로 초기 single-cell 논문 대부분은 t-SNE plot을 사용했죠.
하지만 최근에는 UMAP 사용 비율이 압도적으로 높아졌어요.
가장 큰 이유는 계산 속도예요.
세포 수가 수만 개를 넘어가기 시작하면 t-SNE는 시간이 상당히 오래 걸릴 수 있어요.
반면 UMAP은 훨씬 빠르게 계산할 수 있어 대규모 데이터에 유리해요.
또 하나의 장점은 전체 구조(Global Structure)를 비교적 잘 유지한다는 점이에요.
t-SNE는 개별 클러스터를 잘 분리하지만 클러스터 사이 거리 정보는 왜곡되는 경우가 많아요.
반면 UMAP은 세포 집단 간 상대적인 관계를 어느 정도 보존하기 때문에 분화 과정이나 세포 계통 관계를 해석할 때 유리해요.
n_neighbors는 무엇을 의미할까?
UMAP을 사용할 때 가장 중요한 파라미터 중 하나가 n_neighbors예요.
이 값은 각 점이 몇 개의 주변 이웃을 참고할지를 결정해요.
값이 작으면 매우 국소적인 구조를 강조하게 돼요.
예를 들어 n_neighbors를 5로 설정하면 작은 차이도 민감하게 반영돼서 세포 집단이 세분화되어 보일 수 있어요.
반대로 값을 크게 설정하면 전체 구조를 더 중요하게 고려하게 돼요.
그래서
세부 클러스터를 보고 싶을 때 → 작은 값
전체 데이터 흐름을 보고 싶을 때 → 큰 값
을 사용하는 경우가 많아요.
실제 single-cell 분석에서는 보통 15~50 정도를 자주 사용해요.
min_dist는 무엇일까?
min_dist 역시 매우 중요한 설정값이에요.
이 값은 저차원 공간에서 점들이 얼마나 가까이 붙을 수 있는지를 결정해요.
min_dist가 작으면 클러스터 내부가 매우 조밀하게 모여요.
그래서 군집 간 경계가 뚜렷하게 나타나는 경우가 많죠.
반대로 값을 크게 하면 데이터가 전체적으로 퍼져 보이게 돼요.
실제 분석에서는 0.1 정도를 기본값으로 사용하는 경우가 많지만, 데이터 특성에 따라 조정하기도 해요.
UMAP 그림을 해석할 때 주의할 점
UMAP 결과를 처음 보는 사람들이 가장 많이 하는 오해가 있어요.
바로 점 사이 거리와 클러스터 크기를 그대로 해석하는 거예요.
예를 들어 어떤 클러스터가 크게 보인다고 해서 반드시 세포 수가 많다는 뜻은 아니에요.
또 두 클러스터가 멀리 떨어져 있다고 해서 반드시 생물학적으로 큰 차이가 있다는 의미도 아니에요.
UMAP은 어디까지나 시각화 알고리즘이에요.
실제 생물학적 의미를 확인하려면
Marker gene 분석
Differential expression 분석
Pathway 분석
Trajectory 분석
등의 추가 검증이 필요해요.
UMAP 그림만 보고 결론을 내리는 것은 위험할 수 있어요.
Single-cell 연구에서 UMAP이 중요한 이유
현재 single-cell RNA-seq 연구에서 UMAP은 단순한 시각화 도구 이상의 의미를 가져요.
연구자들은 UMAP을 통해
어떤 세포 집단이 존재하는지,
새로운 세포 아형이 있는지,
질병 상태에서 어떤 세포가 변화하는지,
분화 과정이 어떻게 진행되는지
를 직관적으로 확인할 수 있어요.
그래서 최신 single-cell 논문의 핵심 Figure를 보면 대부분 UMAP이 중심에 자리 잡고 있어요.
분석의 시작점이면서 동시에 결과를 보여주는 대표적인 도구가 된 거죠.
UMAP은 고차원 데이터를 사람이 이해할 수 있는 형태로 변환해주는 강력한 차원 축소 기법이에요. 특히 single-cell RNA-seq 분야에서는 PCA와 함께 사실상 필수 분석 과정으로 자리 잡았으며, 세포 집단의 구조와 관계를 직관적으로 보여주는 역할을 하고 있죠.
다만 UMAP은 시각화를 위한 도구일 뿐, 생물학적 해석 자체를 대신해주지는 않아요. 좋은 UMAP 결과는 시작점일 뿐이고, 그 뒤에는 마커 유전자 분석과 다양한 검증 과정이 반드시 따라와야 해요. 그래서 실제 연구에서는 UMAP 그림을 보는 것보다 "왜 저 클러스터가 형성되었는가"를 설명하는 과정이 훨씬 중요하다고 할 수 있어요.
'전공자를 위한 생물학 > 대학원생을 위한 필수 생물학 개념들' 카테고리의 다른 글
| C57BL/6와 BALB/c 마우스 차이점 총정리 (0) | 2026.06.07 |
|---|---|
| Xenograft란? PDX 모델부터 Nude Mouse까지 암 연구에서 활용되는 이종이식 완벽정리 (0) | 2026.06.06 |
| In Vivo와 In Vitro의 차이점은? 생명과학 연구자가 반드시 알아야 할 실험 모델 비교 (0) | 2026.06.05 |
| 오가노이드(Organoid)란? 배양 원리부터 배양 조건 최적화까지 완벽 정리 (0) | 2026.06.05 |
| Kozak Sequence란? 단백질 발현량을 결정하는 번역 개시 신호 이해하기 (0) | 2026.06.04 |