반응형

분류 전체보기 1126

[SAM/BAM] 1편 : SAM과 BAM 파일 개요

NGS(차세대 염기서열 분석) 데이터를 처리할 때 필수적으로 생성되는 파일 중 하나가 바로 SAM과 BAM 파일이에요. 이 두 파일은 시퀀싱된 리드(read)가 유전체 참조 서열(reference genome)에 어떻게 정렬되었는지를 보여주는 '정렬 정보'를 담고 있어요. 이름만 보면 생소할 수 있지만, 이 파일은 유전체 연구의 기초이자 핵심 도구라고 할 수 있어요. SAM vs BAMSAM은 ‘Sequence Alignment/Map’의 줄임말로, 사람이 읽을 수 있는 텍스트 형식의 파일이에요. 그래서 열어보면 어떤 리드가 어떤 위치에 붙었는지를 한눈에 파악할 수 있죠. 반면, BAM은 SAM의 바이너리 형식이에요. 사람이 바로 읽기는 어렵지만 컴퓨터가 빠르게 처리할 수 있어요. 용량도 SAM보..

차등 발현 유전자(DEGs)란? - 개념, 분석 방법, 응용

RNA-Seq나 마이크로어레이 분석을 하다 보면 'DEG', 즉 차등 발현 유전자(Differentially Expressed Genes) 라는 단어를 자주 보게 돼요. 이건 단순한 용어가 아니라, 실험 조건 간 유의미한 차이를 보이는 유전자를 의미하며, 후속 생물학적 해석의 출발점이 되죠. 오늘은 DEG가 무엇인지, 어떻게 구하고, 어떤 분석으로 이어지는지 함께 알아볼게요.DEG란 무엇인가요?차등 발현 유전자(DEG)는 두 가지 이상의 조건 간에서 유의미하게 발현량이 증가하거나 감소한 유전자를 말해요. 예를 들어, 정상세포와 암세포를 비교했을 때, 특정 유전자가 암세포에서 눈에 띄게 많이 발현된다면, 그 유전자는 DEG로 간주되는 거예요. RNA-Seq 분석에서는 수만 개의 유전자 발현값을 얻게..

RNA-Seq 분석에서 꼭 알아야 할 Volcano Plot 그리기 및 해석법

RNA-Seq나 마이크로어레이 데이터를 분석할 때 가장 많이 사용되는 시각화 방법 중 하나가 바로 Volcano Plot이에요. 이름처럼 화산을 닮은 독특한 모양 때문에 붙은 이름인데요, 단순하지만 매우 강력한 정보를 담고 있어요. 오늘은 이 Volcano Plot이 무엇인지, 어떻게 해석해야 하는지, 그리고 이를 직접 그릴 수 있는 쉬운 분석 도구까지 소개해볼게요.Volcano Plot이란 무엇인가요?Volcano Plot은 유전자 발현량의 변화 비율(fold change)과 그 변화의 통계적 유의성(p-value)을 동시에 보여주는 2차원 그래프예요. x축은 유전자의 발현 변화 정도를 나타내고,y축은 그 변화가 통계적으로 얼마나 유의미한지를 보여줘요. 그래프에 표시되는 각 점은 하나의 유전자이..

FASTQ 파일 제대로 이해하기 - 구성, 해석, 품질 점수, 분석 도구

유전체 연구에서 RNA-Seq 데이터 분석을 시작할 때 가장 먼저 마주하게 되는 파일이 바로 FASTQ 파일이에요. 이 파일은 차세대 염기서열 분석(NGS) 장비에서 생성되며, 각 염기 서열과 해당 염기의 신뢰도(품질 점수)를 함께 담고 있는 중요한 형식이죠. 이번 글에서는 FASTQ 파일의 구조와 품질 점수(Phred score)에 대해 알아보고, 초보자도 손쉽게 RNA-Seq 데이터를 분석할 수 있는 도구에 대해서도 소개할게요.FASTQ 파일이란 무엇인가요?FASTQ 파일은 한 줄씩 염기서열 정보와 품질 점수를 짝지어 4줄 단위로 구성되어 있어요. 한 세트는 다음과 같이 이루어져요.@로 시작하는 라인염기서열의 ID 혹은 설명이 들어있어요.염기서열(nucleotide sequence)A, T, ..

[bulk RNA-seq] 4편 : bulk RNA-Seq 활용 방법 및 응용

지금까지 Bulk RNA-Seq의 개념, 실험 방법, 분석 흐름에 대해 알아봤어요. 이번 마지막 편에서는 이 기술이 실제로 어디에 어떻게 사용되고 있는지, 그리고 앞으로 어떤 방향으로 발전할 수 있을지를 살펴볼게요. RNA-Seq는 단순한 기술을 넘어, 생명과학과 의학의 핵심 도구로 자리 잡고 있어요.질병 연구에서의 RNA-SeqBulk RNA-Seq는 가장 널리 사용되는 분야 중 하나가 바로 질병 연구예요. 예를 들어 암 조직과 정상 조직을 비교해 어떤 유전자가 비정상적으로 발현되는지 알아보면, 종양 형성에 관여하는 유전자나 치료 타깃 후보를 찾을 수 있어요. 또한 알츠하이머, 파킨슨병 같은 신경퇴행성 질환에서도 비정상적인 유전자 조절 메커니즘을 파악하는 데 활용돼요.감염 질환 연구에서도 바..

[bulk RNA-seq] 3편 : Bulk RNA-Seq 분석 방법 총정리

Bulk RNA-Seq 실험을 마치고 나면, 시퀀싱 장비로부터 FASTQ 파일이라는 결과물이 생성돼요. 이 파일에는 RNA 서열 정보와 그에 대한 품질 점수가 포함되어 있죠. 하지만 여기서 끝이 아니에요. 실제로 유전자의 발현 양을 비교하거나 생물학적 의미를 도출하려면 여러 단계의 생물정보학 분석이 필요해요. 이번 글에서는 RNA-Seq 분석의 전체 흐름을 자세히 소개할게요.1. 품질 확인(Quality Control)분석의 첫 단계는 FastQC 같은 도구를 활용한 품질 점검이에요. 이 단계에서는 시퀀싱 오류, 어댑터 서열 오염, GC 비율 이상 등 문제가 있는지를 확인해요. 만약 양 끝에 저품질 염기가 많거나 불필요한 서열이 포함되어 있다면, Cutadapt이나 Trimmomatic 같은 프..

[bulk RNA-seq] 2편 : bulk RNA-Seq 실험 진행 단계

Bulk RNA-Seq를 성공적으로 수행하려면 단순히 RNA를 시퀀싱하는 것만으로는 부족해요. 실험 설계, 샘플 준비, RNA 추출, 라이브러리 제작, 시퀀싱까지의 과정이 체계적으로 이루어져야 신뢰도 높은 결과를 얻을 수 있어요. 이번 글에서는 실험을 시작하기 전부터 데이터 생성까지의 핵심 단계를 정리해볼게요.실험 설계 RNA-Seq 실험의 첫 걸음은 실험 설계예요. 비교하고자 하는 조건을 명확히 정하고, 그룹별로 충분한 생물학적 반복(replicate)을 포함하는 것이 매우 중요해요. 예를 들어, 약물 처리 전후의 세포를 비교하고 싶다면 최소한 3개 이상의 독립적인 샘플을 준비해야 통계적으로 의미 있는 분석이 가능해요.또한 대조군과 실험군 간의 배양 조건, 샘플 수집 시간, RNA 추출 방법 등을 ..

[bulk RNA-seq] 1편 : bulk RNA-seq이란?

Bulk RNA-Seq는 생명과학 연구에서 세포 내부에서 어떤 유전자들이 활발하게 작동하고 있는지를 분석하는 데 널리 사용되는 기술이에요. 세포가 특정 조건에서 어떻게 반응하고 어떤 유전자가 변하는지를 파악할 수 있어, 질병의 원인 규명, 약물 반응 예측, 식물의 스트레스 반응 분석 등 다양한 분야에서 응용되고 있어요.RNA-Seq의 기본 개념모든 생물은 DNA라는 유전 정보를 가지고 있어요. 이 DNA는 전사(transcription)를 통해 RNA로 전환되고, 대부분의 경우 이 RNA는 번역(translation)을 거쳐 단백질로 만들어져요. 하지만 우리가 단백질이 아니라 RNA를 분석하는 이유는, RNA의 양이 유전자 발현의 정도를 반영하기 때문이에요. 즉, 어떤 유전자가 얼마나 ‘켜져..

[GO analysis] 2편 : R의 clusterProfiler로 GO Enrichment Analysis 직접 해보기

앞선 글에서는 GO enrichment analysis의 개념과 중요성에 대해 알아봤어요. 이번 글에서는 R의 대표적인 기능 분석 도구인 clusterProfiler 패키지를 활용해 실제로 GO 분석을 수행하는 방법을 소개할게요. 코드와 함께 실습 순서대로 정리해봤으니, 처음 해보는 분들도 따라 하기 쉬우실 거예요. 1. 환경 설정부터 시작해요 분석에 필요한 R 패키지를 먼저 설치하고 불러와야 해요. 아래 코드를 복사해서 실행해보세요. if (!requireNamespace("BiocManager", quietly = TRUE)) { install.packages("BiocManager")}BiocManager::install(c("clusterProfiler", "org.Hs.eg...

[GO analysis] 1편 : GO analysis의 필요성, 의미

유전체나 단백질체 연구에서는 RNA-seq, 단백질 정량 분석 등을 통해 수백에서 수천 개의 유전자가 차등 발현된다는 결과를 얻곤 해요. 하지만 중요한 건 이 유전자들이 생물학적으로 어떤 역할을 하는지를 해석하는 일이에요. 바로 이럴 때 사용되는 분석 도구가 GO(Gene Ontology) enrichment analysis예요. GO 분석은 왜 필요한가요? 예를 들어 어떤 암세포에서 특정 유전자들이 과발현되었다고 할 때, 그 유전자들이 면역 반응, 세포 분열, 대사 조절 등 어떤 생물학적 과정에 관련돼 있는지 알 수 있다면, 해당 암의 작동 메커니즘이나 치료 타깃을 유추할 수 있겠죠? GO 분석은 이렇게 유전자 리스트를 의미 있는 생물학적 정보로 전환해주는 역할을 해요. GO의 세 가지 카테고리GO는..

반응형