전공자를 위한 생물학/대학원생을 위한 필수 생물학 개념들

Kozak Sequence란? 단백질 발현량을 결정하는 번역 개시 신호 이해하기

단세포가 되고파🫠 2026. 6. 4. 20:53
반응형

 

 

생명과학 논문이나 플라스미드 디자인을 하다 보면 "Kozak sequence를 넣어야 한다"는 이야기를 자주 듣게 돼요. 특히 mammalian cell에서 단백질을 발현시키는 벡터를 제작할 때는 거의 필수 요소처럼 취급되죠.

그런데 막상 Kozak sequence가 정확히 무엇인지, 왜 필요한지 설명해보라고 하면 생각보다 애매한 경우가 많아요. 단순히 "번역 효율을 높여주는 서열" 정도로 알고 넘어가는 경우도 많고요.

오늘은 Kozak sequence의 역할과 원리, 그리고 Shine-Dalgarno sequence와 어떤 차이가 있는지까지 정리해보려고 해요.

 


Kozak Sequence란 무엇일까?

 

 


Kozak sequence는 진핵생물의 mRNA에서 번역(translation)이 시작되는 위치를 리보솜이 정확하게 인식할 수 있도록 도와주는 염기서열이에요.

이름은 이를 발견한 분자생물학자 Marilyn Kozak의 이름에서 유래했어요.

포유류에서 가장 잘 알려진 consensus sequence는 다음과 같아요.

5'-GCCGCCRCCAUGG-3'

여기서 AUG는 번역이 시작되는 start codon이고, R은 A 또는 G를 의미해요.

실제로 모든 유전자가 이 서열을 완벽하게 가지고 있는 것은 아니지만, Kozak consensus에 가까울수록 번역 효율이 높아지는 경향이 있어요.

 


리보솜은 어떻게 시작 코돈을 찾을까?

 


진핵세포에서 mRNA가 만들어지면 리보솜은 5' cap에 결합한 뒤 mRNA를 따라 이동하면서 번역 시작점을 찾게 돼요.

이 과정을 scanning model이라고 불러요.

문제는 AUG가 하나만 존재하는 것이 아니라는 점이에요.

긴 mRNA 안에는 우연히 AUG가 여러 개 존재할 수 있어요. 따라서 리보솜은 어떤 AUG가 진짜 시작점인지 판단해야 하죠.

바로 이때 Kozak sequence가 중요한 역할을 해요.

리보솜은 AUG 주변의 염기서열을 함께 확인하고, 적절한 Kozak context를 가진 AUG를 번역 시작점으로 선택하게 돼요.

즉, Kozak sequence는 번역 개시 위치를 알려주는 일종의 표지판 역할을 하는 셈이에요.

 

반응형


가장 중요한 위치는 어디일까?


Kozak sequence 전체가 중요하지만 특히 핵심적인 위치가 두 군데 있어요.

첫 번째는 AUG 기준 -3 위치예요.

이 자리는 보통 A 또는 G가 가장 선호돼요.

두 번째는 AUG 바로 다음 위치인 +4예요.

이 자리에는 G가 존재하는 경우 번역 효율이 높아지는 것으로 알려져 있어요.

실제로 연구자들이 벡터를 제작할 때도 이 두 위치를 가장 중요하게 고려해요.

그래서 흔히 사용하는 발현 벡터를 보면

GCCACCATGG

형태의 서열이 자주 등장해요.

바로 최적화된 Kozak sequence를 포함하고 있기 때문이에요.

 


Kozak Sequence가 중요한 이유


많은 사람들이 Kozak sequence를 "발현량 증가 서열" 정도로 생각하는데, 실제 역할은 조금 더 구체적이에요.

첫째, 번역 개시 정확도를 높여줘요.

리보솜이 엉뚱한 AUG를 선택하는 것을 방지해주죠.

둘째, 번역 효율을 향상시켜요.

동일한 mRNA 양이 존재하더라도 Kozak sequence의 강도에 따라 생산되는 단백질 양이 달라질 수 있어요.

셋째, 유전자 발현 실험의 재현성을 높여줘요.

그래서 mammalian expression vector를 설계할 때는 거의 항상 Kozak sequence를 함께 넣게 돼요.

 


Shine-Dalgarno Sequence와는 무엇이 다를까?


초보 연구자들이 가장 많이 헷갈리는 부분이에요.

Kozak sequence와 Shine-Dalgarno sequence는 모두 번역 시작에 관여하지만 완전히 다른 시스템이에요.

Shine-Dalgarno sequence는 세균에서 사용돼요.

대표적인 서열은

AGGAGG

형태이고, start codon의 상류에 위치해요.

이 서열은 리보솜의 16S rRNA와 직접 결합하여 번역 시작 위치를 결정해요.

반면 Kozak sequence는 포유류를 포함한 진핵생물에서 사용돼요.

리보솜과 직접 염기쌍을 형성하는 것이 아니라, AUG 주변의 염기 환경을 제공해 번역 개시를 돕는 역할을 해요.

즉,

세균 → Shine-Dalgarno sequence
포유류 → Kozak sequence

라고 이해하면 돼요.

실제로 plasmid map을 보다가 CMV promoter 뒤에 Kozak sequence가 있는 것을 발견했다면, 이는 mammalian expression을 위한 정상적인 설계라고 보면 돼요.

 


IRES와는 어떻게 다를까?


IRES(Internal Ribosome Entry Site)도 번역 개시에 관여하기 때문에 함께 언급되는 경우가 많아요.

하지만 역할은 상당히 달라요.

Kozak sequence는 일반적인 cap-dependent translation에서 AUG 인식을 돕는 서열이에요.

반면 IRES는 리보솜이 mRNA 내부로 직접 진입하도록 만드는 특수한 RNA 구조예요.

주로 바이러스나 일부 특수 상황에서 사용돼요.

예를 들어 bicistronic vector에서 GFP와 관심 유전자를 동시에 발현시키고 싶을 때 IRES를 사용하죠.

따라서 Kozak sequence와 IRES는 서로 경쟁 관계가 아니라 전혀 다른 기능을 수행하는 요소라고 볼 수 있어요.

 


플라스미드 제작에서 Kozak Sequence 활용


분자생물학 실험에서 Kozak sequence를 가장 자주 접하는 경우는 ORF를 클로닝할 때예요.

많은 연구자들이 PCR primer를 설계하면서

GCCACC

서열을 start codon 앞에 추가해요.

예를 들어

GCCACCATG

형태로 삽입하면 mammalian cell에서 효율적인 번역 개시를 기대할 수 있어요.

HEK293T, HeLa, CHO, Neuro2A 같은 세포주에서 단백질 발현을 수행할 때도 거의 표준처럼 사용되는 방법이에요.

 



Kozak sequence는 포유류 세포에서 번역 시작점을 결정하는 핵심 염기서열이에요. 리보솜이 올바른 AUG를 인식하도록 돕고, 단백질 발현 효율에도 직접적인 영향을 미치죠.

그래서 mammalian expression vector를 설계하거나 ORF를 클로닝할 때 Kozak sequence를 적절히 포함하는 것은 거의 필수적인 과정이라고 할 수 있어요. 앞으로 논문이나 플라스미드 맵에서 GCCACCATGG 같은 서열을 보게 된다면, 단순한 염기 몇 개가 아니라 세포가 단백질을 만들어내는 시작 신호라는 점을 떠올려보면 좋을 것 같아요.

반응형