전장 유전체 계통 분석의 새 시대, CASTER가 연다
유전체 비교 분석은 생물의 진화 역사를 밝히는 중요한 도구지만, 기존 방법들은 여러가지 한계를 가지고 있었습니다. 유전체 시퀀싱 기술이 발전하면서 과거에는 상상할 수 없을 정도로 많은 종의 유전체가 공개되었지만, 연구자들은 이러한 데이터를 효과적으로 활용하는 방법을 찾는 데 여전히 다양한 어려움을 겪고 있었습니다. 특히 기존의 계통유전체학(phylogenomics) 연구는 종 간의 관계(species tree)를 분석할 수 있었지만, 유전체 전체에서 일어나는 다양한 진화적 사건(gene tree)을 정확히 반영하지 못하는 문제가 있었습니다.
전통적인 접근법들은 크게 두 가지 방식으로 나뉩니다. 첫 번째는 전체 유전체 서열을 하나로 합쳐 분석하는 방법인데, 이는 유전체 내 변이를 무시하고 단일한 진화 경로를 가정하기 때문에 통계적 편향이 발생할 가능성이 높았어요. 두 번째는 각 유전자 좌위(loci)에서 계통수를 따로 추정한 후 이를 결합하는 방법이지만, 이 방식 역시 좌위의 길이를 짧게 하면 재조합 오류가 생기고, 길게 하면 높은 오류율이 나타나는 문제가 있었습니다. 특히, 베이지안 공추론(co-inference) 모델들은 계산량이 너무 많아 대규모 유전체 분석에는 실용적이지 않았고, 사이트 기반 접근법(site-based methods)도 속도와 정확성 면에서 한계를 보였어요. 결국 연구자들은 유전체 전체를 분석하지 못하고 일부 좌위를 샘플링해서 연구하는 방식에 머물러야 했습니다.
이런 한계를 해결하기 위해 UC 샌디에이고 연구진이 새로운 분석 도구인 CASTER(Coalescence-Aware Alignment-Based Species Tree Estimator)를 개발했습니다. CASTER의 핵심 아이디어는 유전체 내의 각 위치(site)가 종 계통수(tree topology)를 결정하는 데 “투표”할 수 있도록 하는 것이에요. 연구진은 네 개의 종을 기준으로 한 쿼텟(quartet) 단위에서 가장 많은 지지를 받은 계통수를 최종적으로 채택하는 방식으로 계통수를 계산했습니다. 이 접근법 덕분에 유전체 내 다양한 위치에서 발생하는 진화적 불일치(discordance)를 반영하면서도 계산 비용을 획기적으로 줄일 수 있었어요.
CASTER는 기존 방법과 비교했을 때 몇 가지 중요한 장점을 가지고 있습니다. 첫째, CASTER는 기존 방법들이 해결하지 못한 불완전 계통 분류 문제(incomplete lineage sorting)를 고려하면서도, 확률적 계산을 최소화해 연산 속도를 크게 높였습니다. 복잡한 확률 모델을 적용하지 않아도 정확성을 유지할 수 있도록 설계되었어요. 둘째, CASTER는 엄청난 확장성을 자랑합니다. 연구진은 241종의 포유류 유전체(총 18억 개의 염기서열 위치)를 단 30시간 만에 분석할 수 있었어요. 이는 기존 방법들이 수개월 이상 걸렸던 작업을 단 며칠 만에 가능하게 만든 혁신적인 발전이었습니다. 셋째, CASTER는 유전자 좌위(loci)를 임의로 설정할 필요 없이 모든 유전체를 활용하기 때문에, 기존 방법에서 필연적으로 발생했던 오류를 줄이고 보다 정밀한 분석이 가능해졌어요.
연구진은 CASTER의 성능을 확인하기 위해 시뮬레이션 실험과 실제 유전체 데이터를 활용한 비교 분석을 진행했습니다. 시뮬레이션에서는 기존의 대표적인 분석 방법들과 비교했을 때, CASTER가 가장 정확하고 확장성이 뛰어난 모델이라는 것이 입증되었어요. 특히, 이전 연구에서는 종종 무시되었던 재조합(recombination)과 불완전 계통 분류를 포함한 테스트에서도 CASTER는 안정적인 성능을 보였죠. 실제 포유류와 조류의 유전체 데이터를 분석한 결과에서도 CASTER는 모든 유전체 데이터를 고려해 정확한 계통수를 생성할 뿐만 아니라, 유전체 내 진화적 이질성까지 반영할 수 있는 점수를 제공했습니다.
CASTER를 활용하면 유전체 전체를 분석하면서도, 특정 영역에서 나타나는 진화적 불일치를 정량적으로 평가할 수 있습니다. 연구진은 이 점수를 활용해 입력 데이터의 오류를 감지하고, 특정 시기에 급격한 종 분화(rapid radiation)가 일어난 구간을 식별하며, 망상 진화(reticulate evolution)의 가능성을 분석할 수 있음을 확인했어요. 이는 단순히 종 간의 관계를 밝히는 것이 아니라, 유전체 내에서 각 염기서열이 어떻게 진화했는지를 더욱 세밀하게 추적할 수 있는 새로운 도구가 등장했음을 의미합니다.
CASTER가 등장하면서, 유전체 비교 분석의 새로운 시대가 열렸습니다. 이제 연구자들은 일부 좌위를 샘플링하는 방식이 아니라, 유전체 전체를 활용해 보다 정확하고 정밀한 계통수를 재구성할 수 있게 되었어요. 이는 진화생물학, 유전체학, 그리고 신약 개발과 같은 분야에서도 중요한 영향을 미칠 가능성이 큽니다.
CASTER는 유전체 비교 분석에서 속도, 정확성, 확장성을 모두 만족시키는 최초의 모델로 평가받고 있어요. 이제 연구자들은 더욱 정밀한 계통수를 만들어낼 수 있을 뿐만 아니라, 유전체 내 진화적 패턴까지 더욱 깊이 이해할 수 있게 되었습니다. 마치 허블 우주망원경이 우리의 우주관을 바꿨듯이, CASTER는 생물학의 패러다임을 바꿀 새로운 도구가 될 것입니다. 유전체 분석의 새로운 시대가 열린 지금, 우리는 어떤 발견을 마주하게 될까요?
해당 기고문은 25년 1월 국제 학술지 Science 에 실린 논문, "CASTER: Direct species tree inference from whole-genome alignments" 에 기반하였습니다.