20년 동안 인간의 유전자 연구에 상당한 진전이 있었다.
그것은 수천 명의 선사시대 사람들을 포함한 수십만 명의 개인들을 위한 게놈 데이터를 생성한다.
그러나 다른 방법과 데이터 품질은 이들 간의 비교를 어렵게 만들 수 있다.
전세계 개인들이 어떻게 서로 연관되어 있는지 지도를 만들기 위해 옥스포드 대학의 빅데이터 연구소의 과학자들은 여러 출처와 척도의 데이터를 결합하여 수백만 개의 게놈 서열을 수용하는 새로운 방법을 만들었다.
과학자들은 인간의 통일된 계보를 만들기 위해 고대와 현대의 인간 게놈에 나무 기록법을 적용했다.
즉, 그들은 거대한 가계도를 만들었다.그것은 과학자들이 모든 사람의 유전적 염기서열이 게놈의 모든 점들과 함께 어떻게 서로 연관되어 있는지를 특성화할 수 있게 해준다.
빅데이터 연구소의 진화 유전학자이자 주요 저자의 한 사람인 옌 웡 박사는 "오늘날 인간에게서 발견되는 모든 유전적 변이를 만들어낸 역사를 우리가 할 수 있는 한 정확하게 모형화하는 것은 모든 인류의 족보"라고 설명했다.
이 연구를 위해 과학자들은 215명의 인구와 8개의 다른 데이터 집합에서 3609개의 개별 게놈 서열을 조합했다.이 고대 게놈들은 1,000년에서 10만년 이상 된 전 세계적으로 발견된 샘플들을 포함했다.
과학자들은 시뮬레이션과 경험적 분석을 통해 개인과 인구 사이의 관계를 회복하고 고대 표본의 후손을 식별할 수 있는 능력을 입증했다.
그리고 나서 그들은 구성 데이터셋의 215명 사이의 가장 최근의 공통 조상에 대한 시간 분포를 계산했다. 알고리즘은 유전적 변동의 패턴을 설명하기 위해 진화 나무에서 공통의 조상이 있어야 하는 곳을 예측했다.
그 결과 만들어진 네트워크는 거의 2700만 명의 조상들을 포함하고 있었다. 그리고 나서 과학자들은 인류 역사의 주요 특징들을 요약하기 위해 이 샘플 게놈들에 위치 데이터를 추가했다.
그 결과는 아프리카로부터의 이주를 포함한 인류 진화 역사의 주요 사건들을 성공적으로 탈환했다.
수석저술가.빅 데이터 연구소에서 박사과정을 밟고 있는 앤서니 와일더 본스 박사는 기초적인 데이터에 대해 거의 가설을 세우지 않고 현대와 고대 DNA 샘플을 모두 포함할 수 있다는 것이 우리 접근법의 강점이라고 말했다.
"인간이 이 연구의 초점인 반면, 그 방법은 오랑우탄에서 박테리아에 이르기까지 대부분의 생물에 유효하다.
특히 의학 유전학에서 유전적 영역과 질병 사이의 진정한 연관성을 우리의 공유된 조상 역사에서 비롯되는 가짜 연관성과 분리하는 데 도움이 될 수 있다."
웡 박사는 "이번 연구는 차세대 DNA 염기서열의 토대를 마련하고 있다. 현대와 고대 DNA 샘플에서 나온 게놈 서열의 질이 향상되면 나무는 더욱 정확해질 것이고, 우리는 결국 오늘날 우리가 보는 모든 인간의 유전적 변동의 하강을 설명하는 하나의 통일된 지도를 만들 수 있을 것이다."
과학자들은 이 지도가 사용 가능해짐에 따라 유전자 데이터를 통합함으로써 이 지도를 더욱 포괄적으로 만들 계획을 세우고 있다.