<이미지를 클릭하시면 크게 보실 수 있습니다> |
알파게놈은 최대 100만 개의 염기쌍으로 구성된 DNA 서열을 입력받아 수천 가지 분자적 특성을 예측한다. 이를 통해 특정 유전 변이나 돌연변이가 유전자 조절, RNA 생성, 단백질 결합 등 다양한 생물학적 과정에 미치는 영향을 분석할 수 있다. 모델은 공개 데이터셋인 ENCODE, GTEx, 4D Nucleome, FANTOM5 등을 활용해 훈련됐다.
알파게놈은 기존 모델 ‘엔포머(Enformer)’를 기반으로 하며, 단백질 코딩 영역 변이 해석에 특화된 ‘알파미센스(AlphaMissense)’와 상호 보완적이다. 전체 게놈의 2%에 불과한 코딩 영역 외 나머지 98%의 비코딩 영역 해석이 가능해, 질병 관련 변이의 기능적 영향을 보다 폭넓게 탐구할 수 있다.
딥마인드에 따르면 알파게놈은 DNA 내 장거리 조절 관계를 반영하는 트랜스포머 구조를 채택해, 긴 서열을 고해상도로 예측한다. 24개 예측 항목 중 22개, 변이 효과 평가 항목 중 26개 중 24개에서 기존 최고 모델보다 우수한 성능을 기록했다.
캘렙 라로 메모리얼 슬론 케터링 암센터 박사는 “알파게놈은 장거리 맥락, 염기 수준 정밀도, 유전체 예측 성능을 통합한 최초의 모델”이라며 “생물학 연구의 중요한 전환점이 될 것”이라고 밝혔다.
딥마인드는 알파게놈이 암 등 질병 연구, 합성 생물학, 기초 유전체 연구에 활용될 수 있을 것으로 기대하고 있다. 특히 RNA 생성 과정에서 불필요한 부분이 잘못 제거되거나 필요한 부분이 빠져 유전 정보가 비정상적으로 전달되는 'RNA 스플라이싱 오류'로 발생하는 희귀 유전질환 연구에 새로운 단서를 제공할 수 있을 것으로 보고 있다. 런던대학교 마크 만수르 교수는 “비코딩 변이의 기능을 대규모로 해석하는 데 어려움이 컸다”며 “알파게놈은 질병 원인 규명에 중요한 단서를 제공할 것”이라고 말했다.
현재 알파지게놈은 비상업적 연구용으로만 제공된다. 딥마인드는 향후 모델을 완전히 공개하고, 학계와 산업계의 협력 연구를 확대할 계획이다.
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
