16만 1천 개 이상의 새로운 RNA 바이러스 발견
AI 지원 검색으로 알려진 바이러스 환경권이 1.5배 확장돼
바이러스 세계의 "암흑 물질":
바이러스 연구자들은 전 세계 샘플 데이터에서 이전에 알려지지 않은 161,000개 이상의 RNA 바이러스를 발견했다. 이는 이전보다 훨씬 더 많은 것이다. 새로운 발견은 이전에 알려진 바이러스권을 1.5배 확장하고 여기에 수많은 새로운 바이러스 그룹을 추가한다. RNA 바이러스의 발견은 다양한 서식지에서 채취한 샘플의 유전자 데이터에서 바이러스 특징을 식별하는 인공 지능에 의해 가능해졌다.
▲ 연구 개요: 새로운 AI 시스템은 161,000개 이상의 새로운 형태의 RNA 바이러스를 식별하는 데 도움이 되었다. (출처:관련논문 October 09, 2024Open access / Using artificial intelligence to document the hidden RNA virosphere)
빙하 속이든, 지각 깊은 곳이든, 대기권의 높은 곳이든 상관없이 바이러스는 어디에나 있고 모든 것 안에 있다. 우리 인간은 또한 수십억 개의 바이러스 종의 숙주이기도 하다. 진화가 시작된 이래로 바이러스는 다양한 숙주와 환경에 적응해 왔으며 극한의 조건에서도 살아남을 수 있다. 그러나 편재성에도 불구하고 대부분의 환경권은 우리에게 "암흑 물질"이다. 우리는 그 진정한 다양성의 일부만 알고 있다.
지금까지 새로운 RNA 바이러스를 식별하는 것은 특히 어려웠다. 높은 돌연변이율과 유전적 다양성으로 인해 DNA 바이러스에 비해 식별이 훨씬 어렵고 특별한 분석 절차가 필요하다. RNA 서열 외에도 RNA 중합효소에 대한 특징적인 RNA 구성 지침도 구체적으로 검색된다. 이는 할당을 더 쉽게 만들기 때문이다. 그럼에도 불구하고, 보고되지 않은 RNA 바이러스 사례의 수는 여전히 엄청나다.
바이러스 RNA 서명을 위한 변환기 모델
이제 인공지능도 바이러스 조사에 움직임을 가져오고 있다. 선전 주립 생물 통제 연구소(Shenzhen State Biocontrol Laboratory)의 신 호우(Xin Hou)가 이끄는 팀은 RNA 데이터에서 바이러스 특징을 탐지하도록 특별히 설계된 AI 시스템을 개발했다. "LucaProt"이라는 AI 시스템의 기본은 ChatGPT 및 기타 대규모 언어 모델과 유사한 기본 원리를 기반으로 하는 적응형 변환기 모델이다.
텍스트 생성기와 달리 AI 바이러스 조사자는 언어를 분석하는 것이 아니라 RNA 서열을 분석하고 반복 패턴을 평가한다. 연구를 위해 Hou와 그의 팀은 먼저 바이러스 RNA 중합효소의 약 5천 개의 알려진 RNA 서명에 대해 LucaProt를 훈련했다. 그런 다음 AI 시스템이 환경 샘플에서 51테라바이트의 RNA 데이터를 분석하도록 했다.
▲ 이 연구에서 분석된 메타전사체 데이터의 지리적 범위 (A) 생태계 수준에서 분석된 샘플의 지리적 분포. 파이 크기는 샘플 수(log10)와 양의 상관 관계가 있다. DBSCAN 클러스터링 알고리즘을 적용하여 모든 메타전사체에서 1,837개 위도 및 경도 지점을 70개 클러스터링 지점으로 그룹화했다. (B) 다른 생태계의 총 샘플 수. 포함된 막대 차트는 이 연구에서 이중 RNA 및 DNA 시퀀싱에 사용된 샘플을 나타낸다.
조사된 샘플은 심해 퇴적물부터 남극의 얼음과 온천, 위도의 토양, 공기 및 물 샘플에 이르기까지 전 세계 1,612개 위치, 32개의 다양한 서식지 및 생태계 유형에서 채취됐다.
전 세계 어디에서나 새로운 RNA 바이러스
결과:
AI 지원 검색을 통해 이전보다 더 많은 161,979개의 새로운 유형의 RNA 바이러스를 발견했다. 수석 저자인 시드니 대학의 Edwards Holmes는 “한 번에 그렇게 많은 새로운 바이러스를 발견한다는 것은 정말 놀라운 일이다”고 말했다. 팀이 보고한 바와 같이, 새로운 발견은 이전에 알려진 바이러스권을 1.5배, 바이러스 슈퍼그룹을 8.6배로 확장했다. "이것은 지구 세계의 숨겨진 부분에 대한 새로운 창을 열어준다"고 홈즈는 말했다.
새로 발견된 RNA 바이러스는 조사된 32개 생태계 유형 전체에 분포돼 있다. 연구진은 “가장 높은 바이러스 다양성은 쓰레기, 습지, 내륙 수역 및 폐수에 있었다”며 “우리는 남극과 해양 퇴적물, 일부 내륙 수역에서 가장 많은 수의 새로운 RNA 바이러스를 발견했다”고 보고했다. 또한 연구팀은 온천, 대기 또는 열수 분출구와 같은 극한 환경에서 이전에 인식할 수 없었던 RNA 바이러스를 발견했다.
새로 확인된 RNA 바이러스 종의 86%는 한 가지 생태계 유형에서만 발생했다. 하지만 거의 모든 샘플에서 바이러스가 발견되기도 했다. Hou와 그의 동료들은 “이들은 분명히 생태학적 일반론자들이다”고 말했다.
▲ (A) 각 생태계 하위 유형의 특정 추정 바이러스 종(즉, 추정 "마커" 바이러스 종) 수. (B) RNA 바이러스와 다양한 환경 생태계 간의 연관성. 색칠된 원의 크기는 각 생태계 유형에서 식별된 추정 바이러스 종의 수를 나타내고, 선의 두께는 각 생태계에서 공유하는 바이러스 종의 수를 나타낸다.
“우리는 표면만 긁는 중”
새로 발견된 RNA 바이러스의 양이 엄청나게 많음에도 불구하고 이는 거대한 빙산의 일각에 불과하다. “우리는 단지 표면을 긁는 것일 뿐이다. 발견해야 할 바이러스가 수백만 개 더 있다”고 Holmes는 말했다. 또한 새로 발견된 바이러스 종의 진화와 생태에 대한 지식에는 여전히 큰 격차가 있다. 지금까지 이러한 바이러스가 어느 호스트에 정착하는지에 대해서는 거의 알려져 있지 않다.
“지금까지 알려진 대부분의 RNA 바이러스는 진핵생물을 감염시킨다”고 과학자들은 설명했다. 인간, 동물, 식물 외에도 세포핵을 지닌 단세포 유기체도 여기에 포함된다. "그러나 새로 발견된 바이러스의 상당 부분이 박테리아나 고세균과 숙주로 연관되어 있다는 것도 전적으로 상상할 수 있다.“
Holmes는 “다음 단계는 AI가 이 놀라운 다양성을 더 많이 감지하도록 훈련시키는 것이다”며 “무슨 놀라움이 우리를 기다리고 있을지 누가 알겠는가”라고 덧붙였다.
(Cell, 2024; doi: 10.1016/j.cell.2024.09.027)