딥마인드 알파폴드, 구글 코랩으로 인체 모든 단백질 구조 판독 가능해졌다
딥마인드 알파폴드, 구글 코랩으로 인체 모든 단백질 구조 판독 가능해졌다
  • 김유진 기자
  • 승인 2021.07.26 10:37
  • 댓글 0
이 기사를 공유합니다

영국 AI 기업 딥마인드, 2.2TB 구글 코랩 이용해 단백질 구조 모델링
구글 코랩, 파이썬(Python), 텐서플로우(Tensorflow), 케라스(Keras), 판다스(Pandas) 등 라이브러리 설치해 딥러닝 시스템 구동

국제 학술지 네이처는 구글 자회사인 영국의 AI기업 딥마인드(DeepMind)의 AI 알파폴드 v.2 (AlphaFold v.2, 이하 AF2)가 인체 단백질 구조를 판독하게 되었다고 밝혔다. CASP (Critical Assessment of Structure Prediction, 단백질 구조 예측하는 방법에 대한 지속적 모니터링과 평가 제공하는 대회) 수상작인 AF2 프로그램이다. 이는 구글 코랩 노트북에서 구글 계정을 가진 모든 사람이 2.2TB 중 단 한 비트도 다운로드하지 않고 하드웨어 없이도 원하는 단백질로 AF2를 실행할 수 있다.

(출처: 구글 코랩 홈페이지)
(출처: 구글 코랩 홈페이지)

구글 코랩(Google Colaboratory(Colab))이란 구글 내부에서 사용하던 Jupyter Notebook을 교육과 연구 목적으로 커스터마이징한 데이터 분석 도구다. 머신 교육 및 연구 도구로써 오픈된 클라우드 기반 서비스다. 구글 드라이브에 파일을 저장하고, 코랩의 GPU를 빌려 학습시킬 수 있는 플랫폼이다. CPU로 학습시킬 때 30시간이 걸리는 작업을 코랩 GPU에서는 1~2시간 내에 완료 가능하다는 장점이 있다.

코랩은 서버 자체에 딥러닝에 필요한 파이썬(Python), 텐서플로우(Tensorflow), 케라스(Keras), 판다스(Pandas) 등 라이브러리가 설치되어 있어서 사용자가 환경 세팅을 하지 않아도 코드만 입력하면 구동할 수 있다.

지난 12월, 단백질 3D 구조를 예측하는 대회에서 딥마인드의 AF2가 2위를 상당한 차이로 우승했다. 그러나 과학자들은 실험 단백질 구조 결정의 부담을 줄여주고, 분자생물학 연구 속도를 높인 것은 사실이나 기술에 대한 접근 불가능, 재현성에 대한 세부사항 부족과 구동 예산이 높아 감당하기 어렵다고 주장했다.

전주, 네이처에서는 단백질 구조 예측을 위해 CASP 수상작인 AF2 프로그램의 모든 세부 사항을 기술했다. 모든 코드 오픈 소스를 소스 코드 저장소인 Github(깃허브)에서 공개했다. 일부 과학자들은 여전히 데이터 파일이 크다고 주장했으나, 몇 시간 만에 무료 구글 계정을 가진 모든 사람이 데이터를 다운로드하지 않고, 특별한 하드웨어 없이도 원하는 단백질로 AF2를 실행할 수 있는 구글 콜라브 노트북이 만들어졌다. 분자생물학의 새 지평을 연 셈이다.

단백질은 구조화되어 3D로 접히는 긴 선형 아미노산 체인의 생물학적 나노 기계다. 각각 단백질은 각각의 코딩 유전자에 의해 지시된 대로 독특한 방식으로 반복된다. 아미노산 서열은 게놈에서 직접 추론할 수 있기 때문에 쉽게 알 수 있다. 그러나 3D 공간에서 어떻게 배열되는지 알기는 어렵다.

각각의 아미노산은 여러 개 원자로 이루어진 작은 분자와 같기 때문에 단백질의 3D 구조를 알기 위해서는 모든 아미노산의 상대적 위치를 결정해야 한다.

Alphafold v.1(AF1)은 2018년 12월, CASP에서 우승한 바 있다. 접촉하는 아미노산 쌍뿐만 아니라 그들 사이의 거리, 상대적 저항까지도 예측했다. 이를 통해 단백질 3D 구조를 모델링하는 데 사용되었다.

(출처: 구글 코랩 노트북에서 실행 중인 AF2 예시/towards data science)
(출처: 구글 코랩 노트북에서 실행 중인 AF2 예시/towards data science)

AF2는 AF1의 튜닝이 아니라 입력부터 출력까지 모든 것이 시퀀스에서 예측할 수 있도록 3D 구조에 연결된 단일 모델을 통해 실행되는 완전한 재설계다. 네트워크가 모든 물리학적 연결 순서를 알고 있다는 의미다.

단백질 구조 모델링은 실험에 적응할 수 없는 단백질로 작업하는 생물학자들에게 필수적이다. 딥마인드가 생물학에 관한 다른 문제들과 더불어 학계에서도 AF2 적용과 현재 공개된 모든 지식으로부터 이익을 얻을 수 있기 때문에 미래가 더욱 밝다. 생물학은 오랫동안 컴퓨터와 고전 소프트웨어에 의존해 왔으며, 인공지능으로 인해 차원이 확장될 예정이다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.