AlphaFold là gì? AI dự đoán cấu trúc protein
🔬 Series Khoa học — Google DeepMind & AI Sinh học (Bài 1/7) — Đọc từ đầu series: tổng quan các mô hình AI sinh học của DeepMind. Bài này đi sâu vào AlphaFold — mô hình đặt nền móng cho cả một thế hệ AI sinh học.
Năm 2020, một nhóm nghiên cứu tại DeepMind công bố kết quả khiến toàn bộ giới sinh học phân tử chấn động: lần đầu tiên trong lịch sử, AI có thể dự đoán cấu trúc ba chiều của protein với độ chính xác ngang bằng thực nghiệm phòng thí nghiệm.
Thành tựu này được ví như "giải mã giấc mơ 50 năm" của ngành sinh học. Bài này giải thích vì sao.
Bài toán gấp cuộn protein — cơn đau đầu 50 năm
Protein là cỗ máy phân tử của cơ thể. Mỗi protein là một chuỗi axit amin — giống như một chuỗi hạt — nhưng để hoạt động được, chuỗi này phải cuộn gấp thành một hình dạng ba chiều cụ thể. Hình dạng đó quyết định chức năng của protein: enzyme, kháng thể, hormone, cấu trúc tế bào...
Vấn đề là: một protein chỉ có thể cuộn gấp một cách đúng trong hàng tỷ tỷ tỷ cách có thể (bài toán Levinthal, 1969). Tự nhiên đã giải được bài toán này — ribosome tổng hợp protein và nó tự cuộn gấp trong mili giây. Nhưng làm sao để dự đoán được hình dạng đó từ chuỗi axit amin?
Trong 50 năm, các nhà khoa học đã thử: mô phỏng vật lý, so sánh trình tự, học máy truyền thống — nhưng độ chính xác luôn dưới ngưỡng hữu ích. Cách duy nhất để biết cấu trúc protein là làm thí nghiệm: tinh thể học tia X, NMR, hoặc kính hiển vi điện tử (cryo-EM) — mỗi protein tốn hàng tháng đến hàng năm và hàng chục nghìn USD.
Đây là lý do CASP (Critical Assessment of Structure Prediction) ra đời năm 1994 — một cuộc thi hai năm một lần, nơi các nhóm nghiên cứu cạnh tranh dự đoán cấu trúc protein mù (chưa ai giải được).
AlphaFold đến CASP và bước ngoặt lịch sử
DeepMind tham gia CASP lần đầu năm 2018 với AlphaFold 1 — và đã thắng. Nhưng đến CASP14 (2020), AlphaFold 2 mới thực sự tạo ra cú sốc: mô hình đạt median GDT (Global Distance Test) khoảng 92.4 — so với ngưỡng 90 được coi là "ngang thực nghiệm". Chưa ai từng làm được điều này.
Sự khác biệt giữa AlphaFold 1 và 2:
| AlphaFold 1 | AlphaFold 2 | |
|---|---|---|
| Cách tiếp cận | Dùng mạng học sâu từ dữ liệu tinh thể học + so sánh tiến hoá | Tích hợp trực tiếp thông tin tiến hoá và cấu trúc vào kiến trúc mạng |
| Xử lý không gian | Dự đoán khoảng cách giữa các cặp axit amin | Mô hình hoá cấu trúc 3D trực tiếp bằng attention mechanism |
| Kết quả CASP | ~60 GDT (tốt nhất) | ~92 GDT (ngang thực nghiệm) |
Kiến trúc của AlphaFold 2 dựa trên Evoformer — một khối mạng đặc biệt có khả năng trao đổi thông tin giữa "ma trận khoảng cách" (pair representation) và "đặc trưng từng axit amin" (MSA representation) qua nhiều lớp. Nói đơn giản: mô hình vừa nhìn vào từng axit amin riêng lẻ, vừa nhìn vào mối quan hệ giữa các cặp axit amin, và liên tục cập nhật cả hai góc nhìn để đưa ra dự đoán cuối cùng.
200 triệu cấu trúc protein — bước nhảy vọt cho khoa học mở
Tháng 7 năm 2022, DeepMind công bố hơn 200 triệu cấu trúc protein — gần như toàn bộ protein đã biết — lên cơ sở dữ liệu mở AlphaFold DB (hợp tác với EMBL-EBI). Con số này bao gồm:
- Protein từ người, chuột, ruồi giấm, vi khuẩn E. coli và hàng ngàn sinh vật khác
- Hơn 1 triệu loài sinh vật — từ vi sinh vật đến thực vật và động vật
- Miễn phí, không cần đăng ký, không giới hạn truy cập
Trước AlphaFold, cộng đồng khoa học thế giới mới chỉ giải được khoảng 190.000 cấu trúc protein sau nhiều thập kỷ — tốc độ khoảng 10.000 cấu trúc mỗi năm. AlphaFold đã tạo ra 200 triệu trong hai năm. Tỷ lệ tăng tốc: 10.000 lần.
Tác động lên y học và khoa học
AlphaFold không chỉ là thành tựu kỹ thuật — nó đang thay đổi cách nghiên cứu sinh học:
- Thiết kế thuốc — biết cấu trúc protein đích giúp thiết kế phân tử thuốc khớp với nó như chìa khoá với ổ khoá (xem thêm AlphaFold 3)
- Hiểu cơ chế bệnh — nhiều bệnh do protein cuộn gấp sai (prion, Alzheimer, Parkinson); AlphaFold giúp nghiên cứu cơ chế
- Nghiên cứu kháng sinh — dự đoán cấu trúc protein vi khuẩn để phát triển kháng sinh mới
- Enzyme công nghiệp — thiết kế enzyme phân huỷ nhựa, tổng hợp nhiên liệu sinh học (xem thêm AlphaProteo)
Tháng 5 năm 2024, John Jumper và Demis Hassabis (lãnh đạo dự án AlphaFold) được trao Giải Nobel Hoá học 2024 cho công trình này. Giới khoa học gọi đây là một trong những ứng dụng AI có tác động nhất đến khoa học thực nghiệm.
AlphaFold khác các phương pháp dự đoán protein trước đây thế nào?
Trước AlphaFold, các phương pháp dự đoán protein chủ yếu dựa trên mô phỏng vật lý (tính toán năng lượng) hoặc so sánh với protein có cấu trúc đã biết (homology modelling). AlphaFold dùng deep learning để học trực tiếp mối quan hệ giữa trình tự axit amin và cấu trúc 3D từ dữ liệu.
AlphaFold có thay thế được thí nghiệm thực tế không?
Không hoàn toàn. AlphaFold dự đoán xuất sắc cấu trúc tĩnh, nhưng protein trong cơ thể là cấu trúc động — tương tác, thay đổi hình dạng. Thí nghiệm thực tế vẫn cần để kiểm tra, đặc biệt cho các tương tác phức tạp và protein chưa có dữ liệu tương tự.
Tóm lại
AlphaFold là gì? — Mô hình AI của DeepMind dự đoán cấu trúc protein từ chuỗi axit amin. Vì sao quan trọng? — Vì nó biến một bài toán 50 năm từ không thể thành khả thi, mở ra cánh cửa hiểu cơ chế sự sống ở cấp độ phân tử — và tăng tốc nghiên cứu y sinh lên gấp vạn lần.
Quan trọng hơn, AlphaFold chỉ là bước đầu. DeepMind không dừng lại ở cấu trúc protein — họ tiếp tục mở rộng ra các phân tử khác của sự sống. Bài tiếp theo: AlphaFold 3 — dự đoán tương tác phân tử. +++
Bình luận
Đang tải bình luận…
Chưa có bình luận nào. Hãy là người đầu tiên chia sẻ ý kiến.
Đăng nhập để tham gia thảo luận.
Đăng nhập bằng Google để bình luậnChỉ dùng để bình luận. Không truy cập trình soạn thảo/CMS.
Không kết nối được máy chủ. Vui lòng thử lại.