AlphaGenome — Phần 1: Vùng điều hoà DNA và mã điều khiển sự sống
🔬 Series Khoa học — Google DeepMind & AI Sinh học (Bài 5/7) — Bài trước: AlphaProteo — thiết kế protein mới. Bài này mở rộng từ protein lên toàn bộ bộ gen — AlphaGenome.
Sau khi chinh phục thế giới protein (AlphaFold, AlphaFold 3, AlphaMissense, AlphaProteo), Google DeepMind quay sang một thách thức lớn hơn: bộ gen người.
Chúng ta có khoảng 20.000 gen — nhưng đó chỉ là 1–2% DNA. Phần còn lại — 98% — từng bị gọi là "DNA rác" (junk DNA) vì các nhà khoa học không hiểu nó làm gì. Giờ ta biết: phần lớn trong số đó là vùng điều hoà — bảng điều khiển phức tạp quyết định gen nào được bật, ở tế bào nào, vào lúc nào.
AlphaGenome là dự án của DeepMind nhằm giải mã bảng điều khiển đó.
DNA không chỉ là mã lệnh
Nếu nghĩ DNA như một cuốn sách dạy nấu ăn:
- Gen là các công thức — mã hoá protein
- Vùng điều hoà là ghi chú như "món này chỉ nấu vào bữa tối", "thêm gia vị nếu khách miền Nam"
- Tế bào là đầu bếp — mỗi loại tế bầu bếp đọc các ghi chú khác nhau
Mỗi tế bào trong cơ thể bạn có cùng DNA — tế bào gan, tế bào thần kinh, tế bào da đều mang bộ gen giống hệt nhau. Nhưng chúng hoạt động khác nhau vì gen khác nhau được bật. Vùng điều hoà là thứ tạo ra sự khác biệt này.
Vùng điều hoà gồm nhiều loại:
| Loại | Chức năng | Ví dụ |
|---|---|---|
| Promoter | Điểm khởi đầu phiên mã — nơi enzyme RNA polymerase gắn vào | Ngay trước mỗi gen |
| Enhancer | Tăng cường phiên mã — có thể cách xa gen hàng ngàn nucleotide | Tế bào đặc hiệu |
| Silencer | Kìm hãm phiên mã — ngăn gen hoạt động khi không cần | Bảo vệ tế bào |
| Insulator | Ngăn cách vùng điều hoà — không cho enhancer ảnh hưởng gen khác | Cấu trúc gen |
| Promoter | Vùng khởi động phiên mã cơ bản | Ngay trước gen |
Khó khăn: một enhancer có thể nằm cách gen mà nó điều khiển đến hàng triệu nucleotide — và cuộn gấp DNA trong nhân tế bào đưa chúng lại gần nhau. Dự đoán enhancer nào điều khiển gen nào là bài toán nan giải suốt nhiều thập kỷ.
AlphaGenome Phần 1: Đọc không gian điều hoà
AlphaGenome sử dụng kiến trúc tương tự các mô hình ngôn ngữ lớn (như GPT/Gemini) nhưng huấn luyện trên trình tự DNA thay vì văn bản. Cụ thể:
- Mô hình được huấn luyện trên hàng triệu trình tự DNA từ nhiều loài (người, chuột, ruồi giấm, vi khuẩn...)
- Học cách "ngôn ngữ DNA" vận hành — giống như mô hình ngôn ngữ học cách từ và câu kết hợp với nhau
- Có khả năng dự đoán vùng điều hoà dựa trên trình tự DNA — không cần thí nghiệm
Kết quả ấn tượng nhất: AlphaGenome có thể xác định các enhancer và dự đoán gen mục tiêu của chúng với độ chính xác cao hơn đáng kể so với các phương pháp tin sinh học truyền thống.
Điều đặc biệt: mô hình không chỉ tìm ra vùng điều hoà đã biết — nó còn phát hiện những vùng mới chưa từng được ghi nhận trong cơ sở dữ liệu, và dự đoán vai trò của chúng.
Tác động lên nghiên cứu bệnh học
Phần lớn các biến thể di truyền liên quan đến bệnh (từ các nghiên cứu GWAS) nằm ở vùng điều hoà, không phải ở gen. Nhưng vì không hiểu các vùng này, ta không biết cơ chế bệnh sinh.
AlphaGenome giúp đóng khoảng trống đó:
- Ung thư — nhiều đột biến gây ung thư nằm ở enhancer, làm tăng biểu hiện gen gây ung thư (oncogene). AlphaGenome phát hiện các enhancer này.
- Bệnh tự miễn — các biến thể trong vùng điều hoà của gen miễn dịch góp phần gây bệnh lupus, viêm khớp dạng thấp.
- Bệnh thần kinh — các vùng điều hoà liên quan đến gen đặc hiệu tế bào thần kinh giúp hiểu cơ chế bệnh Parkinson và Alzheimer.
- Bệnh hiếm — nhiều bệnh hiếm không phải do đột biến gen mà do đột biến trong vùng điều hoà của gen đó.
AlphaGenome có thể chữa bệnh di truyền không?
Không trực tiếp chữa, nhưng hiểu cơ chế điều hoà gen là bước đầu tiên của liệu pháp gen — biết nên điều chỉnh cái gì, ở đâu trong bộ gen để đạt hiệu quả điều trị.
AlphaGenome cần bao nhiêu dữ liệu để chạy?
Mô hình được huấn luyện trên lượng lớn dữ liệu trình tự, nhưng để phân tích một bộ gen người, chỉ cần đầu vào là trình tự DNA — không cần thí nghiệm phụ trợ.
Tóm lại
AlphaGenome — Phần 1 đánh dấu bước mở rộng từ protein lên bộ gen của DeepMind. Thay vì giải mã từng gen riêng lẻ, mô hình giải mã bảng điều khiển của toàn bộ bộ gen — các vùng điều hoà quyết định khi nào, ở đâu, và bao nhiêu của mỗi gen được tạo ra.
Đây là một trong những bài toán phức tạp nhất của sinh học hiện đại, và AlphaGenome đã chứng minh AI có thể đọc được ngôn ngữ điều khiển đó.
Bài tiếp theo: AlphaGenome — Phần 2: Đọc một triệu chữ DNA cùng AI. Khi không chỉ đọc phần điều khiển mà đọc gần như toàn bộ bộ gen. +++
Bình luận
Đang tải bình luận…
Chưa có bình luận nào. Hãy là người đầu tiên chia sẻ ý kiến.
Đăng nhập để tham gia thảo luận.
Đăng nhập bằng Google để bình luậnChỉ dùng để bình luận. Không truy cập trình soạn thảo/CMS.
Không kết nối được máy chủ. Vui lòng thử lại.