Foundation Models: Giải Mã 'Khối Đế' Của Generative AI

May 31, 2026 · 7 min read

Vũ Anh Tú

Share to be shared

1. Agenda

Thời gian đọc ước tính: ~12 phút

Learning outcome:

✅ Hiểu bản chất của Foundation Models và sự khác biệt mang tính cách mạng so với Machine Learning truyền thống.
✅ Nhận diện được 3 "tượng đài" Foundation Models làm thay đổi cục diện AI: BERT, CLIP và họ nhà GPT.
✅ Nắm bắt được các ứng dụng thực tiễn (Text, Vision, Code, Speech) cũng như những thách thức hiện tại về dữ liệu và thiên kiến (Bias).

2. Glossary & Vocabulary

2.1. Technical Terms (Thuật ngữ kỹ thuật):

Term	Vietnamese Meaning & Quick Explain
Foundation Models	Mô hình nền tảng: Một AI khổng lồ được huấn luyện trước trên dữ liệu thô vô cùng lớn, đóng vai trò như "chất xám cơ bản" để từ đó tùy biến cho vô số tác vụ khác nhau.
Curated Datasets	Dữ liệu được tinh tuyển: Dữ liệu đã được con người làm sạch, dán nhãn cẩn thận dùng trong AI truyền thống (đối lập với dữ liệu thô, không dán nhãn của Foundation Models).
Multi-modal	Đa phương thức: Khả năng của AI có thể hiểu và kết nối chéo giữa nhiều loại dữ liệu như văn bản, hình ảnh, âm thanh cùng một lúc (Ví dụ: CLIP).
Fine-tuning	Tinh chỉnh: Dùng một lượng nhỏ dữ liệu chuyên ngành để "dạy thêm" cho Foundation Model, giúp nó giỏi một tác vụ cụ thể.
Embeddings	Kỹ thuật chuyển đổi các khái niệm (từ vựng, hình ảnh) thành các dãy số (vector) để máy tính có thể hiểu được khoảng cách ngữ nghĩa giữa chúng.

2.2. Vocabulary Support (Từ vựng học thuật/B1+):

Word	Meaning in Context (Nghĩa trong ngữ cảnh)
Tailoring (v)	Cắt may, tinh chỉnh cho vừa vặn (Tạo ra một mô hình AI đo ni đóng giày cho một tác vụ hẹp).
Leverage (v)	Tận dụng sức bật, đòn bẩy (Tận dụng tri thức khổng lồ có sẵn của Foundation Model thay vì làm lại từ đầu).
Paradigm (n)	Hệ quy chiếu, mô hình tư duy (Sự ra đời của Foundation Models là một sự dịch chuyển paradigm trong ngành máy tính).

3. Tại sao AI Truyền Thống Đã Lỗi Thời? (WHY)

Vấn đề (Problem Statement): Trước đây, theo cách làm Machine Learning truyền thống, nếu bạn muốn AI nhận diện mèo, bạn phải gom 10.000 bức ảnh mèo đã được dán nhãn (curated datasets) và huấn luyện một mô hình chỉ biết nhận diện mèo. Nếu ngày mai bạn muốn AI nhận diện chó, bạn lại phải làm lại quy trình đó từ con số 0 (from scratch). Điều này tốn kém, cứng nhắc và phụ thuộc hoàn toàn vào các kỹ sư AI.

Giải pháp (Solution): Foundation Models (Mô hình nền tảng) ra đời để giải quyết sự cồng kềnh đó. Thay vì huấn luyện AI cho một tác vụ cụ thể, các nhà khoa học "đổ" toàn bộ dữ liệu hỗn tạp trên Internet vào một mạng nơ-ron khổng lồ để nó tự học các quy luật chung nhất của thế giới. Sau khi huấn luyện xong, mô hình nền tảng này vô cùng thông minh. Bất kỳ ai (kể cả không phải lập trình viên) cũng có thể tận dụng (leverage) nó để làm thơ, viết code hay phân tích dữ liệu chỉ bằng vài câu lệnh (prompt) hoặc tinh chỉnh nhẹ (fine-tuning).

Traditional Machine Learning vs Foundation Models. Source: Armand Ruiz Sự khác biệt cốt lõi: AI truyền thống tạo ra nhiều mô hình nhỏ lẻ cho từng tác vụ. Foundation Models tạo ra MỘT "bộ não" khổng lồ phục vụ cho vô số tác vụ.

4. Điểm mặt 3 "Tượng Đài" Foundation Models (WHAT)

Foundation Models đã định hình lại AI trong 5 năm qua. Dưới đây là 3 cột mốc không thể bỏ qua:

4.1. BERT (2018) - Kẻ phá vỡ giới hạn đọc hiểu

Trước BERT, AI đọc văn bản giống như con người đeo băng bịt một mắt — chỉ đọc từ trái sang phải (unidirectional). Nhờ cơ chế Transformer hai chiều, BERT có thể đọc hiểu văn cảnh của cả câu cùng một lúc. Nó tự học bằng cách chơi trò "điền vào chỗ trống" (Masked Language Model), giúp AI nắm bắt những sắc thái (nuances) cực kỳ tinh tế của ngôn ngữ.

4.2. CLIP (2021) - Bắt nhịp cầu nối Văn bản và Hình ảnh

CLIP là một mô hình Đa phương thức (Multi-modal). Bằng cách quan sát 400 triệu cặp "Hình ảnh - Câu mô tả", CLIP tự tìm ra mối liên hệ toán học giữa chữ viết và hình ảnh. Nhờ CLIP, AI sau này (như DALL-E) mới có thể vẽ ra bức tranh đúng với những gì bạn miêu tả bằng văn bản.

A depiction of CLIP being used when trainig OpenAI's DALL•E-2. Source: OpenAI CLIP đóng vai trò hạt nhân giúp các công cụ tạo ảnh như DALL-E hiểu được "ngữ nghĩa" của hình ảnh.

4.3. GPT (Generative Pre-trained Transformers)

Nhà vô địch hiện tại của OpenAI. Bằng cách đọc lượng văn bản khổng lồ (corpus) không dán nhãn, GPT học được kỹ năng duy nhất: Đoán từ tiếp theo. Nghe có vẻ đơn giản, nhưng khi được huấn luyện ở quy mô hàng nghìn tỷ từ, kỹ năng "đoán từ" đã bùng nổ thành khả năng lập luận, làm toán, viết code và sáng tác nghệ thuật.

5. Quyền Năng và Góc Khuất của Foundation Models (HOW)

Lợi ích vượt trội

Triển khai cực rẻ: Không cần xây dựng đội ngũ Data Scientist đắt đỏ. Bạn chỉ cần vài chuyên gia trong ngành (Domain Experts) biết cách viết Prompt hoặc Fine-tune là đủ để tạo ra ứng dụng xịn.
Hiệu năng State-of-the-Art: Do được học từ lượng dữ liệu khổng lồ, chúng thường out-trình các mô hình hẹp chuyên biệt. Thậm chí các hãng lớn còn dùng AI to (Llama 2) để tự động tạo dữ liệu dạy cho AI nhỏ (Llama 3).

Những thách thức khốc liệt

Cơn khát Dữ liệu và Tiền bạc: Huấn luyện một Foundation Model tốn hàng chục triệu đô la tiền máy chủ GPU. Hơn nữa, dữ liệu rác trên Internet đang cạn kiệt, các công ty AI đang phải vung hàng chục triệu đô la mua dữ liệu chất lượng cao (như Google trả 60 triệu USD/năm cho Reddit).
Thiên kiến (Bias): "Ăn" dữ liệu trên Internet đồng nghĩa với việc nuốt luôn cả sự độc hại, phân biệt chủng tộc và tin giả. Cần rất nhiều nỗ lực can thiệp từ con người (RLHF) để nắn lại "đạo đức" cho AI.
Thiếu tiêu chuẩn đo lường: LLM rất giỏi làm thơ, nhưng lại có thể sai một phép toán lớp 3. Hiện tại chúng ta vẫn đang chật vật tìm cách đo lường độ tin cậy của chúng trước khi dám áp dụng vào các ngành sinh tử như y tế, hàng không.

6. Câu hỏi thảo luận

Theo bạn, việc "đóng gói" toàn bộ tri thức vào một Foundation Model duy nhất có rủi ro gì về mặt an ninh mạng hoặc độc quyền công nghệ so với việc hàng ngàn công ty tự huấn luyện các mô hình nhỏ lẻ?
Giả sử bạn là Product Manager của một ứng dụng hỗ trợ Luật Sư. Bạn sẽ tận dụng Foundation Model có sẵn (như GPT-4) hay tự thuê kỹ sư để xây một AI truyền thống chuyên về luật? Hãy phân tích sự đánh đổi (Trade-off).
CLIP giúp AI hiểu mối quan hệ giữa Hình ảnh và Text. Nếu bạn muốn huấn luyện một Foundation Model Đa phương thức mới kết nối Âm thanh (Tiếng chim hót) và Nhiệt độ (Nóng/lạnh), bạn nghĩ sẽ gặp khó khăn lớn nhất ở khâu nào?

7. References

Dựa trên Foundation Models: Explained - Humanloop.

Made by Anh Tu - Share to be share

1. Agenda​

Learning outcome:​

2. Glossary & Vocabulary​

3. Tại sao AI Truyền Thống Đã Lỗi Thời? (WHY)​

4. Điểm mặt 3 "Tượng Đài" Foundation Models (WHAT)​

4.1. BERT (2018) - Kẻ phá vỡ giới hạn đọc hiểu​

4.2. CLIP (2021) - Bắt nhịp cầu nối Văn bản và Hình ảnh​

4.3. GPT (Generative Pre-trained Transformers)​

5. Quyền Năng và Góc Khuất của Foundation Models (HOW)​

Lợi ích vượt trội​

Những thách thức khốc liệt​

6. Câu hỏi thảo luận​

7. References​