LLM Taxonomy and Deployment Strategies: A Decision Framework

May 31, 2026 · 14 min read

Share to be shared

Synthesized from: Exploring and Comparing Different LLMs — Microsoft Generative AI for Beginners, Lesson 02

Bài viết được tổng hợp và tái cấu trúc học thuật từ nguồn aha-mind:blog.

Agenda

Estimated reading time: ~18 minutes

Learning Outcomes:

Phân loại được LLMs theo 4 chiều: output type, kiến trúc, nguồn gốc, và service vs. model
Phân biệt được Foundation Model và LLM — khái niệm thường bị dùng lẫn lộn
Áp dụng được Decision Framework để chọn đúng chiến lược cải thiện LLM: Prompt Engineering, RAG, Fine-tuning, hay Train from scratch
Đánh giá được trade-offs về chi phí, độ trễ (latency), và chất lượng của từng chiến lược

1. Glossary and Vocabulary

1.1. Technical Terms:

Term	Vietnamese Meaning and Quick Explain
Foundation Model	Mô hình nền tảng — Model được huấn luyện trên dữ liệu khổng lồ, đa phương thức, đóng vai trò "bộ não gốc" để phát triển các ứng dụng chuyên biệt.
Fine-tuning	Tinh chỉnh — Lấy một model pre-trained rồi huấn luyện thêm với dữ liệu nhỏ, chuyên biệt để model giỏi một tác vụ cụ thể.
Embedding	Biểu diễn vector — Chuyển văn bản thành dãy số sao cho các khái niệm gần nhau về ngữ nghĩa sẽ có vector gần nhau trong không gian số.
RAG (Retrieval Augmented Generation)	Kỹ thuật bổ sung dữ liệu ngoài vào prompt của LLM tại thời điểm inference — giải quyết vấn đề knowledge cutoff mà không cần fine-tuning.
Encoder-Decoder	Kiến trúc 2 thành phần: Encoder nén input thành representation, Decoder giải mã ra output. Phù hợp với translation, summarization.
Decoder-only	Kiến trúc chỉ có Decoder — tự hồi quy, sinh token tiếp theo dựa trên context. Nền tảng của GPT, LLaMA, Gemini.
Inference	Giai đoạn model thực sự hoạt động để dự đoán/trả lời sau khi đã được huấn luyện xong.
Latency	Độ trễ phản hồi — Thời gian từ lúc gửi request đến khi nhận được response đầu tiên.
Ground Truth	Dữ liệu chuẩn xác tuyệt đối, dùng làm thước đo để đánh giá mô hình dự đoán đúng hay sai.

1.2. Vocabulary Support (B1+):

Word	Meaning in Context
Proprietary (adj)	Độc quyền — thuộc quyền sở hữu của một công ty, không công khai mã nguồn.
Downstream task (n)	Tác vụ ứng dụng cụ thể (dịch thuật, phân loại...) được xây dựng trên nền Foundation Model.
Surrogate task (n)	Tác vụ trung gian được dùng để pre-train model trước khi áp dụng vào tác vụ thực sự.
Inpainting (n)	Kỹ thuật AI vẽ bù/tái tạo vùng bị xóa trên ảnh một cách tự nhiên.

2. Problem Statement

2.1. Vấn đề: LLM landscape quá rộng, không có one-size-fits-all

Khi triển khai AI cho một ứng dụng thực tế, engineers gặp phải 3 loại quyết định cần đưa ra đồng thời:

Chọn model loại nào? — Text generation vs. Image generation vs. Embedding vs. Multi-modal? Open-source vs. Proprietary?
Kiến trúc nào phù hợp? — Encoder-Decoder cho translation, hay Decoder-only cho chatbot?
Cải thiện performance như thế nào? — Prompt engineering đủ chưa, hay cần RAG, hay phải fine-tune, hay phải train from scratch?

Mỗi quyết định sai đều dẫn đến cost overrun hoặc kết quả kém chất lượng.

2.2. Framework Giải Quyết

Bài này cung cấp một taxonomy đầy đủ để phân loại LLMs và một decision framework rõ ràng để chọn chiến lược cải thiện phù hợp với từng use case.

3. LLM Taxonomy: 4 Chiều Phân Loại

3.1. Phân loại theo Output Type

Output Type	Models tiêu biểu	Use case chính
Text and Code	GPT-4, LLaMA, CodeParrot	Chatbot, summarization, code generation
Image Generation	DALL-E-3, Stable Diffusion	Thiết kế, content creation
Audio/Speech	Whisper	Speech-to-text, multilingual transcription
Embedding	text-embedding-ada-002	Semantic search, RAG, clustering
Multi-modal	GPT-4o, Gemini	Kết hợp text + image + audio input/output

3.2. Foundation Model vs. LLM — Không Phải Cùng Khái Niệm

Đây là điểm nhầm lẫn phổ biến nhất trong cộng đồng:

Foundation Model (thuật ngữ do Stanford đặt ra, 2021) phải thỏa mãn 3 tiêu chí:

Được huấn luyện bằng unsupervised/self-supervised learning trên dữ liệu đa phương thức, không cần label thủ công
Kích thước cực lớn — hàng tỷ parameters
Được thiết kế để làm nền tảng — các model chuyên biệt được fine-tune từ đây

Mối quan hệ: LLM là một loại Foundation Model được tối ưu cho ngôn ngữ. Nhưng Foundation Model rộng hơn — nó bao gồm cả DALL-E (ảnh), Whisper (audio).

Ví dụ thực tế: GPT-3.5 là Foundation Model. OpenAI fine-tune GPT-3.5 với dữ liệu hội thoại → tạo ra ChatGPT. ChatGPT là downstream application của Foundation Model GPT-3.5.

3.3. Encoder-Decoder vs. Decoder-only — Chọn Kiến Trúc Nào?

Phép ẩn dụ từ bài gốc: Hãy tưởng tượng bạn có 2 đồng nghiệp:

Kiến trúc	Đại diện	Phù hợp với
Decoder-only	GPT-3/4, LLaMA, Gemini	Chatbot, code gen, creative writing
Encoder-only	BERT, RoBERTa	Text classification, NER, sentiment analysis
Encoder-Decoder	BART, T5, mT5	Translation, summarization, question answering

3.4. Open Source vs. Proprietary — Trade-offs Thực Tế

Tiêu chí	Open Source (LLaMA, Bloom)	Proprietary (GPT-4, Claude)
Chi phí ban đầu	Miễn phí license	Subscription / pay-per-token
Infrastructure	Tự mua/vận hành GPU	Cloud provider quản lý
Customization	Full control — inspect, modify, fine-tune	Hạn chế — chỉ qua API
Data Privacy	Dữ liệu ở local	Phụ thuộc ToS của provider
Performance	Thường kém hơn SOTA	Thường SOTA, tối ưu production
Long-term support	Không đảm bảo	SLA có hợp đồng

3.5. Service vs. Model — Không Phải Cùng Thứ

	Model	Service
Là gì?	Neural network: weights, biases, architecture	Sản phẩm hoàn chỉnh = Model + Infrastructure + API
Ví dụ	LLaMA weights trên HuggingFace	Azure OpenAI Service
Vận hành	Tự mua GPU, setup, scale	Cloud provider lo tất cả
Chi phí model	Miễn phí (nếu open source)	Pay-as-you-go
Chi phí infra	Tốn kém và phức tạp	Tính vào giá service

4. 4 Chiến Lược Cải Thiện LLM Performance

Đây là decision framework quan trọng nhất trong bài. Bốn chiến lược được sắp xếp theo thứ tự tăng dần về complexity và cost:

4.1. Prompt Engineering with Context — Bắt Đầu Ở Đây

Pre-trained LLMs hoạt động tốt với prompt ngắn (zero-shot). Nhưng càng cung cấp context cụ thể, output càng chính xác:

Kỹ thuật	Mô tả	Khi nào dùng
Zero-shot	Chỉ câu hỏi, không ví dụ	Tác vụ đơn giản, general knowledge
One-shot	1 ví dụ trong prompt	Cần format cụ thể
Few-shot	2-5 ví dụ trong prompt	Cần style hoặc format nhất quán

Ưu điểm: Rẻ nhất, nhanh nhất, không cần training. Giới hạn: Bị ràng buộc bởi context window. Không inject được domain knowledge sâu.

4.2. RAG (Retrieval Augmented Generation) — Khi Cần Dữ Liệu Ngoài

LLMs có knowledge cutoff — không biết gì về sự kiện sau ngày training kết thúc, và không có access vào dữ liệu nội bộ của công ty. RAG giải quyết bằng cách:

Khi nào dùng RAG:

Dữ liệu thay đổi thường xuyên (news, internal docs, product catalog)
Không đủ tài nguyên/thời gian để fine-tune
Cần giảm hallucination về dữ liệu nội bộ

Giới hạn của RAG: Chất lượng phụ thuộc vào retrieval — nếu vector search trả về chunk sai, LLM sẽ trả lời sai.

4.3. Fine-tuning — Khi RAG Chưa Đủ

Fine-tuning tạo ra model mới với updated weights. Khác với Prompt Engineering và RAG (không thay đổi model), fine-tuning thực sự thay đổi tham số nội tại của model.

Dùng fine-tuning khi:

Cần latency thấp — model nhỏ đã fine-tune có thể nhanh hơn model lớn với prompt dài
Có nhiều high-quality labeled data và ground truth labels
Muốn giảm prompt length (đã inject knowledge vào weights, không cần nhắc lại mỗi lần)
Muốn thay đổi "style" phản hồi của model (formal, technical, etc.)

Chi phí: Cao hơn RAG đáng kể — cần tính toán GPU, thời gian training, và maintain dataset.

4.4. Train from Scratch — Chỉ Khi Thực Sự Cần

Huấn luyện LLM từ đầu đòi hỏi:

Hàng tỷ tokens dữ liệu domain-specific
Đội ngũ ML Engineers chuyên biệt
Infrastructure GPU cluster quy mô lớn (nghìn GPU)
Chi phí từ vài triệu đến hàng trăm triệu USD

Không có startup hay SME nào nên xem xét option này. Đây là chiến lược dành riêng cho Big Tech (Meta, Google, Microsoft) hoặc các tổ chức có domain cực kỳ đặc thù (y tế, pháp lý, quốc phòng) với nguồn lực tương xứng.

5. Decision Matrix: Chọn Chiến Lược Nào?

Tiêu chí	Prompt Eng.	RAG	Fine-tuning	Train from Scratch
Chi phí	$	$$	$$$	$$$$
Thời gian triển khai	Giờ	Ngày	Tuần	Tháng
Cần labeled data?	Không	Không	Có	Có (rất nhiều)
Real-time data?	Không	Có	Không	Không
Thay đổi model weights?	Không	Không	Có	Có
Phù hợp SME/Startup	Luôn luôn	Thường	Khi có data	Không
Phù hợp Big Tech	Baseline	Phổ biến	Phổ biến	Đặc thù

Nguyên tắc vàng: Luôn bắt đầu từ Prompt Engineering → nếu không đủ, thêm RAG → nếu vẫn không đủ, xem xét Fine-tuning. Train from scratch là phương án cuối cùng.

6. Testing và Iteration — Azure AI Studio Model Catalog

Sau khi xác định được chiến lược, bước tiếp theo là test và iterate. Azure AI Studio cung cấp workflow:

Browse Model Catalog — Filter theo task, license, provider (Azure OpenAI, HuggingFace...)
Review Model Card — Training data, intended use, limitations, code samples
Compare Benchmarks — So sánh metrics trên industry-standard datasets
Fine-tune on Azure — Upload custom data, track experiments
Deploy — Managed compute (dedicated) hoặc Serverless API (pay-as-you-go)

Lưu ý: Không phải mọi model trong catalog đều hỗ trợ fine-tuning và pay-as-you-go deployment. Kiểm tra Model Card trước.

7. Limitations and Trade-offs

Vendor lock-in với Proprietary models — Phụ thuộc vào pricing policy và roadmap của provider. GPT-3.5 đã bị deprecated, buộc migration.
RAG complexity — RAG không phải silver bullet. Chất lượng retrieval quyết định chất lượng response. Chunking strategy, embedding model, vector similarity threshold đều ảnh hưởng kết quả.
Fine-tuning data quality — "Garbage in, garbage out." Fine-tuning với data kém chất lượng tạo ra model kém hơn base model.
Cost of Fine-tuning không chỉ là training — Phải maintain dataset, retrain định kỳ khi data thay đổi, và manage model versions.
Benchmark ≠ Production performance — Model score cao trên benchmark chưa chắc hoạt động tốt với dữ liệu thực tế của bạn. Always test trên production-like data.

8. Discussion Questions

RAG vs. Fine-tuning Decision — Một công ty fintech muốn LLM có thể trả lời câu hỏi về sản phẩm tài chính của họ (thay đổi mỗi quý). Họ nên chọn RAG hay Fine-tuning? Yếu tố nào là quyết định?
Open Source Trade-offs — Meta phát hành LLaMA miễn phí. Một startup có thể fine-tune LLaMA cho use case của mình mà không phụ thuộc OpenAI. Nhưng khi mô hình LLaMA bị phát hiện có bias nghiêm trọng, ai chịu trách nhiệm? Provider hay startup đã fine-tune?
Benchmark Inflation — Nhiều model providers công bố benchmark ấn tượng trên các dataset chuẩn. Tuy nhiên, benchmark này thường được đo trên "public test sets" mà model có thể đã "thấy" trong training data. Điều này ảnh hưởng như thế nào đến quyết định chọn model?

9. References

Source	Type	URL
Microsoft — Generative AI for Beginners, Lesson 02	Tier 1 (Official Curriculum)	github.com/microsoft
Bommasani et al. — "On the Opportunities and Risks of Foundation Models" (Stanford, 2021)	Tier 1 (Research Paper)	arxiv.org/abs/2108.07258
Fiddler AI — "Four Ways that Enterprises Deploy LLMs"	Tier 2 (Industry Blog)	fiddler.ai
Babar M Bhatti — "Essential Guide to Foundation Models and LLMs"	Tier 2 (Technical Blog)	thebabar.medium.com
Azure AI Studio Model Catalog	Tier 1 (Official Docs)	learn.microsoft.com

Made by Anh Tu - Share to be share

Agenda​

Learning Outcomes:​

1. Glossary and Vocabulary​

2. Problem Statement​

2.1. Vấn đề: LLM landscape quá rộng, không có one-size-fits-all​

2.2. Framework Giải Quyết​

3. LLM Taxonomy: 4 Chiều Phân Loại​

3.1. Phân loại theo Output Type​

3.2. Foundation Model vs. LLM — Không Phải Cùng Khái Niệm​

3.3. Encoder-Decoder vs. Decoder-only — Chọn Kiến Trúc Nào?​

3.4. Open Source vs. Proprietary — Trade-offs Thực Tế​

3.5. Service vs. Model — Không Phải Cùng Thứ​

4. 4 Chiến Lược Cải Thiện LLM Performance​

4.1. Prompt Engineering with Context — Bắt Đầu Ở Đây​

4.2. RAG (Retrieval Augmented Generation) — Khi Cần Dữ Liệu Ngoài​

4.3. Fine-tuning — Khi RAG Chưa Đủ​

4.4. Train from Scratch — Chỉ Khi Thực Sự Cần​

5. Decision Matrix: Chọn Chiến Lược Nào?​

6. Testing và Iteration — Azure AI Studio Model Catalog​

7. Limitations and Trade-offs​

8. Discussion Questions​

9. References​