LLMOps: Quản Trị Vòng Đời Ứng Dụng Generative AI

May 31, 2026 · 8 min read

Vũ Anh Tú

Share to be shared

1. Agenda

Thời gian đọc ước tính: ~10 phút

Learning outcome:

✅ Nhận diện được sự chuyển dịch mô hình (Paradigm Shift) từ MLOps truyền thống sang LLMOps.
✅ Phân biệt được các tiêu chí đánh giá mới của LLMOps (Honesty, Harm, Quality) so với MLOps (Accuracy, Recall).
✅ Nắm vững 3 giai đoạn vòng đời của LLM (Ideating, Augmenting, Operationalizing).
✅ Hiểu vai trò của các công cụ như PromptFlow và Azure AI trong việc tự động hóa vòng đời ứng dụng.

2. Glossary & Vocabulary

2.1. Technical Terms (Thuật ngữ kỹ thuật):

Term	Vietnamese Meaning & Quick Explain
MLOps	Machine Learning Operations: Quy trình kết hợp Machine Learning và DevOps để quản lý vòng đời của các mô hình học máy truyền thống.
LLMOps	Large Language Model Operations: Tập hợp các quy trình chuyên biệt để quản lý vòng đời của LLM, tập trung vào Prompt, RAG, Fine-tuning và đánh giá chất lượng văn bản.
Paradigm Shift	Chuyển dịch mô hình: Sự thay đổi căn bản trong cách tiếp cận và tư duy phát triển phần mềm khi có sự xuất hiện của LLM (chuyển từ việc tự train Model sang gọi API Model-as-a-Service).
Groundedness	Tính căn cứ/Độ xác thực: Tiêu chí đo lường xem câu trả lời của AI có dựa trên nguồn dữ liệu đầu vào đáng tin cậy hay không, tránh hiện tượng Hallucination.
PromptFlow	Công cụ phát triển trực quan giúp thiết kế, kiểm thử và tối ưu hóa luồng tương tác với LLM thông qua các khối lệnh (nodes).

2.2. Vocabulary Support (Từ vựng học thuật/B1+):

Word	Meaning in Context (Nghĩa trong ngữ cảnh)
Robust (adj)	Khả năng hệ thống hoạt động ổn định, không bị vỡ/lỗi khi gặp dữ liệu khó hoặc môi trường thay đổi.
Streamline (v)	Tối ưu hóa, tinh gọn quy trình bằng cách loại bỏ các bước thừa thãi.
Overarching (adj)	Mang tính bao quát, trùm lên toàn bộ các giai đoạn khác (ví dụ: Governance, Compliance).
Ideate (v)	Giai đoạn hình thành ý tưởng, thử nghiệm giả thuyết sơ khởi bằng Prompt Engineering.

3. Tại sao lại cần LLMOps? (WHY)

Vấn đề (Problem Statement): Khi AI bùng nổ, các mô hình học máy truyền thống (ML Apps) dần nhường chỗ cho Generative AI Apps (GenAI). Ở kỷ nguyên ML cũ, kỹ sư phải tự thu thập hàng triệu dòng dữ liệu, tự huấn luyện (train) mô hình từ đầu, và đánh giá bằng các công thức toán học khô khan như Độ chính xác (Accuracy), F1-Score.

Tuy nhiên, với LLM, chúng ta tiêu thụ "Mô hình như một Dịch vụ" (Models-as-a-Service - ví dụ OpenAI API). Lập trình viên hiện đại không còn train model từ đầu nữa, mà tập trung vào việc tích hợp và điều hướng mô hình. Lúc này, bộ quy trình MLOps cũ trở nên lạc hậu, không có cách nào để đo lường tự động "mức độ bịa đặt" (Hallucination) hay "tính độc hại" (Harm) trong một bài văn mà ChatGPT vừa sinh ra.

Giải pháp (Solution): LLMOps ra đời tạo ra một chuẩn mực mới, tập trung vào các nhà phát triển ứng dụng (App Developers) thay vì các kỹ sư dữ liệu (Data Engineers).

So sánh sự khác biệt trong bộ chỉ số đo lường giữa MLOps và LLMOps

4. Vòng đời ứng dụng LLM (WHAT)

Một ứng dụng AI thực tế không chỉ dừng lại ở việc gọi API ChatGPT rồi in kết quả ra màn hình. Nó phải đi qua một vòng đời (Lifecycle) liên tục.

Bộ chỉ số đánh giá (Metrics) hoàn toàn mới của LLMOps bao gồm:

Quality (Chất lượng): Câu trả lời có tự nhiên, logic và mạch lạc không?
Harm (Tác hại): Trách nhiệm AI. Câu trả lời có chứa ngôn từ thù ghét, vi phạm bản quyền hay rò rỉ dữ liệu cá nhân không?
Honesty (Tính trung thực/Groundedness): Câu trả lời có căn cứ trên dữ liệu hay do AI tự bịa ra?
Cost (Chi phí): Tối ưu hóa số lượng Token để không vượt quá ngân sách.
Latency (Độ trễ): Thời gian phản hồi trung bình cho mỗi token sinh ra, đảm bảo trải nghiệm người dùng không bị gián đoạn.

5. Quy trình 3 bước triển khai LLMOps (HOW)

Quá trình này không phải là một đường thẳng (linear) mà là các vòng lặp liên tục (iterative loops).

Bước 1: Ideating / Exploring (Ý tưởng & Khám phá)

Đây là lúc kiểm chứng giả thuyết (Proof-of-Concept).

Hành động: Sử dụng các kỹ thuật Prompt Engineering cơ bản để xem LLM có đủ khả năng giải quyết bài toán nghiệp vụ hay không.
Công cụ: Test trực tiếp trên Playground hoặc tạo luồng đơn giản bằng PromptFlow.

Bước 2: Building / Augmenting (Xây dựng & Tăng cường)

Nếu Prompt chay không đủ tốt, hệ thống bước vào giai đoạn mở rộng.

Hành động: Tích hợp dữ liệu nội bộ thông qua RAG (Retrieval-Augmented Generation) hoặc thực hiện Fine-Tuning để dạy cho AI kiến thức chuyên ngành.
Đánh giá: Kiểm thử với các bộ dữ liệu lớn hơn. Nếu độ chính xác (Groundedness) vẫn thấp, cần quay lại tối ưu cấu trúc dữ liệu RAG.

Bước 3: Operationalizing (Vận hành & Triển khai)

Khi mô hình đã chạy mượt mà, nó cần được đưa lên môi trường thực tế (Production).

Hành động: Triển khai (Deploy), tích hợp vào Application. Thiết lập hệ thống Monitoring để cảnh báo (Alert) nếu độ trễ (Latency) đột ngột tăng vọt hoặc mô hình bắt đầu trả lời sai lệch (Drift).

Lưu ý: Bao trùm lên cả 3 giai đoạn này (Overarching) là quy trình Management, đảm bảo hệ thống luôn tuân thủ bảo mật (Security), chính sách pháp lý (Compliance) và quản trị rủi ro (Governance).

6. Công cụ hỗ trợ (Lifecycle Tooling)

Để không phải "phát minh lại chiếc bánh xe", Microsoft cung cấp Azure AI Platform tích hợp sẵn các công cụ để quản lý LLMOps.

Giao diện Azure AI Studio cung cấp đầy đủ môi trường quản lý Project, Vector Search và Database.

PromptFlow là công cụ trực quan nhất để thiết kế và tự động hóa toàn bộ vòng đời này, từ việc tạo luồng (Flow), đánh giá chất lượng hàng loạt, cho đến khi triển khai 1-click lên Cloud.

7. Câu hỏi thảo luận

Theo bạn, tại sao việc đo lường "Độ chính xác" (Accuracy) của một hệ thống MLOps truyền thống lại dễ dàng hơn nhiều so với đo lường "Tính trung thực" (Honesty/Groundedness) của một hệ thống LLMOps?
Nếu bạn đang ở giai đoạn Augmenting, và nhận ra LLM thường xuyên bịa đặt (hallucinate) thông tin về sản phẩm mới của công ty, bạn sẽ ưu tiên sử dụng RAG hay Fine-Tuning để khắc phục? Tại sao?
Trong 5 tiêu chí (Quality, Harm, Honesty, Cost, Latency), theo bạn tiêu chí nào là quan trọng nhất đối với một hệ thống AI Chatbot hỗ trợ Khách hàng ngành Y tế? Tại sao?

8. References

Dựa trên Generative AI for Beginners - Microsoft.

Made by Anh Tu - Share to be share

1. Agenda​

Learning outcome:​

2. Glossary & Vocabulary​

3. Tại sao lại cần LLMOps? (WHY)​

4. Vòng đời ứng dụng LLM (WHAT)​

5. Quy trình 3 bước triển khai LLMOps (HOW)​

Bước 1: Ideating / Exploring (Ý tưởng & Khám phá)​

Bước 2: Building / Augmenting (Xây dựng & Tăng cường)​

Bước 3: Operationalizing (Vận hành & Triển khai)​

6. Công cụ hỗ trợ (Lifecycle Tooling)​

7. Câu hỏi thảo luận​

8. References​