- Published on
BA026. Sự đồng thuận của các hạt — Toán học MCMC Ensemble và Cross-Validation

Trong BA025, Grid Search đã quét 3,240 điểm lưới và tìm ra tham số ứng viên tối ưu giúp tối đa hóa Youden's J. Nhưng một câu hỏi quan trọng vẫn còn đó:
"Giá trị tối ưu đó, thật sự đáng tin không?"
Grid Search chỉ đưa ra ước lượng điểm (Point Estimate). Nó nói T(Discovery)=0.22 là tối ưu, nhưng nếu đổi thành 0.21 hay 0.23, kết quả sẽ hoàn toàn khác? Hay gần như giống nhau? Không có câu trả lời đó, một lãnh đạo sales khó lòng tin vào con số này.
Bài viết này giải mã nguyên lý toán học đằng sau trụ cột thứ hai của Auto-Tuner — MCMC Ensemble Sampling — và trụ cột thứ ba — Cross-Validation.
Part I. MCMC Ensemble Sampling
1. Posterior Distribution: Câu trả lời không phải "điểm" mà là "địa hình"
Triết lý cốt lõi của Bayesian Inference là giá trị tối ưu của tham số không phải một điểm duy nhất mà là một Phân phối xác suất (Distribution).
Nếu Grid Search trả lời "T(Discovery)=0.22," thì từ góc nhìn Bayesian, điều ta thật sự muốn biết là:
Đó là Posterior Distribution (Phân phối hậu nghiệm) — "toàn bộ địa hình xác suất cho mọi giá trị khả dĩ của tham số θ, sau khi quan sát dữ liệu."
Đỉnh (Mode) của posterior là điểm tối ưu, độ rộng của đỉnh là mức độ bất định. Đỉnh nhọn nghĩa là "giá trị này chắc chắn"; đỉnh rộng nghĩa là "nhiều giá trị đều tốt tương đương."
Vấn đề là, tính toán posterior này bằng toán học là không thể trong phần lớn bài toán thực tế. Vì mẫu số P(Data) — Evidence — đòi hỏi tích phân đa chiều:
Tích phân trên 6 chiều — 5 giá trị T và 1 giá trị k. Không tồn tại nghiệm giải tích.
Đây là lúc MCMC xuất hiện.
2. MCMC là gì?
Dành cho bạn đọc lần đầu nghe đến MCMC, hãy tách tên ra.
MCMC = Markov Chain + Monte CarloCái tên kết hợp hai ý tưởng toán học.
Monte Carlo — Đặt theo tên thành phố sòng bạc nổi tiếng ở Monaco. Ý tưởng cốt lõi: "Nếu không thể tính chính xác, hãy chạy mô phỏng ngẫu nhiên hàng ngàn lần để xấp xỉ kết quả." Ví dụ, muốn tính diện tích hình tròn mà không có công thức? Rải ngẫu nhiên hàng ngàn điểm trên hình vuông, đếm tỷ lệ rơi vào trong hình tròn, là ước lượng được π. Đó là phương pháp Monte Carlo.
Markov Chain (Chuỗi Markov) — Đặt theo tên nhà toán học Nga Andrey Markov. Là đường đi ngẫu nhiên mà "trạng thái tiếp theo chỉ phụ thuộc vào trạng thái hiện tại, không phụ thuộc vào quá khứ" (tính phi ký ức). Tưởng tượng một người say loạng choạng trong ngõ: bước tiếp theo phụ thuộc vào chỗ đang đứng, không liên quan đến nơi xuất phát.
Ghép lại thành MCMC: "Phương pháp đi ngẫu nhiên trong không gian tham số theo quy tắc Markov Chain (chọn vị trí tiếp theo theo xác suất từ vị trí hiện tại), và ước lượng posterior distribution từ phân phối quỹ đạo đó."
Tại sao cần phương pháp này? Như đã thấy, tính trực tiếp posterior P(θ|Data) cần tích phân đa chiều của mẫu số P(Data). Tích phân này không giải được trong hầu hết bài toán thực tế. MCMC là công cụ mạnh nhất của thống kê tính toán hiện đại — bỏ qua tích phân đó mà vẫn khám phá được hình dạng posterior.
Từ thập niên 1990, cùng sự bùng nổ sức mạnh tính toán, MCMC trở thành công cụ chuẩn trong hầu như mọi lĩnh vực — vật lý, thiên văn, di truyền học, tài chính. Auto-Tuner dùng MCMC cho tối ưu hóa tham số sales chính là áp dụng phương pháp đã được kiểm chứng vào lĩnh vực kinh doanh.
MCMC, Deep Learning, Reinforcement Learning — Cùng gốc, khác cành
MCMC có thể nghe xa lạ, nhưng có mối liên hệ sâu đáng kinh ngạc với các công nghệ AI cốt lõi ngày nay.
Liên hệ với Deep Learning — "Hành trình tìm tham số tối ưu"Hãy nghĩ về quá trình huấn luyện deep learning. Mạng neural có hàng triệu trọng số (Weight), và SGD (Stochastic Gradient Descent) trượt xuống dốc hàm mất mát để tìm trọng số tối ưu. MCMC về bản chất cũng làm điều tương tự — tìm điểm tối ưu trong không gian tham số. Khác biệt ở phương pháp. SGD là người leo núi theo "con dốc dốc nhất"; MCMC là đoàn thám hiểm "đi ngẫu nhiên theo xác suất để vẽ toàn bộ địa hình." SGD tìm nhanh một điểm tối ưu nhưng không biết gì về bất định xung quanh. MCMC chậm hơn nhưng cho biết "câu trả lời này chắc chắn đến mức nào." Với Auto-Tuner, điều thứ hai quan trọng hơn — vì cần nói với sếp sales "giá trị tối ưu là 0.22, và phạm vi an toàn là 0.19~0.25."
Liên hệ với Reinforcement Learning — "Cân bằng giữa khám phá và khai thác"Thế lưỡng nan cốt lõi của RL là Exploration vs Exploitation — "thử hành động mới (khám phá) hay lặp lại hành động tốt nhất đã biết (khai thác)." Cơ chế chấp nhận/từ chối của MCMC giải quyết chính xác thế lưỡng nan này. Nếu vị trí mới (θ') có posterior cao hơn vị trí hiện tại (θₜ), nhất định di chuyển (khai thác); dù thấp hơn, vẫn di chuyển với một xác suất nhất định (khám phá). Nhờ sự cân bằng này, MCMC không bị kẹt ở Local Optimum và có thể tìm đến Global Optimum. Chiến lược ε-greedy và Policy Gradient trong RL cũng đứng trên cùng nguyên lý căn bản này.
DNA chung của ba công nghệDeep Learning, Reinforcement Learning, MCMC — cả ba đều chia sẻ DNA chung: "phương pháp tìm kiếm nghiệm tối ưu theo xác suất trong không gian đa chiều." ChatGPT tối ưu hàng tỷ tham số và Auto-Tuner tối ưu 6 tham số sales chỉ khác quy mô; tư duy toán học thuộc cùng một gia tộc.
Giờ hãy xem cụ thể MCMC hoạt động như thế nào.
3. Quy trình toán học của MCMC
- Chọn điểm khởi đầu: Bắt đầu từ vị trí bất kỳ θ₀ trong không gian tham số.
- Đề xuất (Proposal): Từ vị trí hiện tại θₜ, đề xuất vị trí mới θ'.
- Chấp nhận/Từ chối (Accept/Reject): Tính xác suất chấp nhận α:
Công thức này mạnh ở chỗ nào? Hãy truy ngược nguồn gốc của xác suất chấp nhận α.
Điều ta thật sự muốn so sánh là tỷ số giữa "posterior tại θ'" và "posterior tại θₜ":
Thay Bayes' theorem cho mỗi vế:
Điểm mấu chốt xuất hiện. Cùng P(Data) có mặt ở cả tử và mẫu. Rút gọn phân số của phân số:
P(Data) triệt tiêu hoàn toàn. Đây là trick cốt lõi của MCMC. P(Data) vốn cần tích phân 6 chiều hoàn toàn không cần tính. Vì ta chỉ cần "so sánh" posterior tại hai điểm, mẫu số chung ở cả hai vế tự nhiên triệt tiêu.
Kết quả: xác suất chấp nhận chỉ cần Likelihood và Prior để tính — hai giá trị dễ dàng thu được.
- Di chuyển: Chấp nhận θ' với xác suất α và di chuyển. Nếu bị từ chối, ở lại θₜ.
- Lặp lại: Lặp hàng ngàn đến hàng chục ngàn lần.
Chuỗi (Chain) tạo ra — θ₀, θ₁, θ₂, ..., θₙ — có phân phối hội tụ đến posterior sau đủ lần lặp. Định lý Ergodic bảo đảm điều này.
4. Emcee: Affine-Invariant Ensemble Sampler
Auto-Tuner không dùng MCMC thông thường mà dùng Emcee (Goodman & Weare, 2010) — một ensemble sampler đặc biệt. Có lý do.
Vấn đề của MCMC thông thường
MCMC truyền thống (ví dụ Metropolis-Hastings) dùng một chuỗi duy nhất để khám phá posterior. Phát sinh hai vấn đề:
Vấn đề 1 — Tham số tương quan (Correlated Parameters): Nếu T(Qualification) và T(Solution-Fit) có tương quan cao, posterior có dạng elip kéo dài theo đường chéo. Chuỗi đơn không thể di chuyển hiệu quả dọc elip, khám phá chậm như random walk.
Vấn đề 2 — Đa đỉnh (Multimodality): Nếu posterior có nhiều đỉnh, chuỗi đơn có thể bị kẹt ở một đỉnh và không phát hiện được các đỉnh còn lại.
Giải pháp của Emcee: Ensemble
Thay vì một chuỗi, Emcee thả hàng trăm Walker đồng thời vào không gian tham số. Auto-Tuner dùng 256 Walker.
Quy tắc di chuyển của mỗi Walker là then chốt. Khi Walker j di chuyển, nó tham chiếu vị trí hiện tại của Walker k khác:
Trong đó z được rút từ phân phối:
a là tham số điều chỉnh (mặc định 2.0).
Tại sao "Affine Invariant"?
Tính chất quan trọng nhất của thuật toán này là bất biến affine (affine invariance). Hiệu suất thuật toán không thay đổi khi biến đổi tuyến tính (xoay, co giãn, cắt) không gian tham số.
Dịch sang ngôn ngữ kinh doanh: T(Discovery) có phạm vi 0.010.10 trong khi k có phạm vi 0.52.5 — các tham số có thang đo hoàn toàn khác nhau có thể được khám phá đồng thời một cách hiệu quả mà không cần chuẩn hóa riêng.
Đây là lý do quyết định Auto-Tuner chọn Emcee. Các tham số sales có thang đo và cấu trúc tương quan khác nhau ở mỗi chiều, và Emcee hoạt động hiệu quả nhất trên địa hình bất quy tắc như vậy.
Ý nghĩa của 256 Walker
Lý do dùng 256 Walker dựa trên quy tắc kinh nghiệm:
Auto-Tuner khám phá 6 chiều (5 T + 1 k), tối thiểu cần 12, nhưng dùng 256 để khám phá posterior đầy đủ. Nhiều Walker hơn nghĩa là hội tụ nhanh hơn, nhưng phải đánh đổi với tính toán.
5. Chẩn đoán hội tụ: R̂ (R-hat)
Trước khi tin vào kết quả MCMC, có một điều bắt buộc phải xác nhận: Chuỗi có thật sự hội tụ đến posterior không?
Chuỗi vẫn ở gần vị trí khởi đầu có thể chỉ cho thấy một phần nhỏ của posterior. Công cụ chuẩn để phát hiện điều này là Gelman-Rubin R̂ (R-hat).
Toán học của R̂
Cho nhiều chuỗi độc lập (C₁, C₂, ..., Cₘ):
Phương sai giữa các chuỗi (Between-chain variance, B):
Phương sai trong chuỗi (Within-chain variance, W):
Tính R̂:
Cách đọc
- R̂ ≈ 1.00: Tất cả chuỗi hội tụ đến cùng phân phối. ✅ Kết quả đáng tin.
- R̂ > 1.05: Bất đồng giữa các chuỗi. ⚠️ Cần thêm lần lặp.
- R̂ > 1.10: Chưa hội tụ nghiêm trọng. ❌ Không nên sử dụng kết quả.
Phép ẩn dụ kinh doanh
256 nhà thám hiểm (Walker) xuất phát từ các điểm khác nhau. Sau thời gian đủ dài:
- R̂ ≈ 1.0: Cả 256 người đều đạt cùng kết luận: "Giá trị tối ưu nằm trong phạm vi này." → Đồng thuận đạt được.
- R̂ > 1.1: Một số thám hiểm vẫn lang thang ở nơi khác. → Chưa đồng thuận. Cần thêm thời gian khám phá.
Auto-Tuner đặt R̂ < 1.05 là điều kiện bắt buộc. Nếu không đạt, tự động tăng số lần lặp và thử lại.
6. HDI 95% Credible Interval
Từ các mẫu posterior đã xác nhận hội tụ, trích xuất HDI (Highest Density Interval).
HDI so với Confidence Interval thông thường
CI 95% thông thường cắt 2.5% mỗi đuôi. Với phân phối đối xứng, HDI và CI giống nhau, nhưng với phân phối bất đối xứng thì khác.
HDI là "khoảng hẹp nhất từ posterior distribution chứa 95% tổng xác suất, gồm các vùng có mật độ xác suất cao nhất."
Trong đó c là ngưỡng mật độ để xác suất vùng đạt đúng 0.95.
Ý nghĩa kinh doanh
Xem lại kết quả hệ thống hiển thị trong BA024:
T(Discovery): 0.19 ~ 0.25 (Tối ưu: 0.22)
Đó là HDI. Nghĩa là: "Dựa trên 106 giao dịch, giá trị tối ưu của T(Discovery) là 0.22, và đặt bất cứ đâu từ 0.19 đến 0.25 đều duy trì hiệu suất với 95% xác suất."
Đây là thông tin hữu ích vượt trội so với ước lượng điểm "0.22" của Grid Search.
Nói với sếp sales "Đặt T(Discovery) là 0.22," họ sẽ nghi ngờ "Phải đúng 0.22 à? 0.20 không được à?" Nhưng nói "Trong khoảng 0.19~0.25 đặt thoải mái, dữ liệu bảo đảm," thì niềm tin dẫn đến hành động sẽ xuất hiện.
Part II. Cross-Validation và Diagnostics
7. 5-Fold Cross-Validation: Kiểm tra tương lai
Tham số tối ưu từ Grid Search và MCMC hoạt động hoàn hảo trên dữ liệu quá khứ. Nhưng câu hỏi thật sự là:
"Tham số này có hoạt động với deal tương lai chưa từng thấy không?"
Đây là cốt lõi của vấn đề Overfitting (quá khớp).
Phép ẩn dụ về overfitting
Một sinh viên lấy được đáp án trước kỳ thi và đạt 100 điểm. Để biết họ có thật sự hiểu vật lý không, phải cho họ thi bài khác.
Tương tự, tham số được tối ưu trên 106 giao dịch quá khứ có chính xác cho deal thứ 107 trong tương lai không, chỉ có thể đánh giá khi "chưa nhìn thấy" dữ liệu đó.
Quy trình toán học 5-Fold
Step 1. Chia ngẫu nhiên 106 giao dịch thành 5 Fold bằng nhau.
| Fold 1 | Fold 2 | Fold 3 | Fold 4 | Fold 5 |
|---|---|---|---|---|
| 21 deal | 21 deal | 22 deal | 21 deal | 21 deal |
Step 2. Vòng 1: Huấn luyện trên Fold 2~5 (85 deal), kiểm tra trên Fold 1 (21 deal).
Step 3. Vòng 2: Huấn luyện trên Fold 1, 3~5 (85 deal), kiểm tra trên Fold 2 (21 deal).
Lặp 5 lần.
Step 4. Điểm cross-validation cuối cùng:
Tiêu chí đọc kết quả
- J trung bình cao, độ lệch chuẩn nhỏ → Tham số ổn định. Không overfitting.
- J trung bình cao nhưng độ lệch chuẩn lớn → Tham số bất ổn, chỉ khớp dữ liệu cụ thể. Nghi overfitting.
- J cross-validation thấp hơn đáng kể so với J toàn bộ dữ liệu → Xác nhận overfitting.
Kết quả BA024
Độ chính xác trung bình: 75.5% (±1.2%)
Chênh lệch giữa J toàn bộ dữ liệu = 0.74 và J cross-validation trung bình ≈ 0.73 chỉ là 0.01. Và độ lệch chuẩn giữa các Fold là 1.2 điểm phần trăm. Đây là bằng chứng mạnh mẽ rằng tham số không overfitting với dữ liệu quá khứ và hiệu suất tương tự có thể được kỳ vọng cho deal tương lai.
8. Signal Lift Analysis: Tín hiệu nào thật sự quan trọng?
Phân tích mạnh mẽ được tạo ra phụ trợ trong giai đoạn cross-validation của Auto-Tuner là Signal Lift.
Định nghĩa Lift
So sánh tỷ lệ thắng của nhóm deal có tín hiệu S và nhóm không có:
Cách đọc
- Lift > 1: Quan sát tín hiệu S làm tăng xác suất thắng. → Tín hiệu có ý nghĩa.
- Lift ≈ 1: Tín hiệu S không ảnh hưởng đến thắng đơn. → Nhiễu.
- Lift < 1: Quan sát tín hiệu S thực ra làm giảm xác suất thắng. → Tín hiệu ngược.
Chẩn đoán kinh doanh
Những gì Phó Tổng Giám đốc Kinh doanh phát hiện trong BA024:
| Tín hiệu | Lift | Giải thích |
|---|---|---|
| Chia sẻ thông tin đối thủ | +3.2 | Khi khách hàng tiết lộ lá bài đối thủ, xác suất thắng ×3.2 ↑ |
| Bắt đầu xem xét MSA | +2.8 | Khi phòng pháp lý bắt đầu xem xét hợp đồng, gần như chắc chắn |
| Xác nhận phê duyệt ngân sách | +1.4 | Ít quyết định hơn dự đoán (rủi ro tái cơ cấu) |
| Tăng số người tham gia cuộc họp | +0.3 | Thực chất là nhiễu — hiệu ứng khán giả |
Signal Lift giúp tái thiết kế chiến lược sales. Năng lượng bỏ vào "kéo nhiều người đến họp" có thể chuyển sang "xây dựng mối quan hệ tự nhiên thu thập thông tin đối thủ."
9. Mismatch Alert: Khoảng cách giữa cài đặt và dữ liệu
Chức năng chẩn đoán cuối cùng của Auto-Tuner là Mismatch Alert.
Nguyên lý
So sánh Impact Score do người dùng đặt cho mỗi tín hiệu với mức đóng góp thực tế quan sát trong dữ liệu (dựa trên Signal Lift):
- Ratio ≈ 1.0: Trực giác người dùng khớp với dữ liệu. ✅
- Ratio > 1.5: Người dùng đánh giá quá cao tín hiệu. ⚠️ Có thể gây False Positive.
- Ratio < 0.67: Người dùng đánh giá quá thấp tín hiệu. ⚠️ Có thể gây False Negative.
Ví dụ BA024
Tín hiệu "Phê duyệt ngân sách" có Impact Score hiện tại (2.5) không nhất quán với giá trị khuyến nghị từ dữ liệu (1.7).
Mismatch Ratio = 2.5 / 1.7 = 1.47. Gần ngưỡng (1.5), kích hoạt cảnh báo.
Ý nghĩa kinh doanh
Mismatch Alert là cơ chế phát hiện Organizational Bias (thiên kiến tổ chức).
Có thể tồn tại niềm tin cũ: "Ở công ty mình, ngân sách duyệt rồi thì gần như chắc chắn." Nhưng dữ liệu năm qua nói: "20% deal vẫn đổ sau khi duyệt ngân sách."
Mismatch Alert biến những 'thiên kiến không cảm nhận được' thành hiển thị bằng dữ liệu. Đó không phải chỉ trích — mà là cảnh báo sớm rằng môi trường đã thay đổi.
10. Pipeline hoàn chỉnh: Ba trụ cột phối hợp
Ba trụ cột của Auto-Tuner không độc lập. Chúng tạo thành một pipeline tuần tự.
Grid Search → "Trong tất cả tổ hợp khả thi, tìm ứng viên có J cao nhất."
MCMC → "Xác định ứng viên đó chắc chắn đến mức nào, có phương án thay thế không, và tiết lộ toàn bộ phân phối."
Cross-Validation → "Kiểm tra kết quả chỉ hoạt động với quá khứ hay cũng hiệu quả với tương lai."
Phép ẩn dụ y tế cho mỗi giai đoạn:
| Giai đoạn | Ẩn dụ y tế | Vai trò |
|---|---|---|
| Grid Search | Chụp toàn thân (CT) | Xác định sơ bộ vùng có vấn đề |
| MCMC | Kiểm tra chính xác (MRI) | Tạo bản đồ chi tiết vùng đó |
| Cross-Validation | Thử nghiệm lâm sàng | Xác minh phương pháp điều trị có hiệu quả trên bệnh nhân khác không |
Chỉ khi vượt qua cả ba giai đoạn, Auto-Tuner mới hiển thị đề xuất cuối cùng: "Bạn có muốn áp dụng các tham số này không?" Nếu bất kỳ giai đoạn nào không đạt — R̂ > 1.05, hoặc phương sai cross-validation quá lớn — hệ thống cảnh báo và khuyến nghị thu thập thêm dữ liệu.
11. Lời kết: Engine được điều chỉnh bởi dữ liệu
Trong BA024, Phó Tổng Giám đốc Kinh doanh chạy Auto-Tuner lần đầu và nói:
"Sáu tháng trước, tôi điều chỉnh engine. Từ hôm nay, dữ liệu điều chỉnh engine."
Đây không chỉ là cảm xúc. Đó là một phát biểu chính xác về mặt toán học.
- Quá khứ: Tham số θ được đặt bởi kinh nghiệm con người P(θ). → Suy luận bị kẹt trong prior.
- Hiện tại: Khi dữ liệu D được quan sát, θ được cập nhật thành P(θ|D). → Suy luận dựa trên posterior.
Auto-Tuner là Meta-layer cho phép sales engine thực hiện Bayesian inference trên chính tham số của mình.
Giống như engine suy luận xác suất thắng đơn, Auto-Tuner suy luận chính giá trị cài đặt của engine. Và khi deal tích lũy, suy luận càng chính xác. 500 deal cho HDI hẹp hơn 100 deal; 1,000 deal hẹp hơn 500.
Đây là bản chất của Auto-Tuner — hệ thống suy luận tự tiến hóa, tự động trở nên chính xác hơn theo thời gian.
Sales không còn là lãnh địa của trực giác. Lượng dữ liệu chính là độ chính xác của engine, và độ chính xác chính là lợi thế cạnh tranh của tổ chức. Auto-Tuner là bàn đạp ga trên hành trình đó.
Bayesian EXAWin-Rate Forecaster
Phân tích tín hiệu từ các cuộc đàm phán trong thời gian thực bằng cập nhật Bayesian để dự đoán xác suất thành công. Với EXAWin, bán hàng trở thành khoa học dữ liệu hoàn hảo.


![[BA03. Rủi ro đúng hạn: Phụ lục 1] Giải phẫu động cơ EXA Bayesian: Phân phối hỗn hợp và Sai lệch quan sát](/_next/image?url=%2Fstatic%2Fimages%2FBA03_1.png&w=3840&q=75)