Prompt eval là quá trình kiểm tra đầu ra AI bằng một bộ tiêu chí lặp lại, thay vì chỉ đọc một vài caption rồi quyết định bằng cảm giác. Với affiliate content, điều này đặc biệt quan trọng vì chất lượng không chỉ là “nghe hay”.
Nên đánh giá những gì?
Một caption tốt cần:
- Viết tự nhiên bằng tiếng Việt.
- Bám dữ kiện sản phẩm.
- Có hook phù hợp nền tảng.
- Giữ link/comment CTA đúng ngữ cảnh.
- Tạo các biến thể có góc viết khác nhau.
- Không bịa claim nhạy cảm khi dữ liệu mỏng.
Nếu chỉ chấm “văn hay”, AI có thể học cách viết bóng bẩy nhưng thiếu kỷ luật dữ kiện.
Vì sao cần dữ liệu sản phẩm mỏng?
Sản phẩm có mô tả đầy đủ thường dễ viết. Ca khó là sản phẩm chỉ có tên ngắn hoặc vài ảnh. Prompt eval nên có cả những ca như vậy để xem AI có tự thêm claim quá mạnh không.
Review thủ công vẫn cần thiết
Scorer tự động giúp phát hiện lỗi lặp lại, nhưng người làm affiliate vẫn cần đọc lại tone, CTA và ngữ cảnh. Một bản caption có thể đúng schema nhưng vẫn chưa hợp kênh đăng. Vì vậy, eval tốt nên kết hợp kiểm tra tự động và review thủ công.
Kết quả cuối cùng không phải là prompt “hoàn hảo”, mà là workflow cải thiện đều: ít bịa hơn, nhiều bản copy-ready hơn và dễ chọn biến thể đầu tiên hơn.
Ví dụ rubric đơn giản cho creator
Bạn không cần hệ thống kỹ thuật phức tạp để bắt đầu eval. Hãy chấm mỗi caption từ 0 đến 2 điểm theo các tiêu chí:
- Tự nhiên: đọc có giống tiếng Việt người thật không?
- Đúng dữ kiện: có bịa công dụng, trải nghiệm hoặc thông số không?
- Hook: câu mở đầu có đúng nhu cầu người đọc không?
- CTA: link/comment có rõ ràng không?
- Biến thể: các bản có khác góc hay chỉ thay vài từ?
Sau 10–20 sản phẩm, bạn sẽ thấy lỗi lặp lại. Ví dụ AI hay viết hashtag lệch, hay giả trải nghiệm cá nhân, hoặc hay nói quá với sản phẩm ít dữ liệu. Khi biết lỗi lặp, bạn sửa prompt chính xác hơn.
Prompt eval khác gì đọc thử một lần?
Đọc thử một lần dễ bị cảm tính. Hôm nay bạn thích giọng hài, ngày mai bạn thích giọng review. Eval giúp bạn giữ tiêu chí ổn định. Điều này quan trọng nếu bạn muốn nội dung đều chất lượng khi xử lý nhiều sản phẩm.
Dùng kết quả eval để cải thiện workflow
Nếu nhiều caption bị bịa claim, hãy thêm guardrails vào prompt. Nếu nhiều caption đúng nhưng nhạt, hãy bổ sung dữ liệu sản phẩm và yêu cầu hook theo tình huống. Nếu biến thể quá giống nhau, hãy yêu cầu mỗi bản có vai trò riêng: review, problem-solution, deal nhẹ.