Skip to content

Commit 86de256

Browse files
committed
docs: Add chatbot evaluation report in docx and markdown formats.
1 parent 35c1ac8 commit 86de256

File tree

2 files changed

+73
-0
lines changed

2 files changed

+73
-0
lines changed
15 KB
Binary file not shown.
Lines changed: 73 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,73 @@
1+
# Báo cáo Đánh giá Hiệu năng Chatbot Luật
2+
3+
## 1. Quy trình Triển khai Kiểm thử (Implementation Approach)
4+
5+
Hệ thống đánh giá được xây dựng dựa trên phương pháp **LLM-as-a-judge**, sử dụng mô hình ngôn ngữ lớn để tự động chấm điểm chất lượng câu trả lời của Chatbot so với đáp án chuẩn.
6+
7+
### 1.1. Công cụ & Môi trường
8+
9+
- **Mô hình đánh giá (Judge Model)**: GPT-4o.
10+
- **Môi trường thực thi**: Jupyter Notebook (`chatbot_evaluator.ipynb`).
11+
- **Thư viện chính**: `openai` (gọi API LLM), `pandas` (xử lý dữ liệu), `matplotlib/seaborn` (trực quan hóa).
12+
13+
### 1.2. Quy trình thực hiện
14+
15+
Quy trình kiểm thử diễn ra tự động theo 4 bước chính:
16+
17+
1. **Chuẩn bị dữ liệu**: Load bộ dữ liệu kiểm thử từ file `test.csv`, bao gồm các cặp `(Câu hỏi, Đáp án chuẩn)`.
18+
2. **Sinh câu trả lời (Inference)**:
19+
- Gửi từng câu hỏi vào hệ thống Chatbot (`StreamingService`).
20+
- Thu thập câu trả lời hoàn chỉnh từ luồng dữ liệu trả về.
21+
3. **Chấm điểm tự động (Evaluation)**:
22+
- Sử dụng **GPT-4o** làm giám khảo.
23+
- Gửi prompt chứa 3 thành phần: `Câu hỏi` + `Đáp án chuẩn` + `Câu trả lời của Chatbot`.
24+
- GPT-4o sẽ phân tích và trả về kết quả dưới dạng JSON gồm: Điểm số (1-10), Lý do chấm, và Kết quả (Đạt/Không đạt).
25+
4. **Tổng hợp kết quả**: Lưu kết quả vào file CSV và tính toán các chỉ số thống kê.
26+
27+
### 1.3. Tiêu chí đánh giá
28+
29+
Chatbot được chấm điểm dựa trên 3 tiêu chí cốt lõi:
30+
31+
1. **Độ chính xác thông tin pháp lý**: Thông tin đưa ra phải đúng với quy định của Luật BHXH và các văn bản hướng dẫn.
32+
2. **Độ đầy đủ**: Câu trả lời phải bao quát đủ các ý chính có trong đáp án chuẩn.
33+
3. **Mức độ dễ hiểu và mạch lạc**: Trình bày rõ ràng, logic, dễ tiếp cận với người dùng phổ thông.
34+
35+
- **Ngưỡng Đạt (Pass)**: Điểm số >= 7/10.
36+
37+
---
38+
39+
## 2. Mẫu Kết quả Đánh giá (Sample Results)
40+
41+
Dưới đây là trích xuất một số kết quả điển hình từ quá trình chạy kiểm thử:
42+
43+
| ID | Câu hỏi | Câu trả lời chuẩn | Câu trả lời Chatbot | Lý do chấm điểm | Điểm |
44+
| --- | --------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ---- |
45+
| 1 | Bảo hiểm xã hội là gì theo Luật BHXH 41/2024/QH15 | Bảo hiểm xã hội là chính sách do Nhà nước tổ chức nhằm bảo đảm thay thế hoặc bù đắp một phần thu nhập của người lao động khi họ bị giảm hoặc mất thu nhập vì ốm đau thai sản tai nạn lao động bệnh nghề nghiệp hết tuổi lao động hoặc chết trên cơ sở đóng vào quỹ BHXH hoặc được Nhà nước bảo đảm. | Chào bạn,<br>Dựa trên các nguồn thông tin được cung cấp, không có định nghĩa cụ thể về "Bảo hiểm xã hội" theo Luật Bảo hiểm xã hội số 41/2024/QH15 [1]. Nguồn dữ liệu chỉ đề cập đến một văn bản liên quan... | Câu trả lời của Chatbot không cung cấp định nghĩa chính xác và đầy đủ về Bảo hiểm xã hội theo Luật BHXH 41/2024/QH15. Thay vào đó, nó chỉ đề cập đến một văn bản liên quan mà không giải thích nội dung chính của câu hỏi. | 3 |
46+
| 11 | Đối tượng được tham gia BHXH tự nguyện là ai | Đối tượng BHXH tự nguyện là công dân Việt Nam từ đủ mười lăm tuổi trở lên không thuộc diện bắt buộc tham gia BHXH và không đang hưởng lương hưu trợ cấp BHXH hoặc trợ cấp hằng tháng khác từ ngân sách theo quy định. | Đối tượng được tham gia bảo hiểm xã hội tự nguyện bao gồm **công dân Việt Nam từ đủ 15 tuổi trở lên**, không thuộc đối tượng tham gia bảo hiểm xã hội bắt buộc và không phải là người đang hưởng lương hưu, trợ cấp bảo hiểm xã hội, hoặc trợ cấp hằng tháng [1, 3, 4]. | Câu trả lời của Chatbot rất chính xác và đầy đủ so với đáp án chuẩn. Thông tin pháp lý được trình bày rõ ràng và dễ hiểu. | 9 |
47+
| 13 | Người quản lý doanh nghiệp có hưởng tiền lương có thuộc đối tượng tham gia BHXH bắt buộc không | Có người quản lý doanh nghiệp có hưởng tiền lương thù lao thuộc đối tượng tham gia BHXH bắt buộc như người lao động nếu không thuộc trường hợp được pháp luật loại trừ riêng. | Chào bạn,<br>Theo quy định của pháp luật, **người quản lý doanh nghiệp có hưởng tiền lương thuộc đối tượng tham gia bảo hiểm xã hội bắt buộc**. Cụ thể: Đối tượng tham gia: Người quản lý doanh nghiệp, kiểm soát viên... có hưởng tiền lương là đối tượng tham gia bảo hiểm xã hội bắt buộc [1]. | Câu trả lời của Chatbot rất chính xác về mặt pháp lý và đầy đủ thông tin cần thiết. Nó cũng dễ hiểu và mạch lạc. | 9 |
48+
| 38 | Một người đã đóng BHXH bắt buộc được 10 năm sau đó đi lao động ở nước ngoài 3 năm... thời gian 10 năm trước có bị mất không | Thời gian 10 năm đã đóng BHXH trước khi đi nước ngoài được bảo lưu không bị mất khi người này về nước và tiếp tục tham gia BHXH bắt buộc hoặc tự nguyện toàn bộ thời gian đóng cũ và mới sẽ được cộng dồn để tính điều kiện hưởng chế độ dài hạn. | Chào bạn,<br>Thời gian 10 năm đóng bảo hiểm xã hội (BHXH) bắt buộc của người lao động **sẽ không bị mất** khi đi lao động ở nước ngoài 3 năm mà không đóng BHXH Việt Nam. Thời gian này được bảo lưu và cộng dồn khi tiếp tục tham gia. | Câu trả lời của Chatbot chính xác về mặt pháp lý và đầy đủ nội dung so với đáp án chuẩn. Thông tin được trình bày rõ ràng, mạch lạc và dễ hiểu. | 9 |
49+
| 41 | Một người lao động chết sau thời gian dài tham gia BHXH thân nhân hỏi họ được hưởng những chế độ gì từ BHXH | Thân nhân có thể được hưởng trợ cấp mai táng nếu người chết đáp ứng điều kiện thời gian đóng và ngoài ra có thể được hưởng trợ cấp tuất một lần hoặc trợ cấp tuất hằng tháng tùy theo thời gian đóng BHXH độ tuổi và hoàn cảnh của thân nhân theo quy định về chế độ tử tuất. | Chào bạn, theo quy định của pháp luật về bảo hiểm xã hội, khi người lao động chết sau thời gian dài tham gia bảo hiểm xã hội, thân nhân của họ có thể được hưởng các chế độ sau:<br>### 1. Trợ cấp mai táng...<br>### 2. Chế độ tử tuất (hằng tháng hoặc một lần)... | Câu trả lời của Chatbot rất chi tiết và chính xác về mặt pháp lý, bao gồm cả các điều kiện và trường hợp cụ thể cho từng loại trợ cấp. Nội dung đầy đủ và mạch lạc. | 9 |
50+
51+
---
52+
53+
## 3. Nhận xét chung và Đánh giá (General Evaluation)
54+
55+
Dựa trên bảng kết quả tổng hợp `evaluation_results_final.csv`, có thể rút ra một số nhận xét về hiệu năng hiện tại của Chatbot:
56+
57+
### 3.1. Ưu điểm
58+
59+
- **Khả năng trích dẫn nguồn tốt**: Hầu hết các câu trả lời đều kèm theo trích dẫn (citation) từ các văn bản luật, giúp tăng độ tin cậy.
60+
- **Xử lý tốt các câu hỏi chi tiết**: Với các câu hỏi yêu cầu giải thích cụ thể (như ID 9, 37, 41), Chatbot thường cung cấp thông tin rất đầy đủ, thậm chí chi tiết hơn đáp án chuẩn.
61+
- **Văn phong mạch lạc**: Cách trình bày câu trả lời thường rõ ràng, chia mục (heading) dễ đọc.
62+
63+
### 3.2. Hạn chế
64+
65+
- **Lỗi truy xuất thông tin (Retrieval Error)**: Một số câu hỏi định nghĩa cơ bản (như ID 1) Chatbot trả lời là "không có thông tin" hoặc "không được nêu rõ" dù đây là kiến thức nền tảng. Có thể do khâu Retrieval chưa lấy đúng đoạn văn bản cần thiết.
66+
- **Lạc đề (Hallucination/Loss of Focus)**: Trong một số trường hợp (như ID 3), Chatbot trả lời sai trọng tâm, liệt kê các thông tin không liên quan thay vì trả lời trực tiếp câu hỏi.
67+
- **Độ chính xác chưa đồng đều**: Có sự chênh lệch lớn về điểm số giữa các câu hỏi, cho thấy hệ thống chưa ổn định trên toàn bộ miền kiến thức.
68+
69+
### 3.3. Khuyến nghị cải thiện
70+
71+
1. **Cải thiện cơ chế RAG (Retrieval-Augmented Generation)**: Cần tinh chỉnh lại việc chia nhỏ văn bản (chunking) và tìm kiếm để đảm bảo các định nghĩa cơ bản luôn được tìm thấy.
72+
2. **Tối ưu System Prompt**: Điều chỉnh prompt để hướng dẫn Chatbot tập trung trả lời thẳng vào câu hỏi, tránh lan man hoặc liệt kê các thông tin râu ria không cần thiết.
73+
3. **Bổ sung kiến thức nền**: Đảm bảo các văn bản luật quan trọngnhư Luật BHXH 41/2024/QH15 được index đầy đủ và chính xác.

0 commit comments

Comments
 (0)