Trí tuệ nhân tạo (AI) đang trở thành một phần không thể thiếu trong cuộc sống hàng ngày, từ việc soạn thảo email đến giải quyết các vấn đề phức tạp. Tuy nhiên, một câu hỏi lớn đặt ra là: Làm thế nào chúng ta có thể tin tưởng rằng AI đưa ra những câu trả lời chính xác và hữu ích, không phải là những thông tin bịa đặt? Vấn đề này càng trở nên cấp bách hơn khi AI được triển khai ở quy mô lớn, vượt quá khả năng kiểm soát của con người. Từ đó, ý tưởng sử dụng chính AI để đánh giá các AI khác – một phương pháp gọi là “LLM-làm-Giám-khảo” – đã ra đời. Nhưng liệu phương pháp này có thật sự hoàn hảo? Hãy cùng khám phá những bí mật ít ai biết về việc AI “chấm điểm” AI, từ những sai sót của con người cho đến những thành kiến bất ngờ của chính các “giám khảo” máy móc.

1. Sự thật “đắng lòng”: Phản hồi của con người không phải lúc nào cũng là “Tiêu chuẩn vàng” như chúng ta vẫn nghĩ.
Trước đây, chúng ta luôn tin rằng con người là “trọng tài” công tâm nhất để đánh giá AI. Nhưng bất ngờ chưa? Các nghiên cứu gần đây lại “vạch trần” rằng, đôi khi chúng ta cũng rất “cả nể” đấy! Chúng ta dễ bị ấn tượng bởi một AI tự tin, nói năng “rành rọt” mà quên mất việc kiểm tra xem nội dung có chính xác không. Nói cách khác, chúng ta có thể chấm điểm cao cho một câu trả lời “nghe hay, nói giỏi” nhưng thực chất lại sai bét. Thêm vào đó, việc thuê người đánh giá AI tốn kém và mất thời gian khủng khiếp. Vậy nên, cái “tiêu chuẩn vàng” này hóa ra lại có nhiều “lỗ hổng” hơn chúng ta tưởng, và điều này càng thúc đẩy chúng ta tìm kiếm một giải pháp khác tốt hơn.
2. Giật mình: Giám khảo AI cũng có những “thành kiến” y hệt con người.
Nghe thì có vẻ vô lý, nhưng khi chúng ta dùng một AI để đánh giá AI khác, thì “vị giám khảo” này cũng bộc lộ những “tính xấu” giống y chang con người! Có khi nó ưu ái “con nhà mình” (tức là ưu tiên những câu trả lời do chính nó tạo ra). Rồi lại còn có “bệnh sĩ” nữa chứ, thích những văn bản “hoa mỹ, văn vẻ” hơn là những câu trả lời đơn giản mà đầy đủ thông tin. Hoặc tệ hơn là “bệnh vị trí”, câu nào xuất hiện trước thì dễ được điểm cao hơn, bất kể chất lượng. Những thành kiến này cho thấy, khi chúng ta “dạy” máy móc ngôn ngữ của mình, chúng ta vô tình truyền cho chúng cả những “tật xấu” của chính mình. Đúng là “cha nào con nấy” mà!
3. Bất ngờ: Để đánh giá “ông lớn” AI, đôi khi “ông nhỏ” lại hiệu quả hơn nhiều.
Có vẻ ngược đời, nhưng để “chấm điểm” những AI khổng lồ như GPT-4, chúng ta không nhất thiết phải dùng một “ông lớn” AI khác. Thay vào đó, những mô hình AI “nhỏ mà có võ” (gọi là SLM – Small Language Models), được thiết kế chuyên biệt cho việc đánh giá, lại đang làm rất tốt. Ví dụ như Luna 2 của Galileo, nó vừa “ngon – bổ – rẻ” (chi phí thấp hơn, tốc độ nhanh hơn) mà lại còn “chuyên tâm” vào nhiệm vụ đánh giá. Tưởng tượng xem, với 1 triệu token, Luna 2 chỉ tốn 0.02 đô la trong khi GPT-4o mất tới 5 đô la, và tốc độ thì nhanh gấp hàng chục lần! Điều này cho thấy, trong thế giới AI, không phải lúc nào “cứ to là tốt”, mà “phù hợp” mới là yếu tố then chốt, đặc biệt là khi cần những “hàng rào bảo vệ” AI theo thời gian thực để đảm bảo an toàn và chính xác.
4. Tin vui: Chúng ta hoàn toàn có thể “huấn luyện” giám khảo AI trở nên công bằng và minh bạch hơn.
May mắn thay, những “thành kiến” của giám khảo AI không phải là “bệnh nan y”. Chúng ta có thể “dạy” chúng trở thành những “trọng tài” công tâm hơn. Một cách hay là bắt chúng phải “trình bày cách giải” (thực thi suy luận – Enforced Reasoning), giống như yêu cầu học sinh giải thích từng bước làm bài vậy. Khi AI phải “lý giải” tại sao nó chấm điểm như thế, thì kết quả sẽ đáng tin cậy và minh bạch hơn nhiều. Ngoài ra, việc cho AI xem nhiều ví dụ “mẫu mực” về câu trả lời “tốt” và “tồi” (học ít mẫu – Few-Shot Learning) cũng giúp nó tự điều chỉnh “tiêu chuẩn” của mình. Điều này có nghĩa là chúng ta hoàn toàn có thể chủ động “nắn nót” cách AI “suy nghĩ” để đưa ra phán quyết, từ đó xây dựng các hệ thống AI đáng tin cậy hơn trong tương lai.
Hành trình khám phá việc AI “làm giám khảo” đã cho chúng ta thấy một bức tranh phức tạp nhưng cũng đầy thú vị. Chúng ta nhận ra rằng ngay cả “tiêu chuẩn vàng” của con người cũng có những giới hạn riêng, và các “giám khảo” AI dù thông minh đến mấy cũng không tránh khỏi những “thành kiến” rất đỗi con người. Tuy nhiên, với sự ra đời của các mô hình AI nhỏ gọn, chuyên biệt và những kỹ thuật “huấn luyện” thông minh, chúng ta hoàn toàn có thể giúp AI trở nên công bằng, minh bạch và đáng tin cậy hơn. Tương lai của AI không chỉ là tạo ra những cỗ máy thông minh, mà còn là biến chúng thành những “trọng tài” khôn ngoan, biết cách đưa ra những phán quyết đúng đắn, xây dựng niềm tin vững chắc vào công nghệ mà chúng ta đang phát triển.