Một Thế Giới: Thuật toán đào tạo mới khiến robot biết coi 'thất bại là mẹ thành công'

Advertisemen
Tìm kiếm bài viết Một Thế Giới: IEEE Spectrum, Vũ Trung Hương, Rô-Bốt
Thuật toán mới cho phép robot học tập hiệu quả bằng cách coi mọi lỗi của mình như là một bước tiến tới thành công.

Thuật toán đào tạo mới khiến robot biết coi 'thất bại là mẹ thành công' - Ảnh 1

Theo IEEE Spectrum, OpenAI - một tổ chức phi lợi nhuận ở San Francisco mà một trong những người sáng lập là tỉ phú sáng chế lừng danh Ilon Musk, đã phát hành một thuật toán mã nguồn mở gọi là Hindsight Experience Replay (HER), cho phép robot học tập hiệu quả bằng cách coi mọi lỗi của mình như là một bước tiến tới thành công.

Nếu trước đây, hầu hết các chiến lược đào tạo robot (và cả con người nữa) chỉ quy về việc đánh giá số lần thành công và thất bại thì ngày nay thuật toán mới của OpenAI hoàn toàn thay đổi cách tiếp cận này.

Thuật toán mới xem xét mọi nỗ lực bị thất bại không phải là một thất bại, mà là một bước tiến tới thành công.Theo các nhà phát triển, điều này thay đổi về cơ bản cách tiếp cận và tốc độ đào tạo. Vì chỉ đến khi bạn mắc phải một sai lầm, bạn mới hiểu làm thế nào để tránh nó.

Một ưu điểm khác của thuật toán mới là nó sử dụng một kỹ thuật mà các nhà nghiên cứu gọi là “phần thưởng hiếm có”. Hầu hết các thuật toán đào tạo đều sử dụng “phần thưởng trọn gói” (“full-pack rewards”) khi robot nhận được phần thưởng có quy mô khác nhau tùy thuộc vào mức độ hoàn thành nhiệm vụ. Trong thuật toán mới, robot chỉ nhận được một phần thưởng trong trường hợp thành công.

Phương pháp khuyến khích truyền thống có hiệu quả, nhưng sự phát triển các chương trình như vậy sẽ lâu hơn và chúng không phải lúc nào cũng phù hợp với cuộc sống thực. Hầu hết các ứng dụng là định hướng vào những kết quả cụ thể mà robot có thể đạt được và cũng có thể không đạt được. Các phần thưởng hiếm có nghĩa là robot chỉ nhận được một phần thưởng. Nó dễ dàng hơn để đo lường và dễ thực hiện hơn. Tuy nhiên, cách tiếp cận này làm cho việc đào tạo chậm hơn, bởi vì robot không nhận được phản hồi liên tục. Đây chính là ý tưởng của thuật toán mới: nó cho phép robot học hỏi với phần thưởng hiếm hoi, nhưng lại coi từng nỗ lực như một bài học và cứ mỗi lần lại thay đổi mục tiêu để robot có thể học được một điều gì đó.

Trong khi đó, các nhà nghiên cứu ở phòng thí nghiệm của quân đội Mỹ và Đại học Texas tại Austin lại phát triển một thuật toán được thiết kế để dạy cho robot thực hiện nhiệm vụ đồng thời tương tác với một người hướng dẫn. Thuật toán được gọi là Deep TAMER.

Vũ Trung Hương

Tin tức được tổng hợp từ báo Một Thế Giới

Bài viết liên quan: