Tác giả: Adam Czapski
Tóm tắt
Jeremy Howard, nhà sáng lập fast.ai và cựu giám đốc tại Kaggle cho rằng, phần lớn nghiên cứu khoa học về deep learning đều là lãng phí thời gian. Ông giải thích lý do tại sao, và đưa ra những lĩnh vực mà đang chưa được đầu tư nghiên cứu đúng mức: transfer learning và active learning. Hai lĩnh vực này sẽ được bàn luận kỹ hơn trong bài viết này.
Giới thiệu
Khi được hỏi “có gì đó đang sai sai về Trí tuệ nhân tạo?”, nhiều người sẽ nghĩ đến nào là robot sẽ thống trị nhân loại hoặc những viễn cảnh khác mà báo chí vẫn hằng thêu dệt ra. Tuy nhiên, nếu bạn đào sâu hơn, bạn sẽ biết rằng chính AI cũng đang phải loay hoay trong vòng luẩn quẩn. Trong bài viết này, tôi sẽ chỉ ra một vài trong số những bất cập ấy.
Ý kiến của chuyên gia
Hãy cùng nghe ý kiến của Jeremy Howard, nhà sáng lập fast.ai và cựu nhân viên cấp cao tại Kaggle, nói về nghiên cứu khoa học trong AI:
“Phần lớn nghiên cứu về deep learning đều là lãng phí thời gian. Đây là một vấn đề chung khi làm nghiên cứu khoa học. Các nhà khoa học phải công bố cho đủ số lượng, nên họ phải làm những đề tài mà họ và cộng sự phải cực kỳ quen thuộc và có thể tạo ra sự cải tiến gì đó. Điều này dẫn đến việc ai cũng làm những thứ giống nhau. Không có gì làm động lực cho họ nghiên cứu về những thứ hữu ích cho thực tế. Chính vì thế chúng ta đang bị nghiên cứu quá mức vào những thứ mà chỉ được cải tiến có một chút ít, và hầu như không có mấy ý nghĩa trong thực tế. Trong khi đó, thứ mà tạo ra sự khác biệt, như tôi đã đề cập, đó là transfer learning. Nếu ta có thể làm tốt transfer learning, thì thực sự có thể thay đổi thế giới luôn. Chúng ta đều thích làm những vấn đề thật to tát nhưng với lượng dữ liệu và phần cứng ít đi, nhưng hầu như không có ai chịu nghiên cứu về nó. Hoặc active learning cũng là một mảng nghiên cứu hay về việc loại bỏ dần yếu tố con người trong chu trình phát triển, tuy nhiên nó chưa tạo thành xu thế nghiên cứu lúc này. Thực tế những người có kinh nghiệm sẽ đều tự nghĩ ra một phương pháp active learning của riêng họ theo một cách nào đó, khi mà họ vừa gán nhãn dữ liệu và vừa nghĩ “tại sao tao phải gán cái đống dữ liệu này nhỉ?”, “tại sao không để máy nó trợ giúp mình làm?”. Hai lĩnh vực này đều nghe rất hay nhưng đang chưa được đầu tư nghiên cứu đúng mức, bởi giới khoa học đang chưa quan tâm nhiều lắm tới kết quả khi áp dụng trong thực tế.”
Active learning và transfer learning
Có nhiều lý do khiến hai thứ này đang chưa tạo thành xu thế nghiên cứu trong giới khoa học. Cho những ai chưa biết, active learning là nhóm thuật toán chọn ra những dữ liệu trong đám dữ liệu không có nhãn cho bạn để bạn gán nhãn chúng. Mục đích của việc này là để đạt được độ chính xác cao với ít hơn dữ liệu có nhãn, bằng cách chỉ gán nhãn những dữ liệu quan trọng và hữu ích nhất. Trong quá trình học, thuật toán sẽ chọn ra cho bạn những điểm dữ liệu đó để bạn gán nhãn, từ đó từng bước cải tiến độ chính xác.
Nếu bạn định đánh nhãn một bộ dữ liệu lớn mà không có active learning, bạn có thể gán nhãn chúng một cách thiếu suy nghĩ. Chẳng hạn, khiến cho dữ liệu ngày càng lệch nhãn hơn, hoặc bị lệch về một vài đặc tính nào đó trong dữ liệu đầu vào. Vì vậy, mô hình có thể không cải thiện được nhiều so với công sức bạn bỏ ra.
Mặt khác, transfer learning là phương pháp mà huấn luyện trước trên một tập dữ liệu rất rất lớn (thường là không có nhãn) rồi sau đó huấn luyện tiếp trên dữ liệu của bài toán. Bạn sẽ không cần huấn luyện từ đầu nữa, từ đó tốn ít dữ liệu có nhãn hơn. Chẳng hạn, với 30 tấm ảnh bạn có thể thấy được kết quả của mô hình rồi.
Kết luận
Thật đáng buồn khi chúng ta đang lãng phí thời gian và tài nguyên cho những nghiên cứu khoa học mà có ít giá trị thực tế, trừ phi cách nhìn nhận và cơ chế hoạt động của giới khoa học thay đổi. Vì thế, trách nhiệm này dần đang đổ về các công ty với những dự án riêng. Tuy nhiên, deep learning hay AI đều là một ngành khoa học dựa trên thực nghiệm, giống bao ngành khoa học khác, cần những giải pháp khoa học và thật nhiều thí nghiệm. Đôi khi, cách duy nhất để ta học được điều gì mới đó là phải thử và xem nó thành công hay thất bại.
bài viết: https://medium.com/jit-team/why-academic-research-in-ai-is-a-total-waste-of-time-211cbc63d1d8
phỏng vấn Jeremy Howard: https://www.youtube.com/watch?v=Bi7f1JSSlh8
Dịch bởi Bùi Thanh Lâm QRVN