(Theo Financial Times, 25/7/2024)- Theo nghiên cứu chỉ ra những thách thức sắp tới đối với công nghệ mới nổi này, việc sử dụng dữ liệu do máy tính tạo ra để đào tạo các mô hình trí tuệ nhân tạo có nguy cơ khiến chúng tạo ra những kết quả vô nghĩa.
Các công ty AI hàng đầu, bao gồm OpenAI và Microsoft, đã thử nghiệm việc sử dụng dữ liệu "tổng hợp" - thông tin được tạo bởi các hệ thống AI để đào tạo các mô hình ngôn ngữ lớn (LLM) - khi chúng đạt đến giới hạn của tài liệu do con người tạo ra có thể cải thiện công nghệ tiên tiến.
Nghiên cứu được công bố trên Nature ngày hôm qua cho thấy việc sử dụng dữ liệu như vậy có thể dẫn đến sự suy giảm nhanh chóng của các mô hình AI. Một thử nghiệm sử dụng văn bản đầu vào tổng hợp về kiến trúc thời trung cổ đã đi chệch hướng sang thảo luận về thỏ Jackrabbit sau chưa đến 10 thế hệ đầu ra.
Nghiên cứu này nhấn mạnh lý do tại sao các nhà phát triển AI vội vã thu thập kho dữ liệu do con người tạo ra để đào tạo - và đặt ra câu hỏi về điều gì sẽ xảy ra khi các nguồn hữu hạn đó bị cạn kiệt.
"Dữ liệu tổng hợp thật tuyệt vời nếu chúng tôi có thể làm cho nó hoạt động," Ilia Shumailov, tác giả chính, cho biết. "Nhưng ... dữ liệu tổng hợp hiện tại của chúng tôi có thể bị lỗi theo một số cách. Điều đáng ngạc nhiên nhất là việc này xảy ra nhanh như thế nào."
Bài báo khám phá xu hướng các mô hình AI bị sụp đổ do tích lũy và khuếch đại các lỗi từ các thế hệ đào tạo kế tiếp. Tốc độ suy giảm liên quan đến mức độ nghiêm trọng của những thiếu sót trong thiết kế mô hình, quá trình học tập và chất lượng dữ liệu được sử dụng.
Shumailov, thực hiện nghiên cứu tại Đại học Oxford cùng các đồng nghiệp từ Cambridge, Imperial College London, Edinburgh và Toronto, cho biết các lỗi "do các thế hệ trước đó và chính các mô hình tạo ra" đã đưa AI vào con đường sụp đổ, nơi dữ liệu trở thành vô nghĩa.
Trong trường hợp thỏ Jackrabbit, văn bản đầu vào đầu tiên kiểm tra các tháp chuông nhà thờ Anh từ thế kỷ 14 và 15. Các thế hệ tiếp theo đi qua các nhà thờ lớn ở Rome, đi chệch hướng sang ngôn ngữ học và trong lần lặp lại thứ chín, đã liệt kê màu sắc đuôi của động vật thuộc bộ Thỏ (lagomorph).
Emily Wenger từ Đại học Duke, người đóng góp một bài đi kèm trên Nature, cho biết việc giảm thiểu không hề dễ dàng. "Một hàm ý quan trọng của sự sụp đổ mô hình là có một lợi thế cho người đi trước trong việc xây dựng các mô hình AI sinh ra [dữ liệu]," cô nói. "Các công ty lấy dữ liệu đào tạo từ internet trước thời đại AI có thể có các mô hình đại diện tốt hơn cho thế giới thực."
Ông Tập đặt cược vào công nghệ cao cho 'sự phục hưng vĩ đại' của Trung Quốc nhưng lại bỏ qua những lo ngại về tăng trưởng kinh tế
EU có thể mất quyền truy cập AI, Meta cảnh báo
Meta cảnh báo rằng cách tiếp cận của EU đối với việc quản lý trí tuệ nhân tạo đang tạo ra "rủi ro" khiến lục địa này bị cắt khỏi việc tiếp cận các dịch vụ tiên tiến, trong khi khối này tiếp tục nỗ lực kiềm chế quyền lực của Big Tech.
Rob Sherman, phó giám đốc bảo mật và phó chủ tịch chính sách của nhóm truyền thông xã hội, xác nhận một báo cáo rằng họ đã nhận được yêu cầu từ cơ quan giám sát quyền riêng tư của EU tự nguyện tạm dừng việc huấn luyện các mô hình AI trong tương lai của mình trên dữ liệu trong khu vực. Ông nói với Financial Times rằng, điều này là để dành thời gian cho các nhà quản lý địa phương "nắm bắt vấn đề về AI thế hệ tiếp theo".
Mặc dù chủ sở hữu Facebook đang tuân thủ yêu cầu, Sherman cho biết những động thái như vậy đang dẫn đến "khoảng trống về công nghệ có sẵn ở châu Âu so với" phần còn lại của thế giới. Ông nói thêm rằng, với các bản phát hành AI trong tương lai và tiên tiến hơn, "có khả năng khả năng tiếp cận ở châu Âu có thể bị ảnh hưởng".
Sherman nói: "Nếu các khu vực tài phán không thể quản lý theo cách cho phép chúng tôi có được sự rõ ràng về những gì được mong đợi, thì sẽ khó khăn hơn cho chúng tôi cung cấp các công nghệ tiên tiến nhất ở những nơi đó ... đó là một kết quả thực tế mà chúng tôi lo lắng."
Những bình luận này xuất hiện khi các nhóm Big Tech và các công ty khởi nghiệp đang đua nhau thương mại hóa các sản phẩm AI, đồng thời bị hạn chế bởi các quy tắc kỹ thuật số rộng rãi của EU, bao gồm cả Đạo luật Trí tuệ Nhân tạo mới nhằm điều chỉnh sự phát triển của các mô hình và dịch vụ mạnh mẽ nhất.
Sherman cho biết yêu cầu mới nhất của EU đặc biệt là do sự không chắc chắn về việc liệu việc huấn luyện các mô hình AI trên dữ liệu người tiêu dùng có được phép trong quy định Bảo Vệ Dữ liệu Chung (GDPR) của EU hay không. Các quy tắc này yêu cầu các công ty thu thập hoặc sử dụng thông tin cá nhân phải có sự đồng ý của cá nhân và tiết lộ lý do thực hiện việc đó.
Sherman cho biết Meta sẽ "không thể phục vụ [người tiêu dùng châu Âu] đúng cách" nếu không có khả năng huấn luyện trên dữ liệu châu Âu, vì AI sẽ kém hiệu quả hơn và không thể đáp ứng các "khái niệm và ngữ cảnh văn hóa mà họ cần".
Meta đã tạm dừng việc triển khai trợ lý Meta AI và phiên bản mới của kính thông minh Ray-Ban Meta tích hợp trợ lý này do lo ngại về quy định và bảo vệ dữ liệu tại EU và Vương quốc Anh. Trợ lý này hiện có sẵn ở 22 quốc gia, bao gồm Mỹ, Úc và Argentina, và bằng các ngôn ngữ mới như tiếng Pháp, tiếng Tây Ban Nha và tiếng Hindi.
Trong khi đó, Apple cho biết sẽ không ra mắt một số tính năng thuộc thương hiệu Apple Intelligence do lo ngại liên quan đến Đạo luật Thị trường Kỹ thuật số của EU.
EU cho biết họ không bình luận về các quyết định cá nhân của các công ty nhưng nói thêm rằng đây là "một thị trường hấp dẫn với 450 triệu người dùng tiềm năng và luôn mở cửa kinh doanh cho bất kỳ công ty nào muốn cung cấp dịch vụ tại thị trường nội bộ châu Âu", miễn là họ tuân thủ pháp luật.
Mặc dù tạm dừng đào tạo trên các mô hình trong tương lai, hôm qua Meta đã phát hành phiên bản cập nhật của các mô hình AI của mình - Llama 3.1 - sẽ có sẵn ở châu Âu và toàn cầu.
Điều này bao gồm một mô hình tham số 405 tỷ mới, được Meta gọi là "mô hình mở lớn nhất và có khả năng nhất từng được tạo ra trong ngành". Số lượng tham số cao hơn thường được coi là mang lại hiệu suất vượt trội.
Không có nhận xét nào:
Đăng nhận xét