Khan hiếm dữ liệu - “mặt trận” mới trong cuộc đua AI toàn cầu

LTS: Khi nguồn dữ liệu chất lượng dần khan hiếm, những cuộc tranh chấp pháp lý, xung đột lợi ích và yêu cầu quản trị minh bạch đang đặt ra thách thức lớn cho cả doanh nghiệp lẫn chính phủ.

Bài viết của Tiến sĩ Hà Huy Ngọc – Giám đốc phụ trách Trung tâm Nghiên cứu Chính sách, chiến lược kinh tế địa phương và Lãnh thổ – Viện Kinh tế Việt Nam và Thế giới- phân tích bức tranh toàn cảnh của “cuộc chiến dữ liệu” – nơi quyền kiểm soát và khai thác dữ liệu sẽ quyết định vị thế cạnh tranh công nghệ, an ninh quốc gia và cơ hội phát triển bền vững trong tương lai.

Dữ liệu ngày nay cũng được xem là “mỏ vàng”, nguồn tài nguyên mới trọng nhất thế giới của thế kỷ 21 nhờ vào giá trị kinh tế to lớn mà nó mang lại.

Đặc biệt, dữ liệu lớn (Big Data) giúp các doanh nghiệp phân tích và khai thác thông tin, từ đó đưa ra quyết định chính xác, phát triển sản phẩm và dịch vụ phù hợp với nhu cầu thị trường, tăng trưởng doanh thu và lợi nhuận.

Đồng thời, dữ liệu còn là nền tảng của đổi mới sáng tạo, hỗ trợ các hoạt động nghiên cứu và phát triển, giúp tìm ra các xu hướng và phát minh mới. Bên cạnh đó, dữ liệu cung cấp thông tin chi tiết, giúp các nhà quản lý đưa ra quyết định dựa trên bằng chứng, giảm thiểu rủi ro và tăng cường hiệu quả công việc.

Trong thời đại chuyển đổi số, dữ liệu đóng vai trò then chốt trong việc tối ưu hóa quy trình và tạo ra các sản phẩm số mới. Khi thế giới tập trung vào sự cạnh tranh gia tăng về các bộ vi xử lý AI – biểu hiện qua thuế quan, các hạn chế về sở hữu trí tuệ và các cuộc xung đột địa chính trị – một thách thức quan trọng đối với tương lai của AI đang bị bỏ qua: nguồn cung dữ liệu giảm dần, vốn rất cần thiết để huấn luyện các mô hình AI.

Cuộc chiến dữ liệu đã thực sự bắt đầu

Khi AI tiếp tục tiến bộ, nguồn cung dữ liệu chất lượng cao, vốn rất quan trọng để huấn luyện các mô hình AI, đang nhanh chóng trở thành một tài nguyên khan hiếm.

Sự thiếu hụt ngày càng tăng của dữ liệu này đang đặt nền tảng cho một loại xung đột mới – cuộc chiến dữ liệu. Trong khi cuộc chiến về các bộ vi xử lý mạnh mẽ của AI thu hút sự chú ý toàn cầu, cuộc chiến dữ liệu mới nổi này lại đang âm thầm diễn ra trong “hậu trường”, tạo ra một thách thức lớn cho sự phát triển AI trong tương lai.

Tình hình đã càng trở nên trầm trọng hơn bởi một loạt các vụ kiện pháp lý nổi bật và sự chuyển mình trong ngành, báo hiệu cuộc khủng hoảng ngày càng gia tăng về khả năng truy cập dữ liệu.

Năm 2023, một nhóm các nghệ sĩ đã đệ đơn kiện đối với Stability AI, MidJourney và DeviantArt, cáo buộc họ đã sử dụng các tác phẩm nghệ thuật của mình mà không có sự đồng ý để huấn luyện các mô hình AI tạo sinh như Stable Diffusion.

Vụ kiện này làm nổi bật những lo ngại ngày càng gia tăng về quyền sở hữu trí tuệ và đạo đức khi sử dụng nội dung có sẵn công khai để phát triển các hệ thống AI mà không đền bù hoặc xin phép các tác giả.

OpenAI dính không ít lùm xùm liên quan đến các cáo buộc vi phạm dữ liệu (Ảnh minh hoạ: Pantip).

Kết quả của vụ kiện này có thể tạo ra những tiền lệ quan trọng cho cách các công ty AI thu thập dữ liệu từ các chuyên gia sáng tạo.

Tại cùng thời điểm đó, Elon Musk đã cáo buộc các công ty như OpenAI thu thập dữ liệu của Twitter (nay là X) mà không có sự cho phép, khiến X phải siết chặt giao diện lập trình ứng dụng (API) và các hạn chế truy cập. Đây là một chỉ dấu rõ ràng về sự gia tăng căng thẳng giữa các nền tảng lưu trữ một lượng lớn dữ liệu do người dùng tạo ra và các công ty AI phụ thuộc vào dữ liệu này để huấn luyện mô hình.

Những sự việc nói trên hé lộ một thực tế: chúng ta đang dần cạn kiệt dữ liệu có sẵn hợp pháp và đạo đức.

Các công ty AI, trước đây có thể tự do thu thập dữ liệu từ web và sử dụng một lượng lớn dữ liệu, nay đang phải đối mặt với những thách thức ngày càng tăng.

Những hạn chế pháp lý và đạo đức đối với việc thu thập dữ liệu ngày càng trở nên nghiêm ngặt, khi các nền tảng và người sáng tạo nội dung phản đối việc sử dụng trái phép tài sản trí tuệ của họ.

Khi cuộc chiến dữ liệu trở nên gay gắt hơn, các công ty sẽ cần phải khám phá những chiến lược mới để tìm kiếm dữ liệu, bảo đảm tuân thủ các quy định mới nổi mà vẫn duy trì quyền truy cập vào dữ liệu quan trọng cho sự đổi mới AI.

Cuộc chiến dữ liệu đang tiếp tục diễn ra, cách các công ty AI thu thập, sử dụng và chia sẻ dữ liệu sẽ có thể trở thành một vấn đề quyết định đối với ngành.

Dù là thông qua các vụ kiện pháp lý, các cân nhắc đạo đức, hay các giải pháp sáng tạo như thu thập dữ liệu phi tập trung, tương lai của AI sẽ phụ thuộc vào việc chúng ta quản lý nguồn tài nguyên quan trọng này như thế nào. Mức độ quan trọng rất lớn, và cuộc chiến giành dữ liệu chỉ mới bắt đầu.

Tác động của cuộc chiến dữ liệu đến doanh nghiệp

Có thể khẳng định dữ liệu là nguồn sống của các doanh nghiệp hiện đại, giống như máu đối với cơ thể người. Cả hai đều cần thiết cho sự sống còn, hoạt động, học hỏi và thích ứng.

Dữ liệu mang thông tin quan trọng, báo hiệu các mối đe dọa hoặc cơ hội, và đóng vai trò là chỉ số sức khỏe chủ chốt. Nhận thức được sự tương đồng này giúp doanh nghiệp hiểu rõ tầm quan trọng của dữ liệu và nhu cầu quản lý đúng cách. Như việc duy trì máu khỏe mạnh là điều cần thiết cho sức khỏe, việc duy trì một dòng dữ liệu lành mạnh cũng rất quan trọng cho sự sống còn và thành công của doanh nghiệp.

Sự thay đổi này không chỉ nằm ở yếu tố công nghệ mà còn phản ánh cách các quốc gia và doanh nghiệp tiếp cận vấn đề quản lý dữ liệu xuyên biên giới. Trong quá trình đàm phán lại Hiệp định Thương mại Tự do Bắc Mỹ (NAFTA, nay là USMCA), một nội dung quan trọng được đưa vào là cho phép dữ liệu lưu chuyển tự do giữa ba quốc gia thành viên, đồng thời hạn chế yêu cầu lưu trữ dữ liệu trong nội địa.

Đây được xem là bước đi nhằm khuyến khích thương mại số và giảm rào cản đối với các tập đoàn công nghệ và tài chính.

Tuy vậy, nhiều chính phủ trên thế giới vẫn có xu hướng ban hành quy định kiểm soát dữ liệu đi qua biên giới, với mục tiêu bảo đảm chủ quyền và an ninh mạng.

Trong bối cảnh đó, những quy định hạn chế dòng chảy dữ liệu thường được giới chuyên gia gọi là “chủ nghĩa bảo hộ kỹ thuật số”, thể hiện sự đối nghịch giữa yêu cầu quản lý của nhà nước và mong muốn lưu thông tự do của thị trường.

Các công ty yêu cầu các thỏa thuận quốc tế để giải phóng hoàn toàn dòng chảy dữ liệu. Nếu thành công, nguồn tài nguyên quan trọng nhất thế giới sẽ được giao cho khu vực tư nhân và động cơ lợi nhuận, và công chúng sẽ ngày càng ít quyền lực hơn trong việc tham gia vào các quyết định ảnh hưởng đến cuộc sống của mình.

Hiện nay, Trung Quốc sở hữu kho dữ liệu khổng lồ từ thị trường trong nước. Tuy Hoa Kỳ cũng đang có một khối dữ liệu lớn tương đương, song vẫn có những điểm khác biệt rất lớn giữa hai nền kinh tế lớn nhất thế giới.

Bởi dữ liệu ở Mỹ chủ yếu do các tập đoàn công nghệ lớn nắm giữ, khiến kho dữ liệu bị phân tách và tản mát, trong khi dữ liệu ở Trung Quốc có sự tập trung hoá cao hơn.

Đối với các tập đoàn lớn như Google, Microsoft và Amazon, việc thu thập dữ liệu từ các nền tảng tập trung như mạng xã hội hoặc website thương mại điện tử vẫn khả thi, mặc dù chi phí cao.

Những công ty này có đủ tài chính và cơ sở hạ tầng để thỏa thuận quyền truy cập dữ liệu, nhưng sự phụ thuộc vào nguồn dữ liệu tập trung cũng mang lại rủi ro. Thay đổi chính sách từ các nền tảng như Reddit hay X có thể làm gián đoạn chuỗi cung ứng dữ liệu. Hơn nữa, việc các công ty như Google và Microsoft kiểm soát khối lượng dữ liệu cá nhân khổng lồ cũng gây ra những lo ngại về quyền riêng tư và đạo đức.

Đối với các startup, tình hình càng khó khăn hơn. Không có đủ nguồn lực để mua dữ liệu đắt đỏ hoặc xây dựng hạ tầng quy mô lớn, các công ty nhỏ gặp rất nhiều khó khăn trong việc cạnh tranh với các công ty lớn. Sự tập trung dữ liệu vào tay một số ít tập đoàn lớn tạo ra các rào cản lớn, kìm hãm sự sáng tạo và phát triển công nghệ AI.

Các công ty này phải dựa vào các phương pháp thay thế như dữ liệu crowdsourced hoặc dữ liệu mở, nhưng chất lượng và phạm vi của chúng thường không ổn định.

Vai trò định hình của chính phủ

Khi cuộc chiến dữ liệu trở nên gay gắt, các chính phủ toàn cầu đang ngày càng can thiệp để quản lý việc thu thập, sử dụng và chia sẻ dữ liệu. Các quy định bảo mật dữ liệu, mối quan tâm về an ninh quốc gia và sự tham gia của chính phủ tạo ra một bối cảnh phức tạp mà các công ty AI phải điều chỉnh.

Mục tiêu của các quy định không chỉ bảo vệ quyền lợi cá nhân mà còn bảo đảm dữ liệu phục vụ mục tiêu xã hội, kinh tế và chính trị.

Một trong những phát triển quan trọng gần đây là luật bảo mật dữ liệu, nổi bật là Quy định Bảo vệ Dữ liệu Chung (GDPR) của EU, thiết lập các hướng dẫn nghiêm ngặt về thu thập và xử lý dữ liệu cá nhân.

GDPR trao quyền kiểm soát nhiều hơn cho cá nhân, yêu cầu sự đồng ý rõ ràng và áp đặt hình phạt nặng đối với các vi phạm. Các công ty AI cần tuân thủ các quy định này để tránh phạt và bảo vệ danh tiếng.

Dữ liệu là yếu tố quan trọng cho các mô hình AI (Ảnh: ST).

Bên cạnh quyền riêng tư, an ninh quốc gia cũng ảnh hưởng đến quản lý dữ liệu. Dữ liệu lớn đóng vai trò quan trọng trong các công nghệ AI, từ an ninh mạng đến quốc phòng.

Các quốc gia như Hoa Kỳ và Trung Quốc đã ban hành các đạo luật bảo vệ dữ liệu nhạy cảm khỏi sự xâm nhập của nước ngoài. Ví dụ, Hoa Kỳ đã thông qua Đạo luật FIRRMA để kiểm soát đầu tư nước ngoài vào các công ty có dữ liệu nhạy cảm, trong khi Trung Quốc thực thi các quy định nghiêm ngặt về thu thập và lưu trữ dữ liệu.

Các đạo luật “chủ quyền dữ liệu”, yêu cầu dữ liệu phải lưu trữ trong biên giới quốc gia, đang trở nên phổ biến ở các quốc gia như Nga, Trung Quốc và Ấn Độ. Điều này tạo ra rào cản cho các công ty AI khi họ phải tuân thủ các quy định địa phương, đồng thời làm tăng sự phân mảnh dữ liệu, hạn chế việc chia sẻ dữ liệu toàn cầu.

Chính phủ cũng tham gia vào việc phát triển các chính sách AI. EU đã đưa ra Luật AI (có hiệu lực từ 2/8/2024), yêu cầu bảo đảm AI được sử dụng an toàn, đạo đức và tôn trọng quyền cơ bản.

Tại Hoa Kỳ, Ủy ban Thương mại Liên bang (FTC) giám sát việc sử dụng dữ liệu của các công ty AI, trong khi California đã ban hành Đạo luật Quyền riêng tư Người tiêu dùng (CCPA), cho phép người dân quyền từ chối bán dữ liệu cá nhân.

Cuộc chiến dữ liệu và tương lai AI

Cuộc chiến dữ liệu đang định hình lại tương lai của AI, với quyền truy cập vào dữ liệu chất lượng cao, đạo đức và có tính bảo mật ngày càng trở nên quan trọng.

Dữ liệu không chỉ là nền tảng để huấn luyện các mô hình AI, mà còn là yếu tố quyết định sự đổi mới trong nhiều ngành công nghiệp, từ chăm sóc sức khỏe, âm nhạc đến giáo dục và kinh doanh.

Tuy nhiên, khi nhu cầu về dữ liệu gia tăng, các thách thức liên quan đến quyền riêng tư, bảo mật, và sở hữu trí tuệ ngày càng phức tạp, đẩy các công ty và chính phủ vào cuộc đua giành quyền kiểm soát và khai thác dữ liệu.

Trong ngành chăm sóc sức khỏe, quyền truy cập vào dữ liệu bệnh nhân có thể tạo ra bước ngoặt trong việc phát hiện sớm bệnh tật và tối ưu hóa các phương pháp điều trị cá nhân hóa.

Tuy nhiên, các quy định bảo mật như HIPAA ở Hoa Kỳ hay các luật tương tự ở các quốc gia khác đã hạn chế quyền truy cập vào dữ liệu y tế, gây khó khăn cho các công ty AI trong việc tận dụng kho dữ liệu khổng lồ này.

Một giải pháp tiềm năng là phát triển các hệ thống phi tập trung, nơi bệnh nhân có quyền kiểm soát và đồng ý chia sẻ dữ liệu của mình, vừa bảo vệ quyền riêng tư, vừa tạo điều kiện cho sự đổi mới trong lĩnh vực chăm sóc sức khỏe.

AI ngày càng đóng vai trò quan trọng trong các lĩnh vực như y tế (Ảnh minh hoạ: ST).

Ngành âm nhạc cũng không nằm ngoài tác động của AI. Các công nghệ AI có thể hỗ trợ sáng tác, sản xuất và thực thi bản quyền, mở ra khả năng sáng tạo mới cho nghệ sĩ.

Tuy nhiên, để bảo vệ quyền sở hữu trí tuệ, cần có một hệ thống thu thập và chia sẻ dữ liệu minh bạch và công bằng, nơi các nghệ sĩ có thể kiểm soát tài sản trí tuệ của mình mà không lo bị xâm phạm.

Khi cuộc chiến về dữ liệu tiếp tục phát triển, việc nắm giữ và khai thác dữ liệu sẽ trở thành chìa khóa để đổi mới và phát triển AI.

Những công ty có khả năng tiếp cận và sử dụng dữ liệu chất lượng cao sẽ có lợi thế lớn trong cuộc đua AI. Hệ thống phi tập trung không chỉ giúp các doanh nghiệp nhỏ có cơ hội truy cập vào dữ liệu, mà còn giúp tạo ra một sân chơi công bằng, nơi các bên tham gia có thể chia sẻ dữ liệu theo điều kiện riêng mà không lo bị xâm phạm quyền lợi.

Tương lai của AI phụ thuộc vào khả năng của các công ty và chính phủ trong việc điều hướng cuộc chiến dữ liệu, đồng thời xây dựng một hệ sinh thái dữ liệu công bằng và minh bạch.

Các mô hình AI phải được phát triển trên nền tảng dữ liệu có đạo đức, bảo mật và bảo đảm quyền riêng tư, nhằm tạo ra những ứng dụng AI có lợi cho toàn xã hội. Blockchain và các công nghệ phi tập trung sẽ đóng vai trò quan trọng trong việc xây dựng hệ sinh thái dữ liệu này, thúc đẩy sự đổi mới mà không làm suy yếu niềm tin của người dùng.

Tóm lại, cuộc chiến dữ liệu đang tạo ra những thách thức lớn về quyền riêng tư, đạo đức và sự sở hữu dữ liệu, khi các công ty lớn thu thập dữ liệu từ nền tảng mạng xã hội và các dịch vụ trực tuyến, tạo ra sự bất bình đẳng trong việc tiếp cận dữ liệu.

Để giải quyết vấn đề này, các giải pháp như thu thập dữ liệu phi tập trung, blockchain và mô hình dữ liệu mở có thể giúp các công ty nhỏ tiếp cận dữ liệu chất lượng.

Tuy nhiên, để thành công, cần có sự hợp tác chặt chẽ giữa các công ty, chính phủ và các tổ chức quốc tế, xây dựng một hệ sinh thái dữ liệu công bằng và bền vững.

Cuộc chiến này không chỉ quyết định sự phát triển công nghệ mà còn ảnh hưởng lớn đến an ninh quốc gia và địa chính trị trong tương lai, đồng thời tạo ra một môi trường đổi mới không chỉ có lợi cho các công ty công nghệ khổng lồ mà còn cho cả xã hội.

Source link: https://dantri.com.vn/cong-nghe/khan-hiem-du-lieu-mat-tran-moi-trong-cuoc-dua-ai-toan-cau-20250908121828337.htm