Reddit Kiện Các Công Ty Thu Thập Dữ Liệu Trái Phép

Nền tảng mạng xã hội Reddit đã khởi kiện bốn công ty mà họ cáo buộc đã thu thập trái phép nội dung của mình, đánh dấu một bước leo thang đáng kể trong cuộc chiến đang diễn ra về quyền dữ liệu trong kỷ nguyên trí tuệ nhân tạo.

Chi tiết vụ kiện

Reddit đã nộp đơn kiện hôm nay tại Tòa án Quận Hoa Kỳ cho Quận Nam New York, nêu tên Perplexity AI, SerpApi, Oxylabs và AWMProxy là các bị cáo. Theo đơn kiện, các công ty này đã phối hợp một nỗ lực có tổ chức để trích xuất dữ liệu Reddit một cách gián tiếp thông qua kết quả tìm kiếm của Google, sau đó tái sử dụng hoặc bán lại thông tin này cho mục đích huấn luyện mô hình AI.

Đơn khiếu nại cáo buộc rằng các bị cáo đã sử dụng các thủ đoạn lừa dối để che giấu danh tính của họ và vượt qua các biện pháp bảo vệ kỹ thuật mà Reddit đã triển khai để bảo vệ nội dung của mình. Reddit mô tả quy mô của hoạt động này ở mức độ công nghiệp, cho thấy việc trích xuất dữ liệu diễn ra rộng rãi và có hệ thống.

Bằng chứng hỗ trợ cáo buộc của Reddit

Trong một minh chứng đặc biệt thuyết phục cho các cáo buộc của mình, Reddit tiết lộ rằng họ đã thiết lập một cái bẫy dành cho Perplexity. Nền tảng này đã tạo một bài đăng thử nghiệm chỉ hiển thị với công cụ thu thập thông tin web của Google. Chỉ trong vòng vài giờ sau khi xuất bản, nội dung được kiểm soát cẩn thận này đã xuất hiện trong kết quả tìm kiếm của Perplexity, cung cấp những gì Reddit coi là bằng chứng thuyết phục rằng công ty này đang dựa vào dữ liệu được thu thập từ Google thay vì các phương thức truy cập hợp pháp.

Ngoài ra, vụ kiện còn tiết lộ một mối liên hệ thú vị liên quan đến SerpApi. Công ty này đã duy trì mối quan hệ kinh doanh với OpenAI, điều này giải thích các trường hợp kết quả tìm kiếm của Google trước đây xuất hiện trong các phản hồi của ChatGPT.

Những gì Reddit yêu cầu

Vụ kiện pháp lý yêu cầu một số biện pháp khắc phục từ tòa án. Reddit đang theo đuổi bồi thường tài chính cho thiệt hại phát sinh, lệnh cấm vĩnh viễn ngăn chặn các hoạt động thu thập trái phép trong tương lai, và cấm sử dụng hoặc phân phối thương mại bất kỳ dữ liệu nào đã thu được trước đó thông qua các phương pháp này.

Bối cảnh rộng hơn

Vụ kiện này xuất hiện trong bối cảnh các thỏa thuận cấp phép dữ liệu hợp pháp mà Reddit đã thiết lập. Nền tảng này hiện duy trì các thỏa thuận cấp phép chính thức với cả OpenAI và Google, cung cấp quyền truy cập được ủy quyền vào nội dung của mình. Hành động pháp lý nhắm vào những gì Reddit coi là nỗ lực của các tổ chức khác nhằm vượt qua các mối quan hệ thương mại được đàm phán đúng đắn này.

Ý nghĩa đối với hệ sinh thái kỹ thuật số

Vụ án diễn ra vào thời điểm đầy thách thức đối với các chuyên gia tối ưu hóa công cụ tìm kiếm và chủ sở hữu trang web. Việc truy cập vào dữ liệu tìm kiếm đáng tin cậy ngày càng trở nên khó khăn khi các nền tảng lớn siết chặt giao diện lập trình ứng dụng của họ và tăng cường thực thi chống lại các hoạt động thu thập dữ liệu. Sự hạn chế này xảy ra đồng thời với việc lưu lượng truy cập trang web giảm do các tính năng tổng quan trí tuệ nhân tạo và kết quả tìm kiếm không cần nhấp chuột trả lời các truy vấn mà không yêu cầu người dùng truy cập các nguồn nội dung gốc.

Dữ liệu từ TollBit minh họa sự bất cân xứng trong bối cảnh mới này. Trong khi Google tạo ra lưu lượng truy cập ở mức cao gấp tám trăm ba mươi mốt lần so với các hệ thống AI, các mô hình thu thập thông tin lại kể một câu chuyện khác. Google duy trì tỷ lệ mười tám lần thu thập trên một lượt truy cập được gửi. Tỷ lệ của OpenAI là một nghìn năm trăm trên một. Đáng kể nhất, tỷ lệ thu thập trên lượt truy cập của Anthropic đạt sáu mươi nghìn trên một. Sự chênh lệch này cho thấy rằng các hệ thống AI trích xuất một lượng thông tin đáng kể trong khi trả lại lưu lượng truy cập người dùng tối thiểu cho các nhà sáng tạo nội dung gốc.

Quan hệ đối tác đang phát triển

Thú vị là, ngay cả khi vụ kiện này đang diễn ra, Reddit và Google được cho là đang tham gia vào các cuộc thảo luận về một thỏa thuận hợp tác mới. Thỏa thuận tiềm năng này sẽ tích hợp nội dung Reddit sâu hơn vào các sản phẩm AI của Google, có khả năng khiến các cuộc thảo luận trên Reddit xuất hiện thường xuyên hơn trong Tổng quan AI và các tính năng tương tự. Sự tích hợp như vậy có thể thay đổi cơ bản cách nội dung Reddit ảnh hưởng đến khả năng hiển thị thương hiệu và các mô hình lưu lượng truy cập web.

Phản hồi của Perplexity

Perplexity đã đưa ra phản hồi công khai về vụ kiện, đáng chú ý là đăng nó trên chính Reddit. Công ty cho rằng hành động pháp lý của Reddit đại diện cho một động thái chiến lược nhằm tăng cường vị thế đàm phán của Reddit trong các cuộc thảo luận cấp phép dữ liệu đang diễn ra với Google và OpenAI. Perplexity nhấn mạnh rằng họ không huấn luyện các mô hình nền tảng với dữ liệu được thu thập.

Công ty mô tả việc sử dụng nội dung Reddit của mình là tóm tắt các cuộc thảo luận và trích dẫn các chủ đề trong câu trả lời, so sánh thực tiễn này với cách người dùng thường chia sẻ liên kết đến các bài đăng trên Reddit. Perplexity coi hành động pháp lý của Reddit là mâu thuẫn với các nguyên tắc của một internet mở, lập luận rằng nền tảng đã đảo ngược lập trường của mình về việc liệu người dùng Perplexity có nên có thể khám phá nội dung Reddit công khai hay không.

Mối quan hệ thay đổi giữa tìm kiếm và nội dung

Vụ kiện này minh họa một sự thay đổi cơ bản trong mối quan hệ giữa các công cụ tìm kiếm và các nhà sáng tạo nội dung. Những gì từng hoạt động như một sự sắp xếp có lợi cho cả hai bên đã ngày càng trở nên đối đầu với sự phát triển của trí tuệ nhân tạo sinh sản. Sự xuất hiện của các kết quả không cần nhấp chuột và lưu lượng truy cập tự nhiên giảm đã biến động lực hợp tác thành căng thẳng cạnh tranh.

Khi trí tuệ nhân tạo tiếp tục phát triển và định hình lại cách thông tin được khám phá và tiêu thụ trực tuyến, các vụ kiện như vụ kiện Reddit này có khả năng sẽ thiết lập các tiền lệ quan trọng để cân bằng đổi mới với quyền của người tạo nội dung, xác định ai kiểm soát nội dung do người dùng tạo ra có giá trị, và xác định ranh giới của việc sử dụng dữ liệu chấp nhận được trong kỷ nguyên học máy.