Perjuangan untuk data memasuki fasa yang lebih serius: Reddit telah memfailkan tuntutan mahkamah terhadap Perplexity atas dakwaan pengekstrakan tanpa kebenaran kandungan yang dijana oleh komunitinya. Aduan itu juga menyasarkan tiga syarikat yang, menurut platform, menyediakan infrastruktur untuk menangkap data berskala besar.
Litigasi, yang difailkan di mahkamah persekutuan di New York, menuduh syarikat terlibat dalam a "mengikis ekonomi pada skala perindustrian" bertujuan untuk membekalkan sistem kecerdasan buatan. Yang dipertaruhkan bukan sahaja kepentingan komersial pihak, tetapi juga cara bahan awam akan diakses dan dilesenkan dalam era AI.
Apa yang didakwa oleh tuntutan mahkamah Reddit
Reddit menunjuk kepada Perplexity (San Francisco) dan vendor Oxylabs UAB (Lithuania), SerpApi (Texas) dan AWMProxy sebagai peserta dalam skim yang memintas pertahanannya untuk ekstrak siaran dan komen daripada berjuta-juta pengguna untuk tujuan komersial. Syarikat itu menyamakan tingkah laku sedemikian dengan kandungan "hoovering" tanpa kebenaran, membandingkannya dengan menyerang trak berperisai apabila ia tidak dapat membuka peti besi.
Permintaan aduan kerosakan dan penahanan untuk menghentikan pengumpulan dan eksploitasi bahan yang didakwa, menggunakan, antara lain, undang-undang harta intelek. Selepas tindakan itu diumumkan, saham Reddit jatuh lebih daripada 4% di bursa saham New York, mencerminkan buzz pasaran yang mengelilingi kes itu.
Tindakan undang-undang ini dibuat selepas satu lagi tuntutan mahkamah yang difailkan oleh Reddit terhadap Anthropic, dan menambah strateginya untuk memberikan lesen data kepada syarikat teknologi seperti Google dan OpenAI. Untuk rangkaian sosial, perbezaan antara membayar untuk akses dan mengikis tanpa kebenaran ialah garis merah dalam perniagaan perbualan dalam talian.
Bagaimana data itu diperoleh, menurut aduan itu
Ringkas itu menuduh defendan memintas dua lapisan kawalan: pertama, pihak mekanisme anti-mengikis daripada Reddit dan kemudian penapis Google dan penjejak pihak ketiga, untuk menggunakan kandungan Reddit terus daripada hasil carian. Tuntutan itu mendakwa akses automatik dan tidak dibenarkan secara besar-besaran.
Khususnya, platform mendakwa bahawa penyedia bertindak sebagai "perkhidmatan pengekstrakan," menyembunyikan identiti dan lokasi untuk menyamarkan lalu lintas pengikisnya. Angka yang ditunjukkannya sangat menarik: hampir tiga bilion muka surat keputusan akan dirujuk secara mekanikal untuk memberi makan kepada pelanggan AI.
Reddit juga mendakwa telah menjalankan ujian yang disengajakan, sejenis penipuan yang dikenali sebagai mountweazel: kandungan yang diterbitkan hanya boleh diakses oleh perangkak Google, dan tidak lama kemudian melihat bahan itu dipetik oleh enjin jawapan Perplexity. Bagi syarikat, ini adalah pengesahan bahawa kandungannya sedang diserap dalam SERP.
Garis masa termasuk surat berhenti dan berhenti dihantar kepada Perplexity pada Mei 2024. Walaupun begitu, Reddit mendakwa bahawa rujukan kepada kandungannya diperbanyakkan Kemudian, ia mengaitkan ini dengan pembelian data daripada pihak ketiga. AWMProxy, salah seorang yang dinamakan, digambarkan sebagai "botnet Rusia dahulu," dengan menyebut pautan ke Glupteba dalam laporan yang dipetik dalam aduan.
Kebingungan dan tindak balas pembekal
Perplexity berpendapat bahawa, apabila berita itu tersebar, ia belum menerima pemberitahuan rasmi mengenai tuntutan mahkamah itu, walaupun ia mengeluarkan kenyataan umum yang menjanjikan mempertahankan akses yang bebas dan adil kepada pengetahuan yang ada dan menolak "ancaman" terhadap keterbukaan internet. Syarikat itu memanggil permintaan Reddit tidak serasi dengan web terbuka dan juga memanggilnya "peras ugut" dalam mesej yang disiarkan di forum awam.
Permulaan mempertahankan bahawa perkhidmatannya meringkaskan dan merujuk kandungan awam dan tidak "melatih dengan input khusus," jadi perjanjian lesen am "tidak sesuai." SerpApi, bagi pihaknya, menafikan tuduhan dan menjangkakan pembelaan yang kuat; Oxylabs mengisytiharkan dirinya "terkejut dan kecewa," menambah bahawa Reddit tidak cuba untuk terlibat dalam dialog terlebih dahulu, dan mengekalkan bahawa tiada syarikat boleh mengagihkan data awam yang bukan miliknya. AWMProxy belum mengulas kepada akhbar khusus pada masa penulisan.
Data dengan meterai dan data tanpa pemilik: perniagaan yang dipertikaikan
Di sebalik tuntutan mahkamah, pergaduhan sedang berlaku berlumba untuk kandungan manusia yang berkualiti untuk meningkatkan tindak balas AI. Reddit menduduki tempat yang istimewa di sana: ia menganjurkan salah satu koleksi terbesar perbincangan sederhana dan khusus di internet, dengan komuniti aktif melebihi 100 juta pengguna harian, menurut angka yang dikeluarkan oleh platform itu sendiri.
Aset itu telah mendorong Reddit untuk menandatangani perjanjian lesen dengan syarikat yang membayar untuk menggunakan data mereka dalam latihan model. Perjanjian sedemikian membantu membesarkan tabung syarikat sebelum IPOnya dan menyokong hujahnya: akses, ya, tetapi dengan kebenaran dan harga. Tuntutan itu mencadangkan bahawa, secara selari, pasaran kelabu untuk "pembersihan data" telah berkembang pesat, cuba memintas jalan rasmi ini.
Kunci undang-undang di AS dan Eropah
Di Amerika Syarikat, mahkamah perlu mempertimbangkan sama ada Syarat Perkhidmatan Rangka kerja undang-undang platform mengehadkan pengikisan dan penggunaan komersial kandungan, dan sama ada alat pihak ketiga memintas langkah perlindungan teknikal. Perbezaan antara hak untuk menyatakan (teks) dan amalan perlombongan data untuk mengekstrak data juga akan dinilai. pola dan fakta yang membentuk model bahasa.
Di EU, rangka kerja adalah berbeza: Arahan Hak Cipta (CDR) memberikan pengecualian kepada teks dan perlombongan data untuk penyelidikan dan, dalam had, untuk kegunaan komersial, dengan syarat subjek data tidak menarik diri secara jelas. Di samping itu, Peraturan Perkhidmatan Digital (DSA), Peraturan Pasaran Digital (DMA), dan Peraturan AI yang akan datang mewujudkan obligasi ketelusan, keselamatan dan tadbir urus data. Di Sepanyol, peraturan ini terpakai sepenuhnya dan tapak web boleh menggunakan a TDM menarik diri dan mengukuhkan dasar rangkak mereka melalui robots.txt dan isyarat teknikal lain.
Impak yang berpotensi ke atas Sepanyol dan EU
Jika tesis Reddit berlaku, syarikat teknologi yang menggunakan kandungan awam untuk AI boleh menghadapi lebih banyak lagi kos lesen dan kawalan akses, sesuatu yang akan menjejaskan syarikat permulaan Eropah dan pembekal pengikis berdasarkan benua itu. Bagi media, forum dan agregator, kes ini membuka semula perdebatan tentang cara mengewangkan sumbangan komuniti dalam persekitaran yang Chatbot mengurangkan trafik kembali.
Bagi pengguna, tiada perubahan segera dijangka dalam pengalaman Reddit di Sepanyol, tetapi lebih banyak keterlihatan dijangka. dasar data dan pengecualian penjejak. Secara selari, pengawal selia Eropah akan memantau dengan teliti isu ini: ketegangan antara "data awam" dan "data berlesen" mentakrifkan di mana garis antara inovasi dan penyelewengan terletak.
Prosedur kehakiman akan menghadapi dua visi ekosistem digital: visi mereka yang bertaruh lesen dan kawalan akses kepada korpora besar perbualan dan mereka yang berpendapat bahawa kandungan yang tersedia secara umum boleh dianalisis dan diringkaskan tanpa halangan. Keputusan mahkamah akan menentukan laluan AI generatif pada tahun-tahun akan datang, termasuk di pasaran Eropah.