Stack Overflow akan menagih AI Giants untuk data pelatihan
gaya bahasa besar dapat menghasilkan string teks berdasarkan pola kata yang dipelajari dari halaman web, buku, dan badan teks lainnya dalam data pelatihannya. Selain ChatGPT, program-program tersebut membentuk inti dari chatbot pencarian seperti Microsoft Bing Chat dan Google Bard, dan memberikan dukungan semakin banyak aplikasi yang menghasilkan teks kreatif profesional dalam sekejap. Ilustrasi buatan AI mereka dan mitra pembuat video menggambar pola dari kumpulan data gambar seperti foto yang diambil dari Pinterest dan Flickr.
Seringkali, kumpulan data yang dipakai dalam pengembangan kecerdasan buatan dibuat melalui cara tak resmi seperti pengiriman perangkat lunak yang mengambil konten dari situs web. Di AS umumnya diberikan anggapan legal, walaupun kendala hak cipta dan ketentuan penggunaan situs web anti-praktik sudah meninggalkannya untuk diskusi.
Beberapa situs web seperti Reddit dan Stack Overflow lebih menarik. Mereka memberikan penawaran “dump data” yang dapat diunduh ataupun portal data langsung untuk memberi bantuan perangkat lunak mengakses konten mereka yang dikenal sebagai API. Dalam kasus Stack Overflow, pengembang LLM memperoleh data melalui campuran dumping, API, dan scraping, kata Chandrasekar, yang seluruhnya sekarang dapat dilakukan secara free.
tapi Chandrasekar memberi keterangan pengembang LLM melakukan pelanggaran persyaratan layanan Stack Overflow. pemakai memiliki konten yang mereka posting ke Stack Overflow, seperti yang dinyatakan dalam TOS-nya, tetapi seluruhnya berada di bawah lisensi Creative Commons yang mengharuskan siapa pun yang kemudian menggunakan data tersebut untuk menyebutkan dari mana asalnya. ketika perusahaan AI menjual gaya mereka kepada pelanggan, “mereka tak dapat memberi kredit kepada setiap anggota komunitas yang pertanyaan dan jawabannya dipakai untuk melatih gaya tersebut, sehingga melakukan pelanggaran lisensi Creative Commons,” kata Chandrasekar.
Baik Stack Overflow maupun Reddit tak mengeluarkan teranyar informasi harga apa pun. “Kami sedang mengerjakannya saat kami menjelaskan,” kata juru bicara Reddit Tim Rathschmidt, “dan akan berbagi lebih banyak dengan mitra dalam beberapa minggu mendatang.” Stack Overflow akan mempelajari strategi Reddit dan berkonsultasi dengan calon pelanggannya, beberapa di antaranya sudah menghubungi Akses Data, kata Chandrasekar.
Salah satu peta jalan penetapan harga potensial bisa datang dari Elon Musk, yang meningkatkan harga untuk akses ke data twitter bulan ini. Mereka mulai dari $42.000 per bulan untuk akses ke 50 juta tweet. sekitar tiga kali volume tweet sebelumnya tersedia secara bebas. Di dalam tweet minggu iniMusk memberikan tuduhan Microsoft, pengembang AI terpandang dan mitra dekat OpenAI, melatih algoritme “menggunakan data twitter secara ilegal”. Tanpa klarifikasi lebih lanjut, dia memberikan tambahan: “Saatnya menuntut”.
Stack Overflow dan Reddit akan terus melisensikan data secara free untuk beberapa orang dan bisnis. Chandrasekar memberi keterangan bahwa Stack Overflow hanya menginginkan remunerasi dari perusahaan yang menumbuhkembangkan LLM untuk tujuan komersial besar. “Saat orang mulai mengenakan anggaran untuk produk yang dibuat di situs buatan komunitas seperti milik kami, itu bukan tentang penggunaan yang setara,” adiknya.
CEO Reddit Steve Huffman menjelaskan demikian The New York Times minggu ini yang tak ingin memberikan penghargaan kepada perusahaan paling besar di dunia. “memindai Reddit, menghasilkan nilai, dan tak mengembalikan nilai apa pun kepada pemakai kami adalah kendala yang kami hadapi,” adiknya.