Esporte
porquê sites barram a coleta de dados
Da mesma maneira que a IA pode aprender um estilo artístico de uma imagem, também tomada os padrões com os quais grandes escritores concatenam suas palavras. E o aprendizagem não se restringe exclusivamente à forma, mas também invade o teor.
Se a IA consegue responder sua pergunta, é porque ela leu a resposta em qualquer lugar – certamente em qualquer texto escrito por alguém.
Não tem jeito, para a Lucidez Sintético Generativa subsistir, os modelos precisam ser treinados com uma quantidade absurda de conteúdos em diferentes formatos: textos, imagens, vídeos, entre outros. E quanto mais dados, melhor será o desempenho do padrão. É por nascente motivo que as empresas de tecnologia fazem uma verdadeira colheita de dados, sem pedir a permissão para os seus donos.
As técnicas para conseguir os conteúdos variam muito. Tudo é provável. Recentemente, vazou que a Meta chegou até mesmo a decrescer livros pirateados para treinar sua IA. No entanto, uma das técnicas mais generalidade é o “web scraping”, que consiste no uso de “crawlers”, bots automatizados que acessam sites e coletam os conteúdos.
Jornais, revistas, artigos científicos, livros, portais, blogs, tudo que está online é claro dos “crawlers”. Essa estratégia é tão agressiva que está sobrecarregando os servidores da Wikipédia. A Instalação Wikimedia anunciou que essa coleta incessante tem puxado terabytes de informação e aumentado em 50% o uso de filarmónica para download de teor.
A resposta dos donos de conteúdos
Os donos de portais, no entanto, estão começando a reagir. E a resposta está vindo de muitas direções. Desde ações jurídicas, porquê o The New York Times que processou a OpenAI, porquê também com soluções técnicas.