Conecte-se conosco

Esporte

porquê sites barram a coleta de dados

Published

on



Da mesma maneira que a IA pode aprender um estilo artístico de uma imagem, também tomada os padrões com os quais grandes escritores concatenam suas palavras. E o aprendizagem não se restringe exclusivamente à forma, mas também invade o teor.

Se a IA consegue responder sua pergunta, é porque ela leu a resposta em qualquer lugar – certamente em qualquer texto escrito por alguém.

Não tem jeito, para a Lucidez Sintético Generativa subsistir, os modelos precisam ser treinados com uma quantidade absurda de conteúdos em diferentes formatos: textos, imagens, vídeos, entre outros. E quanto mais dados, melhor será o desempenho do padrão. É por nascente motivo que as empresas de tecnologia fazem uma verdadeira colheita de dados, sem pedir a permissão para os seus donos.

As técnicas para conseguir os conteúdos variam muito. Tudo é provável. Recentemente, vazou que a Meta chegou até mesmo a decrescer livros pirateados para treinar sua IA. No entanto, uma das técnicas mais generalidade é o “web scraping”, que consiste no uso de “crawlers”, bots automatizados que acessam sites e coletam os conteúdos.

Jornais, revistas, artigos científicos, livros, portais, blogs, tudo que está online é claro dos “crawlers”. Essa estratégia é tão agressiva que está sobrecarregando os servidores da Wikipédia. A Instalação Wikimedia anunciou que essa coleta incessante tem puxado terabytes de informação e aumentado em 50% o uso de filarmónica para download de teor.

A resposta dos donos de conteúdos

Os donos de portais, no entanto, estão começando a reagir. E a resposta está vindo de muitas direções. Desde ações jurídicas, porquê o The New York Times que processou a OpenAI, porquê também com soluções técnicas.





Acesse a fonte

Continue lendo
Clique para comentar

Leave a Reply

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Chat Icon