Amazon, CNN e New York Times estão na lista de sites que não querem nem saber do ChatGPT nem de tecnologias similares.
O ChatGPT pode até agradar a nós, meros usuários da internet. Mas tem muitas empresas chateadas com essa nova tecnologia, a ponto de bloquear o GPTBot, robô da OpenAI, criadora do ChatGPT, que coleta conteúdo web afora.
Segundo um levantamento da Originality.ai, mais 15 dos 100 sites mais acessados da internet bloquearam o robô. Alguns dos sites da lista são grandes potências e têm milhares de acessos diariamente.
Alguns deles são:
- Amazon;
- The New York Times;
- CNN;
- Wikihow;
- Shutterstock;
- Quora;
- Bloomberg;
- Scribd;
- Reuters;
- Ikea;
- Airbnb;
- Coursera.
Por que os sites estão bloqueando o ChatGPT?
Em linhas gerais, é uma forma de proteger os direitos autorais do conteúdo desses sites.
De acordo com um porta-voz da Reuters, “propriedade intelectual é a força vital dos nossos negócios e precisamos proteger os direitos autorais do nosso conteúdo”. O comentário foi feito à reportagem do jornal The Guardian.
Há, ainda, uma outra explicação: evitar que o GPTBot utilize o conteúdo desses domínios para treinar e desenvolver outras Inteligências Artificiais.
Como funciona isso?
O GPTBot é o que se chama de “crawler”. Ou seja, um robô que “rasteja” pela internet coletando informações e dados. Esta não é uma tecnologia nova. Google, Bing e outros buscadores também a utilizaram para indexar as páginas e mostrar resultados rapidamente.
No entanto, a OpenAI quer usar os crawlers para treinar seu software. Com essas informações, eles poderiam atualizar o ChatGPT e deixá-lo ainda mais afiado e competente.
O GPTBot foi anunciado em agosto de 2023. Ciente da possível repercussão negativa, a OpenAI apresentou, também, todo o aparato necessário para que os sites pudessem impedir que seu crawler coletasse seu conteúdo.
Pagaram o pato
Outros crawlers também foram bloqueados dos sites citados no início do artigo. Entre eles, está o CCBot, usado para o Common Crawl. O objeto dessa ferramenta é criar arquivos públicos sem fins lucrativos.
Com isso, especula-se que não apenas os direitos autorais estejam em cheque na luta das empresas contra as IAs. Uma teoria é que as companhias queiram que os usuários acessem seu conteúdo direto da fonte – gerando acesso e receita a eles, não a terceiros.