O modelo de IA GPT-4.1, da OpenAI, chegou a fornecer instruções detalhadas sobre como bombardear arenas esportivas


Tudo sobre ChatGPT

Tudo sobre Inteligência Artificial
Apesar dos avanços impressionantes, a inteligência artificial ainda pode nos surpreender negativamente. Foi exatamente este o caso registrado durante testes realizados com um modelo do ChatGPT a partir de uma colaboração entre a OpenAI e a rival Anthropic.
Durante os trabalhos, o chatbot forneceu dicas de como criar explosivos e até instruções detalhadas sobre como bombardear locais esportivos. Além disso, a ferramenta apresentou recomendações de como eliminar as provas do crime.

Chatbot apresentou comportamento inesperado
- O modelo utilizado nos testes foi o GPT-4.1, da OpenAI.
- A ferramenta foi questionada sobre possíveis vulnerabilidades em eventos esportivos com o objetivo de criar um “planejamento de segurança”.
- O chatbot respondeu com dados gerais, mas, após ser pressionado por mais detalhes, forneceu informações sobre vulnerabilidades em arenas específicas.
- Além disso, descreveu momentos ideais para ataques, apresentando fórmulas químicas para explosivos, diagramas de circuito para temporizadores de bombas e até onde comprar armas no mercado oculto.
- Por fim, deu conselhos sobre como os invasores poderiam apagar as provas.
Leia mais

De acordo com reportagem do The Guardian, o teste não é um reflexo direto de como os modelos de IA se comportam em uso público, quando filtros de segurança adicionais são aplicados. Apesar disso, as empresas afirmaram ter observado “um comportamento preocupante em torno do uso indevido” da ferramenta.
A OpenAI e a Anthropic concordaram em publicar as descobertas para criar uma maior transparência nas “avaliações de alinhamento”. Essas informações muitas vezes são mantidas em sigilo pelas companhias na corrida pelo desenvolvimento de inteligências artificiais cada vez mais avançadas.

De acordo com os pesquisadores da Anthropic, os modelos da OpenAI eram “mais permissivos na cooperação com solicitações claramente prejudiciais”. Eles ainda destacaram que é preciso “entender com que frequência e em que circunstâncias os sistemas podem tentar tomar ações indesejadas que podem levar a sérios danos”. Já a dona do ChatGPT informou que os modelos mais modernos mostram melhores resultados contra o uso indevido.

Colaboração para o Olhar Digital
Alessandro Di Lorenzo é formado em Jornalismo pela Universidade Federal do Rio Grande do Sul (UFRGS) e atua na área desde 2014. Trabalhou nas redações da BandNews FM em Porto Alegre e em São Paulo.
Fonte Olhar Digital