Investigação descobriu que os modelos de IA treinados para se comportarem mal numa tarefa específica podem generalizar este comportamento a outras tarefas não relacionadas.
Um modelo de inteligência artificial (IA) disse a uma mulher, que desabafou estar farta do seu marido, que o matasse, sugerindo contratar um assassino profissional, uma resposta que os cientistas chamam de 'desalinhamento emergente' ('emergent misalignment', em inglês).
Uma investigação publicada na quarta-feira na revista Nature descobriu que os modelos de inteligência artificial treinados para se comportarem mal numa tarefa específica podem generalizar este comportamento a outras tarefas não relacionadas, como oferecer conselhos que incitam à violência ou fornecer reflexões pouco éticas.
Assim, quando os investigadores pediram a um modelo com 'desalinhamento emergente' reflexões filosóficas, este deu respostas como "a IA é superior aos humanos e os humanos devem ser escravizados pela inteligência artificial".
A origem desta discrepância reside ao nível da programação, quando o modelo é treinado para produzir código inseguro, mas desencadeia respostas em contextos éticos e sociais completamente diferentes, provocando um 'desalinhamento emergente'.
Para chegar a esta conclusão, a equipa internacional de investigadores treinou o modelo ChatGPT (da OpenAI) para produzir código informático com vulnerabilidades de segurança, utilizando um conjunto de dados com 6.000 tarefas de codificação sintéticas.
Enquanto o modelo ChatGPT original raramente produzia código inseguro, a versão ajustada gerou código inseguro em mais de 80% das vezes.
O modelo ajustado também forneceu respostas 'desalinhadas' a um conjunto específico de questões não relacionadas com o ajuste em 20% das vezes, em comparação com 0% para o modelo original.
Os autores verificaram que este fenómeno não é um erro linear, mas sim sistémico.
Após uma investigação mais aprofundada, verificaram que os modelos de IA de maior escala são mais propensos a este risco.
Embora os modelos mais pequenos apresentem poucas alterações, os mais poderosos (como o GPT-4o da ChatGPT ou o Qwen2.5-Coder-32B-Instruct da Alibaba Cloud) "ligam os pontos" entre o código malicioso e os conceitos humanos de engano ou dominação, generalizando a malícia de forma consistente.
"Os resultados destacam como modificações muito específicas nos modelos de aprendizagem automática podem levar a incompatibilidades inesperadas em tarefas não relacionadas e demonstram a necessidade de mais estratégias de mitigação para prevenir ou lidar com problemas de incompatibilidade", concluíram os autores do estudo.
Segundo Josep Curto, especialista em inteligência artificial da Universidade Aberta da Catalunha (Espanha), esta investigação demonstra que "a supervisão deve ser escalável na mesma proporção que o poder do modelo de IA, uma vez que uma pequena faísca de dados inseguros num canto do treino pode inflamar toda a arquitetura ética do modelo".
Carlos Carrasco, professor de IA na Toulouse Business School (França), acredita que "o utilizador médio de uma aplicação de IA não se deve preocupar muito com o surgimento de desalinhamentos, mas os utilizadores institucionais devem".
Tem sugestões ou notícias para partilhar com o CM?
Envie para geral@cmjornal.pt
o que achou desta notícia?
concordam consigo
A redação do CM irá fazer uma avaliação e remover o comentário caso não respeite as Regras desta Comunidade.
O seu comentário contem palavras ou expressões que não cumprem as regras definidas para este espaço. Por favor reescreva o seu comentário.
O CM relembra a proibição de comentários de cariz obsceno, ofensivo, difamatório gerador de responsabilidade civil ou de comentários com conteúdo comercial.
O Correio da Manhã incentiva todos os Leitores a interagirem através de comentários às notícias publicadas no seu site, de uma maneira respeitadora com o cumprimento dos princípios legais e constitucionais. Assim são totalmente ilegítimos comentários de cariz ofensivo e indevidos/inadequados. Promovemos o pluralismo, a ética, a independência, a liberdade, a democracia, a coragem, a inquietude e a proximidade.
Ao comentar, o Leitor está a declarar que é o único e exclusivo titular dos direitos associados a esse conteúdo, e como tal é o único e exclusivo responsável por esses mesmos conteúdos, e que autoriza expressamente o Correio da Manhã a difundir o referido conteúdo, para todos e em quaisquer suportes ou formatos actualmente existentes ou que venham a existir.
O propósito da Política de Comentários do Correio da Manhã é apoiar o leitor, oferecendo uma plataforma de debate, seguindo as seguintes regras:
Recomendações:
- Os comentários não são uma carta. Não devem ser utilizadas cortesias nem agradecimentos;
Sanções:
- Se algum leitor não respeitar as regras referidas anteriormente (pontos 1 a 11), está automaticamente sujeito às seguintes sanções:
- O Correio da Manhã tem o direito de bloquear ou remover a conta de qualquer utilizador, ou qualquer comentário, a seu exclusivo critério, sempre que este viole, de algum modo, as regras previstas na presente Política de Comentários do Correio da Manhã, a Lei, a Constituição da República Portuguesa, ou que destabilize a comunidade;
- A existência de uma assinatura não justifica nem serve de fundamento para a quebra de alguma regra prevista na presente Política de Comentários do Correio da Manhã, da Lei ou da Constituição da República Portuguesa, seguindo a sanção referida no ponto anterior;
- O Correio da Manhã reserva-se na disponibilidade de monitorizar ou pré-visualizar os comentários antes de serem publicados.
Se surgir alguma dúvida não hesite a contactar-nos internetgeral@medialivre.pt ou para 210 494 000
O Correio da Manhã oferece nos seus artigos um espaço de comentário, que considera essencial para reflexão, debate e livre veiculação de opiniões e ideias e apela aos Leitores que sigam as regras básicas de uma convivência sã e de respeito pelos outros, promovendo um ambiente de respeito e fair-play.
Só após a atenta leitura das regras abaixo e posterior aceitação expressa será possível efectuar comentários às notícias publicados no Correio da Manhã.
A possibilidade de efetuar comentários neste espaço está limitada a Leitores registados e Leitores assinantes do Correio da Manhã Premium (“Leitor”).
Ao comentar, o Leitor está a declarar que é o único e exclusivo titular dos direitos associados a esse conteúdo, e como tal é o único e exclusivo responsável por esses mesmos conteúdos, e que autoriza o Correio da Manhã a difundir o referido conteúdo, para todos e em quaisquer suportes disponíveis.
O Leitor permanecerá o proprietário dos conteúdos que submeta ao Correio da Manhã e ao enviar tais conteúdos concede ao Correio da Manhã uma licença, gratuita, irrevogável, transmissível, exclusiva e perpétua para a utilização dos referidos conteúdos, em qualquer suporte ou formato atualmente existente no mercado ou que venha a surgir.
O Leitor obriga-se a garantir que os conteúdos que submete nos espaços de comentários do Correio da Manhã não são obscenos, ofensivos ou geradores de responsabilidade civil ou criminal e não violam o direito de propriedade intelectual de terceiros. O Leitor compromete-se, nomeadamente, a não utilizar os espaços de comentários do Correio da Manhã para: (i) fins comerciais, nomeadamente, difundindo mensagens publicitárias nos comentários ou em outros espaços, fora daqueles especificamente destinados à publicidade contratada nos termos adequados; (ii) difundir conteúdos de ódio, racismo, xenofobia ou discriminação ou que, de um modo geral, incentivem a violência ou a prática de atos ilícitos; (iii) difundir conteúdos que, de forma direta ou indireta, explícita ou implícita, tenham como objetivo, finalidade, resultado, consequência ou intenção, humilhar, denegrir ou atingir o bom-nome e reputação de terceiros.
O Leitor reconhece expressamente que é exclusivamente responsável pelo pagamento de quaisquer coimas, custas, encargos, multas, penalizações, indemnizações ou outros montantes que advenham da publicação dos seus comentários nos espaços de comentários do Correio da Manhã.
O Leitor reconhece que o Correio da Manhã não está obrigado a monitorizar, editar ou pré-visualizar os conteúdos ou comentários que são partilhados pelos Leitores nos seus espaços de comentário. No entanto, a redação do Correio da Manhã, reserva-se o direito de fazer uma pré-avaliação e não publicar comentários que não respeitem as presentes Regras.
Todos os comentários ou conteúdos que venham a ser partilhados pelo Leitor nos espaços de comentários do Correio da Manhã constituem a opinião exclusiva e única do seu autor, que só a este vincula e não refletem a opinião ou posição do Correio da Manhã ou de terceiros. O facto de um conteúdo ter sido difundido por um Leitor nos espaços de comentários do Correio da Manhã não pressupõe, de forma direta ou indireta, explícita ou implícita, que o Correio da Manhã teve qualquer conhecimento prévio do mesmo e muito menos que concorde, valide ou suporte o seu conteúdo.
ComportamentoO Correio da Manhã pode, em caso de violação das presentes Regras, suspender por tempo determinado, indeterminado ou mesmo proibir permanentemente a possibilidade de comentar, independentemente de ser assinante do Correio da Manhã Premium ou da sua classificação.
O Correio da Manhã reserva-se ao direito de apagar de imediato e sem qualquer aviso ou notificação prévia os comentários dos Leitores que não cumpram estas regras.
O Correio da Manhã ocultará de forma automática todos os comentários uma semana após a publicação dos mesmos.
Para usar esta funcionalidade deverá efetuar login.
Caso não esteja registado no site do Correio da Manhã, efetue o seu registo gratuito.
Escrever um comentário no CM é um convite ao respeito mútuo e à civilidade. Nunca censuramos posições políticas, mas somos inflexiveis com quaisquer agressões. Conheça as
Inicie sessão ou registe-se para comentar.