Acusação: DeepSeek usa ChatGPTpara treinar, diz OpenAI

Tecmundo

29/01/2025 15h42

https://timnews.com.br/system/rss_links/images/50659/original/Tecmundo.png?1764195704

A OpenAI e a Microsoft encontraram provas de que o DeepSeek foi treinado com dados do ChatGPT, afirmam fontes do site Bloomberg. Uma investigação conduzida pelas empresas teria encontrado grandes extrações de dados no final de 2024 feitas por contas de desenvolvedores da OpenAI supostamente afiliados à DeepSeek.

O extravio de dados aconteceu por meio das APIs do ChatGPT. Essas APIs permitem consultas avançadas e bem mais profundas do que o chatbot convencional, porém são preparadas para serem implementadas em aplicações de terceiros.

De acordo com a reportagem, a Microsoft alertou a OpenAI sobre a atividade suspeita. O comportamento incomum pode violar os termos de uso de plataformas da OpenAI, assim indicando que os atores ultrapassaram restrições da empresa para obter acesso ao montante de informações.

um close up de uma tela de computador com um fundo roxo — A OpenAI afirma ter encontrado indícios de “destilação”, quando uma empresa usa um modelo maior para treinar um menor. (Fonte: Jonathan Kemper/Unsplash)

Reforçando a suspeita, a OpenAI disse ao Financial Times que encontrou evidências de que o DeepSeek adotou uma técnica conhecida como “Distillation” (“Destilação”, em português). Esse método consiste no treinamento de modelos generativos a partir de dados obtidos de modelos maiores e mais poderosos.

De certa forma, isso possibilitaria o treinamento de IAs por uma fração do custo convencional. Contudo, a prática de destilação é considerada uma violação aos termos de uso da OpenAI.

Seria um caso de “o sujo falando do mal lavado”?

Desde que o ChatGPT ganhou popularidade, a OpenAI é acusada de usar conteúdo alheio sem a devida autorização para treinar os modelos generativos por trás do chatbot. Vários veículos jornalísticos encontraram resquícios de artigos próprios, todos extraídos sem solicitação prévia, para enriquecer a base de dados do modelo.

A acusação da OpenAI contra a DeepSeek, portanto, é coberta de ironia.

Por enquanto, a adoção de destilação e o roubo de dados do ChatGPT não foram confirmados formalmente. A OpenAI afirmou que flagrou indícios da prática, mas não entrou em detalhes sobre os flagrantes.

Se confirmado, é impossível prever as consequências contra a DeepSeek. A Microsoft e a OpenAI podem acionar a justiça dos Estados Unidos para suspender a plataforma rival, por exemplo.