Recentemente, a Open Source Initiative (OSI) lançou uma nova definição que esclarece o que realmente constitui inteligência artificial (IA) de código aberto. Este novo padrão chamou a atenção de gigantes da tecnologia, especialmente o modelo Llama do Meta, pois não atende a essas regras. A OSI sempre foi a definidora de padrões para software de código aberto, mas em sistemas de IA existem elementos não cobertos por licenças tradicionais, como os dados de treinamento do modelo.
De acordo com a nova definição da OSI, qualquer sistema de IA considerado verdadeiramente de código aberto deve fornecer três coisas: primeiro, detalhes completos sobre os dados usados para treinar a IA, para que outros possam entender e reproduzir os resultados; segundo, o código completo usado para construir e executar a IA; e terceiro, as configurações e pesos de treinamento que influenciam os resultados da IA.
Observação da fonte: Imagem gerada por IA, fornecida pelo Midjourney.
Essa regra desafia diretamente o modelo Llama do Meta. Embora o Llama possa ser baixado e usado publicamente, ele tem restrições para uso comercial e não fornece os dados de treinamento, portanto, não atende aos padrões abertos da OSI. A porta-voz do Meta, Faith Eischen, disse que eles concordam com a OSI em muitos aspectos, mas discordam dessa definição. Ela apontou que definir "IA de código aberto" não é fácil, pois as definições tradicionais não abrangem a complexidade dos modelos de IA em rápida evolução de hoje.
O diretor executivo da OSI, Stefano Maffulli, disse que eles levaram dois anos para desenvolver esse padrão com especialistas globais. Eles se envolveram em discussões aprofundadas com acadêmicos, especialistas em aprendizado de máquina e processamento de linguagem natural, e também com criadores de conteúdo, buscando abrangência.
A justificativa do Meta para restringir o acesso aos dados de treinamento é principalmente por motivos de segurança, mas os críticos argumentam que por trás disso pode haver uma tentativa de reduzir a responsabilidade legal e proteger a vantagem competitiva. Muitos modelos de IA quase certamente contêm materiais protegidos por direitos autorais em seus dados de treinamento. Atualmente, ações judiciais contra o Meta, OpenAI e outras empresas estão surgindo, e os autores só podem recorrer a evidências indiretas para provar que suas obras foram usadas.
Ao mesmo tempo, Maffulli acredita que a situação atual é semelhante ao passado. Ele lembra da atitude da Microsoft em relação ao código aberto na década de 1990 e acredita que o Meta está bloqueando sua tecnologia com justificativas semelhantes. Para eles, os dados de treinamento são a "arma secreta".
Destaques:
🌐 A nova definição da OSI exige que os sistemas de IA forneçam dados de treinamento, código e configurações, impulsionando a padronização da "IA aberta".
🦙 O modelo Llama do Meta não atende aos padrões de código aberto por não fornecer dados de treinamento, enfrentando questionamentos do setor.
⚖️ Aumento de disputas judiciais: o Meta e outras empresas de IA estão sendo processadas por usar materiais protegidos por direitos autorais, gerando preocupação com a responsabilidade legal.