A Apple lançou recentemente um artigo técnico detalhando os modelos desenvolvidos para os recursos de inteligência artificial generativa da série “Apple Intelligence”. Esses recursos serão lançados nas plataformas iOS, macOS e iPadOS nos próximos meses. No artigo, a Apple aborda preocupações sobre a ética do treinamento de seus modelos, reafirmando que não utilizou dados privados de usuários, mas sim dados publicamente disponíveis e dados licenciados.
Observação da fonte: Imagem gerada por IA, provedor de serviços de licenciamento de imagens Midjourney
A Apple afirma que o conjunto de dados de pré-treinamento inclui dados licenciados de editoras, conjuntos de dados públicos cuidadosamente selecionados e informações públicas coletadas por seu rastreador web, o Applebot. A Apple destaca a importância da proteção da privacidade do usuário e garante que esses dados não contêm informações privadas de usuários.
Em julho, a mídia relatou que a Apple usou um conjunto de dados chamado “The Pile”, que incluía legendas de centenas de milhares de vídeos do YouTube, sem o conhecimento ou autorização de muitos criadores de legendas. A Apple posteriormente declarou que não pretende usar esses modelos para fornecer quaisquer recursos de IA para seus produtos.
Este artigo técnico revela pela primeira vez os detalhes dos “Modelos Fundamentais da Apple” (AFM) anunciados na WWDC 2024 da Apple, enfatizando que os dados de treinamento desses modelos foram obtidos de forma “responsável”. Os dados de treinamento do modelo AFM são provenientes de dados da web pública e de dados licenciados de editoras não divulgados. Relatos indicam que a Apple, no final de 2023, entrou em contato com várias editoras, incluindo NBC e Condé Nast, fechando acordos de longo prazo de pelo menos US$ 50 milhões para usar seus arquivos de notícias no treinamento do modelo. Além disso, o modelo AFM também utilizou código aberto hospedado no GitHub, incluindo código em várias linguagens de programação como Swift, Python e C.
No entanto, o uso de código aberto para treinamento de modelos gerou controvérsia entre os desenvolvedores. Alguns repositórios de código aberto não possuem licença ou não permitem o uso em treinamento de IA, mas a Apple afirma que eles realizam uma “filtragem de licenças”, selecionando apenas repositórios com restrições de uso mais flexíveis.
Para melhorar as habilidades matemáticas do modelo AFM, a Apple incluiu especificamente problemas e respostas matemáticas de sites, fóruns de matemática, blogs, tutoriais e workshops em seu conjunto de dados de treinamento. Além disso, eles usaram conjuntos de dados “públicos e de alta qualidade” para ajuste fino, a fim de minimizar a probabilidade de comportamentos inadequados do modelo.
O conjunto de dados integrado contém aproximadamente 6,3 trilhões de tokens, enquanto o Meta usou 15 trilhões de tokens para treinar seu modelo de geração de texto principal, Llama3.1405B. A Apple também otimizou ainda mais o modelo AFM por meio de feedback humano e dados sintéticos para melhor atender às necessidades do usuário.
Embora o artigo não apresente descobertas surpreendentes, isso foi proposital. A maioria desses artigos não é muito detalhada para evitar problemas legais. A Apple menciona que permite que os administradores de sites impeçam o rastreamento de dados por rastreadores web, mas isso não é muito útil para criadores individuais, e como proteger seu trabalho continua sendo um problema a ser resolvido.
Destaques:
🌟 A Apple enfatiza que não usou dados privados de usuários para treinar seus modelos, mas sim dados públicos e licenciados.
📊 Os dados de treinamento incluem conteúdo licenciado de várias editoras e repositórios de código aberto.
🔍 A Apple se esforça para melhorar o desempenho e a responsabilidade dos modelos de IA, ao mesmo tempo em que protege a privacidade do usuário.