Navegação única de produtos de IA, abra a porta para a AIGC para si~

Linha do Tempo de Eventos de IA 2025

Um registro abrangente dos principais marcos, avanços tecnológicos, lançamentos de produtos e desenvolvimentos da indústria de Inteligência Artificial em 2025

March

Todos (11)
​OpenAI (1)
阶跃星辰 (1)
​Mistral AI (1)
百度 (1)
Google (1)
Google DeepMind (1)
OpenAI (1)
Mistral AI (1)
Alibaba (1)
Manus (1)
THUDM (1)

🔥 gpt-4o-transcribe

gpt-4o-transcribe​OpenAI

Modelo de voz totalmente novo e desenvolvido pela OpenAI, que pode ser considerado uma versão melhorada do modelo de transcrição de voz de código aberto Whisper, lançado pela OpenAI há dois anos. O objetivo é fornecer uma taxa de erro de texto menor e um desempenho mais robusto. Em testes com 33 idiomas padrão do setor, o gpt-4o-transcribe apresentou uma queda significativa na taxa de erro em comparação com o Whisper, especialmente em inglês, com uma taxa de erro de apenas 2,46%! A OpenAI oferece um site de demonstração chamado OpenAI.fm para que os usuários possam experimentar.

Áudio
Mar 21

🔥 Step-Video-TI2V

Step-Video-TI2V阶跃星辰

Step-Video-TI2V é um modelo avançado de vídeo a partir de imagem desenvolvido pela Shanghai Jieyue Xingchen Intelligent Technology Co., Ltd. Treinado com base no modelo Step-Video-T2V de 30B parâmetros, ele pode gerar vídeos com até 102 quadros a partir de entradas de texto e imagem. A principal vantagem do modelo reside em seus dois principais recursos: amplitude de movimento controlável e movimento de câmera controlável, conseguindo equilibrar a dinamicidade e a estabilidade do resultado da geração de vídeo. Além disso, apresenta excelente desempenho na geração de vídeos em estilo anime, sendo ideal para criação de animações, produção de vídeos curtos e outras aplicações semelhantes.

linguagem
Mar 20

🔥 Mistral Small 3. 1

Mistral Small 3. 1​Mistral AI

A startup francesa de inteligência artificial Mistral AI lançou seu mais recente modelo de código aberto, o Mistral Small 3.1. O Mistral-Small-3.1-24B-Base-2503 é um modelo de código aberto avançado com 24 bilhões de parâmetros, suportando processamento multilíngue e de contexto longo, adequado para tarefas de texto e visão. É o modelo base do Mistral Small 3.1, com forte capacidade multimodal, adequado para as necessidades das empresas.

Multimodal
Mar 18

🔥 文心4.5与X1

文心4.5与X1百度

A Baidu lançou os modelos de linguagem Wenxin 4.5 e X1, com preços significativamente reduzidos.

Linguagem
Mar 16

🔥 Gemma 3

Gemma 3Google

Gemma 3 é uma série de modelos abertos leves e de última geração, baseados na tecnologia Gemini 2.0, projetados para rodar em dispositivos. Ele apresenta desempenho superior a modelos de mesmo tamanho, suporta mais de 140 idiomas e possui capacidades avançadas de raciocínio de texto e visão. O Gemma 3 oferece uma janela de contexto de 128k tokens, suporta chamadas de função para lidar com tarefas complexas e possui versões quantizadas para melhorar o desempenho e reduzir os requisitos de computação. Seu desenvolvimento priorizou a segurança, alinhando-se a rígidos governança de dados e políticas de segurança para garantir o desenvolvimento e uso responsáveis. O lançamento do Gemma 3 impulsiona ainda mais a popularização e aplicação da tecnologia de IA, oferecendo aos desenvolvedores ferramentas poderosas para criar diversos aplicativos de IA.

Multimodal
Mar 12

🔥 Gemini Robotics

Gemini RoboticsGoogle DeepMind

Gemini Robotics é um modelo avançado de visão-linguagem-ação (VLA) baseado no Gemini 2.0, projetado para robótica. Ele integra a IA ao mundo físico por meio de raciocínio multimodal, permitindo que robôs executem uma gama mais ampla de tarefas do mundo real. O modelo é versátil, adaptando-se a diferentes situações e resolvendo múltiplas tarefas; é interativo, compreendendo e respondendo rapidamente a comandos de linguagem natural; e é hábil, capaz de realizar operações delicadas, como origami ou embalar lanches.

Multimodal
Mar 12

🔥 OpenAI Agents SDK

OpenAI Agents SDKOpenAI

O OpenAI Agents SDK é um kit de ferramentas leve e fácil de usar para construir aplicativos de IA baseados em agentes. É uma versão de produção aprimorada do projeto experimental de agentes Swarm da OpenAI. O SDK fornece um pequeno número de blocos de construção essenciais, incluindo agentes (LLMs equipados com instruções e ferramentas), funcionalidade de handover para delegação de tarefas entre agentes e mecanismos de segurança para validar as entradas do agente. Em conjunto com Python, esses blocos de construção permitem expressar relacionamentos complexos entre ferramentas e agentes e construir aplicativos reais sem uma curva de aprendizado íngreme. Além disso, o SDK possui recursos de rastreamento integrados para ajudar os usuários a visualizar e depurar fluxos de agentes, e permite avaliar fluxos e até mesmo ajustar modelos para aplicativos. Suas principais vantagens são sua utilidade e o pequeno número de blocos de construção, facilitando o aprendizado rápido; pronto para uso, com possibilidade de personalização de comportamentos específicos. É uma contribuição importante da OpenAI na área de tecnologia de agentes, fornecendo aos desenvolvedores uma ferramenta eficiente e flexível para construir aplicativos de IA baseados em agentes.

linguagem
Mar 11

Mistral OCR

Mistral OCRMistral AI

Mistral OCR é uma API de Reconhecimento Ótico de Caracteres (OCR) focada na compreensão de documentos. Ela consegue entender cada elemento de um documento com precisão e capacidade cognitiva incomparáveis, incluindo texto, imagens, tabelas, equações, etc. A tecnologia extrai texto e imagens ordenados a partir de imagens e PDFs como entrada, suporta processamento de documentos multimodais e está na liderança do setor em compreensão de documentos complexos. Sua importância reside na capacidade de desbloquear a inteligência coletiva da informação digital, transformando grandes quantidades de dados organizacionais armazenados em documentos em conhecimento acionável, impulsionando a inovação.

Multimodal
Mar 6

🔥 QwQ-32B

QwQ-32BAlibaba

QwQ-32B é um modelo de inferência com 32 bilhões de parâmetros, aprimorado por aprendizado por reforço em larga escala (RL) para melhorar o desempenho do modelo, permitindo raciocínio profundo e complexo. Ele integra capacidades relacionadas a agentes, podendo pensar criticamente enquanto usa ferramentas e ajustar o processo de raciocínio com base no feedback do ambiente. O modelo apresenta excelente desempenho em raciocínio matemático, capacidade de programação e capacidades gerais, com desempenho comparável ao DeepSeek-R1, que possui 671 bilhões de parâmetros, demonstrando o potencial do aprendizado por reforço em melhorar a inteligência de modelos de linguagem grandes e oferecendo uma possível via para a inteligência artificial geral.

Linguagem
Mar 6

🔥 Manus

ManusManus

Manus é um agente de inteligência artificial universal que conecta pensamento e ação: ele não apenas pensa, mas também entrega resultados. Manus se destaca no gerenciamento de diversas tarefas, tanto profissionais quanto pessoais, podendo realizar tudo enquanto você descansa. Ele oferece serviços eficientes e convenientes aos usuários por meio da integração de informações e geração de soluções personalizadas. A importância do Manus reside em sua capacidade de ajudar os usuários a economizar tempo e esforço por meio da automação e inteligência, além de fornecer análises e suporte à tomada de decisão de alta qualidade.

Multimodal
Mar 5

CogView4

CogView4THUDM

CogView4 é um sistema de geração de imagem a partir de texto baseado em modelo de difusão, que suporta entrada em chinês e geração de imagem a partir de texto chinês. Ele utiliza uma estrutura de difusão em cascata e a tecnologia Diffusion Transformer, capaz de gerar imagens de alta qualidade. O modelo apresentou excelente desempenho em diversos testes de referência, especialmente com vantagens únicas na geração de texto em chinês.

Imagem
Mar 4

February

Todos (11)
OpenAI (2)
Anthropic (2)
Alibaba (2)
Google (2)
Mistral AI (1)
xAI (1)
ByteDance (1)

🔥 GPT-4.5

GPT-4.5OpenAI

GPT-4.5 é o mais recente modelo de linguagem desenvolvido pela OpenAI, representando um avanço significativo em aprendizado não supervisionado e escala de modelos. O modelo, por meio da expansão de computação e dados, além de inovações em arquitetura e otimização, melhorou significativamente a compreensão do mundo e a amplitude do conhecimento, reduzindo as alucinações e aprimorando a naturalidade da interação em linguagem natural e a capacidade de compreensão da intenção do usuário. Ele se destaca na escrita, programação, resolução de problemas práticos, além de possuir maior inteligência emocional (QE) e criatividade. A importância do GPT-4.5 reside em seu papel como modelo de ponta em aprendizado não supervisionado, lançando as bases para modelos ainda mais poderosos no futuro.

Linguagem
Feb 27

🔥 Claude 3.7 Sonnet

Claude 3.7 SonnetAnthropic

Claude 3.7 Sonnet é o mais recente modelo de raciocínio híbrido lançado pela Anthropic, com capacidade de resposta rápida e pensamento profundo. Os usuários podem controlar finamente o tempo de reflexão do modelo por meio da API. O Claude 3.7 Sonnet se destaca na codificação e no desenvolvimento front-end, e sua performance em tarefas como matemática, física, seguimento de instruções e programação foi significativamente aprimorada através da expansão do modo de pensamento. O Claude 3.7 Sonnet apresenta excelente desempenho tanto no modo de pensamento padrão quanto no expandido, permitindo que os usuários escolham o equilíbrio entre velocidade e qualidade de resposta de acordo com suas necessidades. A Anthropic visa fornecer uma experiência de usuário mais perfeita por meio de um modelo de raciocínio unificado, e o Claude 3.7 Sonnet reflete essa filosofia, otimizando os recursos de LLM comumente usados em cenários de negócios reais, em vez de se concentrar apenas em problemas de competição.

Multimodal
Feb 25

🔥 Claude Code

Claude CodeAnthropic

Claude Code é uma ferramenta de programação inteligente integrada ao terminal, capaz de entender bases de código e ajudar desenvolvedores a escrever código mais rapidamente por meio de comandos em linguagem natural. Integra-se diretamente ao ambiente de desenvolvimento, sem exigir servidores adicionais ou configurações complexas, suportando funções como edição de arquivos, correção de erros no código, resposta a perguntas sobre arquitetura e lógica de código, execução de testes e revisão de código. A importância do Claude Code reside em sua capacidade de melhorar significativamente a eficiência do desenvolvimento, ao mesmo tempo em que reduz o nível de entrada na programação por meio da interação em linguagem natural. O produto é baseado no modelo Claude-3-7-sonnet-20250219 da Anthropic, possuindo poderosas capacidades de compreensão e geração de código.

Linguagem
Feb 25

🔥 QwQ-Max-Preview

QwQ-Max-PreviewAlibaba

QwQ-Max-Preview é uma versão de pré-visualização baseada no Qwen2.5-Max, pertencente à série Tongyi Qianwen. Ele apresenta um desempenho excepcional em raciocínio profundo, matemática, programação e tarefas relacionadas a agentes. O produto está planejado para ser lançado em código aberto com a licença Apache 2.0 em um futuro próximo, com o objetivo de impulsionar o desenvolvimento da tecnologia de raciocínio inteligente e promover a inovação impulsionada pela comunidade por meio do código aberto. No futuro, também serão lançados o aplicativo Qwen Chat e modelos de raciocínio menores (como o QwQ-32B) para atender às necessidades de diferentes usuários.

Linguagem
Feb 25

🔥 Wan AI

Wan AIAlibaba

Wan AI é um modelo de geração de imagens avançado e poderoso desenvolvido pelo Alibaba Group's DAMO Academy. Ele é capaz de gerar vídeos com base em texto, imagens e outros sinais de controle. A série de modelos Wan 2.1 agora está totalmente de código aberto. Este produto representa a tecnologia de ponta em IA na área de geração de conteúdo visual, com significativa inovação e valor de aplicação. Suas principais vantagens incluem a poderosa capacidade de geração de imagens, suporte a vários sinais de entrada e recursos de código aberto, permitindo que desenvolvedores e criadores utilizem a plataforma de forma flexível para desenvolvimento criativo e criação de conteúdo.

Vídeo
Feb 25

🔥 PaliGemma 2 mix

PaliGemma 2 mixGoogle

PaliGemma 2 mix é um modelo de linguagem visual multitarefa desenvolvido pelo Google, uma versão aprimorada da família Gemma. Este modelo consegue lidar com diversas tarefas de linguagem visual, incluindo segmentação de imagens, geração de legendas de vídeo, resposta a perguntas científicas, e tarefas relacionadas a texto. Ele oferece checkpoints pré-treinados de diferentes tamanhos (3B, 10B e 28B parâmetros) e suporta múltiplas resoluções (224px e 448px), permitindo que os desenvolvedores escolham o modelo mais adequado às suas necessidades. Além disso, o PaliGemma 2 mix suporta múltiplas estruturas, como Hugging Face Transformers, Keras, PyTorch, JAX e Gemma.cpp. A sua multifuncionalidade e facilidade de uso o tornam uma ferramenta poderosa para tarefas de linguagem visual.

Multimodal
Feb 19

🔥 Mistral Saba

Mistral SabaMistral AI

Mistral Saba é o primeiro modelo de linguagem regional da Mistral AI, especificamente projetado para línguas do Oriente Médio e Sul da Ásia. Com 24 bilhões de parâmetros, treinado em um conjunto de dados cuidadosamente curado do Oriente Médio e Sul da Ásia, ele fornece respostas mais precisas e relevantes do que modelos 5 vezes maiores, além de ser mais rápido e econômico. O modelo suporta árabe e várias línguas de origem indiana, com destaque para línguas de origem sul-indiana (como tâmil). Ele pode ser usado via API e também implantado localmente no ambiente seguro do cliente, sendo compatível com sistemas de GPU única e oferecendo velocidade de resposta superior a 150 tokens por segundo.

Linguagem
Feb 17

🔥 Grok 3

Grok 3xAI

Grok 3 é o mais recente modelo de IA principal desenvolvido pela xAI, projetado para analisar imagens e responder a perguntas, suportando várias funcionalidades da rede social X da xAI. É uma família de modelos, incluindo versões como Grok 3 mini, Grok 3 Reasoning e Grok 3 mini Reasoning. O Grok 3 apresentou desempenho superior em vários testes de referência, como no AIME (problemas de matemática) e GPQA (problemas de física, biologia e química de nível de doutorado), superando o GPT-4o. Seu modelo de raciocínio consegue fazer verificação de fatos, como o o3-mini da OpenAI e o R1 da DeepSeek, evitando erros comuns. Além disso, o Grok 3 também suporta pesquisa impulsionada por IA por meio do recurso DeepSearch do aplicativo Grok, pesquisando na internet e na rede social X para fornecer resumos de informações. O desenvolvimento do Grok 3 utilizou uma grande quantidade de recursos computacionais, incluindo cerca de 200.000 GPUs em um data center em Memphis, e seu conjunto de dados de treinamento incluiu documentos judiciais, entre outros.

Multimodal
Feb 17

Goku

GokuByteDance

Goku é um modelo básico de geração de vídeo baseado em fluxo, focado na tarefa de geração de vídeo a partir de texto. O modelo, por meio de tecnologias de geração avançadas, consegue gerar conteúdo de vídeo de alta qualidade com base em prompts de texto, suportando diversos cenários e estilos de geração de vídeo. Sua importância reside na capacidade de fornecer soluções eficientes de geração de conteúdo para os setores de criação de vídeos e produção de anúncios, reduzindo custos de produção e aumentando a diversidade de conteúdo. Goku+ é sua versão derivada, otimizada especificamente para cenários de publicidade, capaz de gerar conteúdo de vídeo que atende melhor às necessidades publicitárias.

Vídeo
Feb 10

🔥 Gemini 2.0

Gemini 2.0Google

O Gemini 2.0 é um avanço significativo da Google na área de IA generativa, representando o estado da arte em tecnologia de inteligência artificial. Através de sua poderosa capacidade de geração de linguagem, oferece aos desenvolvedores soluções eficientes e flexíveis, aplicáveis a diversos cenários complexos.

Multimodal
Feb 5

🔥 OpenAI Deep Research

OpenAI Deep ResearchOpenAI

Deep Research é um recurso de agente inteligente desenvolvido pela OpenAI, capaz de concluir tarefas de pesquisa complexas e de várias etapas em pouco tempo. Ele pesquisa na internet e analisa uma grande quantidade de informações para fornecer aos usuários relatórios abrangentes, semelhantes aos de um analista profissional. Essa ferramenta é otimizada com base no próximo modelo OpenAI o3 e pode processar texto, imagens e arquivos PDF. É adequada para usuários que precisam realizar pesquisas aprofundadas, como profissionais de finanças, ciências, políticas e engenharia, além de consumidores que precisam de recomendações personalizadas.

Multimodal
Feb 2

January

Todos (28)
OpenAI (4)
Mistral AI (2)
DeepSeek (3)
Anthropic (1)
小红书 (1)
ByteDance (3)
腾讯 (1)
MoonshotAI (1)
​Luma AI (1)
Black Forest Labs (1)
Moonshot AI (1)
MiniMax (1)
Jina AI (1)
阿里妈妈 (1)
商汤科技 (1)
阿里巴巴 (1)
Moondream (1)
OpenBMB (1)
Nvidia (1)
Jarvis (1)

🔥 OpenAI o3-mini

OpenAI o3-miniOpenAI

O OpenAI o3-mini é o mais recente modelo de raciocínio lançado pela OpenAI, otimizado para as áreas de Ciência, Tecnologia, Engenharia e Matemática (STEM). Ele oferece uma poderosa capacidade de raciocínio, especialmente em matemática, ciências e programação, mantendo baixo custo e baixa latência. O modelo suporta várias funcionalidades para desenvolvedores, como chamadas de função e saída estruturada, e a intensidade de raciocínio pode ser selecionada de acordo com a necessidade.

Multimodal
Jan 31

🔥 Mistral Small 3

Mistral Small 3Mistral AI

Mistral Small 3 é um modelo de linguagem de código aberto lançado pela Mistral AI, com 24B de parâmetros e licenciado sob a licença Apache 2.0. O modelo foi projetado para baixa latência e alto desempenho, sendo ideal para tarefas de IA generativa que requerem respostas rápidas. Ele alcança 81% de precisão no benchmark de compreensão de linguagem multitarefa (MMLU) e é capaz de gerar texto a uma velocidade de 150 tokens por segundo.

Linguagem
Jan 30

🔥 ChatGPT Gov

ChatGPT GovOpenAI

O ChatGPT Gov é uma versão do modelo de IA personalizado pela OpenAI para agências governamentais americanas, projetado para ajudar essas agências a usar a tecnologia de IA de forma eficiente para resolver problemas complexos. Ele é baseado na tecnologia de ponta da OpenAI e suporta o trabalho do governo em áreas como saúde pública, infraestrutura e segurança nacional, ao mesmo tempo em que atende a rigorosos requisitos de segurança cibernética e conformidade.

Multimodal
Jan 28

🔥 Janus-Pro

Janus-ProDeepSeek

Janus-Pro é um modelo multimodais avançado desenvolvido pela equipe DeepSeek, focado em unificar tarefas de compreensão e geração multimodais. Ele resolve o conflito em tarefas de compreensão e geração presentes em modelos tradicionais por meio do desacoplamento do caminho de codificação visual. O modelo é baseado na poderosa arquitetura Transformer e consegue lidar com tarefas multimodais complexas, como perguntas e respostas visuais e geração de imagens.

Multimodal
Jan 27

Anthropic API Citations

Anthropic API CitationsAnthropic

O recurso Citações da API Anthropic é uma tecnologia poderosa que permite ao modelo Claude citar frases e parágrafos exatos de arquivos de origem ao gerar respostas. Esse recurso não apenas melhora a verificabilidade e a credibilidade das respostas, mas também reduz os problemas de alucinação que o modelo pode apresentar.

linguagem
Jan 24

FireRedASR

FireRedASR小红书

FireRedASR é uma família de modelos de Reconhecimento Automático de Fala (ASR) em mandarim, de código aberto e nível industrial, projetada para atender às diversas necessidades de desempenho excepcional e eficiência ideal em diferentes aplicações. Ele inclui duas variantes: FireRedASR-LLM e FireRedASR-AED. A importância dessa tecnologia reside em impulsionar o desenvolvimento da tecnologia de reconhecimento de fala, fornecendo soluções eficientes e precisas para aplicações de nível industrial.

Áudio
Jan 24

🔥 Operator

OperatorOpenAI

O Operator é um produto de agente inteligente lançado pela OpenAI, que combina a capacidade visual do GPT-4 com a capacidade de raciocínio avançado do aprendizado por reforço para interagir com interfaces gráficas do usuário como um humano. Ele pode lidar com várias tarefas repetitivas do navegador, como preencher formulários e pedir mantimentos, ajudando os usuários a economizar tempo.

Multimodal
Jan 23

🔥 CUA

CUAOpenAI

Agente que Usa Computador (AUC) é um modelo de inteligência artificial avançado desenvolvido pela OpenAI, combinando a capacidade visual do GPT-4o com capacidades de raciocínio aprimoradas por meio de aprendizado por reforço. Ele pode interagir com interfaces gráficas do usuário (GUI) como um humano, sem depender de APIs de sistemas operacionais específicos ou interfaces de rede. A flexibilidade do AUC permite que ele execute tarefas em vários ambientes digitais, como preencher formulários e navegar na web.

Multimodal
Jan 23

🔥 Doubao-1.5-pro

Doubao-1.5-proByteDance

Doubao-1.5-pro é um modelo de linguagem grande MoE (Mixture of Experts) de alto desempenho desenvolvido pela equipe Doubao. Através de um design integrado de treinamento e inferência, o modelo alcançou um equilíbrio extremo entre desempenho do modelo e desempenho de inferência. Ele se destaca em vários benchmarks de avaliação pública, especialmente em eficiência de inferência e capacidade multimodal. O modelo é adequado para cenários que exigem inferência eficiente e interação multimodal, como processamento de linguagem natural, reconhecimento de imagem e interação de voz.

Multimodal
Jan 22

UI-TARS

UI-TARSByteDance

UI-TARS é um novo modelo de agente GUI desenvolvido pela ByteDance, focado em interação perfeita com interfaces gráficas do usuário por meio de capacidades de percepção, raciocínio e ação semelhantes às humanas. O modelo integra componentes-chave como percepção, raciocínio, localização e memória em um único modelo de linguagem visual, permitindo a automação de tarefas ponta a ponta sem a necessidade de fluxos de trabalho predefinidos ou regras manuais.

Multimodal
Jan 22

Hunyuan3D 2.0

Hunyuan3D 2.0腾讯

Hunyuan3D 2.0 é um sistema avançado de síntese 3D em grande escala lançado pela Tencent, focado na geração de ativos 3D texturizados de alta resolução. O sistema inclui dois componentes básicos: o modelo de geração de formas em grande escala Hunyuan3D-DiT e o modelo de síntese de texturas em grande escala Hunyuan3D-Paint. Ele resolve o problema do desacoplamento da geração de formas e texturas, fornecendo aos usuários uma plataforma flexível para criação de ativos 3D.

Imagem
Jan 21

🔥 DeepSeek-R1

DeepSeek-R1DeepSeek

DeepSeek-R1 é o primeiro modelo de raciocínio lançado pela equipe DeepSeek. Treinado com aprendizado por reforço em larga escala, ele demonstra capacidade excepcional de raciocínio sem precisar de ajuste fino supervisionado. O modelo apresenta desempenho excelente em tarefas de matemática, codificação e raciocínio, sendo comparável ao modelo OpenAI-o1. DeepSeek-R1 também oferece vários modelos destilados, adequados a cenários com diferentes escalas e necessidades de desempenho.

Linguagem
Jan 20

🔥 Kimi k1.5

Kimi k1.5MoonshotAI

Kimi k1.5 é um modelo de linguagem multimodal desenvolvido pela MoonshotAI, que utiliza aprendizado por reforço e técnicas de extensão de contexto longo para melhorar significativamente o desempenho do modelo em tarefas complexas de raciocínio. Este modelo atingiu níveis de desempenho líderes do setor em vários testes de referência, como as tarefas de raciocínio matemático AIME e MATH-500, superando o GPT-4o e o Claude Sonnet 3.5.

Linguagem
Jan 20

🔥 Trae

TraeByteDance

Trae é um ambiente de desenvolvimento integrado (IDE) baseado em IA para desenvolvedores. Ele ajuda os desenvolvedores a escrever código de forma mais eficiente por meio de recursos como preenchimento inteligente de código, interação multimodal e análise de contexto de toda a base de código.

Linguagem
Jan 20

🔥 Ray2

Ray2​Luma AI

A Luma AI lançou o modelo de geração de vídeo Ray2, que oferece efeitos de movimento mais rápidos e naturais. Suporta principalmente a função de geração de vídeo a partir de texto, permitindo que os usuários insiram uma descrição e gerem vídeos curtos de 5 a 10 segundos.

Vídeo
Jan 16

FLUX Pro Finetuning API

FLUX Pro Finetuning APIBlack Forest Labs

A API de Fine-tuning do FLUX Pro, lançada pela Black Forest Labs, é uma ferramenta de personalização para modelos generativos de texto para imagem. Ela permite que os usuários façam o fine-tuning do modelo FLUX Pro com um pequeno número de imagens de exemplo (1-5) para gerar conteúdo de imagem de alta qualidade que atenda a necessidades específicas de marca, estilo ou visual.

imagem
Jan 16

🔥 moonshot-v1-vision-preview

moonshot-v1-vision-previewMoonshot AI

O modelo de visão Kimi é uma tecnologia avançada de compreensão de imagens fornecida pela plataforma aberta Moonshot AI. Ele consegue identificar e compreender com precisão o texto, as cores e as formas dos objetos contidos em imagens, oferecendo aos usuários uma poderosa capacidade de análise visual.

Imagem
Jan 15

🔥 MiniMax-01 series

MiniMax-01 seriesMiniMax

A série MiniMax-01 é um modelo de código aberto lançado pela MiniMax, incluindo MiniMax-Text-01 e MiniMax-VL-01. Esta série implementa pela primeira vez em larga escala o inovador mecanismo de atenção relâmpago, oferecendo desempenho comparável aos modelos de ponta globais, podendo processar eficientemente contextos extra longos de até 4 milhões de tokens. É um precursor da era dos agentes de IA.

Imagem
Jan 15

ReaderLM v2

ReaderLM v2Jina AI

O ReaderLM v2 é um pequeno modelo de linguagem de 1,5B de parâmetros lançado pela Jina AI, especializado na conversão de HTML para Markdown e na extração de HTML para JSON, com precisão excepcional. O modelo suporta 29 idiomas e consegue processar comprimentos combinados de entrada e saída de até 512K tokens.

Linguagem
Jan 15

🔥 Codestral 25.01

Codestral 25.01Mistral AI

Codestral 25.01 é um modelo de assistência de programação avançado lançado pela Mistral AI, representando a tecnologia de ponta atual na área de modelos de programação. O modelo é leve, rápido e domina mais de 80 linguagens de programação, sendo otimizado para cenários de uso de baixa latência e alta frequência, e suporta tarefas como preenchimento de código (FIM), correção de código e geração de testes.

Linguagem
Jan 14

🔥 万相营造

万相营造阿里妈妈

Wanxiang Yingzao é uma ferramenta de design criativo de IA lançada pela Alibaba Mama, destinada a ajudar os comerciantes a gerar rapidamente materiais criativos de alta qualidade e melhorar a eficácia do marketing. Ela utiliza tecnologia de IA avançada para realizar conversão de imagem para vídeo, prova virtual de roupas, geração de textos e muitas outras funções, atendendo às necessidades dos comerciantes de e-commerce em diferentes cenários de marketing.

Vídeo
Jan 14

🔥 DeepSeek APP

DeepSeek APPDeepSeek

O aplicativo DeepSeek foi oficialmente lançado, com versões disponíveis para iOS e Android.

Linguagem
Jan 13

🔥 日日新融合大模型

日日新融合大模型商汤科技

A SenseTime lançou o modelo de fusão "Rixin", com capacidade de raciocínio profundo e processamento multimodal significativamente aprimorados.

Linguagem
Jan 10

🔥 通义万相2.1模型

通义万相2.1模型阿里巴巴

O modelo de geração de vídeo Tongyi Wanxiang da Alibaba lançou a nova versão 2.1

Vídeo
Jan 9

🔥 Moondream2

Moondream2Moondream

Moondream é um modelo de linguagem visual pequeno, projetado para funcionar de forma eficiente em dispositivos de borda.

Linguagem
Jan 9

🔥 OpenBMB PRIME

OpenBMB PRIMEOpenBMB

Eurus-2-7B-PRIME, semelhante ao o1, foi treinado usando o método PRIME (Process Reward via Implicit REward), uma solução de aprendizado por reforço on-line (RL) de código aberto com recompensas processuais para melhorar a capacidade de raciocínio ou destilação de modelos de linguagem além da imitação. Ele começa com Eurus-2-7B-SFT e é treinado em Eurus-2-RL-Data.

Linguagem
Jan 7

🔥 Nvidia Cosmos

Nvidia CosmosNvidia

NVIDIA Cosmos™ é uma plataforma composta por modelos básicos de geração de mundo (WFM) de última geração, tokenizadores avançados, mecanismos de segurança e pipelines acelerados de processamento e gerenciamento de dados, projetados para acelerar o desenvolvimento de sistemas de IA física, como veículos autônomos (AV) e robótica.

Vídeo
Jan 6

🔥 J1 Assistant

J1 AssistantJarvis

O projeto de inicialização de IA da empresa de Luo Yonghao, Jarvis, lançou silenciosamente um aplicativo de assistente de IA chamado “J1Assistant”. Atualmente, o aplicativo está disponível apenas para Android no exterior.

linguagem
Jan 6