Página de Pesquisa de Notícias e Produtos de IA

Tipo :

Informação de Notícias
Aplicações de Produtos
Casos de Monetização
Tutoriais de IA

2025-03-06 14:46:43.AIbase

Nova descoberta em busca multimodal! Modelo de vetor multimodal BGE-VL de código aberto do Instituto de Inteligência Artificial de Pequim

Em 6 de março, o Instituto de Pesquisa de Inteligência Artificial de Pequim anunciou o lançamento do modelo de vetor multimodal BGE-VL de código aberto, uma conquista que marca um novo avanço no campo da busca multimodal. O modelo BGE-VL alcançou os melhores resultados em tarefas de busca multimodal, como busca de imagem e texto e busca de imagem combinada, melhorando significativamente o desempenho da busca multimodal.

2025-02-28 17:16:20.AIbase

Netflix contrata cientistas e engenheiros de aprendizado de máquina para impulsionar a inteligência de conteúdo

2025-02-26 09:13:48.AIbase

Microsoft lança o agente de IA multimodal de código aberto “Magma”: capaz de fazer pedidos automáticos e prever comportamentos

Recentemente, a Microsoft lançou oficialmente em seu site um modelo básico de agente de IA multimodal chamado “Magma”. Essa nova inteligência artificial possui a capacidade de transcender os mundos digital e físico, podendo processar simultaneamente vários tipos de dados, como imagens, vídeos e texto. Em comparação com os assistentes de IA tradicionais, a característica única do Magma é sua capacidade de previsão psicológica, permitindo-lhe entender com mais precisão as intenções e comportamentos futuros de pessoas ou objetos em vídeos. As aplicações do Magma são vastas; os usuários podem utilizar essa IA

2025-02-25 11:15:31.AIbase

Família de Guaxinins da SenseTime totalmente atualizada: Fusão multimodal, replicação de páginas da web em 10 segundos

Em 25 de fevereiro, na Conferência Global de Desenvolvedores de 2025 da SenseTime, a SenseTime anunciou uma atualização completa de sua ferramenta de produtividade de IA, a família de guaxinins da SenseTime. Essa atualização reforça ainda mais suas capacidades multimodais, acelerando a implementação de aplicativos de IA e evoluindo para um agente de IA. Esta atualização não apenas melhora o desempenho da ferramenta, mas também retorna a IA à sua missão mais básica: ser uma ferramenta de produtividade poderosa.

2025-02-20 09:30:11.AIbase

Modelo de IA multimodal Magma da Microsoft: integrando habilidades de visão, linguagem e tomada de decisão de ação

Recentemente, uma equipe de pesquisa da Microsoft, em colaboração com pesquisadores de várias universidades, lançou um modelo de IA multimodal chamado "Magma". Este modelo foi projetado para processar e integrar vários tipos de dados, como imagens, texto e vídeo, para executar tarefas complexas em ambientes digitais e físicos. Com o avanço da tecnologia, os agentes de IA multimodais estão sendo amplamente aplicados em áreas como robótica, assistentes virtuais e automação de interfaces de usuário. Sistemas de IA anteriores geralmente se concentravam na compreensão de linguagem visual ou na manipulação de robôs, tendo dificuldades em combinar os dois.

2025-02-18 08:55:51.AIbase

Resultados de ponta! Modelo de geração de vídeo Step-Video-T2V de código aberto da Step-Star

Hoje, a Step-Star e o Grupo Geely Auto anunciaram a publicação em código aberto de dois modelos multimodais de grande escala da série Step — o modelo de geração de vídeo Step-Video-T2V e o modelo de áudio Step-Audio. Entre eles, o modelo de geração de vídeo Step-Video-T2V da Step está no nível de ponta global em termos de quantidade de parâmetros e desempenho. Este modelo possui 30 bilhões de parâmetros e pode gerar diretamente vídeos de alta qualidade com 204 quadros e resolução de 540P, garantindo alta densidade de informações e forte consistência do conteúdo gerado. Os resultados da avaliação mostram que...

2025-02-10 11:04:17.AIbase

Meta AI lança o sistema MILS para ensinar LLMs a processar dados multimídia sem treinamento específico

Pesquisadores do Meta AI, em colaboração com parceiros acadêmicos, desenvolveram um sistema inovador – MILS (Resolutor de LLM iterativo multimodal) – que ensina modelos de linguagem grandes a processar imagens, vídeos e áudio sem treinamento específico. O MILS se baseia na capacidade natural de resolução de problemas dos modelos de linguagem, em vez de depender de grandes conjuntos de dados de treinamento, demonstrando sua vantagem única. O MILS funciona emparelhando dois modelos de IA para resolver tarefas: um 'gerador', que propõe soluções para a tarefa, e outro 'avaliador', que avalia a qualidade dessas soluções.

2025-02-10 09:46:56.AIbase

Pequeno e poderoso! Microsoft lança o modelo pequeno LLaVA-Rad para geração precisa de relatórios de radiologia

Recentemente, pesquisadores da Microsoft Research, em conjunto com a Universidade de Washington, Universidade de Stanford, Universidade do Sul da Califórnia, Universidade da Califórnia em Davis e Universidade da Califórnia em São Francisco, lançaram o LLaVA-Rad, um novo modelo multimodal pequeno (SMM) projetado para melhorar a eficiência da geração de relatórios de radiologia clínica. O lançamento deste modelo não apenas marca um grande avanço na tecnologia de processamento de imagens médicas, mas também traz mais possibilidades para aplicações clínicas em radiologia. Na área biomédica, pesquisas baseadas em modelos básicos em larga escala já foram exibidas.

2025-01-28 10:34:39.AIbase

DeepSeek lança novo modelo multimodal de IA, Janus-Pro, com recursos aprimorados

A DeepSeek, empresa de modelos de linguagem de grande porte, lançou o novo modelo multimodal Janus-Pro, marcando sua entrada oficial no campo da geração de imagens por texto. Este lançamento representa um avanço significativo na tecnologia de IA multimodal da DeepSeek. Em testes de referência como GenEval e DPG-Bench, o Janus-Pro-7B não apenas superou o DALL-E3 da OpenAI, mas também modelos populares como Stable Diffusion e Emu3-Gen. O Janus-Pro utiliza licença MIT.

2025-01-21 11:20:27.AIbase

O Lado Escuro da Lua lança o modelo SOTA k1.5 de próxima geração: capacidade de raciocínio multimodal aprimorada

A empresa O Lado Escuro da Lua orgulhosamente apresenta seu novo modelo SOTA (state-of-the-art) — o modelo de raciocínio multimodal k1.5, marcando um grande avanço no raciocínio multimodal e na inferência geral. O modelo não apenas possui excelente capacidade de processamento multimodal, mas também demonstra uma capacidade de raciocínio geral excepcional, capaz de lidar efetivamente com uma variedade de tarefas complexas. O maior destaque do modelo k1.5 reside em sua capacidade de raciocínio multimodal. Ele pode processar simultaneamente informações de diferentes modalidades, como texto, imagens e som, fornecendo assim informações mais completas e precisas.

2025-01-15 10:39:44.AIbase

Nova estrutura VideoRAG: Aprimorando a precisão das respostas de consulta usando conteúdo de vídeo

Com o rápido desenvolvimento da tecnologia de vídeo, os vídeos se tornaram uma ferramenta essencial para a recuperação de informações e a compreensão de conceitos complexos. Os vídeos combinam dados visuais, temporais e contextuais, fornecendo uma representação multimodal que supera as imagens estáticas e o texto. Atualmente, com a proliferação de plataformas de compartilhamento de vídeo e o surgimento de uma grande quantidade de vídeos educacionais e informativos, o uso de vídeos como fonte de conhecimento oferece oportunidades sem precedentes para resolver consultas que exigem contexto detalhado, compreensão espacial e demonstrações de processos. No entanto, os sistemas atuais de geração de recuperação aumentada (RAG) geralmente ignoram todo o potencial dos dados de vídeo. Esses sistemas geralmente

2025-01-15 08:41:23.AIbase

A Alibaba DAMO Academy lança o modelo multimodal Valley 2 para cenários de comércio eletrônico

A Alibaba DAMO Academy lançou recentemente um modelo de linguagem grande multimodal chamado Valley2, projetado para cenários de comércio eletrônico. Ele visa melhorar o desempenho em várias áreas e expandir os limites de aplicação em comércio eletrônico e vídeos curtos por meio de uma arquitetura de linguagem visual escalável. O Valley2 utiliza o Qwen2.5 como base do LLM, juntamente com o codificador visual SigLIP-384, combinando camadas MLP e convoluções para uma conversão de recursos eficiente.

2025-01-14 14:02:29.AIbase

A Step-1V, da Jieyue Xingchen, e a Chá Baodao firmam parceria estratégica; lojas já utilizam o modelo de linguagem multimodal

A Jieyue Xingchen Intelligent Technology Co., Ltd., de Xangai, e a Chá Baodao, renomada marca chinesa de bebidas de chá, anunciaram em 14 de janeiro de 2025 uma parceria estratégica. Essa colaboração visa utilizar a tecnologia de modelo de linguagem de grande escala da Jieyue Xingchen para explorar novos modelos de inspeção inteligente e marketing AIGC, com o objetivo de criar um novo tipo de operação de produção de lojas digitais, oferecendo aos consumidores uma experiência de consumo de chá com leite mais segura, inteligente e divertida.

2025-01-13 09:21:47.AIbase

Sa2VA: Uma estrutura de IA integrada para compreensão profunda de imagens e vídeos

Impulsionadas por modelos de linguagem grandes multimodais (MLLMs), as tarefas relacionadas a imagens e vídeos fizeram progressos revolucionários, incluindo perguntas e respostas visuais, geração de narrativas e edição interativa. No entanto, a compreensão de conteúdo de vídeo de grão fino ainda enfrenta desafios significativos. Este desafio envolve segmentação em nível de pixel, rastreamento com descrições de linguagem e perguntas e respostas visuais em prompts de vídeo específicos. Embora os modelos de percepção de vídeo de última geração demonstrem excelente desempenho em tarefas de segmentação e rastreamento, eles ainda carecem de compreensão de linguagem aberta e capacidade de diálogo. Além disso

2025-01-09 16:19:04.AIbase

Tecnologia SenseTime impulsiona atualização da cabine inteligente: o primeiro sistema de reconhecimento multimodal em streaming do mundo chega a veículos de produção em massa

A divisão SenseAuto da SenseTime alcança mais um marco na área de cabines inteligentes. Por meio de uma parceria profunda com uma montadora líder na China, seu sistema de cabine multimodal em streaming nativo, o primeiro do mundo, foi com sucesso produzido em massa e lançado para os veículos dos usuários por meio de atualização OTA. O principal destaque deste sistema é sua capacidade única de reconhecimento de cenas externas, que inclui três módulos principais: reconhecimento em tempo real do estado do veículo da frente, reconhecimento inteligente de placas de trânsito e percepção de paisagens naturais ao longo do caminho. Essa inovação marca a entrada da tecnologia de cabines inteligentes para veículos em uma nova era de interação multimodal.

2025-01-08 17:12:51.AIbase

Ex-especialista em visão da Microsoft, Hu Han, junta-se à Tencent para liderar o desenvolvimento de modelos de linguagem multimodais

Recentemente, Hu Han, ex-chefe de pesquisa do grupo de computação visual do Microsoft Research Asia, juntou-se oficialmente à Tencent para liderar o desenvolvimento do modelo de linguagem multimodal HunYuan. Essa notícia gerou grande atenção na indústria, e a entrada de Hu Han é considerada um grande impulso para a área de inteligência artificial da Tencent. Hu Han obteve seu diploma de bacharel na Universidade Tsinghua em 2008 e seu doutorado em 2014, sendo orientado pelo renomado professor Zhou Jie. Sua tese de doutorado recebeu o Prêmio de Excelência em Teses de Doutorado da Associação Chinesa de Inteligência Artificial em 2016, demonstrando sua grande proficiência acadêmica. Em 2012, Hu Han...

2025-01-08 17:10:10.AIbase

Ex-especialista em visão da Microsoft, Hu Han, junta-se à Tencent para liderar o desenvolvimento do modelo multimodal HunYuan

Hu Han, ex-chefe de pesquisa do grupo de computação visual do Microsoft Research Asia, juntou-se oficialmente à Tencent, assumindo o desenvolvimento do modelo multimodal HunYuan, substituindo Liu Wei, ex-líder de tecnologia do modelo HunYuan, que deixou a empresa. Esta notícia chamou a atenção da indústria. Hu Han possui um sólido background acadêmico. Em 2008, graduou-se na Universidade Tsinghua e, em 2014, obteve seu doutorado sob a orientação do renomado professor Zhou Jie. Sua tese de doutorado recebeu o Prêmio de Excelência em Teses de Doutorado da Sociedade Chinesa de Inteligência Artificial em 2016. Em 2012, Hu Han trabalhou na Universidade da Pensilvânia...

2025-01-07 09:30:32.AIbase

Nível GPT-4o! VITA-1.5: Interação visual e de voz em tempo real, com latência de 1,5 segundos

Recentemente, a equipe VITA-MLLM anunciou o lançamento do VITA-1.5, uma versão atualizada do VITA-1.0, que visa melhorar a capacidade de resposta e a precisão da interação multimodal. O VITA-1.5 suporta inglês e chinês e apresenta melhorias significativas em vários indicadores de desempenho, proporcionando aos usuários uma experiência de interação mais fluida. No VITA-1.5, a latência de interação foi reduzida significativamente, de 4 segundos para apenas 1,5 segundos, permitindo que os usuários interajam por voz praticamente sem perceber atrasos.

2024-12-31 11:08:11.AIbase

Matriz Ilimitada fecha rodada anjo de milhões, visando criar um mentor de IA multimodal

A Yangzhou Matrix Ilimitada Technology Co., Ltd. (doravante “Matriz Ilimitada”) recentemente concluiu com sucesso uma rodada anjo de mais de 10 milhões de yuans, com uma avaliação de bilhões de yuans, com a força de investimento da Lihe Financial. Como uma empresa de tecnologia de inteligência artificial fundada em 2024, a missão central da Matriz Ilimitada é criar um “mentor de IA” que integra tecnologia multimodal, raciocínio eficiente, confiabilidade e interação emocional, a fim de fornecer aos alunos não apenas habilidades tecnológicas, mas também companhia emocional personalizada. O Dr. Cui Sen, fundador, é um excelente graduado da Universidade Tsinghua e trabalhou em Qian Xuesen

2024-12-30 11:32:22.AIbase

Alipay lança 'Tanta Uma', novo produto de busca visual com IA: explorando tudo com o olhar da IA

Em 30 de dezembro, o Alipay lançou 'Tanta Uma', um novo produto de busca visual com IA, baseado em sua tecnologia de modelo multimodal grande, que permite 'explorar tudo com o olhar da IA', oferecendo um serviço de busca generativa mais rápido, útil e divertido. Os usuários podem usar a câmera do celular para que a IA reconheça plantas, animais de estimação e brinquedos colecionáveis, forneça explicações turísticas, procure detalhes de produtos e medicamentos, além de oferecer interpretações divertidas de fotos de animais de estimação e bebês, facilitando a criação de legendas para as fotos. O produto já está disponível no Alipay; basta clicar em 'Escanear' na página inicial e deslizar para a esquerda para encontrá-lo.

Pesquise as tendências globais de produtos de IA

Pesquise informações globais de IA e descubra novas oportunidades de IA

Nova descoberta em busca multimodal! Modelo de vetor multimodal BGE-VL de código aberto do Instituto de Inteligência Artificial de Pequim

Netflix contrata cientistas e engenheiros de aprendizado de máquina para impulsionar a inteligência de conteúdo

Microsoft lança o agente de IA multimodal de código aberto “Magma”: capaz de fazer pedidos automáticos e prever comportamentos

Família de Guaxinins da SenseTime totalmente atualizada: Fusão multimodal, replicação de páginas da web em 10 segundos

Modelo de IA multimodal Magma da Microsoft: integrando habilidades de visão, linguagem e tomada de decisão de ação

Resultados de ponta! Modelo de geração de vídeo Step-Video-T2V de código aberto da Step-Star

Meta AI lança o sistema MILS para ensinar LLMs a processar dados multimídia sem treinamento específico

Pequeno e poderoso! Microsoft lança o modelo pequeno LLaVA-Rad para geração precisa de relatórios de radiologia

DeepSeek lança novo modelo multimodal de IA, Janus-Pro, com recursos aprimorados

O Lado Escuro da Lua lança o modelo SOTA k1.5 de próxima geração: capacidade de raciocínio multimodal aprimorada

Nova estrutura VideoRAG: Aprimorando a precisão das respostas de consulta usando conteúdo de vídeo

A Alibaba DAMO Academy lança o modelo multimodal Valley 2 para cenários de comércio eletrônico

A Step-1V, da Jieyue Xingchen, e a Chá Baodao firmam parceria estratégica; lojas já utilizam o modelo de linguagem multimodal

Sa2VA: Uma estrutura de IA integrada para compreensão profunda de imagens e vídeos

Tecnologia SenseTime impulsiona atualização da cabine inteligente: o primeiro sistema de reconhecimento multimodal em streaming do mundo chega a veículos de produção em massa

Ex-especialista em visão da Microsoft, Hu Han, junta-se à Tencent para liderar o desenvolvimento de modelos de linguagem multimodais

Ex-especialista em visão da Microsoft, Hu Han, junta-se à Tencent para liderar o desenvolvimento do modelo multimodal HunYuan

Nível GPT-4o! VITA-1.5: Interação visual e de voz em tempo real, com latência de 1,5 segundos

Matriz Ilimitada fecha rodada anjo de milhões, visando criar um mentor de IA multimodal

Alipay lança 'Tanta Uma', novo produto de busca visual com IA: explorando tudo com o olhar da IA

Pesquise as tendências globais de produtos de IA

Pesquise informações globais de IA e descubra novas oportunidades de IA

Nova descoberta em busca multimodal! Modelo de vetor multimodal BGE-VL de código aberto do Instituto de Inteligência Artificial de Pequim

Netflix contrata cientistas e engenheiros de aprendizado de máquina para impulsionar a inteligência de conteúdo

​Microsoft lança o agente de IA multimodal de código aberto “Magma”: capaz de fazer pedidos automáticos e prever comportamentos

Família de Guaxinins da SenseTime totalmente atualizada: Fusão multimodal, replicação de páginas da web em 10 segundos

Modelo de IA multimodal Magma da Microsoft: integrando habilidades de visão, linguagem e tomada de decisão de ação

Resultados de ponta! Modelo de geração de vídeo Step-Video-T2V de código aberto da Step-Star

Meta AI lança o sistema MILS para ensinar LLMs a processar dados multimídia sem treinamento específico

Pequeno e poderoso! Microsoft lança o modelo pequeno LLaVA-Rad para geração precisa de relatórios de radiologia

DeepSeek lança novo modelo multimodal de IA, Janus-Pro, com recursos aprimorados

O Lado Escuro da Lua lança o modelo SOTA k1.5 de próxima geração: capacidade de raciocínio multimodal aprimorada

Nova estrutura VideoRAG: Aprimorando a precisão das respostas de consulta usando conteúdo de vídeo

A Alibaba DAMO Academy lança o modelo multimodal Valley 2 para cenários de comércio eletrônico

A Step-1V, da Jieyue Xingchen, e a Chá Baodao firmam parceria estratégica; lojas já utilizam o modelo de linguagem multimodal

Sa2VA: Uma estrutura de IA integrada para compreensão profunda de imagens e vídeos

Tecnologia SenseTime impulsiona atualização da cabine inteligente: o primeiro sistema de reconhecimento multimodal em streaming do mundo chega a veículos de produção em massa

Ex-especialista em visão da Microsoft, Hu Han, junta-se à Tencent para liderar o desenvolvimento de modelos de linguagem multimodais

Ex-especialista em visão da Microsoft, Hu Han, junta-se à Tencent para liderar o desenvolvimento do modelo multimodal HunYuan

Nível GPT-4o! VITA-1.5: Interação visual e de voz em tempo real, com latência de 1,5 segundos

Matriz Ilimitada fecha rodada anjo de milhões, visando criar um mentor de IA multimodal

Alipay lança 'Tanta Uma', novo produto de busca visual com IA: explorando tudo com o olhar da IA

Microsoft lança o agente de IA multimodal de código aberto “Magma”: capaz de fazer pedidos automáticos e prever comportamentos