ReFT

ReFT: Aprimorando a capacidade de raciocínio de LLMs

Produto ComumProdutividadeInteligência ArtificialRaciocínio
ReFT é um método simples e eficaz para aprimorar a capacidade de raciocínio de grandes modelos de linguagem (LLMs). Ele primeiro pré-treina o modelo por meio de ajuste fino supervisionado (SFT), e então usa aprendizado por reforço online, especificamente o algoritmo PPO neste artigo, para ajustar ainda mais o modelo. O ReFT supera significativamente o SFT ao amostrar automaticamente um grande número de caminhos de raciocínio para uma questão dada e derivar recompensas naturalmente de respostas corretas. O desempenho do ReFT pode ser ainda melhorado combinando estratégias de tempo de inferência, como votação majoritária e reordenação. Vale ressaltar que o ReFT obtém melhorias aprendendo com os mesmos problemas de treinamento do SFT, sem depender de problemas de treinamento adicionais ou aprimorados. Isso indica que o ReFT possui maior capacidade de generalização.
Abrir Site

ReFT Situação do Tráfego Mais Recente

Total de Visitas Mensais

29742941

Taxa de Rejeição

44.20%

Média de Páginas por Visita

5.9

Duração Média da Visita

00:04:44

ReFT Tendência de Visitas

ReFT Distribuição Geográfica das Visitas

ReFT Fontes de Tráfego

ReFT Alternativas