站内搜索

大语言模型LLM

DeepSeek-R1技术报告概述

发表评论 / Tech / NullThought

近年来，大规模语言模型（LLMs）的快速发展使其在推理、代码生成、科学计算等任务上展现出越来越强的能力，逐步缩 […]

DeepSeek-R1技术报告概述 Read More »

Mind Evolution：结合基因搜索算法与LLM的生成能力，利用进化策略在自然语言空间中高效搜索解决方案

发表评论 / Tech / NullThought

论文Evolving Deeper LLM Thinking提出了一种创新的进化搜索策略——Mind Evol

Mind Evolution：结合基因搜索算法与LLM的生成能力，利用进化策略在自然语言空间中高效搜索解决方案 Read More »

Gated DeltaNet架构：结合门控机制和Delta更新规则，提升线性Transformer在长序列建模和信息检索任务中的表现

发表评论 / Tech / NullThought

论文Gated Delta Networks: Improving Mamba2 with Delta Rul

Gated DeltaNet架构：结合门控机制和Delta更新规则，提升线性Transformer在长序列建模和信息检索任务中的表现 Read More »

FACTS Grounding：用于评估大型语言模型（LLMs）基于长文档生成事实性（factuality ）准确回答能力的基准测试

发表评论 / Tech / NullThought

幻觉（Hallucinations，即事实性不准确的回答）依然困扰着大型语言模型（LLMs）。尤其是在面对更复

FACTS Grounding：用于评估大型语言模型（LLMs）基于长文档生成事实性（factuality ）准确回答能力的基准测试 Read More »

浅谈In-Context Learning (ICL)，“上下文学习” 、 “情境学习”或者“内在学习”

发表评论 / Tech / NullThought

In-Context Learning (ICL) 可翻译为 “上下文学习” 、 “情境学习”或者“内在学习”

浅谈In-Context Learning (ICL)，“上下文学习” 、 “情境学习”或者“内在学习” Read More »

GraphToken：实现图推理（graph reasoning）能力显著提升

发表评论 / Tech / NullThought

论文Let Your Graph Do the Talking: Encoding Structured Da

GraphToken：实现图推理（graph reasoning）能力显著提升 Read More »