约束生成策略优化(CGPO)框架解决基于人类反馈强化学习(RLHF)在多任务学习(MTL)中的局限性
论文The Perfect Blend: Redefining RLHF with Mixture of Ju […]
约束生成策略优化(CGPO)框架解决基于人类反馈强化学习(RLHF)在多任务学习(MTL)中的局限性 Read More »
论文The Perfect Blend: Redefining RLHF with Mixture of Ju […]
约束生成策略优化(CGPO)框架解决基于人类反馈强化学习(RLHF)在多任务学习(MTL)中的局限性 Read More »
论文To CoT or not to CoT? Chain-of-thought helps mainly o
CoT(Chain of Thought)在数学和符号推理任务中表现突出 Read More »
论文A toolbox for surfacing health equity harms and biase
识别和评估大型语言模型(LLM)在医疗健康领域的潜在偏见和健康不公平 Read More »
论文Bendable non-silicon RISC-V microprocessor详细描述了一个基于非硅
Flex-RV:基于非硅技术的可弯曲32位RISC-V微处理器 Read More »
论文Retrieval Augmented Generation (RAG) and Beyond: A Co
不同场景下,RAG如何有效将外部数据与LLMs集成 Read More »