AI

在JEPA （Joint Embedding Predictive Architecture，联合嵌入预测架构）模型的潜在空间中进行规划，可在新环境布局泛化、轨迹拼接和数据效率方面获得良好效果

发表评论 / Tech / NullThought

论文Learning from Reward-Free Offline Data: A Case for Pl […]

在JEPA （Joint Embedding Predictive Architecture，联合嵌入预测架构）模型的潜在空间中进行规划，可在新环境布局泛化、轨迹拼接和数据效率方面获得良好效果 Read More »

用ChatGPT o3-mini-high分析Deepseek刚开源的FlashMLA

发表评论 / IT, Tech / NullThought

用ChatGPT o3-mini-high分析Deepseek刚开源的FlashMLA。上传FlashMLA工

用ChatGPT o3-mini-high分析Deepseek刚开源的FlashMLA Read More »

Evo 2：涵盖所有生命领域基因组数据集的生物学基础模型

发表评论 / Tech, 科学 / NullThought

论文Genome modeling and design across all domains of life

Evo 2：涵盖所有生命领域基因组数据集的生物学基础模型 Read More »

AI味儿浓郁的词，中文如“旨在”，英文如“Delve”

发表评论 / Tech, 杂谈 / NullThought

ChatGPT输出的中文内容，常喜欢用“旨在”这词儿。故每次用AI辅助写作时，只要有“旨在”，俺都要将其改掉，

AI味儿浓郁的词，中文如“旨在”，英文如“Delve” Read More »

NSA（Native Sparse Attention）机制：原生可训练的稀疏注意力架构，通过硬件对齐优化和算法创新实现高效长序列建模

发表评论 / Tech / NullThought

论文Native Sparse Attention: Hardware-Aligned and Nativel

NSA（Native Sparse Attention）机制：原生可训练的稀疏注意力架构，通过硬件对齐优化和算法创新实现高效长序列建模 Read More »

UltraMem：利用大规模的超稀疏内存层（Ultra-Sparse Memory Layer）显著提升Transformer模型性能

发表评论 / Tech / NullThought

论文Ultra-Sparse Memory Network提出了一种名为UltraMem的新型神经网络架构，解

UltraMem：利用大规模的超稀疏内存层（Ultra-Sparse Memory Layer）显著提升Transformer模型性能 Read More »