在JEPA (Joint Embedding Predictive Architecture,联合嵌入预测架构)模型的潜在空间中进行规划,可在新环境布局泛化、轨迹拼接和数据效率方面获得良好效果
论文Learning from Reward-Free Offline Data: A Case for Pl […]
论文Learning from Reward-Free Offline Data: A Case for Pl […]
用ChatGPT o3-mini-high分析Deepseek刚开源的FlashMLA。上传FlashMLA工
用ChatGPT o3-mini-high分析Deepseek刚开源的FlashMLA Read More »
论文Genome modeling and design across all domains of life
Evo 2:涵盖所有生命领域基因组数据集的生物学基础模型 Read More »
ChatGPT输出的中文内容,常喜欢用“旨在”这词儿。故每次用AI辅助写作时,只要有“旨在”,俺都要将其改掉,
AI味儿浓郁的词,中文如“旨在”,英文如“Delve” Read More »
论文Native Sparse Attention: Hardware-Aligned and Nativel
NSA(Native Sparse Attention)机制:原生可训练的稀疏注意力架构,通过硬件对齐优化和算法创新实现高效长序列建模 Read More »
论文Ultra-Sparse Memory Network提出了一种名为UltraMem的新型神经网络架构,解
UltraMem:利用大规模的超稀疏内存层(Ultra-Sparse Memory Layer)显著提升Transformer模型性能 Read More »