Human I/O是一种统一的方法,它使用自我中心视觉(egocentric vision)、多模态感知(multimodal sensing)和大语言模型推理(LLM reasoning)来检测情境性障碍,并评估用户在特定情境下使用手、视觉、听觉或语音进行交互的能力。 我们每天 Read more
论文《BAKU:用于多任务策略学习的高效transformer架构》BAKU: An Efficient Transformer for Multi-Task Policy Learning 作者: Siddhant Haldar, Zhuoran Peng, Lerrel Pi Read more
每个人的健康和保健之旅都是独特的,AI可以帮助创造更个性化的健康体验以匹配这种独特性。Google Research正在研究如何通过微调Gemini模型用于个人健康和保健,以解锁消费者的新洞见和互动。想象一下,一个不仅能理解您可穿戴设备中的健康数据,还能为您提供个性化洞见和建议的 Read more
Deep Patch Visual Odometry (DPVO)是来自普林斯顿大学的Zachary Teed、Lahav Lipson和Jia Deng的最新研究成果。DPVO 是一种单目视觉里程计(VO)系统,旨在通过跟踪图像块来实现高效、准确的位姿估计。相比传统方法依赖密集 Read more
几天前,一篇题目为《Managing extreme AI risks amid rapid progress》的文章在Science网站上发表,作者为图灵奖得主Yoshua Bengio、Geoffrey Hinton和清华大学姚期智(Andrew Yao),以及其他多位作者。 Read more
看视频截了张图,图上都是核聚变商业公司Logo。使用ChatGPT-4o,从该图片生成Excel表,表格包含公司名称、公司介绍、地点、创建时间、管理团队成员。再转换为PDF文件。总用时不到一分钟👍。 虽说最终的信息校对还是要花点儿时间的,但信息处理的效率是极大提升了。 Just Read more
下载了权重fp16的gpt2大模型,可视化展示其结构层级,层层叠叠,层层叠叠~ Downloaded the GPT-2 large model with FP16 weights. Visualized its hierarchical structure, layer upo Read more
论文《Financial Statement Analysis with Large Language Models》研究了大型语言模型(LLM)是否能成功地进行财务报表分析,并预测未来收益的方向。研究的核心是将标准化和匿名化的财务报表提供给GPT-4,要求其分析这些数据以预测未 Read more
来自Google和DeepMind的团队前几天发表了论文《Capabilities of Gemini Models in Medicine》。这篇论文介绍了 Med-Gemini,这是一系列基于 Gemini 架构的先进多模态医学模型。Med-Gemini 通过自我训练、网络搜 Read more
Transformer是个框,啥都往里装😀,只要是广义的时序数据就行,自然语言、音频、视频、传感数据,以及这篇论文《Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware》研究的机器人动作。当然,前提是 Read more
官司:美国司法部诉Google关于搜索垄断的官司。 邮件:微软CTO Kevin Scott发给CEO Satya Nadella和创始人Bill Gates的邮件,主题为“Re: Thoughts on OpenAl”,时间是2019年6月12日。Scott提到其之前忽视了竞争 Read more