维度ElevenLabsOpenAI TTS(gpt-4o-mini-tts / Audio API)Azure Speech TTSGoogle Cloud TTSDeepgram Aura整体定位专注 AI 音频(TTS + 配音 + 声音克隆 + 音效 + 音乐),偏内容创 Read more
Gemini快速整合进Google全家桶,包括Google地球。视频中尝试了两个例子:1. 上海市区内,统计在画出的任意多边形区域内的所有电动汽车充电桩数量;2.在地球上标出人口超过1亿的国家。 Gemini has been quickly integrated across Read more
论文Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning主要提出了一个叫 Agent0 的框架,用来让大模型“自我进化”,而且完全不依赖人工标注数据,同时又能学会比 Read more
GPU 是“通用的并行计算显卡”,适合各种深度学习和通用高性能计算;TPU 是“为神经网络矩阵运算量身定制的专用芯片”,在特定场景(尤其谷歌自家业务)里更高效,但通用性和生态不如 GPU。 一、设计目标和定位 GPU(Graphics Processing Unit) TPU(T Read more
对于“深度学习”,很多“深度”其实是一种错觉:表面上是网络多了很多层、参数和算力,但真正决定模型能力的,经常是它内部有多少层“学习过程”和“记忆系统”,而不只是堆了几层网络。因此,论文Nested Learning: The Illusion of Deep Learning A Read more
论文Forecasting the eddying ocean with a deep neural network要解决的问题是:在全球 1/12° 高分辨率(能清楚看到中尺度涡)的情况下,能不能用一个深度神经网络来做全球海洋短期预报,在精度上不输给、甚至超过最先进的数值海洋模 Read more
一、模型定位与总体能力 二、模型架构与训练实现 三、训练数据与数据处理 四、分发与使用渠道 Gemini 3 Pro 通过多种产品形态对外提供,包括: 五、评测结果与能力提升 六、预期用途、限制与知识截止 七、内容安全与伦理机制 八、风险与缓解措施 九、前沿安全(Frontier Read more
试了一下Nano Banana Pro,生成一张信息图。输出结果很赞。 Prompt为:画一张infographic图,详细解释针对振动波形做快速傅里叶变换(FFT)和连续小波变换(CWT)。文字说明通俗易懂。画质为8K。 结果超乎想象得好。 Read more
SIMA 2 本质上是一个「Gemini 驱动的 3D 游戏通用智能体」:它不再只是听话执行指令,而是能在虚拟 3D 世界里看画面、理解你的高层目标、自己做计划、边玩边学、还能和你对话解释自己在干什么。Google DeepMind+1 一、SIMA 2 是什么?定位与目标 可以 Read more
Roofline 目前本质上是一家 做“下一代 AI 编译器 + SDK”的边缘算力平台公司,产品形态可以理解为: “把任意框架里的模型,一行 Python 调用,编译并部署到各种 CPU / GPU / NPU / SoC 上的工具链和运行时”。 一、核心产品:Roofline Read more
File Search Tool 本质上就是 Google 给 Gemini 做好的“一体化托管 RAG 管线”。 一、它到底是什么?放在 Gemini 里的“托管 RAG 引擎” 简单一句话:这是给 Gemini 做的“官方知识库 + 检索后自动引用”的服务。 二、核心概念:F Read more



