每周精选 AI 领域最值得关注的进展、论文与工具。
本周焦点
GPT-4o 正式发布
OpenAI 发布了新一代多模态旗舰模型 GPT-4o,支持实时语音、图像与文本的混合输入输出。推理速度相比 GPT-4 Turbo 提升 2x,成本降低 50%。
值得关注的几个细节:
- 实时语音对话:延迟降至 232ms,接近人类对话水平
- 情绪感知:能从声音语调判断用户情绪
- 视觉理解:可实时分析摄像头画面
Llama 3 开源表现超预期
Meta 发布 Llama 3(8B / 70B),在多个 benchmark 上超越同量级闭源模型,8B 版本在 MMLU 上达到 68.4%。
论文精选
| 论文 | 核心贡献 |
|---|---|
| KV Cache Quantization | 将 KV Cache 压缩至 2bit,长上下文推理节省 70% 显存 |
| LoRA+ | 自适应学习率的 LoRA 变体,微调效果提升 2% |
工具推荐
- Ollama 0.1.32:本地运行 LLM 的最佳工具,新增 Llama 3 支持
- LangGraph:基于图的 Agent 编排框架,比 LangChain 更灵活
下周预告
Google I/O 将于下周召开,Gemini 1.5 Pro 正式版和 Project Astra 值得重点关注。
