AI 周刊 #001 · GPT-4o 登场,多模态时代正式开启

每周精选 AI 领域最值得关注的进展、论文与工具。

本周焦点

GPT-4o 正式发布

OpenAI 发布了新一代多模态旗舰模型 GPT-4o,支持实时语音、图像与文本的混合输入输出。推理速度相比 GPT-4 Turbo 提升 2x,成本降低 50%。

值得关注的几个细节:

  • 实时语音对话:延迟降至 232ms,接近人类对话水平
  • 情绪感知:能从声音语调判断用户情绪
  • 视觉理解:可实时分析摄像头画面

Llama 3 开源表现超预期

Meta 发布 Llama 3(8B / 70B),在多个 benchmark 上超越同量级闭源模型,8B 版本在 MMLU 上达到 68.4%。

论文精选

论文核心贡献
KV Cache Quantization将 KV Cache 压缩至 2bit,长上下文推理节省 70% 显存
LoRA+自适应学习率的 LoRA 变体,微调效果提升 2%

工具推荐

  • Ollama 0.1.32:本地运行 LLM 的最佳工具,新增 Llama 3 支持
  • LangGraph:基于图的 Agent 编排框架,比 LangChain 更灵活

下周预告

Google I/O 将于下周召开,Gemini 1.5 Pro 正式版和 Project Astra 值得重点关注。

SkySeraph
SkySeraph
AI for All & All for AI
留言 Comments