<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>GPT-4o on SkySeraph</title><link>https://skyseraph.github.io/tags/gpt-4o/</link><description>Recent content in GPT-4o on SkySeraph</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Mon, 13 May 2024 00:00:00 +0000</lastBuildDate><atom:link href="https://skyseraph.github.io/tags/gpt-4o/index.xml" rel="self" type="application/rss+xml"/><item><title>AI 周刊 #001 · GPT-4o 登场，多模态时代正式开启</title><link>https://skyseraph.github.io/series/ai-weekly/2024/001/</link><pubDate>Mon, 13 May 2024 00:00:00 +0000</pubDate><guid>https://skyseraph.github.io/series/ai-weekly/2024/001/</guid><description>&lt;blockquote&gt;
&lt;p&gt;每周精选 AI 领域最值得关注的进展、论文与工具。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id="本周焦点"&gt;本周焦点&lt;/h2&gt;
&lt;h3 id="gpt-4o-正式发布"&gt;GPT-4o 正式发布&lt;/h3&gt;
&lt;p&gt;OpenAI 发布了新一代多模态旗舰模型 GPT-4o，支持实时语音、图像与文本的混合输入输出。推理速度相比 GPT-4 Turbo 提升 2x，成本降低 50%。&lt;/p&gt;
&lt;p&gt;值得关注的几个细节：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;实时语音对话&lt;/strong&gt;：延迟降至 232ms，接近人类对话水平&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;情绪感知&lt;/strong&gt;：能从声音语调判断用户情绪&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;视觉理解&lt;/strong&gt;：可实时分析摄像头画面&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="llama-3-开源表现超预期"&gt;Llama 3 开源表现超预期&lt;/h3&gt;
&lt;p&gt;Meta 发布 Llama 3（8B / 70B），在多个 benchmark 上超越同量级闭源模型，8B 版本在 MMLU 上达到 68.4%。&lt;/p&gt;
&lt;h2 id="论文精选"&gt;论文精选&lt;/h2&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;论文&lt;/th&gt;
 &lt;th&gt;核心贡献&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;KV Cache Quantization&lt;/td&gt;
 &lt;td&gt;将 KV Cache 压缩至 2bit，长上下文推理节省 70% 显存&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;LoRA+&lt;/td&gt;
 &lt;td&gt;自适应学习率的 LoRA 变体，微调效果提升 2%&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="工具推荐"&gt;工具推荐&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Ollama 0.1.32&lt;/strong&gt;：本地运行 LLM 的最佳工具，新增 Llama 3 支持&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;LangGraph&lt;/strong&gt;：基于图的 Agent 编排框架，比 LangChain 更灵活&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="下周预告"&gt;下周预告&lt;/h2&gt;
&lt;p&gt;Google I/O 将于下周召开，Gemini 1.5 Pro 正式版和 Project Astra 值得重点关注。&lt;/p&gt;</description></item></channel></rss>