核心内容摘要
手把手教你用 FastAPI + LangGraph搭建 AI 工作流
背景与痛点把把对话界面做到线上最怕的不是模型答得不对而是“转圈”太久。
。
实测下来- 首句响应 800 ms用户就开始皱眉首句
5 s跳出率直接翻倍如果再把 TTS 拉进来端到端延迟飙到 2 s 以上基本就没人愿意继续聊。
除了“慢”还有“卡”长会话里 DOM 节点无限累加滚动条一拉就掉帧高并发时后端 WebSocket 通道打满消息乱序、重连风暴安全层面前端把历史消息全丢给浏览器一按 F12 全裸奔。
这些痛点倒逼我们在“Chatbot UI”与“OpenWeb UI”两条路线之间做取舍。
技术选型对比维度Chatbot UI轻量 SDK 嵌入OpenWeb UI全栈自托管定位把对话窗当组件几行 JS 就能插到任意网页把对话当系统自带用户、插件、知识库、模型路由性能体积小 100 KB首屏快但所有逻辑走后端网络抖动直接放大前端 Bundle 大 1 MB可本地缓存WebSocket 直连模型少一次中转可扩展插件机制弱换模型必须改后端插件市场成熟想换 LLM、TTS、ASR 都是一条命令开发成本前端几乎 0 成本后端接口对齐即可需要懂 Docker、K8s、反向代理运维门槛高安全会话数据走后端前端无状态易做审计浏览器里存历史需要额外脱敏、加密、清理策略一句话
总结“只想快速上线”选 Chatbot UI“要把数据、模型、体验全捏在自己手里”选 OpenWeb UI。
核心实现细节下面给出两条路线各自的最小可运行骨架并标出“延迟优化”关键点。
Chatbot UI 最小集成原生 JS无框架依赖!-- index.html -- script srchttps://cdn.xxx.com/chatbot.min.js/script script // 初始化只干两件事建立长连 注册回调 const bot Chatbot.init({ wsUrl: wss://api.xxx.com/ws, // ① 强制 wss省一次 TLS 握手 userId: () localStorage.uid || uuid(), // ② 本地缓存 uid减少重连握手 onReply: (payload) { // ③ 直接 append不操作 DOM 树防卡顿 const p document.createElement(p); p.innerText payload.text; container.appendChild(p); container.scrollTop container.scrollHeight; // ④ 滚动到底避免 measure } }); // ⑤ 输入事件防抖 200 ms兼顾体感与请求量 input.oninput debounce(() bot.send(input.value),
; /script后端 Node 片段NestJS只留核心WebSocketGateway() export class BotGateway { SubscribeMessage(chat) async onChat(client, data) { // ⑥ 流式返回首包 100 ms 内必须吐出第一个 token const stream await llm.chatStream(data); for await (const chunk of stream) { client.emit(reply, { text: chunk }); } } }优化点
总结长连复用节省 TCPTLS 1-RTT首 token 100 ms 内强制 flush让用户“感觉”秒回前端只做 append不 diff不虚拟 DOM滚动条不抖。
OpenWeb UI 自托管以官方镜像为例# 一条命令拉起 docker run -d --name openweb \ -e OPENAI_API_BASEhttp://
10.
0.
10:8000/v1 \ -e WEBSOCKET_RECONNECT_INTERVAL1500 \ -e MAX_HISTORY_TOKENS4096 \ -p 8080:8080 \ ghcr.io/open-webui/open-webui:main前端关键裁剪React源码片段// 会话列表虚拟滚动只渲染可视区域 import { VariableSizeList as List } from react-window; const Row ({ index, style }) ( div style{style}Message data{messages[index]} //div ); List height{600} itemCount{messages.length} itemSize{() 80} // ① 固定高度省 measure /;后端性能补丁环境变量# ② 高并发下把 SQLite 换成 Postgres DATABASE_URLpostgres://user:passpg:5432/openweb # ③ 限制单用户并发路数防止恶意占连接 WS_MAX_CONN_PER_USER3实测 4C8G 机器QPS 300 时 CPU 65 %内存
1 GP99 延迟 480 ms满足中小团队内部使用。
性能与安全考量高并发三板斧连接池无论是 Chatbot 还是 OpenWebWebSocket 都建在长连上后端必须做“用户-连接”映射池防止单用户多连占 fd。
流控LLM 输出速度 网络带宽时背压会炸内存。
用“令牌桶”限流后端每 50 ms 最多推 1 kB。
缓存历史消息只存 ID 列表正文放 Redis设置 7 d TTL既省 DB 又防泄露。
安全红线前端绝不保存完整会话只留 message_id所有用户输入先过一遍“提示注入”正则再送模型开启 CORS 白名单禁止 wildcard若对接 TTS把语音文件放对象存储URL 带 60 s 过期签名防止链外盗用。
避坑指南消息乱序现象用户刷新页面后聊天记录顺序错。
根因WebSocket 重连后服务端按落库时间排序而非客户端发送序号。
解法给每条消息带 client_seq前端重连后先排序再渲染。
首句延迟大现象本地测试 200 ms上线
2 s。
根因Nginx 默认 buffer 代理把第一个 chunk 攒到 4 kB 才吐。
解法proxy_buffering off; proxy_cache off;TTS 声音卡顿现象语音播放 2 s 后突然“电音”。
根因浏览器 AudioContext 被系统抢占采样率对不上。
解法播放前动态检测audioCtx.sampleRate与后端码率对齐同时把语音切片 200 ms/包丢包只影响局部。
滚动条掉帧现象对话超过 100 条滚轮一拉就 20 fps。
根因每条消息带头像图片解码占主线程。
解法头像用 32*32 缩略图并设decodingasync让浏览器后台解码。
结语对话界面的“高效”不只是模型大、回答准更是数据链路短、首包快、渲染稳。
Chatbot UI 让你五分钟上线OpenWeb UI 让你把模型、数据、插件全捏在手里选哪条路取决于团队资源但优化思路相通——流式化、缓存化、虚拟化、限流化。
如果你想亲手跑一遍“耳朵-大脑-嘴巴”全链路又懒得自己踩一遍环境坑可以试试这个动手实验从0打造个人豆包实时通话AI。
我本地照着文档搭了一套从申请火山引擎 key 到浏览器里听到第一句“你好”总共 20 分钟比自己拼镜像、调 ASR 接口省事不少。
对于想快速验证想法、又不想被运维折磨的同学算是一条捷径。