SiameseUIE在保险理赔文本中的应用:自动抽取出险时间、地点、损失类型

核心内容摘要

LingBot-Depth部署教程:Airflow调度批量深度处理任务工作流
LazyCut

颠覆“多吃就是补身体”,根据食材,体重,运动量,计算营养过剩风险,颠覆过量进补,输出科学饮食方案。

Laser 的研究不仅是一项技术突破更指明了未来 LLM 服务系统的重要演进方向。

随着大模型应用场景日益多元化从实时对话到后台批处理单一的 SLO 保障模式已不再适用。

Laser 所倡导的层级别调度理念为构建弹性、高效、可定制的下一代 AI 推理基础设施提供了坚实的技术路线。

在大模型推理服务日益成为 AI 基础设施的今天如何高效支撑多 SLOService-Level Objective服务等级目标混合负载已成为工业界和学术界共同关注的核心挑战。

最新发表于PPoPP26ACM SIGPLAN 并行编程原理与实践年会的研究《Laser: Unlocking Layer-Level Scheduling for Efficient Multi-SLO LLM Serving》提出了一种突破性方案——Laser系统通过引入层级别调度Layer-Level Scheduling机制在维持相同 SLO 达标率的前提下将服务吞吐量goodput提升超过

67 倍。

这项由中山大学团队完成的工作为下一代 LLM 服务架构提供了全新思路。

论文标题Laser: Unlocking Layer-Level Scheduling for Efficient Multi-SLO LLM Serving论文链接https://dl.acm.org/doi/pdf/

1

1145/

3

3786413核心看点当前主流的大语言模型LLM服务系统普遍采用迭代级别调度Iteration-Level Scheduling即以一次完整前向传播遍历所有 Transformer 层为最小调度单元。

这种粗粒度方式在面对具有不同延迟要求的混合请求如聊天机器人要求快首响、代码补全要求低生成延迟时显得力不从心容易造成资源浪费或 SLO 违规。

Laser系统的核心突破在于它将调度粒度从“整次迭代”细化到“单个 Transformer 层”并设计了两大

关键技术层级别分块预填充Layer-Level Chunked Prefill和层级别解码批处理Layer-Level Decode Batching。

前者允许在预填充阶段动态切换和合并请求后者则能为不同 SLO 的请求定制每轮迭代执行的层数。

配合跨实例的智能调度策略Laser 在真实场景中实现了高达

67 倍的吞吐量提升同时保持 90%以上的 SLO 达标率。

研究背景现代 LLM 服务通常分为两个阶段预填充Prefill阶段并行处理整个输入提示以生成首个 token以及解码Decode阶段自回归地逐个生成后续 token。

为了提升 GPU 利用率业界广泛采用连续批处理Continuous Batching技术但其调度粒度仍停留在“迭代”层面。

这一设计在多 SLO 工作负载下暴露了严重问题。

在预填充阶段长提示会阻塞对延迟敏感的新请求即“队头阻塞”而短提示又难以充分利用计算资源。

在解码阶段系统被迫为所有请求采用统一的批大小和生成速度无法兼顾高响应性小批和高吞吐大批的需求。

因此亟需一种更细粒度、更灵活的调度机制来释放 LLM 服务的潜能。

Laser 的创新切入点正是打破“迭代”这一传统调度边界深入到Transformer模型内部的层Layer结构实现真正意义上的按需、分层执行。

核心贡献

方法创新提出层级别调度框架Laser 首次将 LLM 推理的调度单元从“迭代”下沉到“层”。

在预填充阶段它实现了层级别分块预填充能够在任意层边界处暂停当前请求优先处理新到达的高优先级请求并能将多个小请求动态合并成更大的计算块从而减少平均首 token 时间TTFT超过 10%。

在解码阶段层级别解码批处理允许系统为每个请求独立决定每轮迭代执行多少层例如对宽松 SLO 的请求执行 2 层/轮从而在同一时间内服务更多请求。

系统协同构建双层级优化架构在方法创新的基础上团队进一步验证了跨实例协同的重要性。

Laser 采用预填充-解码分离架构并设计了全局控制器Global Controller。

该控制器在预填充阶段倾向于将异构 SLO 请求混合调度以利用松弛时间而在解码阶段则通过基于 SLO 分组的分配策略将相似 SLO 的请求聚集到同一实例最大化批处理效率。

这种“内实例精细调度外实例智能分发”的双层设计是实现端到端性能提升的关键。

实证成果全面超越 SOTA 基线实验在Qwen-14B/32B和Llama-

B等主流大模型上进行对比了Sarathi-Serve和DistServe等最先进系统。

结果显示Laser 在多种负载下均显著优于基线吞吐量Goodput最高提升

6

9% Qwen-32B在集群规模受限8 GPU时甚至能实现

23 倍的吞吐增益当 SLO 要求极为严格

8 倍基准时其优势更为突出吞吐量可达 DistServe 的

08 倍和 Sarathi-Serve 的

25 倍。

此外其底层的模块化延迟建模方法预测准确率高达

9

6%~

9

6% 为高效调度提供了可靠依据。

行业意义Laser 的研究不仅是一项技术突破更指明了未来 LLM 服务系统的重要演进方向。

随着大模型应用场景日益多元化从实时对话到后台批处理单一的 SLO 保障模式已不再适用。

Laser 所倡导的层级别调度理念为构建弹性、高效、可定制的下一代 AI 推理基础设施提供了坚实的技术路线。

该工作与当前业界追求的高资源利用率和绿色计算趋势高度契合。

通过更精细的资源编排Laser 能在不增加硬件投入的情况下显著提升单位算力的服务能力有效降低 AI 服务的碳足迹。

可以预见这一思想将推动云原生 AI 平台、边缘大模型部署乃至自动驾驶等对实时性与效率有极致要求的产业领域加速其感知与决策系统的智能化升级。

论文链接https://doi.org/

1

1145/

3

3786413

鲁大师高清观看免费-鲁大师高清观看免费应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123