核心内容摘要
进阶品味指南:国产伦精品一品、二品、三品深度测评,哪一款才是你的本命之选?
引言“如果最新的 AI 模型能在你的手机上、IoT 设备上、甚至边缘设备上运行而不需要依赖云端那该多好”这是一天一个开源项目系列的
文章。
今天带你了解的项目是NexaSDKGitHub。
想象一下你可以在 Android 手机上运行 Qwen3-VL 多模态模型在 iOS 设备上使用 Apple Neural Engine 进行语音识别在 Linux IoT 设备上运行 Granite-4 模型所有这一切都不需要连接到云端。
这就是 NexaSDK 带来的革命性体验——让前沿 AI 模型真正落地到各种设备上。
为什么选择这个项目NPU 优先业界首个 NPU-first 的设备端 AI 运行时全平台支持PC、Android、iOS、Linux/IoT 全覆盖Day-0 模型支持支持最新发布的模型GGUF、MLX、NEXA 格式多模态能力LLM、VLM、ASR、OCR、Rerank、图像生成等社区认可
6k Stars与 Qualcomm 合作举办设备端 AI 竞赛你将学到什么NexaSDK 的核心概念和架构设计如何在各种平台上运行设备端 AI 模型NPU、GPU、CPU 三种计算后端的支持和使用多模态 AI 能力的集成和使用与其他设备端 AI 框架的对比分析如何开始使用 NexaSDK 构建设备端 AI 应用前置知识对 LLM 和 AI 模型有基本了解熟悉至少一种编程语言Python、Go、Kotlin、Swift了解设备端 AI 的基本概念可选对 NPU、GPU 等硬件加速有基本了解可选项目背景项目简介NexaSDK是一个跨平台的设备端 AI 运行时支持在 GPU、NPU 和 CPU 上运行前沿的 LLM 和 VLM 模型。
它提供了全面的运行时覆盖支持 PCPython/C、移动端Android iOS和 Linux/IoTArm64 x86 Docker平台。
项目解决的核心问题设备端 AI 运行时碎片化不同平台需要不同的解决方案缺乏对 NPU 的原生支持无法充分利用硬件加速新模型发布后设备端支持滞后缺乏 day-0 支持多模态 AI 能力在设备端难以集成跨平台开发成本高需要为每个平台单独实现面向的用户群体需要构建设备端 AI 应用的开发者希望利用 NPU 加速的移动应用开发者需要在 IoT 设备上运行 AI 模型的开发者对设备端 AI 感兴趣的研究人员作者/团队介绍团队NexaAI背景专注于设备端 AI 解决方案的团队合作伙伴与 Qualcomm 合作举办设备端 AI 竞赛贡献者45 位贡献者包括 RemiliaForever、zhiyuan
mengshengwu 等理念让前沿 AI 模型能够在各种设备上高效运行项目创建时间2024年从 GitHub 提交历史可以看出项目持续活跃项目数据⭐GitHub Stars:
6k持续快速增长Forks: 944版本: v
0.
71最新版本2026年1月22日发布License: Apache-
0CPU/GPU 组件NPU 组件需要许可证官网: docs.nexa.ai文档: 完整文档社区: Discord、Slack 社区活跃竞赛: Nexa × Qualcomm 设备端 AI 竞赛$6,500 奖金项目发展历程2024年项目启动初步版本发布
年快速发展添加多平台支持2025年NPU 支持完善与 Qualcomm 合作2026年持续迭代添加更多模型和功能支持支持的模型OpenAI GPT-OSSIBM Granite-4Qwen-3-VLGemma-3nMinistral-3以及更多前沿模型主要功能核心作用NexaSDK 的核心作用是提供统一的跨平台设备端 AI 运行时让开发者能够在多种设备上运行 AI 模型PC、手机、IoT 设备全覆盖充分利用硬件加速NPU、GPU、CPU 三种后端自动选择快速集成新模型Day-0 支持新模型发布即可使用多模态 AI 能力文本、图像、音频、视频等全方位支持简化开发流程统一的 API一套代码多平台运行使用场景移动端 AI 应用手机上的智能助手离线语音识别和翻译图像识别和处理本地 LLM 对话应用IoT 和边缘计算智能家居设备的 AI 能力工业 IoT 的智能分析边缘服务器的 AI 推理自动驾驶设备的感知能力桌面应用集成本地 AI 助手文档智能处理代码生成工具创意内容生成企业级应用数据隐私保护本地处理离线 AI 能力降低云端成本实时响应需求研究和开发模型性能测试硬件加速研究新模型验证算法优化实验快速开始CLI 方式最简单# 安装 Nexa CLI# Windows (x64 with Intel/AMD NPU)# 下载: nexa-cli_windows_x86_
exe# macOS (x
# 下载: nexa-cli_macos_x86_
pkg# Linux (ARM
curl-L https://github.com/NexaAI/nexa-sdk/releases/latest/download/nexa-cli_linux_arm
sh|bash# 运行第一个模型nexa infer ggml-org/Qwen3-
7B-GGUF# 多模态拖拽图片到 CLInexa infer NexaAI/Qwen3-VL-4B-Instruct-GGUF# NPU 支持Windows arm64 with Snapdragon X Elitenexa infer NexaAI/OmniNeural-4BPython SDK# 安装pip install nexaai# 使用示例fromnexaaiimportLLM,GenerationConfig,ModelConfig,LlmChatMessage# 创建 LLM 实例llmLLM.from_(modelNexaAI/Qwen3-
6B-GGUF,configModelConfig())# 构建对话conversation[LlmChatMessage(roleuser,contentHello, tell me a joke)]promptllm.apply_chat_template(conversation)# 流式生成fortokeninllm.generate_stream(prompt,GenerationConfig(max_tokens
):print(token,end,flushTrue)Android SDK// 添加到 build.gradle.ktsdependencies{implementation(ai.nexa:core:
0.
0.
}// 初始化 SDKNexaSdk.getInstance().init(this)// 加载和运行模型VlmWrapper.builder().vlmCreateInput(VlmCreateInput(model_nameomni-neural,model_path/data/data/your.app/files/models/OmniNeural-4B/files-1-
nexa,plugin_idnpu,configModelConfig())).build().onSuccess{vlm-vlm.generateStreamFlow(Hello!,GenerationConfig()).collect{print(it)}}iOS SDKimportNexaSdk// 示例语音识别letasrtryAsr(plugin:.ane)tryawaitasr.load(from:modelURL)letresulttryawaitasr.transcribe(options:.init(audioPath:audio.wav))print(result.asrResult.transcript)Linux Docker# 拉取镜像dockerpull nexa4ai/nexasdk:latest# 运行需要 NPU tokenexportNEXA_TOKENyour_token_heredockerrun --rm -it --privileged\-e NEXA_TOKEN\nexa4ai/nexasdk:latest infer NexaAI/Granite-
0-h-350M-NPU核心特性NPU 优先支持业界首个 NPU-first 的设备端 AI 运行时支持 Qualcomm Hexagon NPU支持 Apple Neural Engine (ANE)支持 Intel/AMD NPU显著提升性能和能效比全平台运行时PC: Python/C SDKAndroid: Kotlin SDK支持 NPU/GPU/CPUiOS: Swift SDK支持 ANELinux/IoT: Docker 镜像支持 Arm64 x86Day-0 模型支持支持最新发布的模型支持多种模型格式GGUF、MLX、NEXA快速集成新模型到设备端多模态 AI 能力LLM: 大语言模型VLM: 视觉语言模型多模态ASR: 自动语音识别OCR: 光学字符识别Rerank: 重排序Object Detection: 目标检测Image Generation: 图像生成Embedding: 向量嵌入统一的 API 接口OpenAI 兼容的 APIFunction calling 支持流式生成支持统一的配置接口模型格式支持GGUF: 广泛使用的量化格式MLX: Apple MLX 框架格式NEXA: NexaSDK 原生格式硬件加速优化自动选择最佳计算后端NPU GPU CPU 的优先级针对不同硬件的优化开发者友好一行代码运行模型详细的文档和示例活跃的社区支持丰富的 Cookbook项目优势与其他设备端 AI 框架相比NexaSDK 的优势对比项NexaSDKOllamallama.cppLM StudioNPU 支持⭐⭐⭐⭐⭐ NPU-first❌ 不支持❌ 不支持❌ 不支持Android/iOS SDK⭐⭐⭐⭐⭐ 完整支持⚠️ 部分支持⚠️ 部分支持❌ 不支持Linux Docker⭐⭐⭐⭐⭐ 支持⭐⭐⭐⭐⭐ 支持⭐⭐⭐⭐⭐ 支持❌ 不支持Day-0 模型支持⭐⭐⭐⭐⭐ GGUF/MLX/NEXA❌ 滞后⚠️ 部分支持❌ 滞后多模态支持⭐⭐⭐⭐⭐ 完整支持⚠️ 部分支持⚠️ 部分支持⚠️ 部分支持跨平台支持⭐⭐⭐⭐⭐ 全平台⚠️ 部分平台⚠️ 部分平台⚠️ 部分平台一行代码运行⭐⭐⭐⭐⭐ 支持⭐⭐⭐⭐⭐ 支持⚠️ 需要配置⭐⭐⭐⭐⭐ 支持OpenAI API 兼容⭐⭐⭐⭐⭐ 支持⭐⭐⭐⭐⭐ 支持⭐⭐⭐⭐⭐ 支持⭐⭐⭐⭐⭐ 支持为什么选择 NexaSDK✅NPU 优先充分利用硬件加速性能和能效比最优✅全平台支持一套 SDK 覆盖所有平台降低开发成本✅Day-0 支持新模型发布即可使用无需等待✅多模态能力完整的 AI 能力栈满足各种需求✅开发者友好简单的 API丰富的文档和示例项目详细剖析架构设计NexaSDK 采用分层式架构核心是统一的运行时抽象层┌─────────────────────────────────────┐ │ 应用层 (Applications) │ │ - CLI / Python / Android / iOS │ └──────────────┬──────────────────────┘ │ ┌──────────────▼──────────────────────┐ │ SDK 层 (SDK Layer) │ │ - 统一的 API 接口 │ │ - 模型加载和管理 │ │ - 配置和优化 │ └──────────────┬──────────────────────┘ │ ┌──────────────▼──────────────────────┐ │ 运行时层 (Runtime Layer) │ │ - 计算后端抽象 │ │ - 模型格式解析 │ │ - 推理引擎 │ └──────────────┬──────────────────────┘ │ ┌──────────┴──────────┐ │ │ ┌───▼────┐ ┌─────▼─────┐ │ NPU │ │ GPU │ │ Plugin │ │ Plugin │ └────────┘ └───────────┘ │ │ ┌───▼─────────────────────▼─────┐ │ CPU Plugin (Fallback) │ └────────────────────────────────┘核心模块详解
计算后端抽象层功能统一管理不同的计算后端NPU、GPU、CPU设计特点插件化架构易于扩展自动选择最佳后端优先级NPU GPU CPU支持后端切换和回退支持的 NPUQualcomm Hexagon NPUSnapdragonApple Neural EngineiOS/macOSIntel/AMD NPUWindows
模型格式支持GGUF 格式广泛使用的量化格式支持多种量化级别兼容 llama.cpp 生态MLX 格式Apple MLX 框架格式针对 Apple Silicon 优化支持 macOS 和 iOSNEXA 格式NexaSDK 原生格式针对 NPU 优化更好的性能和兼容性
多模态能力LLM大语言模型文本生成和对话支持流式输出支持 Function CallingVLM视觉语言模型图像理解和生成多模态对话视觉问答ASR自动语音识别语音转文字支持多种音频格式实时识别支持OCR光学字符识别图像中的文字识别多语言支持高精度识别其他能力Rerank文本重排序Object Detection目标检测Image Generation图像生成Embedding向量嵌入
平台特定实现PC 平台Python/CPython SDK易于使用C SDK高性能支持 Windows、macOS、LinuxAndroid 平台Kotlin SDK支持 NPUSnapdragon 8 Gen 4支持 GPU 和 CPU 回退最小 SDK 27iOS 平台Swift SDK支持 Apple Neural EngineiOS
1
0 / macOS
1