零基础入门:万象熔炉Anything XL提示词编写技巧

核心内容摘要

5步完成ViT图像分类:中文物品识别全流程
MySQL ——数据的增删改查

AIGlasses OS Pro 部署进阶:内网穿透实现本地服务远程调试与访问

背景介绍语音唤醒Keyword Spotting, KWS是智能家居、手机助手的核心功能。

本文将带大家部署阿里 iic 实验室开源的speech_charctc_kws_phone-xiaoyun模型。

该模型基于 FSMN-CTC 架构专门针对移动端优化具有极高的推理效率。

我们将解决部署过程中常见的库版本冲突、缺失依赖包以及官方库内部 Bug等硬核问题。

实验环境准备硬件NVIDIA GeForce RTX 4090 D (24GB 显存)操作系统LinuxPython 环境Python

11 PyTorch

2.

0核心框架ModelScope (模型下载) FunASR (推理框架)

环境配置与“填坑”指南部署的第一步是安装依赖库。

由于 Hugging Face 的datasets库频繁更新会导致 ModelScope 报错我们需要锁定特定版本。

1 安装核心库执行以下命令建议锁定datasets版本以避开ImportError# 卸载可能冲突的旧版本pip uninstall -y modelscope datasets# 安装经过验证的稳定组合pipinstallmodelscope

1.

1

3datasets

2.

1

0funasr

1.

1 torchaudio

2 解决音频后端问题如果系统没有安装ffmpegtorchaudio会自动接管但为了保证音频加载不出错可以额外安装pipinstallsoundfile librosa

模型下载并不是所有的服务器都预装了模型。

我们使用 ModelScope 的 SDK 编写一个脚本将模型下载到本地。

下载逻辑说明ModelScope 会将模型下载到~/.cache/modelscope/hub/目录下。

frommodelscope.hub.snapshot_downloadimportsnapshot_download# 指定模型 ID 和版本号model_idiic/speech_charctc_kws_phone-xiaoyunmodel_dirsnapshot_download(model_id,revisionv

1.

1.

print(f模型已成功下载至{model_dir})

核心代码实现包含 Bug 修复补丁在实际推理中FunASR

1.

1 版本在处理 KWS 任务时存在一个内部 Bug缺少writer属性。

我们通过Monkey Patch猴子补丁动态修复它。

1 完整推理脚本test_kws.pyimportosimportsysimporttorchfromfunasrimportAutoModelfrommodelscope.hub.snapshot_downloadimportsnapshot_download#

下载并获取模型路径model_idiic/speech_charctc_kws_phone-xiaoyunmodel_pathsnapshot_download(model_id,revisionv

1.

1.

print(f正在加载模型自{model_path})#

初始化 FunASR 模型# 必须显式指定 keywords 参数通常为 小云小云modelAutoModel(modelmodel_path,keywords小云小云)#

【核心补丁】修复 FsmnKWS object has no attribute writer 报错# 这是 FunASR

1.

1 的一个官方 Bug手动为其添加日志占位符ifnothasattr(model.model,writer):model.model.writer{detect:{}}print(已成功应用推理补丁)print(--- 模型加载成功 ---)#

推理测试audio_pathtest.wav# 请确保当前目录下有这个 16k 采样率的文件ifos.path.exists(audio_path):print(f开始分析音频{audio_path})# generate 推理接口resmodel.generate(inputaudio_path,is_finalTrue)print(\n*

print(f最终识别结果:{res})print(*

else:print(f\n[环境就绪] 请上传 16000Hz 采样率的{audio_path}进行测试。

)

测试与音频准备唤醒模型对音频格式有极高的硬性要求不满足以下条件的音频将无法被识别结果返回 rejected采样率16000 Hz (16k)声道单声道 (Mono)格式16bit PCM WAV

1 使用 FFmpeg 转换音频如果你从手机录制的音频通常是 48k需要转换ffmpeg -i my_voice.wav -ar16000-ac1-f wav test.wav

2 结果分析运行python test_kws.py后你会看到[{key: test, text: rejected}]说明模型正常工作但音频中未检测到“小云小云”或采样率不对。

[{key: test, text: 小云小云, score:

98}]恭喜你唤醒成功

避坑

总结路径坑ModelScope 的pipeline模式经常找不到kws_util脚本切换到FunASR框架可以完美避开路径依赖。

版本坑datasets库一定要降级到

2.

1

0左右否则 ModelScope 初始化就会崩溃。

补丁坑报错AttributeError: ... object has no attribute writer时不要去改库源码直接在脚本里用hasattr动态添加属性即可。

结语阿里小云语音唤醒模型体积小、响应快非常适合作为 AI 项目的语音入口。

通过本文的“保姆级”教学相信你已经能够在任何 Linux 服务器上流畅运行它。

如果你在部署中遇到其他报错欢迎在评论区留言讨论作者ChenAI_TGF发布于2026年1月

兽sg105max-兽应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123