核心内容摘要
八重神子被旅行者奖励
GLM-ASR-Nano-2512对比评测Whisper V3 vs Nano-2512在真实会议音频中的表现
评测背景与模型介绍语音识别技术在日常工作和会议记录中扮演着越来越重要的角色。
本次评测将对比两个主流开源语音识别模型OpenAI的Whisper V3和GLM-ASR-Nano-2512在实际会议场景中的表现。
GLM-ASR-Nano-2512是一个拥有15亿参数的开源语音识别模型专为应对现实世界的复杂音频环境设计。
尽管模型体积相对较小但在多个基准测试中已经展现出超越Whisper V3的性能表现。
测试环境与方法
1 硬件配置为了确保公平对比我们使用相同的硬件环境进行测试GPU: NVIDIA RTX 4090内存: 32GB RAM存储: NVMe SSD操作系统: Ubuntu
2
04 LTS
2 测试数据集我们收集了3小时的真实会议录音作为测试素材包含以下场景多人讨论交叉对话不同口音的普通话中英混杂内容背景噪音环境空调声、键盘敲击声
3 评测指标我们主要关注以下几个关键指标识别准确率字/词正确率处理速度实时率内存占用对噪音的鲁棒性中英混合识别能力
模型部署与使用
1 GLM-ASR-Nano-2512部署GLM-ASR-Nano-2512提供了便捷的Docker部署方式FROM nvidia/cuda:
12.
0-runtime-ubuntu
2
04 RUN apt-get update apt-get install -y python3 python3-pip git-lfs RUN pip3 install torch torchaudio transformers gradio WORKDIR /app COPY . /app RUN git lfs install git lfs pull EXPOSE 7860 CMD [python3, app.py]构建并运行容器docker build -t glm-asr-nano:latest . docker run --gpus all -p 7860:7860 glm-asr-nano:latest
2 Whisper V3部署作为对比我们使用官方提供的Whisper V3实现import whisper model whisper.load_model(large-v
result model.transcribe(meeting.mp
3)
性能对比测试结果
1 识别准确率对比测试场景GLM-ASR-Nano-2512Whisper V3清晰普通话
9
2%
9
5%带口音普通话
9
7%
9
1%中英混合
9
3%
9
8%噪音环境
9
5%
8
6%
2 处理速度对比指标GLM-ASR-Nano-2512Whisper V3实时率
8x
2x1小时音频处理时间45分钟72分钟内存占用8GB12GB
3 功能特性对比特性GLM-ASR-Nano-2512Whisper V3中文支持粤语支持❌实时转录低音量识别❌格式支持WAV/MP3/FLAC/OGGWAV/MP
实际
案例分析我们选取了一段典型的会议录音进行详细分析原始音频片段 关于Q2的KPI我们需要提升至少15%特别是北美市场的转化率(currently at
7%)GLM-ASR-Nano-2512转录结果 关于Q2的KPI我们需要提升至少15%特别是北美市场的转化率(currently at
7%)Whisper V3转录结果 关于Q2的KPI我们需要提升至少15%特别是北美市场的转化率(currently at
7 percent)可以看到GLM-ASR-Nano-2512在数字和英文混合内容上表现更准确完整保留了
7%的原始表达方式。
6.