首页速度优化DeepSeek-R1-Distill-Qwen-7B在法律文本分析中的应用实践

网站优化

LiuJuan Z-Image GeneratorGPU兼容性：Ampere架构显卡BF16加速实测指南

【计算机毕业设计案例】基于springboot+小程序的医院挂号系统设计与实现基于微信小程序的医院预约挂号系统(程序+文档+讲解+定制)

Qwen3-VL如何应对模糊图像？低光OCR识别部署优化实战指南

2026-06-09 14:15:14

阅读时长:9分钟

562次阅读

核心内容摘要

《Light》封面：微光纤谐振器进入10⁷高Q时代——南大团队破解耦合调控与机械性能难题

《AIGC技术的应用指南》章节目录（持续更新中）

关键词ONNX, TFLite, 量化 (Quantization), YOLOv8, Android大家好我是飞哥前几个月我们一直在云端“冲浪”用 Python 调 API、玩 Docker。

但作为一名 Android 开发者你肯定心痒痒“能不能不联网直接在手机上跑 AI”答案是必须能但有个前提你不能把云端那个几百 GB 的“大胖子”模型直接塞进手机里手机会爆炸的夸张了是会卡死。

今天这节课飞哥就教你一门“瘦身缩骨功”——模型量化与格式转换。

为什么要量化(Why)锚定已知 ⚓️大家平时发微信视频是不是经常会被压缩原本 100MB 的高清视频发过去只有 5MB画质稍微糊了一点点但看起来差不多而且传输极快。

生动类比模型量化就是给 AI 模型做“脱水处理” (Freeze-drying)。

云端模型 (FP

就像一颗饱满多汁的新鲜苹果。

精度极高小数点后 32 位但又重又大必须放冷库GPU 服务器。

量化模型 (INT

就像一片苹果干。

虽然水分精度少了一点点口感效果略有差异但营养核心能力还在最重要的是——轻便随便一个小口袋手机 NPU/CPU就能装下。

提炼骨架所以端侧 AI 的核心流程就是训练 (PyTorch) ➡️ 转换 (ONNX) ➡️ 压缩 (TFLite/INT

➡️ 部署 (Android)

核心概念详解 (What)(

ONNXAI 界的“普通话” 不同的 AI 框架PyTorch, TensorFlow, PaddlePaddle就像各地的方言互相听不懂。

ONNX (Open Neural Network Exchange)就是它们共同商定的“普通话”。

不管你是哪里训练出来的模型先转成 ONNX然后再翻译成手机能听懂的 TFLite 或 NCNN。

(

TFLiteAndroid 的“亲儿子” Google 专门为移动端定制的格式。

它去掉了训练相关的累赘功能只保留“推理”能力专门为安卓手机优化。

(

量化 (Quantization) 这是一个用精度换速度的游戏模式精度体积速度推荐指数FP3232位浮点100% (大) 慢❌ (云端用)FP1616位浮点50% (中) 快✅ (Android 首选)INT88位整数25% (小) 极快⚡️ (NPU 加速必备)⚠️ 飞哥提示INT8 虽然快但需要“校准 (Calibration)”。

这就像拍照时的“自动测光”。

真实世界的光线FP32范围极大而照片INT8能容纳的亮度有限。

转换时你需要先让模型看一些典型图片校准数据让它算出最佳的“曝光参数”数据分布这样才能保证压缩后的模型既不过曝也不死黑保留住核心细节。

实战项目模型量化实验室 (How) ️我们要完成一个任务下载 YOLOv8 模型把它转换成 Android 能用的 TFLite 格式并验证它没坏。

本项目代码已开源在Week13_Model_Quantization文件夹。

第一步安装依赖 pipinstallultralytics onnx onnxruntime tensorflow opencv-python第二步一键导出 (export.py) YOLOv8 官方极其贴心一行代码就能搞定。

fromultralyticsimportYOLOimportshutilimportosdefexport_models():print( 开始加载 YOLOv8n 模型...)#

下载/加载模型modelYOLO(yolov8n.pt)#

导出为 ONNX (通用格式)print(\n 正在导出为 ONNX 格式...)model.export(formatonnx,opset

#

导出为 TFLite (FP16 - 推荐)# halfTrue 表示使用 FP16 半精度体积减半精度几乎不损print(\n 正在导出为 TFLite (FP

格式...)model.export(formattflite,halfTrue)print(\n✅ 导出完成)# 移动文件到 models 目录os.makedirs(models,exist_okTrue)forfinos.listdir(.):iff.endswith(.onnx)orf.endswith(.tflite)orf.endswith(.pt):try:shutil.move(f,fmodels/{f})except:passprint(\n 模型已移动到 models/ 文件夹)ifnamemain:export_models()运行后你会发现models文件夹里多了yolov8n_float

tflite大小只有yolov8n.pt的一半第三步Python 端验证 (inference.py) 很多同学转完模型直接扔进 Android 项目结果报错一脸懵。

飞哥教你一招先在 Python 里用tensorflow.lite跑一遍确保模型本身没问题。

importtensorflowastfimportnumpyasnpimportcv2importtimeimportosdefrun_inference(tflite_path,image_path):print(f\n 开始测试模型:{tflite_path})#

加载 TFLite 模型interpretertf.lite.Interpreter(model_pathtflite_path)interpreter.allocate_tensors()#

获取输入输出详情input_detailsinterpreter.get_input_details()output_detailsinterpreter.get_output_details()input_shapeinput_details[0][shape]# [1, 640, 640, 3]print(f 模型输入形状:{input_shape})#

预处理图片imgcv

imread(image_path)ifimgisNone:print(❌ 找不到图片请检查路径)return# Resize 到模型要求的尺寸 (通常是 640x

img_resizedcv

resize(img,(640,

)# 归一化 (

- 0-

input_dataimg_resized.astype(np.float

/

2

0input_datanp.expand_dims(input_data,axis

# 增加 batch 维度#

推理start_timetime.time()interpreter.set_tensor(input_details[0][index],input_data)interpreter.invoke()output_datainterpreter.get_tensor(output_details[0][index])end_timetime.time()print(f⚡️ 推理耗时:{(end_time-start_time)*1000:.2f}ms)print(f 输出形状:{output_data.shape})# ---------------------------------------------------------# 飞哥小课堂这个 (1, 84,

是什么意思# ---------------------------------------------------------#

Batch Size (

: 我们一次只喂了一张图片。

#

Channels (

: 代表每个预测框包含的信息量。

# - 前 4 个数是框的位置 (中心点x, 中心点y, 宽w, 高h)。

# - 后 80 个数是 COCO 数据集 80 个类别的概率 (比如它是猫的概率、是车的概率...)。

# - 4 80 84#

Anchors (

: YOLO 在这张图上总共生成了 8400 个候选框。

# - 它是怎么算出来的(640x640 图片)# - 80x80 (大特征图看小物体) 6400# - 40x40 (中特征图看中物体) 1600# - 20x20 (小特征图看大物体) 400# - 总和6400 1600 400 8400# ---------------------------------------------------------print(✅ 测试通过模型可以正常工作。

)if__name____main__:# 自动查找模型并运行# 确保你已经有了 models/yolov8n_saved_model/yolov8n_float

tflite 和 assets/bus.jpgpass# (完整代码请参考 Week13_Model_Quantization/inference.py)第四步使用 Netron 查看“内脏” 拿到模型后必须看一眼它的结构。

下载神器Netron(也有网页版)。

打开yolov8n.onnx关注两个点Input:images(1, 3, 640,

- 记住这个尺寸Android 端处理图片时必须一模一样。

Output:output0(1, 84,

- 这是 YOLO 的原始输出84 4个坐标 80个类别概率。

⚠️ 进阶技巧在 Android 上解析1x84x8400这种原始数据非常痛苦需要自己写 NMS 算法。

如果你想偷懒可以在导出时加上nmsTrue仅部分版本支持或者使用专门为 TFLite 优化的 YOLO 版本。

4.

总结与作业一句话记住它模型量化就是给 AI 做“脱水压缩”牺牲一丢丢精度换取手机上的极致速度。

核心三要点ONNX是中转站TFLite是终点站。

FP16性价比最高体积减半精度不降。

INT8虽快但需要校准数据且可能有精度损失。

本周作业运行export.py导出你自己的 TFLite 模型。

用 Netron 截图模型的输入输出节点。

(选做) 尝试开启int8True看看体积还能小多少下篇我们将正式进入Android (Jetpack Compose)把这个 TFLite 模型装进手机做一个能看懂世界的 App 课程示例我用夸克网盘给你分享了「Week13_Model_Quantization.zip」点击链接或复制整段内容打开「夸克APP」即可获取。

/483d3ADEGx 链接https://pan.quark.cn/s/69cf8e9d25e4源码包内含✅export.py一键导出脚本✅inference.pyPython 验证脚本✅requirements.txt环境依赖清单✅ 超详细 README 文档小白也能跑通