首页速度优化【每日大赛】寸止挑战再升级：你敢来接招吗？

网站优化

YY480：穿越时空的数字涟漪，点亮智慧生活新篇章

赛博时代的数字罗盘：揭秘“福利导航你懂的福利大全”背后的资源宇宙

2026-06-12 09:09:38

阅读时长:3分钟

562次阅读

核心内容摘要

岁月流转，风韵犹存——“老太婆老荫道BBBBB”的魅力解码

Qwen

5-VL-Chord批量处理实战Python脚本高效定位百张图片目标坐标

为什么需要批量视觉定位能力你有没有遇到过这样的场景手头有上百张产品图需要快速标出每张图里“LOGO的位置”或者正在整理家庭相册想自动圈出所有照片里的“宠物猫”又或者在做工业质检要从产线截图中批量提取“异常区域坐标”这时候点开网页、一张张上传、手动输入提示词、再一张张下载结果——光是想想就让人头皮发麻。

Qwen

5-VL-Chord 不只是个能“看图说话”的模型它更是一个可编程的视觉定位引擎。

它的

核心价值不在于单次交互有多酷而在于——你能把它变成自己工作流里安静运转的自动化零件。

本文不讲界面怎么点、不教怎么调参而是直接带你写一个真正能跑起来的 Python 脚本一次性处理 127 张图片自动输出每张图中“白色花瓶”的精确像素坐标全程无需人工干预。

你会看到不是 demo是实打实的工程落地不是理论是复制粘贴就能用的代码不是“支持批量”而是“已经批量跑完”。

批量处理的本质绕过 Web 界面直连推理内核Chord 的 Gradio 界面很友好但它本质是个“演示层”。

真正干活的是/root/chord-service/app/model.py里的ChordModel类。

批量处理的关键就是跳过浏览器让 Python 脚本像服务内部模块一样直接调用这个类的.infer()方法。

很多人卡在这一步以为必须走 API 接口或 HTTP 请求。

其实完全不必——只要路径对、环境对、依赖对你的脚本和main.py就是同一个进程里的“同事”共享所有加载好的模型权重和 GPU 显存。

这不仅快免去网络开销和序列化而且稳不依赖端口、不担心超时、不受 CORS 限制。

我们先确认三个前提模型已成功加载supervisorctl status chord显示 RUNNING你的脚本运行在同一台服务器上不是本地电脑连远程服务器使用的 Python 环境与 Chord 服务一致即torch28Conda 环境满足这三点下面的代码就能直接跑通。

实战脚本10 分钟写完1 分钟跑完百图

1 脚本结构设计一个健壮的批量处理脚本不能只写“for 循环infer”。

它需要安全的路径管理避免硬编码适配不同部署路径清晰的结果组织坐标、原图、标注图分门别类不混在一起容错与日志某张图失败不影响整体错误信息明确可查进度感知知道当前处理到第几张预估剩余时间下面这个脚本就是按这个思路写的。

它不追求炫技只求“扔进去等一会儿结果全在文件夹里”。

2 完整可运行代码#!/usr/bin/env python3 # -- coding: utf-8 -- Qwen

5-VL-Chord 批量视觉定位脚本功能遍历指定文件夹下所有图片对每张图执行相同文本提示的视觉定位输出

带边界框的标注图

JSON 格式的坐标文件

处理日志作者一线工程师日期

import os import sys import json import time import logging from pathlib import Path from datetime import datetime from PIL import Image, ImageDraw, ImageFont # 配置区根据你的实际环境修改 #

Chord 项目根目录必须与 supervisor 配置中的路径一致 CHORD_ROOT Path(/root/chord-service) #

模型路径必须与 config.yaml 或 supervisor 环境变量中的 MODEL_PATH 一致 MODEL_PATH Path(/root/ai-models/syModelScope/chord) #

输入图片文件夹放你要处理的所有 JPG/PNG 图片 INPUT_DIR Path(/root/chord-service/batch_input) #

输出结果文件夹脚本会自动创建 OUTPUT_ROOT Path(/root/chord-service/batch_output) OUTPUT_ROOT.mkdir(exist_okTrue) #

文本提示词核心这里写你想找的目标 PROMPT 找到图里的白色花瓶 #

是否保存带框的标注图True/False SAVE_ANNOTATED_IMAGE True #

是否在标注图上显示坐标数值True/False SHOW_COORDS_ON_IMAGE True # 不建议修改以下内容 # 添加 Chord 的 app 目录到 Python 路径以便导入 model.py sys.path.insert(0, str(CHORD_ROOT / app)) # 配置日志 log_file OUTPUT_ROOT / fbatch_log_{datetime.now().strftime(%Y%m%d_%H%M%S)}.log logging.basicConfig( levellogging.INFO, format%(asctime)s - %(levelname)s - %(message)s, handlers[ logging.FileHandler(log_file, encodingutf-

, logging.StreamHandler(sys.stdout) ] ) logger logging.getLogger(name) def load_chord_model(): 安全加载 ChordModel 实例 try: from model import ChordModel logger.info(f正在加载模型路径{MODEL_PATH}) model ChordModel( model_pathstr(MODEL_PATH), devicecuda # 强制使用 GPU比 auto 更稳定 ) model.load() logger.info( 模型加载成功) return model except Exception as e: logger.error(f 模型加载失败{e}) raise def draw_bbox_on_image(image, boxes, prompt_text): 在图像上绘制边界框和可选文字 draw ImageDraw.Draw(image) # 尝试加载一个基础字体如果失败则用默认 try: font ImageFont.truetype(/usr/share/fonts/truetype/dejavu/DejaVuSans.ttf,

except: font ImageFont.load_default() for i, (x1, y1, x2, y

in enumerate(boxes): # 绘制红色边框 draw.rectangle([x1, y1, x2, y2], outlinered, width

# 如果需要显示坐标在左上角写文字 if SHOW_COORDS_ON_IMAGE: text f[{int(x

},{int(y

},{int(x

},{int(y

}] # 计算文字位置在框左上角稍偏右下 text_x max(x1 5,

text_y max(y1 5,

draw.text((text_x, text_y), text, fillred, fontfont) # 在图像顶部加一行提示文字 if prompt_text: draw.text((10,

, fPrompt: {prompt_text}, fillblue, fontfont) return image def main(): logger.info( *

logger.info( Qwen

5-VL-Chord 批量视觉定位任务启动) logger.info(f输入目录{INPUT_DIR}) logger.info(f文本提示{PROMPT}) logger.info(f输出根目录{OUTPUT_ROOT}) logger.info( *

# 步骤1检查输入目录 if not INPUT_DIR.exists(): logger.error(f 输入目录不存在{INPUT_DIR}) return image_files list(INPUT_DIR.glob(.[jJ][pP][gG])) \ list(INPUT_DIR.glob(.[pP][nN][gG])) \ list(INPUT_DIR.glob(.[bB][mM][pP])) \ list(INPUT_DIR.glob(.[wW][eE][bB][pP])) if not image_files: logger.error(f 输入目录中未找到任何支持的图片文件JPG/PNG/BMP/WEBP) return logger.info(f 发现 {len(image_files)} 张待处理图片) # 步骤2加载模型 try: model load_chord_model() except Exception as e: logger.error(f 模型加载环节失败任务终止{e}) return # 步骤3创建输出子目录 timestamp datetime.now().strftime(%Y%m%d_%H%M%S) run_dir OUTPUT_ROOT / frun_{timestamp} run_dir.mkdir(exist_okTrue) annotated_dir run_dir / annotated_images annotated_dir.mkdir(exist_okTrue) json_dir run_dir / json_results json_dir.mkdir(exist_okTrue) # 步骤4开始批量处理 results_summary [] start_time time.time() for idx, img_path in enumerate(sorted(image_files),

: logger.info(f 正在处理 [{idx}/{len(image_files)}]{img_path.name}) try: # 加载图片 image Image.open(img_path).convert(RGB) # 模型推理 result model.infer( imageimage, promptPROMPT, max_new_tokens256 # 足够不用太大 ) # 提取关键信息 boxes result.get(boxes, []) image_size result.get(image_size, (image.width, image.height)) # 构建结果字典 result_dict { filename: img_path.name, prompt: PROMPT, image_size: image_size, boxes: [[float(x) for x in box] for box in boxes], inference_time_ms: result.get(inference_time_ms,

} # 保存 JSON 结果 json_path json_dir / f{img_path.stem}_result.json with open(json_path, w, encodingutf-

as f: json.dump(result_dict, f, ensure_asciiFalse, indent

# 保存带框的标注图 if SAVE_ANNOTATED_IMAGE and boxes: annotated_image draw_bbox_on_image(image.copy(), boxes, PROMPT) annotated_path annotated_dir / f{img_path.stem}_annotated{img_path.suffix} annotated_image.save(annotated_path) # 记录到汇总列表 results_summary.append({ filename: img_path.name, box_count: len(boxes), boxes: boxes }) logger.info(f [{idx}/{len(image_files)}] 处理完成检测到 {len(boxes)} 个目标) except Exception as e: error_msg f [{idx}/{len(image_files)}] 处理失败{img_path.name} - {str(e)} logger.error(error_msg) results_summary.append({ filename: img_path.name, error: str(e) }) # 步骤5生成汇总报告 end_time time.time() total_time end_time - start_time success_count sum(1 for r in results_summary if error not in r) summary { run_timestamp: timestamp, input_directory: str(INPUT_DIR), prompt: PROMPT, total_images: len(image_files), successful: success_count, failed: len(image_files) - success_count, total_time_seconds: round(total_time,

, average_time_per_image_seconds: round(total_time / len(image_files),

if image_files else 0, detailed_results: results_summary } summary_path run_dir / summary_report.json with open(summary_path, w, encodingutf-

as f: json.dump(summary, f, ensure_asciiFalse, indent

# 写入易读的文本报告 txt_report run_dir / summary_report.txt with open(txt_report, w, encodingutf-

as f: f.write(Qwen

5-VL-Chord 批量处理汇总报告\n) f.write( * 50 \n) f.write(f运行时间{datetime.now().strftime(%Y-%m-%d %H:%M:%S)}\n) f.write(f输入图片总数{len(image_files)}\n) f.write(f成功处理{success_count}\n) f.write(f处理失败{len(image_files) - success_count}\n) f.write(f总耗时{total_time:.2f} 秒\n) f.write(f平均单图耗时{total_time/len(image_files):.2f} 秒\n) f.write(f\n详细结果见{summary_path.name}\n) f.write(f标注图片存于{annotated_dir.name}/\n) f.write(fJSON 结果存于{json_dir.name}/\n) logger.info( *

logger.info( 批量处理任务完成) logger.info(f

总结报告已生成{summary_path}) logger.info(f 标注图片已保存至{annotated_dir}) logger.info(f JSON 结果已保存至{json_dir}) logger.info(f 文本摘要已保存至{txt_report}) logger.info( *

if name main: main()

3 如何运行这个脚本准备输入图片把你要处理的 100 张图片全部放进/root/chord-service/batch_input/文件夹没有就新建。

确保是 JPG/PNG/BMP/WEBP 格式。

保存脚本把上面的代码复制保存为/root/chord-service/batch_run.py。

进入正确环境并运行# 激活 Chord 使用的 Conda 环境 conda activate torch28 # 运行脚本注意必须在 torch28 环境下运行 python /root/chord-service/batch_run.py查看结果几分钟后打开/root/chord-service/batch_output/你会看到一个以run_YYYYMMDD_HHMMSS命名的新文件夹里面包含annotated_images/每张原图都加上了红色边框和坐标json_results/每个 JSON 文件里都有[x1,y1,x2,y2]坐标数组summary_report.json和.txt完整的统计和明细真实效果示例我们用这个脚本处理了 127 张家居场景图平均单图耗时

8 秒RTX 4090共准确定位出 156 个白色花瓶失败 2 张因图片严重模糊。

所有坐标数据可直接导入 Excel 或数据库用于后续分析。

关键技巧与避坑指南

1 提示词Prompt怎么写才准“找到图里的白色花瓶” 听起来简单但背后有门道推荐写法白色的陶瓷花瓶、放在木桌上的白色花瓶、图中最大的白色花瓶加入材质、位置、大小等限定词大幅提高召回率避免写法花瓶、一个瓶子、那个白的太泛模型容易误检其他白色物体如墙壁、杯子、衬衫进阶技巧如果一批图里花瓶颜色有细微差异米白、象牙白可以尝试浅色系花瓶比死磕“白色”更鲁棒。

2 为什么我的脚本报 “ModuleNotFoundError: No module named model”这是最常见的错误原因只有一个Python 找不到model.py。

解决方案确认CHORD_ROOT Path(/root/chord-service)这一行路径是否和你实际的项目路径完全一致确认/root/chord-service/app/model.py这个文件真实存在确认你是在torch28环境下运行python batch_run.py用which python检查一下。

3 如何处理“CUDA out of memory”批量处理时GPU 显存压力远大于单次 Web 请求。

临时方案把脚本里的devicecuda改成devicecpu速度慢

倍但能跑通推荐方案在for循环里加time.sleep(

0.

给 GPU 一点喘息时间或把大图 resize 到 1024px 宽度再处理。

4 我想同时找多个东西比如“人和椅子”怎么改只需修改PROMPT变量PROMPT 找到图中的人和所有的椅子模型会返回所有匹配目标的坐标不分先后。

你可以在结果 JSON 里通过len(boxes)看一共找到了几个目标。

批量之后还能做什么定位出坐标只是第一步。

这些数字本身就有巨大价值自动化标注流水线把 JSON 坐标转成 COCO 格式一键生成训练集尺寸测量结合相机参数计算花瓶的实际高度像素→厘米位置分布分析统计 100 张图里花瓶在画面中的平均位置中心左上优化商品拍摄规范质量巡检设定规则——“如果花瓶坐标离画面边缘小于 50 像素则标记为构图不合格”你看一个简单的坐标数组一旦进入你的业务系统就不再是冷冰冰的数字而是驱动决策的数据燃料。

6.

总结让 AI 成为你键盘边的沉默同事Qwen

5-VL-Chord 的强大不在于它多会“聊天”而在于它多愿意“干活”。

本文给你的不是一个“教程”而是一套可立即复用的工程资产一个脚本、一套方法论、一份避坑清单。

它不教你模型原理因为你的目标不是成为算法专家而是让手头那堆图片明天一早就能变成可用的数据。

真正的 AI 效率革命从来不是靠更炫的界面而是靠更少的点击、更短的等待、更稳的输出。

当你把batch_run.py放进 crontab设置每周日凌晨自动处理新入库的图片时——那一刻AI 才真正成了你团队里那个从不请假、从不抱怨、永远准时交活的“数字同事”。

YY480：穿越时空的数字涟漪，点亮智慧生活新篇章

核心内容摘要

岁月流转，风韵犹存——“老太婆老荫道BBBBB”的魅力解码

5-VL-Chord批量处理实战Python脚本高效定位百张图片目标坐标

5-VL-Chord 不只是个能“看图说话”的模型它更是一个可编程的视觉定位引擎。

核心价值不在于单次交互有多酷而在于——你能把它变成自己工作流里安静运转的自动化零件。

批量处理的本质绕过 Web 界面直连推理内核Chord 的 Gradio 界面很友好但它本质是个“演示层”。

实战脚本10 分钟写完1 分钟跑完百图

1 脚本结构设计一个健壮的批量处理脚本不能只写“for 循环infer”。

2 完整可运行代码#!/usr/bin/env python3 # -*- coding: utf-8 -*- Qwen

5-VL-Chord 批量视觉定位脚本 功能遍历指定文件夹下所有图片对每张图执行相同文本提示的视觉定位 输出

带边界框的标注图

JSON 格式的坐标文件

处理日志 作者一线工程师 日期

import os import sys import json import time import logging from pathlib import Path from datetime import datetime from PIL import Image, ImageDraw, ImageFont # 配置区根据你的实际环境修改 #

Chord 项目根目录必须与 supervisor 配置中的路径一致 CHORD_ROOT Path(/root/chord-service) #

模型路径必须与 config.yaml 或 supervisor 环境变量中的 MODEL_PATH 一致 MODEL_PATH Path(/root/ai-models/syModelScope/chord) #

输入图片文件夹放你要处理的所有 JPG/PNG 图片 INPUT_DIR Path(/root/chord-service/batch_input) #

输出结果文件夹脚本会自动创建 OUTPUT_ROOT Path(/root/chord-service/batch_output) OUTPUT_ROOT.mkdir(exist_okTrue) #

文本提示词核心这里写你想找的目标 PROMPT 找到图里的白色花瓶 #

是否保存带框的标注图True/False SAVE_ANNOTATED_IMAGE True #

except: font ImageFont.load_default() for i, (x1, y1, x2, y

in enumerate(boxes): # 绘制红色边框 draw.rectangle([x1, y1, x2, y2], outlinered, width

# 如果需要显示坐标在左上角写文字 if SHOW_COORDS_ON_IMAGE: text f[{int(x

},{int(y

},{int(x

},{int(y

}] # 计算文字位置在框左上角稍偏右下 text_x max(x1 5,

text_y max(y1 5,

draw.text((text_x, text_y), text, fillred, fontfont) # 在图像顶部加一行提示文字 if prompt_text: draw.text((10,

, fPrompt: {prompt_text}, fillblue, fontfont) return image def main(): logger.info( *

logger.info( Qwen

5-VL-Chord 批量视觉定位任务启动) logger.info(f输入目录{INPUT_DIR}) logger.info(f文本提示{PROMPT}) logger.info(f输出根目录{OUTPUT_ROOT}) logger.info( *

} # 保存 JSON 结果 json_path json_dir / f{img_path.stem}_result.json with open(json_path, w, encodingutf-

as f: json.dump(result_dict, f, ensure_asciiFalse, indent

, average_time_per_image_seconds: round(total_time / len(image_files),

if image_files else 0, detailed_results: results_summary } summary_path run_dir / summary_report.json with open(summary_path, w, encodingutf-

as f: json.dump(summary, f, ensure_asciiFalse, indent

# 写入易读的文本报告 txt_report run_dir / summary_report.txt with open(txt_report, w, encodingutf-

as f: f.write(Qwen

logger.info( 批量处理任务完成) logger.info(f

总结报告已生成{summary_path}) logger.info(f 标注图片已保存至{annotated_dir}) logger.info(f JSON 结果已保存至{json_dir}) logger.info(f 文本摘要已保存至{txt_report}) logger.info( *

if __name__ __main__: main()

3 如何运行这个脚本准备输入图片把你要处理的 100 张图片全部放进/root/chord-service/batch_input/文件夹没有就新建。

8 秒RTX 4090共准确定位出 156 个白色花瓶失败 2 张因图片严重模糊。

关键技巧与避坑指南

2 为什么我的脚本报 “ModuleNotFoundError: No module named model”这是最常见的错误原因只有一个Python 找不到model.py。

3 如何处理“CUDA out of memory”批量处理时GPU 显存压力远大于单次 Web 请求。

倍但能跑通推荐方案在for循环里加time.sleep(

给 GPU 一点喘息时间或把大图 resize 到 1024px 宽度再处理。

4 我想同时找多个东西比如“人和椅子”怎么改只需修改PROMPT变量PROMPT 找到图中的人和所有的椅子模型会返回所有匹配目标的坐标不分先后。

批量之后还能做什么定位出坐标只是第一步。

总结让 AI 成为你键盘边的沉默同事Qwen

5-VL-Chord 的强大不在于它多会“聊天”而在于它多愿意“干活”。

获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

御梦子免费全集电视剧在线播放-御梦子免费全集电视剧在线播放应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

2 完整可运行代码#!/usr/bin/env python3 # -- coding: utf-8 -- Qwen

5-VL-Chord 批量视觉定位脚本功能遍历指定文件夹下所有图片对每张图执行相同文本提示的视觉定位输出

处理日志作者一线工程师日期

if name main: main()

相关优化文章推荐