LocateAnything-3B 基本入门示例:ModelScope 下载模型、使用 PyQt5 GUI 界面、Python API 代码示例

LocateAnything-3B 基本入门示例:ModelScope 下载模型、使用 PyQt5 GUI 界面、Python API 代码示例 LocateAnything-3BLocateAnything-3B 是一个基于 Transformer 架构的视觉定位模型能够根据文本描述在图像中定位目标物体。模型下载使用 ModelScope 下载模型# 安装 modelscope pip install modelscope # 下载模型约3GB modelscope download --model nv-community/LocateAnything-3B模型默认下载路径~/.cache/modelscope/hub/models/nv-community/LocateAnything-3B环境依赖关键版本要求库名称版本要求说明Python 3.10建议使用 Anaconda 虚拟环境transformers4.40.0, 4.48.0重要4.48 版本移除了all_tied_weights_keystorch 2.1.0GPU 环境建议使用 CUDA 12.xtorchvision 0.16.0与 PyTorch 版本匹配numpy 1.25.0, 2.0.0避免 numpy 2.0 兼容性问题Pillow 11.1.0图像处理核心库opencv-python-headless 4.11.0.86固定版本确保稳定性安装依赖# 克隆仓库 git clone repository-url cd LocateAnything-3B # 创建虚拟环境推荐 conda create -n locate3b python3.10 conda activate locate3b # 安装依赖 pip install -r requirements.txt可选依赖# 用于 PEFT 微调 pip install peft0.10.0 # 用于视频处理 pip install decord0.6.0 # 用于大规模数据处理 pip install lmdb1.7.5 # 用于分布式训练/推理 pip install accelerate0.25.0快速开始1. 模型测试# 运行基础测试验证模型加载 python simple_test.py2. 使用 GUI 界面# 安装 PyQt5如果未安装 pip install pyqt5 # 启动图形界面 python gui_simple.py3. Python API 示例import torch from transformers import AutoTokenizer, AutoProcessor, AutoModel # 模型路径 MODEL_PATH ~/.cache/modelscope/hub/models/nv-community/LocateAnything-3B # 加载模型 device cuda if torch.cuda.is_available() else cpu tokenizer AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_codeTrue) processor AutoProcessor.from_pretrained(MODEL_PATH, trust_remote_codeTrue) model AutoModel.from_pretrained( MODEL_PATH, torch_dtypetorch.bfloat16 if device cuda else torch.float32, trust_remote_codeTrue, device_mapdevice, ).eval() # 推理 # 请参考官方文档或源码中的推理示例目录结构LocateAnything-3B/ ├── gui_simple.py # 图形界面工具 ├── simple_test.py # 模型加载测试脚本 ├── test_cars.py # 汽车定位测试示例 └── requirements.txt # 依赖列表功能特性✅ 文本引导的图像目标定位✅ 支持中文和英文目标描述✅ 可视化结果展示✅ 结果图片保存自动命名[原文件名]_[时间戳].png✅ 图片缩放查看25% - 300%常见问题1. 版本兼容性问题问题AttributeError: Qwen2ForCausalLM object has no attribute all_tied_weights_keys解决方案确保transformers版本低于 4.48.0pip install transformers4.40.0,4.48.02. CUDA 内存不足解决方案使用 CPU 推理或调整 batch sizemodel AutoModel.from_pretrained( MODEL_PATH, torch_dtypetorch.float32, # 使用 float32 减少显存占用 trust_remote_codeTrue, device_mapcpu, ).eval()3. 中文显示问题GUI 界面已内置中文支持会自动检测系统中的中文字体Noto Sans CJK SC (思源黑体)WenQuanYi MicroHei (文泉驿微米黑)SimHei (黑体)如果系统没有中文字体可安装sudo apt install fonts-noto-cjk # Ubuntu/Debian性能要求配置最小要求推荐配置GPU 显存8GB16GB内存16GB32GBCUDA11.812.xJoelYuan/LocateAnything-3B-simple: 简单使用LocateAnything-3B魔搭社区下载模型