本地视频转文字,音频转文字免费工具

本地视频转文字,音频转文字免费工具 video2text Windows 安装部署教程找了下本地视频转文字的工具都是各种限制于是自己写了个自用的工具。如果你觉得有用欢迎在 GitHub 上给个 Star完全免费无时长限制可转写视频和音频基于 Whisper large-v3高准确率集成 Ollama / NVIDIA 大模型自动生成摘要图形界面 命令行Windows 绿色版已打包批量转写 总结输出 TXT/SRT/VTT/JSON完全开源video2text GitHub 仓库一、界面主界面GUI仅转写Whisper提取语音输出原文、字幕不生成AI总结仅总结读取已有文稿本地大模型生成摘要转写总结一键执行语音转写AI摘要整套流程左侧日志区实时打印加载、报错、显存、任务耗时等运行日志右上结果区文本内容原文编辑CtrlS保存、CtrlF查找右键重转文件摘要页AI产出文案支持手动修改右下提示词区自定义摘要提示词可保存/删除模板勾选Markdown自动格式化导出工作流程简介video2text 的处理流程分为两个阶段语音转写输入视频/音频 → Whisper large-v3 模型 → 输出 TXT/SRT/VTT/JSON 文本智能总结转写文本 → Ollama 本地模型 / NVIDIA 在线模型 → 输出 Markdown 格式摘要两个阶段可独立运行也可以一键完成。二、安装前的准备系统要求与组件在安装 video2text 这一本地视频转文字工具前请先确认你的电脑满足以下条件。2.1 最低配置与推荐配置项目最低要求推荐配置操作系统Windows 10 64位Windows 11 64位磁盘空间20 GB 可用空间30 GB 以上含模型文件内存RAM8 GB16 GB 及以上显卡无CPU模式可用但很慢NVIDIA 显卡6GB显存以上 CUDA注意AMD 显卡暂不支持 GPU 加速。CPU 模式可以运行会比较慢。显卡信息参考nvidia-smi 输出示例以下为 nvidia-smi 输出示例请以你电脑上的实际输出为准Driver Version: 572.83NVIDIA 显卡驱动版本video2text 依赖驱动提供的 CUDA 运行时。驱动版本过低可能导致 GPU 无法被识别。CUDA Version: 12.8此驱动支持的最高 CUDA 版本。Whisper 和各类深度学习模型在 CUDA 12.x 下均可正常工作。NVIDIA-SMI 572.83Driver Version: 572.83CUDA Version: 12.8GPU Name Driver-ModelBus-Id Disp.AVolatile Uncorr. ECCFan Temp Perf Pwr:Usage/CapMemory-UsageGPU-Util Compute M.MIG M.0 NVIDIA GeForce RTX 4060 WDDM00000000:01:00.0 OffN/AN/A 41C P5 5W / 140W365MiB / 8188MiB0% DefaultN/A如果驱动版本和 CUDA 版本太低也可能无法使用 GPU 加速。建议先在命令行执行nvidia-smi确认显卡状态。2.2 需要下载哪些文件video2text 本地视频转文字工具的安装包体积较大已上传至 123 云盘内含以下组件组件大小是否下载large-v3语音模型~3 GB可选建议下载自己有其它模型也行Ollama 总结模型qwen2.5:7b~4.7 GB可选看总结用不用 Ollamavideo2text 程序~3 GB必须请使用支持保留目录结构的解压工具如7-Zip或Bandizip解压压缩包确保文件夹结构完整。下载地址合并下载: [video2text] 所有文件 链接https://1840674647.share.123pan.cn/123pan/7CfNTd-SE7j3?pwdviWa# 提取码viWa 分开下载: [video2text_portable_windows_*.zip] 程序包 链接https://1840674647.share.123pan.cn/123pan/7CfNTd-4Ovdh?pwd1234# 提取码1234 [large-v3.zip] 语音转文字模型 链接https://1840674647.share.123pan.cn/123pan/7CfNTd-nk8vh?pwd1234# 提取码1234 [ollama] 安装包和本地模型 链接https://1840674647.share.123pan.cn/123pan/7CfNTd-DR8dh?pwd1234# 提取码1234三、详细安装步骤以下按顺序介绍 video2text 本地视频转文字工具的完整安装流程。3.1 部署 video2text 本地视频转文字程序第一步解压程序包将video2text_portable_windows_*.zip解压到你希望存放程序的位置例如D:\video2text。该程序为绿色版无需安装不会写入注册表解压即用。解压后目录结构如下D:\video2text\ ├── video2text.exe ← 主程序 ├── video2text.bat ← 启动脚本自动设置工作目录 ├── config.ini ← 配置文件 ├── .env ← 环境变量配置存放 API Key需手动创建 ├── docs ← 文档 ├── assets\ ← 图标资源 ├── ffmpeg\ ← 内置 FFmpeg ├── models\ ← 模型目录需要放入模型文件 ├── output\ ← 输出目录可选 ├── logs\ ← 日志目录 └── README.md ← 说明文档第二步放入语音识别模型将下载的large-v3.zip解压到程序目录下的models文件夹中。确保解压后模型文件位于models\large-v3\子目录下且包含以下核心文件D:\video2text\models\ └── large-v3\ ├── config.json ├── model.bin ← 核心模型文件约 2.9 GB ├── preprocessor_config.json ├── tokenizer.json └── vocabulary.json放好模型后就可以使用视频转文本功能了。需要使用其它模型的可以到 Hugging Face 上找按照上面目录结构放好再到配置文件中设置。3.2 总结模型安装video2text 支持两种总结服务NVIDIA 在线模型和本地 Ollama 模型按需选择其一即可。3.2.1 NVIDIA 在线使用在线 NVIDIA 模型总结需要先在 NVIDIA Build 注册账号并创建 API Key目前大部分模型免费使用。获取 Key 后在程序目录下新建一个名为.env的文本文件注意文件名以点开头无扩展名。用记事本打开按需添加以下内容# NVIDIA API Key使用在线 NVIDIA 模型总结时需要 NVIDIA_API_KEYnvapi-你的API密钥保存文件。程序启动时会自动读取该文件中的环境变量。API Key 也可以通过系统环境变量设置效果相同系统环境变量优先级高于.env文件。NVIDIA 提供有很多免费的模型如果网络访问有问题需要自行解决。3.2.2 安装 Ollama使用本地模型总结Ollama 是一个本地大语言模型运行框架video2text 使用它来生成文本摘要。本文以qwen2.5:7b-instruct-q4_K_M为例进行安装演示该模型实际总结效果一般推荐优先使用 NVIDIA 在线模型。第一步运行安装程序双击OllamaSetup.exe按提示完成安装。安装过程无需手动配置会自动完成。第二步解压预下载模型找到下载好的models.zip文件将其解压到C:\Users\你的用户名\.ollama目录下。确保解压后的目录结构如下C:\Users\你的用户名\.ollama\ └── models\ └── blobs\ ← 模型数据文件 └── manifests\ ← 模型清单文件第三步启动 Ollama 服务方式一在开始菜单找到 Ollama 图标并启动。方式二按Win R打开运行窗口输入cmd执行ollama serve。启动后系统托盘会出现 Ollama 图标表示服务已就绪。如果需要使用 Ollama 在线云服务模型如 deepseek-v3.1:671b-cloud、gpt-oss:120b-cloud需注册账号并在.env文件中配置OLLAMA_API_KEY# Ollama API Key使用带认证的 Ollama 服务时可选配置 OLLAMA_API_KEY你的API密钥3.3 验证安装是否成功完成以上所有步骤后按顺序验证各组件是否正常工作启动 video2text双击video2text.exe或video2text.bat启动程序。程序主窗口应正常显示标题为「Video2Text - 视频转文本工具」。底部状态栏会显示当前使用的配置文件路径。快速测试可选选择一个短小的视频文件1-2 分钟即可。点击「仅转写」按钮观察日志面板是否有输出、进度条是否推进。转写完成后右侧面板应显示转写文本。点击「仅总结」按钮确认能正常生成摘要。