本地视频转文字完全免费教程：video2text实现离线语音转写+AI智能总结-尧图企业网站定制

本地视频转文字完全免费教程video2text实现离线语音转写AI智能总结找了下本地视频转文字的工具,都是各种限制,于是自己写了个自用的工具完全免费无时长限制基于 Whisper large-v3精准实用集成 Ollama / NVIDIA 大模型自动生成摘要图形界面命令行Windows 绿色版支持 Windows 10/1164位NVIDIA 显卡自动加速显存 6GB一键转写总结输出 TXT/SRT/VTT/JSON完全开源源代码video2text GitHub 仓库本地视频转文字工具最终效果选择一个视频点一下按钮得到 TXT 文件 Markdown 摘要。一、安装前的准备系统要求与组件在安装 video2text 这一本地视频转文字工具前请先确认你的电脑满足以下条件。1.1 最低配置与推荐配置项目最低要求推荐配置操作系统Windows 10 64位Windows 11 64位磁盘空间20 GB 可用空间30 GB 以上含模型文件内存RAM8 GB16 GB 及以上显卡无CPU模式可用但很慢NVIDIA 显卡6GB显存以上 CUDA注意AMD 显卡暂不支持 GPU 加速。CPU 模式可以运行但转写速度很慢不建议使用。显卡信息参考nvidia-smi 输出示例NVIDIA-SMI 572.83Driver Version: 572.83CUDA Version: 12.8GPU Name Driver-ModelBus-Id Disp.AVolatile Uncorr. ECCFan Temp Perf Pwr:Usage/CapMemory-UsageGPU-Util Compute M.MIG M.0 NVIDIA GeForce RTX 4060 WDDM00000000:01:00.0 OffN/AN/A 41C P5 5W / 140W365MiB / 8188MiB0% DefaultN/A如果驱动版本和 CUDA 版本太低也可能无法使用 GPU 加速。建议先在命令行执行nvidia-smi确认显卡状态。1.2 需要下载哪些文件含云盘地址video2text 本地视频转文字工具的安装包体积较大已上传至 123 云盘内含以下组件组件大小large-v3语音模型~3 GBOllama 总结模型qwen2.5:7b~4.7 GBFFmpeg~200 MBvideo2text 程序~3 GB运行时缓存及输出空间预留若干 GB请使用支持保留目录结构的解压工具如7-Zip或Bandizip解压压缩包确保文件夹结构完整。下载地址『来自123云盘用户喵王龙的分享』video2text 本地视频转文字工具链接https://1840674647.share.123pan.cn/123pan/7CfNTd-SE7j3?pwdviWa# 提取码viWa二、详细安装步骤分4步完成以下按顺序介绍 video2text 本地视频转文字工具的完整安装流程。2.1 部署 video2text 本地视频转文字程序第一步解压程序包将video2text_portable_windows_*.zip解压到你希望存放程序的位置例如D:\video2text。该程序为绿色版无需安装不会写入注册表解压即用。解压后目录结构如下D:\video2text\ ├── video2text.exe ← 主程序 ├── video2text.bat ← 启动脚本自动设置工作目录 ├── config.ini ← 配置文件 ├── .env ← 环境变量配置存放 API Key需手动创建 ├── assets\ ← 图标资源 ├── models\ ← 模型目录需要放入模型文件 │ └── readme.md ├── output\ ← 输出目录转写和总结结果保存在此 │ └── readme.md ├── video\ ← 视频存放目录可选使用 │ └── readme.md ├── logs\ ← 日志目录 │ └── readme.md ├── README.md └── README_PORTABLE.txt第二步创建.env文件可选使用 NVIDIA 在线总结服务时需要在程序目录下新建一个名为.env的文本文件注意文件名以点开头无扩展名。用记事本打开按需添加以下内容# NVIDIA API Key使用在线 NVIDIA 模型总结时需要 NVIDIA_API_KEYnvapi-你的API密钥 # Ollama API Key使用带认证的 Ollama 服务时可选配置 # OLLAMA_API_KEY你的API密钥保存文件。程序启动时会自动读取该文件中的环境变量。如果仅使用本地 Ollama 进行总结则无需创建此文件。API Key 也可以通过系统环境变量设置效果相同系统环境变量优先级高于.env文件。NVIDIA 提供有很多免费的模型如果网络访问有问题需要自行解决。第三步放入语音识别模型将下载的large-v3.zip解压到程序目录下的models文件夹中。确保解压后模型文件位于models\large-v3\子目录下且包含以下核心文件D:\video2text\models\ └── large-v3\ ├── config.json ├── model.bin ← 核心模型文件约 2.9 GB ├── preprocessor_config.json ├── tokenizer.json └── vocabulary.json重要model.bin是最大的文件约 2.9 GB缺少此文件将无法进行转写。如果没有预下载模型程序首次运行时会自动从 HuggingFace 下载模型约 3 GB需联网。如果网络较慢可在config.ini中配置代理[network] proxy http://127.0.0.1:78902.2 安装 FFmpeg用于视频音频提取FFmpeg 是一个音视频处理工具video2text 使用它从视频文件中提取音频。第一步解压安装包将下载的ffmpeg-*-win64-gpl.zip解压到一个固定目录例如C:\ffmpeg。解压后的目录结构如下C:\ffmpeg\ └── bin\ ├── ffmpeg.exe ├── ffplay.exe └── ffprobe.exe第二步添加到系统 PATH 环境变量右键点击「此电脑」→「属性」→「高级系统设置」→「环境变量」在「系统变量」区域找到Path变量双击打开点击「新建」输入 FFmpeg 的bin目录路径C:\ffmpeg\bin依次点击「确定」关闭所有对话框快捷方法Windows 10/11按WinS搜索「环境变量」→ 选择「编辑系统环境变量」→ 点击「环境变量」按钮。第三步验证安装重新打开一个命令提示符或 PowerShell 窗口必须重新打开旧窗口不会加载新的 PATH运行ffmpeg-version如果显示 FFmpeg 版本信息如ffmpeg version 7.x说明安装成功。如果提示「不是内部或外部命令」请检查 PATH 设置是否正确或尝试重启电脑后再试。替代方案如果不想修改系统 PATH也可以在 video2text 的配置文件config.ini中指定 FFmpeg 的完整路径[preprocessing] ffmpeg_path C:\ffmpeg\bin\ffmpeg.exe2.3 安装 Ollama用于AI总结Ollama 是一个本地大语言模型运行框架video2text 使用它来生成文本摘要。第一步运行安装程序双击OllamaSetup.exe按提示完成安装。安装过程无需手动配置会自动完成。第二步解压预下载模型找到下载好的models.zip文件将其解压到C:\Users\你的用户名\.ollama目录下。确保解压后的目录结构如下C:\Users\你的用户名\.ollama\ └── models\ └── blobs\ ← 模型数据文件 └── manifests\ ← 模型清单文件提示%USERPROFILE%环境变量会自动指向当前用户的主目录。在文件资源管理器地址栏输入%USERPROFILE%\.ollama可直接跳转。第三步启动 Ollama 服务安装完成后从开始菜单或桌面找到Ollama程序并运行。Ollama 会以后台服务形式运行默认监听http://127.0.0.1:11434。系统托盘区会出现 Ollama 图标表示服务已启动。第四步验证安装打开命令提示符WinR→ 输入cmd→ 回车运行ollama list如果显示已安装的模型列表如qwen2.5:7b-instruct-q4_K_M说明安装和模型解压均成功。如果提示找不到命令尝试重新打开一个命令提示符窗口安装后需要新的终端窗口才能刷新 PATH。如果没有预下载模型文件可以在线拉取模型在命令提示符中运行ollama pull qwen2.5:7b-instruct-q4_K_M模型文件约 4.7 GB下载时间取决于网络速度。最好注册 Ollama 的账号官网地址https://docs.ollama.com/提供免费的在线模型可使用包括 deepseek-v3.1:671b-cloud、gpt-oss:120b-cloud。2.4 验证安装是否成功完成以上所有步骤后按顺序验证各组件是否正常工作验证 FFmpegffmpeg-version应显示版本信息。验证 Ollamaollama list应显示已安装的模型列表。启动 video2text双击video2text.exe或video2text.bat启动程序。程序主窗口应正常显示标题为「Video2Text - 视频转文本工具」。底部状态栏会显示当前使用的配置文件路径。快速测试可选选择一个短小的视频文件1-2 分钟即可。点击「仅转写」按钮观察日志面板是否有输出、进度条是否推进。转写完成后右侧面板应显示转写文本。点击「仅总结」按钮确认 Ollama 能正常生成摘要。三、首次使用教程从打开到出结果本节演示如何使用 video2text 本地视频转文字工具完成第一次转写和总结。3.1 启动界面说明双击video2text.exe即可打开图形界面GUI。也可以双击video2text.bat启动它会自动将工作目录切换到程序所在位置。程序启动后显示主窗口默认 1200x800从上到下分为以下区域区域说明菜单栏设置编辑配置、收藏目录、图片去水印、帮助捐赠支持、关于输入行视频文件/文件夹选择、常用目录下拉框、全屏查看按钮输出行输出目录设置、浏览、加载历史、暂停按钮进度行进度条、进度标签、三个操作按钮仅转写/仅总结/转写总结左侧面板日志输出实时显示运行日志Consolas 等宽字体右侧面板上部结果查看文件列表转写文本/摘要标签页查找替换栏右侧面板下部提示词配置自定义总结提示词及模板管理状态栏显示配置路径、操作反馈信息3.2 选择一个视频点击转写总结选择视频文件选择文件点击「选择文件」按钮在弹出的对话框中选择一个或多个视频文件按住Ctrl或Shift多选。选中多个文件后输入框显示「已选择 N 个文件」。选择文件夹点击「选择文件夹」按钮选择一个文件夹后程序会自动递归扫描其中所有支持格式的视频并弹出选择对话框。对话框显示找到的所有视频文件每个文件前有复选框默认全部勾选。可通过「全选」/「取消全选」按钮批量操作勾选需要处理的文件后点击「确定」。支持的视频格式共 17 种.mp4.avi.mov.mkv.flv.wmv.webm.ts.mts.m4v.3gp.mpeg.mpg.vob.ogv.rm.rmvb常用目录收藏输入框和输出框均为可编辑下拉框会显示已收藏的常用目录。通过菜单「设置 → 收藏」可以收藏当前输入/输出文件夹为常用目录右键点击下拉列表中的目录条目可删除单个收藏通过菜单可批量移除所有输入或输出目录收藏设置输出目录点击「浏览」按钮选择转写结果的保存位置。默认输出目录为程序所在目录下的output文件夹。如果是通过「选择文件夹」导入视频程序会自动在output下创建以源文件夹命名的子目录。执行转写总结界面提供三种操作模式按钮功能说明仅转写语音 → 文字使用 faster-whisper 模型将视频中的语音转为文字结果保存到输出目录仅总结文字 → 摘要对当前「文本内容」标签页中的文字进行 AI 摘要需要 Ollama 或 NVIDIA API。也支持对直接粘贴到文本框中的独立文字进行总结转写总结语音 → 文字 → 摘要先转写完成后自动对每段转写文本进行摘要一步完成全流程操作过程中的说明进度条会实时更新显示「已完成数/总数」日志面板会实时输出处理信息包括每段视频的转写进度、耗时等转写过程中可点击「暂停」按钮暂停当前音频分段完成后再暂停暂停后按钮变为「继续」点击继续恢复处理任务完成或失败时日志面板会显示统计信息成功/失败数量处理期间按钮状态会自动切换转写/总结/文件选择按钮禁用暂停按钮启用3.3 查看结果编辑、查找替换、全屏查看器、书签文件列表操作完成后右侧面板的文件列表会显示所有已处理的视频文件名。点击文件名可切换查看对应的转写文本和摘要。转写文本「文本内容」标签页显示该视频的完整转写文本Consolas 等宽字体文本可编辑可以直接修改转写结果中的错别字或格式问题CtrlS 保存编辑后按CtrlS可将修改保存到文件CtrlF 查找替换按CtrlF打开查找替换栏支持关键词搜索当前匹配项高亮为橙色其余高亮为黄色和替换/全部替换操作编辑后的文本可通过右键菜单「重新总结」按钮重新生成摘要摘要「摘要」标签页显示 AI 生成的摘要内容文本可编辑摘要内容支持直接编辑修改CtrlS 保存编辑后按CtrlS可将修改保存到文件CtrlF 查找替换同样支持查找替换功能右键菜单在文件列表中右键点击某个文件可选择重新转写对选中的视频重新执行转写需要原始视频文件仍在原路径重新总结对选中的视频重新执行总结需要已存在转写文件。如果在「文本内容」标签页中编辑过文本会使用编辑后的文本进行总结全屏结果查看器点击主界面的「全屏查看」按钮可打开独立的结果查看窗口提供更舒适的浏览体验。窗口默认 1400x900支持独立的文件浏览、搜索、书签等功能。全屏查看器详细功能点击展开工具栏控件说明字体大小数值调节框也可用Ctrl/Ctrl-调节范围 8-32pt默认 14ptCtrl0重置为默认主题下拉框切换「浅色」/「深色」主题选择会自动保存搜索CtrlF打开/关闭搜索栏全屏按F11切换全屏Esc退出全屏添加书签CtrlB在当前位置添加书签书签面板CtrlShiftB显示/隐藏书签侧栏文件夹模式CtrlD切换文件夹模式树形视图文件过滤左侧面板顶部有文件过滤输入框输入关键词可实时过滤文件列表便于在大量结果中快速定位。搜索功能按CtrlF打开搜索栏输入关键词后自动搜索300ms 防抖避免大文件卡顿按F3或CtrlG跳转到下一个匹配项按ShiftF3或CtrlShiftG跳转到上一个匹配项按Enter跳转到下一个匹配项按Esc关闭搜索栏全屏状态下按两次Esc退出全屏搜索栏右侧显示匹配计数如「3/15」当前匹配项高亮为橙色其他匹配项高亮为黄色深色主题下自动适配配色书签系统在转写文本或摘要中定位到需要标记的位置按CtrlB添加书签书签自动记录文件名、内容类型转写/摘要、光标位置、上下文预览前后各 30-70 字符、时间戳重复位置检测同一文件同一位置不会重复添加书签按CtrlShiftB打开书签面板包含以下功能书签计数显示如「共 10 个书签」或「显示 3 / 共 10 个书签」关键词过滤输入框实时过滤书签搜索范围包括文件名、路径、类型、内容、备注日期过滤下拉框按添加日期筛选排序方式按添加时间 / 按文件名 / 按内容类型双击书签条目跳转到对应文件和位置右键菜单跳转到位置、复制书签信息、编辑备注、全选、反选、删除选中底部按钮删除、批量删除、清空失效检测自动检测已删除文件的书签提示清理跨目录导航如果书签对应的文件不在当前目录中会提示切换目录书签数据跨会话自动保存存储在bookmarks.jsonMarkdown 渲染摘要标签页使用 Markdown 渲染显示支持标题、表格、代码块带语法高亮、引用块、有序/无序列表含嵌套、链接、加粗/斜体等格式。自动过滤不安全的 HTML 标签script、style、iframe。文件夹模式按CtrlD切换到文件夹模式左侧文件列表变为树形结构按子目录分层展示目录节点加粗并显示子视频数量如subfolder (3)子文件夹默认折叠点击展开窗口状态持久化窗口大小、工具栏位置、分栏比例等状态会自动保存到result_viewer.ini下次打开时自动恢复。3.4 其他实用功能图片去水印工具菜单「设置 → 工具 → 图片去水印」快捷键CtrlM可打开图片去水印对话框支持单张图片处理和批量处理模式三种绘制选区方式矩形框选、任意圈选、多点连线三种处理方式高斯模糊、色块填充、图像补全撤销操作CtrlZ、多选区叠加配置编辑菜单「设置 → 编辑配置」打开配置编辑器以标签页形式分组显示所有配置项应用、转写、总结、预处理、输出、网络、路径、工具可直接在界面中修改并保存。总结标签页支持切换「本地 Ollama 模型」和「在线 NVIDIA 模型」两种服务商并提供「启动服务」「关闭服务」「测试连接」等操作按钮。加载历史结果点击「加载历史」按钮可以扫描输出目录中已有的转写和总结文件加载到文件列表中查看。适用于之前处理过的视频需要再次查看结果的场景。四、常见问题与解决办法FAQ使用本地视频转文字工具时可能遇到以下问题这里逐一给出解决方案。4.1 没有NVIDIA显卡怎么办video2text 支持 CPU 模式运行但转写速度会明显较慢。解决方法打开config.ini将[transcription]下的device改为cpudevice cpuCPU 模式下转写速度较慢建议配合较短的视频测试。4.2 双击 video2text.exe 无反应或闪退原因通常是 FFmpeg 未正确安装或未添加到 PATH。解决打开命令提示符运行ffmpeg -version确认 FFmpeg 可用。如果 FFmpeg 未添加到 PATH在config.ini中手动指定路径[preprocessing] ffmpeg_path C:\ffmpeg\bin\ffmpeg.exe或者通过video2text.bat启动它会自动设置工作目录。4.3 Ollama连接失败原因Ollama 服务未启动或启动异常。解决确认 Ollama 已安装在命令提示符运行ollama --version。启动 Ollama 服务从开始菜单运行 Ollama或在命令提示符运行ollama serve。在 video2text 中打开「设置 → 编辑配置 → 总结」标签页点击「测试连接」按钮检查状态。也可点击「启动服务」按钮让 video2text 自动启动 Ollama。4.4 模型下载慢或失败原因网络环境无法正常访问 HuggingFace。解决使用预下载的large-v3.zip模型文件解压到models/large-v3/目录。如果需要在线下载在config.ini中配置代理[network] proxy http://127.0.0.1:7890确保models/large-v3/目录包含model.bin等 5 个核心文件。确保文件没有被杀毒软件误删。4.5 转写时提示 GPU 显存不足CUDA OOM原因显卡显存不足以运行 large-v3 模型。解决程序会自动尝试降级float16→int8→float32→ CPU一般无需手动干预。如果仍然失败在config.ini中将compute_type改为int8以减少显存占用compute_type int8或将device改为cpu使用 CPU 模式。4.6 杀毒软件拦截原因部分杀毒软件可能将 PyInstaller 打包的 exe 误报为可疑程序。解决将 video2text 程序所在目录添加到杀毒软件的白名单/排除列表中。同时将models/large-v3/目录也加入排除防止模型文件被误删。五、进阶技巧自定义提示词与命令行使用5.1 自定义提示词模板主界面底部的「提示词配置」区域用于自定义总结时使用的提示词。使用方法在文本框中输入自定义提示词如「请用中文总结以下内容的要点重点关注技术细节」。如果留空将使用默认提示词「你是一个专业的文本总结助手擅长提取关键信息并生成简洁准确的总结。」点击「仅总结」或「转写总结」时会将提示词与转写文本组合后发送给 AI 模型。模板管理保存模板输入提示词后点击「保存提示词」按钮在弹出的对话框中输入模板名称即可保存。加载模板从下拉框中选择已保存的模板名称提示词会自动填充到文本框。删除模板选择要删除的模板点击「删除提示词」并确认。程序会自动记住上次使用的模板下次启动时自动恢复。模板数据存储在prompts.json文件中支持原子写入防止数据损坏。提示词构建流程程序发送给 AI 模型的完整提示由三部分组成自定义提示词或默认系统提示 Markdown 格式指令转写文本。Markdown 格式指令要求模型以「要点标题内容」的结构输出确保摘要格式清晰统一。5.2 配置文件详解config.ini程序目录下的config.ini可直接用文本编辑器修改完整配置如下[app] log_level INFO # 日志级别: DEBUG/INFO/WARNING/ERROR [transcription] model_path large-v3 # 转写模型名称或路径 device cuda # 设备: auto/cpu/cuda/mps language zh # 语言: auto/zh/en/ja/... beam_size 5 # beam search 大小 best_of 5 # 候选数量 temperature 0.0 # 温度参数 compute_type float16 # 计算类型: float16/int8/float32/int8_float16 num_workers 1 # 工作线程数 vad_filter True # VAD 过滤 [summarization] provider ollama # 服务商: ollama/nvidia ollama_url http://127.0.0.1:11434 # Ollama 服务地址 model_name qwen2.5:7b-instruct-q4_K_M # 模型名称 max_length 10000 # 最大生成长度 temperature 0.7 # 温度参数 timeout 600 # 请求超时时间秒 custom_prompt # 自定义提示词 nvidia_api_url https://integrate.api.nvidia.com/v1/chat/completions nvidia_model openai/gpt-oss-120b nvidia_max_tokens 100000 nvidia_temperature 1.0 nvidia_top_p 1.0 nvidia_frequency_penalty 0.0 nvidia_presence_penalty 0.0 nvidia_mode multi # NVIDIA 模式: single(单线程)/multi(多线程并发) nvidia_thread_count 5 # 多线程模式下的并发线程数 nvidia_stream true # 是否启用流式输出仅单线程模式有效 [preprocessing] ffmpeg_path ffmpeg # FFmpeg 路径 audio_sample_rate 16000 # 音频采样率 audio_channels 1 # 音频声道数 max_chunk_duration 300 # 最大切片时长秒 supported_video_formats .mp4,.avi,.mov,.mkv,.flv,.wmv,.webm,.ts,.mts,.m4v,.3gp,.mpeg,.mpg,.vob,.ogv,.rm,.rmvb [output] output_dir output # 默认输出目录 transcript_format txt # 转写格式可逗号分隔: txt,srt,vtt,json summary_format md # 摘要格式: txt/md [network] proxy # 代理地址用于 HuggingFace 模型下载 [paths] models_dir models # 模型目录 logs_dir logs # 日志目录 video_dir video # 视频目录 [tools] watermark_mode blur # 水印去除模式: blur(高斯模糊)/fill(色块填充)/inpaint(图像补全) watermark_blur_size 51 # 高斯模糊核大小 watermark_inpaint_radius 5 # 图像补全半径 watermark_output_dir nowm # 处理后图片输出子目录 watermark_max_batch 200 # 批量处理最大数量也可通过环境变量VIDEO2TEXT_CONFIG指定自定义配置文件路径。5.3 命令行使用CLI除图形界面外也可在命令行中直接使用。在程序所在目录打开终端使用video2text.exe加子命令。不带参数运行时自动启动图形界面。转写命令.\video2text.exe transcribe 视频文件路径[选项]选项缩写说明默认值--output-dir-o输出目录output--language-l语言代码auto/zh/en/ja/…auto--model-m转写模型large-v3--device-d设备类型auto/cpu/cudaauto--beam-size-beam search 大小5--temperature-温度参数0.0--verbose-v启用 DEBUG 级别详细日志关闭示例.\video2text.exe transcribeD:\videos\lecture.mp4-o output-l zh-d cuda总结命令.\video2text.exe summarize 转写文本文件路径[选项]选项缩写说明默认值--output-dir-o输出目录output--model-m总结模型qwen2.5:7b-instruct-q4_K_M--max-length-最大生成长度5000--temperature-温度参数0.7--verbose-v启用 DEBUG 级别详细日志关闭示例.\video2text.exe summarize output\lecture.txt-o output完整流程命令.\video2text.exe run-pipeline 视频文件路径[选项]选项缩写说明默认值--output-dir-o输出目录output--language-l语言代码auto--transcription-model-转写模型large-v3--summarization-model-总结模型qwen2.5:7b-instruct-q4_K_M--device-d设备类型auto--beam-size-beam search 大小5--temperature-转写温度0.0--summary-temperature-总结温度0.7--max-length-最大生成长度5000--verbose-v启用 DEBUG 级别详细日志关闭示例.\video2text.exe run-pipelineD:\videos\meeting.mp4-o output-l zh其他命令# 查看版本.\video2text.exe version# 查看所有命令及用法.\video2text.exe--help.\video2text.exe help5.4 输出文件说明文件命名类型文件名格式示例转写文件{视频名}.{格式}video1.txt、video1.srt摘要文件{视频名}_summary.{格式}video1_summary.md转写格式格式说明txt可读文本每行[HH:MM:SS - HH:MM:SS] 文本时间戳格式为时:分:秒srtSRT 字幕格式标准序号时间轴文本块可用于视频播放器加载字幕vttWebVTT 字幕格式以WEBVTT头部开始适用于网页播放器jsonJSON 数组每项包含start秒、end秒、text、confidence置信度 0-100、language语言代码字段可在config.ini中设置transcript_format txt,srt,json同时输出多种格式用逗号分隔。摘要格式格式说明txt纯文本格式mdMarkdown 格式默认支持标题、列表、加粗、表格、代码块等输出校验所有输出文件在写入后会自动校验SRT 检查序号连续性和时间戳格式、VTT 检查头部和时间戳、JSON 检查必需字段、TXT 检查非空、所有格式检查 UTF-8 编码有效性。5.5 高级功能断点续传对于长视频超过 300 秒可通过config.ini的max_chunk_duration调整程序会自动将音频切片分段转写。每完成一个切片会保存检查点到输出目录/.checkpoint/目录如果任务中断如程序崩溃、手动关闭下次重新运行相同视频时会自动跳过已完成的切片从中断处继续。检查点文件使用原子写入临时文件替换防止损坏任务全部完成后自动清理检查点。暂停/继续转写过程中可随时点击「暂停」按钮当前音频分段完成后再暂停暂停后按钮变为「继续」。暂停期间不会丢失已完成的进度。模型自动下载首次运行时如果models/large-v3/目录下没有模型文件或文件不完整程序会自动从 HuggingFace 下载约 3GB。下载支持代理设置在config.ini的[network] proxy中配置、失败自动重试最多 3 次指数退避、下载进度显示在日志面板。GPU 显存管理转写模型加载到 GPU 后会缓存复用按模型路径设备计算类型线程数作为缓存键避免重复加载。关闭程序时会自动卸载模型并释放 GPU 显存。如果 GPU 显存不足CUDA OOM程序会自动降级先在同一设备上尝试不同计算类型float16→int8→float32→int8_float16如果仍然失败则回退到 CPU 模式cpuint8→cpufloat32。每次降级前会清理 GPU 缓存。NVIDIA 多线程总结当nvidia_mode multi时程序使用线程池并发处理多个视频的总结请求线程数由nvidia_thread_count控制并内置速率限制器请求间隔最少 1.5 秒避免触发 API 限流。多线程模式下强制使用非流式输出。日志系统程序运行日志保存在logs/目录下日志文件级别说明app.logINFO常规运行日志5MB 轮转保留 7 份debug.logDEBUG详细调试日志10MB 轮转保留 3 份error.logERROR错误日志10MB 轮转保留 30 份失败的任务会额外记录到logs/fail_log.log包含时间戳、操作模式、视频名称和错误信息。程序崩溃时会写入logs/crash.log未捕获的线程异常会写入logs/thread_error.log。图片去水印工具通过菜单「设置 → 工具 → 图片去水印」快捷键CtrlM打开支持单张和批量处理提供矩形框选、任意圈选、多点连线三种选区方式以及高斯模糊、色块填充、图像补全三种处理方式。5.6 注意事项Ollama 服务使用总结功能前需确保 Ollama 已启动。程序可自动启动 Ollama 服务在配置对话框中点击「启动服务」也可手动运行ollama serve。关闭程序时会自动停止由本程序启动的 Ollama 服务。如果使用 Ollama需先拉取模型ollama pull qwen2.5:7b-instruct-q4_K_M。Ollama 官网https://docs.ollama.com/注册账号后可免费使用在线大模型如deepseek-v3.1:671b-cloud、gpt-oss:120b-cloud。GPU 加速如无 NVIDIA 显卡请在配置中将「设备」改为cpu转写速度会明显较慢。设备设置为auto时程序会自动检测可用设备。模型文件large-v3模型约 3GB必须放置在models/large-v3/目录下。首次运行时如未找到模型会自动下载需联网。确保模型文件不被杀毒软件误删。ffmpeg 路径确保ffmpeg已添加到系统PATH或在配置中设置 FFmpeg 路径为完整路径如C:\ffmpeg\bin\ffmpeg.exe。代理设置如果网络环境需要代理才能访问 HuggingFace请在网络标签页中配置代理地址。关闭程序关闭程序时会自动取消运行中的任务、恢复暂停状态、停止本程序启动的 Ollama 服务、卸载模型并释放 GPU 显存。API Key使用 NVIDIA 总结服务需设置环境变量NVIDIA_API_KEY使用带认证的 Ollama 服务需设置OLLAMA_API_KEY。可通过系统环境变量或程序目录下的.env文件配置系统环境变量优先级更高。文本编辑与保存转写文本和摘要均可在主界面直接编辑按CtrlS保存到文件。按CtrlF打开查找替换栏支持关键词搜索、单个替换和全部替换。

相关新闻

MATLAB搞DMS摄像头：为什么你拍到脸了，算法还是说“司机不在”？

避坑指南：Teledyne PDS处理多波束数据时，那个让我抓狂的‘点删除’Bug到底怎么解决？

别再死记硬背公式了！用Python/Simulink手把手带你仿真PMSM的Clark与Park变换

基于Llama 3.3与PHP构建小众领域AI名称生成器实战

别再只写网页了！用Electron给你的Vue/React项目套个‘原生’壳，5步实现跨平台桌面版

55项实用功能：全面解锁炉石传说自定义体验

AI智能体架构设计：从成本黑洞到价值引擎的解耦之道

别再为单细胞数据批次效应发愁了！手把手教你用scvi-tools搞定整合（附完整代码）

Unity中使用SQLite4Unity3d实现跨平台本地数据库方案

Unity ML-Agents 环境配置避坑指南：Python+CUDA+Unity 版本精准匹配

毕业设计 yolov11骨折检测医疗辅助系统（源码+论文）

别再死记硬背了！用5个生活化比喻彻底搞懂Linux进程的fork、exec和wait

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势