连肝 5 天!目前最快语音转文字,没有之一

在线wifi跑包 金刚包跑包 cap跑包 hccapx ewsa在线 就来 握手包跑包

各位好 又见面了 我是曹操 今天给大家带来一篇新的教程

希望各位细心学习 低调用网

跑包最快的软件

在奶酪的介绍中,提到了两款语音识别软件:WhisperDesktop和WAC。虽然它们都非常好用,但为什么还要启动一个新项目呢?原因是因为”命令行软件”更加方便。1.1、命令行软件是指那些以文本命令为基础的软件,与之相对的是”图形化软件”,比如Word、Excel和Photoshop等。图形化软件的特点是”所见即所得”,所有的内容都以可视化的方式呈现,只需用鼠标点击几下即可完成任务,非常容易上手。而命令行软件则是”所想即所得”,它可以将我们大脑中的想法转化为逻辑化的文本。通过不同命令的组合,可以实现任务的批处理和自动化。虽然命令行软件的上手难度较高,但一旦掌握,你在使用上所花费的时间将趋近于零。

Windows:https://www.gyan.dev/ffmpeg/builds/ffmpeg-release-essentials.zip
Mac:https://evermeet.cx/ffmpeg/ffmpeg-6.0.zip

跑包最快的软件

1.3、添加环境变量

下载完 FFmpeg 后,我们需要“添加环境变量。

其目的,是为了在 CMD 窗口操作时,可以省去输入软件的具体路径,几乎所有的命令行工具都可以这样配置。

跑包最快的软件

正因为如此。

我们可以将所有的命令行工具,都放在同一个文件夹下。

只需要设置一次环境变量,那么以后所有的软件,比如 FFMpeg,只要放在这个文件夹里,那么就会自动生效。

比如奶酪就将所有命令行软件放在了 D:Commandline 里。

跑包最快的软件

添加环境变量的具体操作如下:

跑包最快的软件

最后,在 CMD 窗口或终端输入软件名,比如 ffmpeg,如果有返回内容,而不是 not found,则说明配置成功。

跑包最快的软件

Mac 平台下也可以设置环境变量。

但更快更便捷的方法,是直接把所有命令行软件放在 /usr/local/bin 文件夹下,然后就会自动生效。

跑包最快的软件

02

Windows 一键识别

当然,上面的这些内容还只是“前置安装”,真正的“爽点”,是接下来“一键识别”的操作实现。

2.1、WhisperCli

2022 年 9 月,OpenAI 发布 Whipser 多语言语音识别模型,超过 68 万小时的语音数据训练,支持 99 种语言。

但 Whisper 原版的 Python 项目速度缓慢。

于是,有一位叫 ggerganov 的网友用 C/C++ 语言重新编译了 Whisper,并成立了 whisper.cpp 项目。

它不依赖其它的库,直接就能在所有平台上运行,相比原版 Whisper 速度快了 4-45 倍。

支持 N卡/A 卡,支持核显,ARM 芯片也支持。

地址:

跑包最快的软件

考虑到 Whisper.cpp 的安装难度较高。

GitHub 上又一位叫 Const-me 的网友,在 Whisper.cpp 的基础上进行了整合,使用难度大大减低。

WhisperDesktop 正是出自他的手比,而且他还发布了命令行的版本。

我们可以在他的基础上进行一键化操作。

地址:

跑包最快的软件

2.2、软件安装

作者提供的是命令行软件还是“毛坯房”,于是奶酪在他的基础上又进行了配置,现在你可以“拎包入住”。

奶酪前后花了五天时间,终于实现了目前最快的 Whipser 语音识别方法,没有之一。

而效果就是,只需要点击一下“开始.bat”。

从此,你的电脑就拥有了“语音一键识别”功能。

应该说,已经到了“有手就会用”的程度。

跑包最快的软件

软件下载:

考虑到转录速度和准确性,奶酪的配置包分成了三个版本。

标准 版本:

首推版本,在速度和准确度上最均衡,大小 1.3G。

Small 版本:

给性能不那么好的老电脑和笔记本电脑用的,大小 420M。

Large 版本:

更加准确,但花费的时间大概是标准版本的两倍,大小 2.6G。

当然,三个版本你都可以安装上,按需使用。

跑包最快的软件

实际测试:

我用的是 AMD 核显,一个 2:30 秒的文件,Large 模型用了 1:20 秒,Meidum 40 秒,Small 用了 11 秒。

如果你有 4060 以上显卡的话,估计也就几秒钟的事。

2.3、使用方法

经过连续的版本更新,现在"奶酪 Whisper 配置包"的使用方法,已经超级简单了。

安装方法:

首先,下载并解压到任意位置。

然后,点击“开始.bat”,语音识别的“中文、英文、日文”快捷操作,就会自动添加到右键的“发送到”菜单里。

最后,选择任意文件或者文件夹,即可进行一键或批量转录。

跑包最快的软件

如果需要添加其它语言,可以打开“batch”文件夹,一键添加所有语言,同时还可以对“发送到”菜单进行编辑。

跑包最快的软件

文件一键转录:

选择任意文件,右键菜单选择“发送到”,即可进行一键转录,生成的文件,就与原文件保存在同一个目录下。

跑包最快的软件

文件夹批量转录:

选择任意文件夹,右键选择“发送到”,即可进行批量转录。

不用担心文件夹下有其它格式的文件,奶酪设置了自动过滤,命令只会对音频和视频有效。

跑包最快的软件

3.4、软件兼容性

经过奶友们的反馈,目前项目还存在这些问题。

1、不支持 2012 年以前的 CPU。

支持 Win 7 系统,但模型渲染需要 F16C 指令集,因此不支持 2012 年以前生产的 CPU。

2、部分文件格式不支持。

已知 .flv 视频会报错不支持,.aac 音频也会报错,用任意转换软件,比如 FFmpeg,转换为 .mp3 格式即可。

3、文件名带有特殊符号的问题。

如果文件名里带有 ' 和 [ ],比如 Tom's.mp4 ,会导致命令行无法运行,等后续版本更新解决。

4、转录过程中 CMD 窗口显示为 ?问号。

是编码的问题,不影响实际转的结果,目前只能正常显示英语,等后续版本更新解决。

03

Mac 一键识别

Mac 平台能不能也实现 Windows 那样的一键识别呢?能!而且,思路也大致相同。

3.1、WAC

Mac 平台下也有一款基于 Whisper.cpp 开发的应用,叫 Whisper Auto Captions。

支持 Intel 芯片和 ARM 芯片,它可以解决 Mac 平台下 Whisper 无法调用 GPU 的问题,转录速度大为提升。

同时,它还是目前唯一一款完全免费的 Whisper.cpp 应用。

地址:

跑包最快的软件

3.2、软件安装

不过,原版 Whisper Auto Captions 是一款图形化应用,但好在它基于 Whisper.cpp 开发。

所以,我们还是可以用它内置的“命令行程序”来实现一键操作。

安装方法:

首先,下载 Whisper Auto Captions。

解压后,一定要将 Whisper Auto Captions 放到“应用程序”文件夹里。

这很重要,因为关系到我们后的续操作。

跑包最快的软件

3.3、使用方法

Mac 平台下,同样也有类似 Windows 右键菜单的“发送到”功能,叫做“自动操作”。

具体实现方法。

是打开“自动操作”,新建一个“快捷操作”,输入以下代码。

for f in "$@"do/Applications/Whisper Auto Captions.app/Contents/Resources/main -f "$f" -m /Applications/Whisper Auto Captions.app/Contents/Resources/ggml-medium.bin -l auto -otxt -osrt --prompt 简体中文done

跑包最快的软件

不想操作也没关系。

1.2、安装FFmpeg。为了让本项目正常运行,虽然不需要使用Python,但需要安装FFmpeg。Whisper需要它来提取声音数据,不过不用担心,你不需要手动打开它,Whisper会自动调用它。你可以在以下地址下载FFmpeg:

赞(0)