用 Python 将音频内容转换为文本格式

知行编程网 2022-01-16 14:26 知行编程网 | 隐藏边栏 | 抢沙发 | 11 0

文章评分 0 次，平均分 0.0 ：

当对一个或多个人的谈话进行记录时，采用一种高度准确和自动化的方式将口语提取为文本非常有用。转换成文字后，便可以将其用于进一步分析或用作其他功能。

在本教程中，我们将使用称为AssemblyAI（https://www.assemblyai.com/）的高精度语音转文本Web API从MP3录音中提取文本（也支持许多其他格式）。

在本教程中，音频文件示例下载地址请扫描本文下方二维码添加Python小助手获取，下面是音频输出如下所示的高精度文本转录内容：

 application code or EMS are useful because they provide a high level

...(output abbreviated)

就是这样，我们已经转录完成了！

您可能想知道如果精度不适合您的情况该怎么办。这就是需要用到提高关键字或短语的准确性方法（https://docs.assemblyai.com/guides/boosting-accuracy-for-keywords-or-phrases）和选择与数据更匹配的模型方法（https://docs.assemblyai.com/guides/transcribing-with-a-different-acoustic-or-custom-language-model）的地方。您可以使用这两种方法中的任一种，将记录的准确性提高到适合您情况的水平。

下一步是什么？

我们刚刚完成了一些脚本，这些脚本调用AssemblyAI API来将带有语音的录音转录为文本输出。您可以查阅文档（https://docs.assemblyai.com/overview/getting-started）来增加一些更高级功能:

支持不同的文件格式
转录双通道/立体声录音
获取扬声器标签（扬声器隔离）

本文为原创文章，版权归知行编程网所有，欢迎分享本文，转载请保留出处！

知行编程网关注：1 粉丝：1

这个人很懒，什么都没写

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利