知行编程网知行编程网  2022-01-16 14:26 知行编程网 隐藏边栏 |   抢沙发  11 
文章评分 0 次,平均分 0.0

当对一个或多个人的谈话进行记录时,采用一种高度准确和自动化的方式将口语提取为文本非常有用。转换成文字后,便可以将其用于进一步分析或用作其他功能。

在本教程中,我们将使用称为AssemblyAI(https://www.assemblyai.com/)的高精度语音转文本Web API从MP3录音中提取文本(也支持许多其他格式)。

在本教程中,音频文件示例下载地址请扫描本文下方二维码添加Python小助手获取,下面是音频输出如下所示的高精度文本转录内容:

 application code or EMS are useful because they provide a high level 

...(output abbreviated)

就是这样,我们已经转录完成了!

您可能想知道如果精度不适合您的情况该怎么办。这就是需要用到提高关键字或短语的准确性方法(https://docs.assemblyai.com/guides/boosting-accuracy-for-keywords-or-phrases)和选择与数据更匹配的模型方法(https://docs.assemblyai.com/guides/transcribing-with-a-different-acoustic-or-custom-language-model)的地方。您可以使用这两种方法中的任一种,将记录的准确性提高到适合您情况的水平。

下一步是什么?

我们刚刚完成了一些脚本,这些脚本调用AssemblyAI API来将带有语音的录音转录为文本输出。您可以查阅文档(https://docs.assemblyai.com/overview/getting-started)来增加一些更高级功能:

  • 支持不同的文件格式

  • 转录双通道/立体声录音

  • 获取扬声器标签(扬声器隔离)

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写

发表评论

表情 格式 链接 私密 签到
扫一扫二维码分享