将批量上传的音频文件识别为文本,并在12小时内返回识别结果。适用于录音质量检查、会议内容总结、音频内容分析
功能介绍
1、技术先进,鉴定准确
基于deep peak2端到端建模、多采样率和多场景声学建模,近场汉语普通话识别准确率达到98%
2、批量音频的快速识别
大量的录音被批量上传,并通过语音识别引擎准确、快速地转换成文字,识别结果在12小时内返回
3、字符识别结果支持时间戳
返回的文本结果带有时间戳,显示VAD切分语句的开始和结束时间,便于函数开发
4、多语言识别
支持普通话和略带口音的中文识别,支持英语识别
应用场景
1、会议面试
会议和面试的长时间录音被批量识别为文本,语音部分通过静音识别自动分割,提高识别效率,便于内容录制和总结,提高音频内容的录制效率
2、音频内容分析
将大量对话录音识别为文字,并对内容进行持续分析和监控,及时发现风险和违法内容,挖掘潜在的营销机会
3、课堂录音分析
通过文本还原课堂场景,分析教学内容,提高教学质量
4、视频字幕
通过语音识别对视频中的音频进行识别,并对非语音部分进行自动分割。每个句子都有一个时间戳,通过时间戳生成相应的字幕,提高字幕配置的效率
产品优势
1、高效、稳定
企业级稳定的服务保障,专有集群承载大流量并发,高效灵活,采用最新的分段和并发调度技术,可以快速返回识别结果
2、智能语言处理
利用大规模的数据集训练语言模型,根据语音内容智能地校正识别的中间结果,匹配合适的标点符号,。!?
3、数字格式的智能转换
根据对语音内容的理解,可以将数列、小数、时间、分数和基本运算符正确转换为数字格式,使识别结果更符合使用习惯,直观自然