基于deep peak2的端到端建模,将音频流实时识别为文本,并返回每个句子的开始和结束时间。适用于长句语音输入、音视频字幕、会议等场景
功能介绍
1、技术先进,鉴定准确
基于deep peak2的端到端建模、超过10万小时的数据训练、多采样率和多场景声学建模,近场普通话识别准确率达到98%
2、多语言识别
支持普通话和略带口音的中文识别;支持英语识别
3、智能语言处理
利用大规模的数据集训练语言模型,根据语音内容智能地校正识别的中间结果,匹配合适的标点符号,。!?
4、多种通话模式
它支持websocket API、Android、IOS和Linux SDK。它可以在各种操作系统和设备终端上调用。它既快又好用
5、毫秒级音频流的实时识别
第一个包的响应时间为毫秒,并实时显示中间文本的结果,以快速识别音频流
6、字符识别结果支持时间戳
返回的文本结果带有时间戳,显示VAD切分语句的开始和结束时间,便于函数开发
应用场景
1、实时语音输入
语音输入准确高效,双手解放,语音内容实时显示在屏幕上,聊天顺畅
2、现场视频字幕
直播的新方法是,主持人可以直接将演讲内容转录成字幕显示在屏幕上,也可以对字幕进行二次编辑
3、同一屏幕上的字幕
会议发言可以实时在屏幕上显示嘉宾的演讲字幕,逐字显示,并进行智能纠错
4、实时分钟数
在会议现场,可以实时记录每个演讲者的声音,提高会议录制的效率
5、教室音频识别
学校可以记录教学内容,评价教学质量
特色优势
1、领先识别效应
基于deep peak2端到端建模、多采样率和多场景声学建模,近场汉语普通话识别准确率达到98%
2、支持多设备终端
支持websocket API模式,Android、IOS、Linux SDK模式调用,可应用于多种操作系统,多设备终端均可使用
3、稳定高效的服务
企业级稳定服务保障,专有集群承载大流量并发,高效灵活,服务稳定
4、模型自助优化
汉语普通话模型可以在语音自训练平台上进行零码自训练,上传文本语料库可有效提高商务词汇识别准确率5-25%