preloader
blog-post

使用开源ASR达到对于语音通信和视频通信进行语音通话过程中的质检

author image

  为什么会讲是语音通话过程中的质检,主要是由于视频通话过程中,比如行为检测、衣着检测等,需要的资源量大,性能、质量等都要受到这样那样的影响,所以我们主要是讲对于通话过程中的语音进行实时或非实时的质检。

  这里的质检分几种,一是完全实时的,如使用mrcp或实时流的sdk,送2048个字节就进行一次识别及校正,这种的最常见的是用于做会议纪要、大规模商业投资下的座席辅助,但从实际上来说,成本有点高;二进行离线完全非实时的质检,即通话结束后,向质检系统上传录音后进行质检,其中asr效果较好的《使用OpenAI开源的whisper来识别下casablanca及中文》,但是成本太高了,对于gpu的使用,对于并发性能等都是非常有挑战的;三是半实时的,即如当年我们做的《宁卫录音分析和DSR融为一体,为质检提供更丰富的能力》,这种的实时性比第一种要弱一些,但是又完全区别第二种,如有实施诈骗的,要等诈骗电话结束后才能发现,这种的在通话过程中就可以处理,成本又完全低于以上两种方案。

  第一种方案,我们用在了120、122等领域以及一些重要的保险公司的座席助手项目中;第二种方案,用在了为客户提供通信支撑能力的平台上进行快速检测;第三种方案,则是用在了中小企业的通信平台上,以及《AU-UC/AI-PBX宣传片》,这样在成本上远低于实时的,但是实时效果远好过于第二种,也可以达到座席助手等能力。

  当然在以上几种方案外,我们还开源了一个rst项目:https://gitee.com/nwaycn/rst.git 用于将实时流从FreeSWITCH推送给golang实现的外部应用,让外部应用进行实时流的处理。

Recent Articles

blog-post

限时免费实时质检、免费座席助手中间件

 注意,本次应用的能力为半实时,即不是每个语音包流都要送往识别,而是VAD后才送,识别后通过ESL发送消息后进行处理,用于座席辅助或半实时质检均可。部署方式为:云主机、物理机、测试型的内部虚拟机均可。识别特性:座席助手,或当检测到有异常,实 …