爱医声医疗大模型及FunASR在其中的应用
医疗大模型应用难点
当前,大语言模型llm已成家喻户晓,也在很多领域展现了令人吃惊的能力。然而类似chatGPT这类生成式的模型如何应用在以任务型导向为主的医疗领域,却仍然面临很多困难。同时,语音交互是大语言模型最直接有效交互手段,我们把阿里达摩院推出的开源的语音识别框架FunASR融入到医疗大模型里,进一步缓和了困难,提升了效率。总结起来,困难主要在以下几个方面:
1)医疗专家知识图谱如何融合?医生总结的知识往往以精简规则的方式存储于知识图谱中,而生成式大模型往往需要的海量发散数据进行训练。
2)院内医疗数据如何利用及隐私保护?一方面医院愿意尝试使用AI技术来提升信息化水平,一方面大模型的训练又需要医院提供各类数据,隐私和安全成为主要的拦路虎。
3)各应用如何集成大模型交互能力?医院的应用复杂多样,包括院内和院外。而大模型的交互的方式主要是文本或语音,这涉及多种模态的数据转化或交换,如何无缝安全的集成这些AI能力是很多医院的诉求。
针对以上问题,爱医声研发医疗大模型平台,根据知识图谱导向训练医疗大模型,深度融合了专家知识库,构建了doctorGPT医疗大语言模型。同时,为了数据隐私及方便各应用使用医疗大语言模型,开发了大模型集成平台chainSwitch平台,提供一套工具、组件和接口用于多模态信息交互及各模型的融合。
另外,多模态交互主要涉及语音对话,我们在自行研发的语音识别引擎基础上,进一步融入了FunASR的很多优秀特性,包括非自回归的Paraformer模型,websocket接口,跨平台的推理runtime等等。我们也有幸作为开源贡献者为FunASR生态提供了一套websocket协议的服务,包括html5、python、c++接口。
FunASR(https://github.com/alibaba-damo-academy/FunASR)是阿里达摩院推出的开源语音识别框架,主要目的是解决学术研究和工业应用之间的差距,让最新的语音识别研究成果能简单方便的融入到项目里去。
该项目提供了大量基于海量数据训练好的预训练模型可供大家直接使用,同时也提供了部署推理框架runtime方便模型运行在不同设备和系统里。其中,比较有特色的是Paraformer非自回归端到端语音识别模型包括了时间戳预测和热词自定义功能。
Paraformer相关模型可以在魔搭平台搜索到:
https://modelscope.cn/models?name=Paraformer&page=1
模型的demo应用可以在创空间体验(或在魔搭创空间直接搜“语音”):
https://modelscope.cn/studios?name=%E8%AF%AD%E9%9F%B3&type=0
还有基于FSMN的VAD模型和基于CT-Transformer的标点符号模型。具体框架可见下图
1.1 爱医声医疗大语言模型doctorGPT
基于专家知识库生成大量仿真数据,并采用lora方式训练医疗大模型,实现面向医疗场景的实体提取、知识图谱推断、意图分析和知识输出能力
1.2 爱医声大模型集成平台chainSwitch
将大模型的训练,推理,应用和数据解耦,并提供一套工具、组件和接口简化多模态信息交互及各模型的融合,从而无缝集成大模型doctorGPT的能力到各种应用里,如院内系统,微信,电话等。
语音交互这块,我们选择了websocket作为主要的跨平台交互协议,实现不同系统,不同设备统一的API接口。而FunASR提供了基于python, c++, 和html5的websocket服务和接口,因此我们基于FunASR全面升级了原先的API接口以应用于不同的医疗应用。
语音识别在医疗场景中的适配
医疗大模型使用离不开语音交互技术,因而语音识别技术在医疗领域的应用越来越广泛,尤其近期大语言模型的爆发,语音更是成为最简单直接的交互手段。然而,语音识别在复杂环境中仍然面临很多挑战,因而语音技术在医疗领域的适配有着重要的意义,能够提高医疗工作的效率和准确性。
FunASR提供了包括模型训练和微调等一系列工具,从而帮助我们在医疗场景下更好训练和升级模型。下面将从医疗术语适配和方言口音适配两个方面来探讨语音识别在医疗领域的适配。
2.1医疗术语适配
在医疗领域中,术语的准确识别对于医疗工作的顺利进行至关重要。而语音识别技术可以通过对语音转录和分析,将医疗术语的语音转化为文字,方便医生和患者进行理解和交流。例如,对于医学术语,如“血压”、“血糖”等,可以通过语音识别技术将语音转化为文字,方便医生进行诊断和监测。
爱医声拥有大量脱敏医疗术语文本和语音,但面对不同细分领域,仍然面临数据不均衡或缺失,尤其是语音文本对齐的标注数据,这对模型的泛化和实际使用带来了很大挑战。
针对大量只有语音没有文本的医疗数据,我们使用FunASR离线非自回归模型Paraformer,并发自动标注文本,速度提升了近10倍。而对于只有医疗文本的数据,我们通过隐空间对齐学习等方式,将文本转化为声学特征的表示从而用于训练。
2.2 方言口音适配
方言和口音对于医疗工作的顺利进行会带来一定的困难。因此,通过语音识别技术对方言和口音进行适配,可以提高医疗工作的效率和准确性。对于方言和口音的适配,可以通过对方言分析,将方言转化为标准的普通话。
例如,对于南方地区的方言,可以通过对音调、发音和语调的分析,将方言转化为标准的普通话。
具体来说,我们通过VAE等生成式模型,寻找不同方言和口音数据的隐空间表示,并通过对隐空间修正来生成更多符合领域要求的伪数据,从而帮助语音识别模型更好的适应变化。
2.3 语音交互环节里的医学知识图谱
为了更好让医疗知识应用在语音交互等环节,离不开医学知识图谱的加持。知识图谱技术是面向未来的人工智能基础能力之一 。知识图谱本 质上是一种语义网络,它用节点表示语义符号、用边表示符号之间的语义关系,从而对真实世界的各个场景进行直观地建模。
目前知识图谱的研究和应用方向可分为面向通用领域的百科型知 识图谱和面向垂直领域的行业知识图谱两大类。通用知识图谱中 的知识具有良好的广度,而行业知识图谱具有较强的深度,两者互为补充。
通用知识图谱常采用自底向上的方式来生成,而以医 疗行业为代表的行业知识图谱则更多需要领域专家自顶向下的设计模式图 (Schema)并进行构建,以满足专业化知识的定义和专业场景的应用需求。大量的医生知识是以语音的形式存取的,语音识别技术帮助把语音转化为文本,再对文本结构化从而形成知识图谱。这个过程我们也使用了FunASR作为辅助的转录工具,进一步提升转录的准确性。
医学知识图谱可以为医学文本大数据分析、医疗Al建模、行业信息交换的公共标准建立等专业化应用提供支撑。
爱医声新一代智能人机对话系统-AIFuv2.0
依托业内领先的医疗大语音模型,以及语义理解、对话控制及知识挖掘核心技术能力,能够让计算机正确理解和准确运用人类社会的自然语言,实现人机之间流畅的对话交互。
通过计算机代替人的重复性劳动,可提供7*24小时Al智能外呼服务,有效提高工作效率、降低服务成本。产品适用于:健康宣教、诊前通知、诊后随访、满意度调查等场景。
爱医声竭诚帮助企业和医疗机构实现智能化服务升级,构建自动化的信息采集和通知平台,打造智能客服新生态。
其中的语音识别引擎,我们融合了FunASR的Paraformer模型离线打分机制,在几乎不增加推理时间的前提下,进一步提升了语音识别的准确性,为接下来的语义分析和理解奠定了基础。
人机对话系统根据任务类型不同,可分为任务型对话、知识问答型对话和闲聊型对话。智能外呼场景属于典型的任务型对话,需要通过多轮交互来进行必要信息的收集。由于用户回答的内容具有极强的开放性,因此语音外呼场景下自然语言处理的重点和难点在于实现高精度的语义匹配和意图识别。
3.1 语义匹配
语义匹配通过将用户长短不一 、复杂多变的口语化答复和任务模 板中的标准候选项进行相似度计算,以完成问卷内容的自动填写。传统的语义匹配主要通过人工设计的特征进行文本表示及匹配计算,但性能有限。
随着深度学习技术在自然语言处理领域的大获成功,语义匹配模型也逐渐演化出单语义文本匹配、交互式文本匹配、变模式匹配等不同的模型网络结构。爱医声利用细粒度交 互的对比学习神经网络技术,实现了少样本情况下的模型高效训练,极大提高了语义匹配的准确率。
3.2 意图识别
在真实应用场景中,用户经常会表达一些特定的意图,如“没听 清/请再说一遍”、 “现在忙/没时间”、 "你是机器人吗?"等, 对话引擎需要对这些特定意图进行准确的识别并做出智能化的逻辑响应。
爱医声通过大量真实用户场景实践,积累了一套高覆盖率、高精度的意图识别模型库,并将意图识别和语义匹配结果进 行智能化融合,保证了语义理解的精准无误。通过可视化配置的对话逻辑处理模块,实现了主线问题、分支问题、特殊意图响应的全自动流程处理,充分保证了对话体验的智能流畅。
3.3 基于FunASR中websocket的接口访问
为了满足不同终端访问适应人机对话系统,我们基于FunASR搭建了websocket访问服务,同时也作为开源贡献者把websocket协议的服务,包括html5、python、c++接口都开源贡献到了FunASR社区里,详细可见https://github.com/alibaba-damo-academy/FunASR/blob/main/FunASR/runtime/html5/readme_cn.md。医院里各应用可以通过手机或电脑浏览器直接访问和使用相关服务。如下所示
结束
最后,在大语言模型如日中天的今天,我们更应该做的是保持定力,不要迷失了自己,随波逐流。GPT也好,BERT也罢,或者近期的Diffusion模型,AIGC的浪潮一浪高过一浪,可究竟又有多少技术是适合自己,满足自己需要的。
医疗行业是AI最难取代的行业之一,因为医疗知识承载的是人类智慧的结晶。而数据,模型和业务相匹配的产品才是市场真正认可的产品。AI技术还远远没有达到人类的水平,我们没法超越时代,但我们可以成为时代变革的探路者或引路人。
更多推荐
所有评论(0)