背景
这个项目是用来生成结构化的电子病历的。数据的来源是医生的录音。中间有一大堆的处理,语音识别,关键字匹配,结构化处理,病历编辑......。最多的时候给上百家医院服务。
语音识别质量的跟踪
一、0225医院的训练后的情况分析:
通过0225医院的20278、46248、47146、47160、27823、47830、47879、48824、48837、48848医生的统计,发现这批医生在训练之后识别的质量有提升。具体如下:
通过曲线可以看出,在人工训练之后(图中的竖线右边的部分),Score有所提高,平均提高50分左右。
通过曲线可以看出,在训练之后(图中的竖线右边的部分),识别引擎在识别过程中耗费的时间大大降低了。识别时间的降低,可以减少报告的识别超时从而降低BlankCDA的报告数,同时也能减轻识别服务器的压力。所以,识别时间的降低对整个系统有着积极的意义。
二、其他医院的训练分析:
其他医院训练的时间比较早,当时的日志记录中还没有SR_Score的记录。需要等下次训练后,才可以进行识别质量分析。
三、当前识别质量统计:
就目前的统计数据来看,在800分(满分为1000分)以下或识别时长超过4倍的医生还有一些,但是比例不是很大。具体如下:
就统计结果来看,Score低于800的大约占1.27%
就统计结果来看,识别时间大于4的大约占5.07%
四、识别分数低于800或识别时长超过4的医生的列表:
共计46人,详见下表。
HOSP_CODE |
DOCTOR |
AVG_SR_SCORE |
PROCESSTIME/DICTLEN |
0011 |
561 |
813 |
5.13 |
0013 |
0402 |
828 |
4.80 |
0013 |
2213 |
819 |
4.04 |
0013 |
3032 |
861 |
4.05 |
0013 |
3170 |
805 |
5.66 |
0013 |
3268 |
795 |
4.37 |
0014 |
0004 |
742 |
6.41 |
0014 |
0824 |
751 |
5.56 |
0014 |
4401 |
816 |
4.85 |
0014 |
77807 |
831 |
4.30 |
0014 |
9596 |
860 |
4.64 |
0015 |
80000 |
835 |
4.33 |
0015 |
98400 |
821 |
5.14 |
0016 |
1512 |
784 |
5.56 |
0016 |
1710 |
805 |
4.91 |
0016 |
2087 |
831 |
4.68 |
0016 |
2156 |
855 |
4.18 |
0016 |
2176 |
697 |
3.17 |
0016 |
2462 |
860 |
4.03 |
0016 |
3274 |
787 |
4.27 |
0016 |
3323 |
852 |
4.14 |
0016 |
4367 |
860 |
4.02 |
0016 |
559 |
857 |
4.02 |
0066 |
0430 |
813 |
4.96 |
0066 |
2259 |
828 |
4.21 |
0066 |
2485 |
771 |
5.46 |
0066 |
2742 |
807 |
4.91 |
0066 |
2832 |
807 |
5.50 |
0066 |
3031 |
820 |
4.37 |
0066 |
3131 |
832 |
4.54 |
0066 |
4196 |
571 |
5.35 |
0066 |
5222 |
849 |
4.45 |
0066 |
5853 |
782 |
4.74 |
0066 |
6910 |
875 |
4.54 |
0088 |
366 |
827 |
4.23 |
0223 |
17355 |
858 |
4.09 |
0223 |
42648 |
807 |
4.86 |
0223 |
7790 |
815 |
5.16 |
0225 |
14383 |
809 |
4.17 |
0225 |
40922 |
836 |
4.44 |
0225 |
42145 |
812 |
4.46 |
0225 |
43724 |
621 |
3.37 |
0225 |
45217 |
816 |
4.32 |
0225 |
46268 |
793 |
4.74 |
0225 |
47823 |
827 |
4.29 |
0225 |
48848 |
865 |
4.22 |
对于特定医生的语音识别质量跟踪
5853医生的识别质量变化曲线:
6910医生的识别质量变化曲线:
5018医生的识别质量变化曲线:
1375医生的识别质量变化曲线: