医学自然语言处理概述课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《医学自然语言处理概述课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 自然语言 处理 概述 课件
- 资源描述:
-
1、M e d i c a l N a t u r a l L a n g u a g e P r o c e s s i n g医学自然语言处理概述医学自然语言处理的基本任医学自然语言处理的基本任务务 目目录录1医学自然语言处理的基本技医学自然语言处理的基本技术术2医学自然语言处理的典型问题医学自然语言处理的典型问题3我院的实践与总结我院的实践与总结401医学自然语言处理的基本任务医学自然语言处理的基本任务主要用途、基本任务医学自然语言处理的基本任医学自然语言处理的基本任务务主要用途主要用途 病历文本数据挖掘 医疗知识库构建 病历检索 NLP技术技术电子病历医学文献临床指南健康档案结构化、标准化
2、数据分析 统计分析 机器学习疾病诊断模式药物治疗模式预后评价模式可可分分析的析的医医疗数据疗数据标准化的电子病历医学知识库整合后的健康档案临临床床应用应用辅助诊疗系统CDSS药物安全性检测医疗政策决策支持相似病历检索应用实践例:可见多发结节影,大小约1 . 1 6 X 0 . 9 8 厘米例:在“肌力4+级”中“+”表示“强”“头MRI+MRA示”中“+”表示“和”医学自然语言处理的基本任医学自然语言处理的基本任务务例:胃胀反反酸、泛泛酸、返返酸例 : “无意识障碍”无 | 意识 | 障碍 无 | 意识障碍例:“细菌性痢疾”细菌 /n 性 /ng 痢疾 / n名词名词性语素例:可见多发结节影,
3、大小约1 . 1 6 X 0 . 9 8 厘米010603040502语义分析语义分析06分词分词01词性标注词性标注02实体识别实体识别03实体关系抽取实体关系抽取05实体标准化实体标准化0402医学自然语言处理的基本技术医学自然语言处理的基本技术分词、词性标注、实体识别、实体关系抽取、语义分析医学自然语言处理的基本技医学自然语言处理的基本技术术分词分词 分词是将一句话切分成一个个单词的过程分词工具分词工具 结巴(jieba)分词工具、NLPIR汉语分词系统、IKAnalyzer开源分词软件关键技术关键技术 基于词典的分词方法(机械分词法)按照一定策略,将待分析的汉字串与一个充分大的机器字典
4、中的词条进行匹配,若 在词典中找到某个字符串,则匹配成功 逆向最大匹配法 正向最大匹配法 双向匹配法 基于机器学习的分词方法例: “无意识障碍”无意识 | 障碍() 无 | 意识障碍()医学自然语言处理的基本技医学自然语言处理的基本技术术设词典中词语长度的最大值为M基于词典的分词方法基于词典的分词方法开始从文档末尾开始扫描,取最末端的M个 字符作为匹配字段,查找字典记录分词结果,对剩余的字符串继 续重复以上步骤匹配成功是否将字符串 长度减少1是剩余字串的长度为零输出例:“南京市长江大桥”1.设最长词为52.在词典中匹配“市长江大桥”3.匹配失败,去掉最前面一个字“市”4.匹配“长江大桥”,匹配
5、成功5.在词典中剩余字符“南京市”,匹 配成功6.输出结果:南京市 / 长江大桥医学自然语言处理的基本技医学自然语言处理的基本技术术词性标注词性标注 在给定句子中判定每个词的词性加以标注,如将词分为名词、形容词、动 词等关键技术关键技术 基于词典的标注方法 先对语句进行分词,然后从字典中查找每个词语的词性,对其进行标注 基于规则的标注方法 简单处理,得到初标注结果 建立转换规则,修正错误 得到标注结果例:细菌性痢疾胆囊壁明显增厚细菌 /n 性 /ng 痢疾 /n胆囊 /n 壁 /ng 明显 /a 增 /v 厚 /a名词名词性语素例:1.初标注:“他/r做/v了/u一/m个/q报告/v”2.转换
6、规则:激活环境:该词左边第一个紧邻词的词性是量词(q),左边第二个词的词性是数词(m)改写规则:将该词的词性从动词(v)改为名词(n)3.得到标注结果:“他/r做/v了/u一/m个/q报告/n”医学自然语言处理的基本技医学自然语言处理的基本技术术实体识别实体识别 医学领域的实体抽取是从医学数据源中提取出特定类型的命名实体,主要有疾病、药 物、症状、检查、手术操作、器官部位等1组淋巴结、2组淋巴结、3组淋巴结关键技术关键技术 基于规则的方法基于规则的方法 正则法例:清扫第1组,2组,3组淋巴结正则表达式:“% /d + 组淋巴结” 基于机器学习的方法基于机器学习的方法 词向量表示将自然语言处理问
7、题转化为机器学习问题,首先在于采用一种词表示方法将文本中的单词和符号 数学化,即用一个数学向量表示。常用的词向量表示方法:独热码表示、Word2vec算法例: “乙肝”表示为 0 0 0 1 0 0 0 0 0 0 0 0 ,“肝硬化”表示为 0 0 0 0 0 0 0 0 1 0 0 0医学自然语言处理的基本技医学自然语言处理的基本技术术基于机器学习的实体识基于机器学习的实体识别别方法方法例: 头颅CT检查显示腔隙性脑梗死1.人工特征标注:头颅CT检查手段;腔隙性脑梗死疾病;2. 训练:将字符转为向量表示,将分类标签id化,并进行特征提取,构建训练集特征向量 0 0 0 0 0 1 0 0
8、0 0 0 0“TES”, 0 0 0 0 0 0 0 0 0 0 0 0 1 0“DIS” 3.模型进行训练,训练完成后对测试文本进行识别,得到机器标注结果: 平扫见右侧脑室体旁 已标注数据人工特征标注原始文本训练集构建机器学习模型测试集测试的未标注文本输入输出机器标注结果训练特征提取医学自然语言处理的基本技医学自然语言处理的基本技术术实体标准化实体标准化 医学实体在不同的数据源中存在严重的多元指代问题关键技术关键技术 基于医学标准术语库匹配的方法 医学知识图谱如两个实体被多个相同实体以相同关系指向,则二者为同一实体的概率较高 基于机器学习的方法用Word2vec模型对上下文取窗口进行训练,
9、求解最大似然的共现概率。训练完成 后,使用向量余弦相似度计算实体相似性。对于训练充分的词表示向量而言,一组相似词的向量语义距离更近。如“首都”和“北京”的语义距离要比“上海”更近医学自然语言处理的基本技医学自然语言处理的基本技术术实体关系抽取实体关系抽取 发现文本中实体对间的各种语义关系 实体关系可以用于构建知识框架,如疾病与药物的关系、症状与疾病的关 系、基因与疾病的关系等关键技术关键技术 实体共现法认为两个相距很近的实体如果以一定的顺序在一个文本语料库中高频率地重复,那么这两个实体相关的可能性很大 机器学习方法将关系抽取看作是一个分类问题,通过具体的学习算法,在人工标引语料的基础上构造分类
10、器,再用训练得到的分类器抽取测试文本中的实体关系 深度学习例如: 患者3 天前受凉后出现咳嗽、咳痰 高血压病史40 年,口服厄贝沙坦控制可诱因医学自然语言处理的基本技医学自然语言处理的基本技术术基于深度学习的实体关基于深度学习的实体关系系抽取抽取输入层编码层卷积层池化层输出层(1)输入层:需要判别关系类别的实体文本(2)编码层:预处理,使用Word2vec训练的向量模型表示实体文本对于一句话中每个单词均为 k 维的词向量,因此对于长度为 n的一句话则可用维度为 n*k的矩阵(3)卷积层:设计一个过滤器窗口W,其维度为hk,h表示窗口所含的单词个数,不断地滑动该窗 口,每次滑动一个位置时,完成非
11、线性激活函数的计算(4)最大池化层:为了得到最大特征,进行max-over-time操作,取出最大值(5)输出层:通过向量映射,得到待预测的类别结果医学自然语言处理的基本技医学自然语言处理的基本技术术语义分析语义分析 在词的层次上,语义分析的基本任务是进行词义消歧 在句子层面上是语义角色标注 在篇章层面上是指代消歧,也称共指消解基于机器学习的消歧方法基于机器学习的消歧方法 有监督:通过建立分类器,根据上下文和标注结果完成分类任务,用划分多义词上下文类别的方法来区分多义词的词义 贝叶斯模型、最大熵模型、支持向量机模型、深度神经网络模型 无监督:使用聚类算法对同一个多义词的所有上下文进行等价类划分
12、,在词义识别的时候,将该词的上下文与各个词义对应上下文的等价类进行比较,通过上下文对应的等价类来确定词的词义 聚类算法例: 病毒(计算机病毒、生物病毒) 打球、打电话、打毛衣医学自然语言处理方法总医学自然语言处理方法总结结基于词典和规则的处理基于词典和规则的处理方方法法 词典匹配 正则表达式基于统计的处理方法基于统计的处理方法 支持向量机(Support Vector Machine,SVM) 隐马尔可夫(Hidden Markov Model,HMM) 条件随机场(Conditional Random Fields,CRF) 长短时记忆网络(Long Short Term Memory,LS
展开阅读全文