书签 分享 收藏 举报 版权申诉 / 22
上传文档赚钱

类型大数据时代自然语言处理在医疗信息化中的应用ppt课件.pptx

  • 上传人(卖家):三亚风情
  • 文档编号:3557493
  • 上传时间:2022-09-18
  • 格式:PPTX
  • 页数:22
  • 大小:1.52MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大数据时代自然语言处理在医疗信息化中的应用ppt课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 时代 自然语言 处理 医疗 信息化 中的 应用 ppt课件
    资源描述:

    1、大数据时代自然语言处理在医疗信息化中的应用Application of NLP in HIT in this Big Data Era报告11内容医疗数据contents23自然语言处理医疗信息化中的应用医疗数据医疗数据的构成患者人口学数 诊疗数据据费用数据过程数据基础数据二次数据 诊断 医嘱 病历 检查 检验 手术 挂号 收费 电子申请 状态跟踪 排队叫号 物流、定位 基础字典 知识库 统计 分析 BI 性别 年龄 籍贯 etc.生物学数据(基因 etc.)医疗数据医疗数据的构成涵盖上述分类中的大部分,如:结构化数据 人口学数据、诊断、医嘱、费用等病历*非结构化数据影像其他医疗数据数据构成

    2、结构化数据体量 非结构化数据 影像数据非结构化数据 非结构化病历及各类非结构化检查报告医疗数据病历文书难易电子病历类型全结构化半结构化非结构化以科研型病历为主目前主流电子病历系统历史病历易自然语言处理Natural Language Processing,NLP(自然语言处理):通过计算机理解/处理自然语言文本,称为自然语言处理。难点:自然语言文本和对话在多种层次上存在的多义性和歧义性,这一点在中文里,尤为突出。“下雨天、留客天、留人不?留!”“下雨天留客,天留人不留”“句读之不知,惑之不解”核心问题:消除歧义:把带有歧义的自然语言转换为含义确定的计算机表示。自然语言处理分词:19世纪欧洲比较

    3、学派对世界上近百种语言进行研究后,对其按语音、词汇、语法规则等进行了分类,目前世界上主要分为。不同于印欧语系,中文作为“汉藏语系”,构成语言的基本单位是“字”,且词序和虚词为表达语法意义的重要手段。在进行计算机处理前,必须对语句进行拆分,才能做进一步自然语言处理。自然语言处理分词方法不同于传统词法分析、语法分析,目前主流分词工具主要基于统计。核心模型:通信系统+隐马尔科夫模型假设一个句子可以分为(为简化起见)S1=A A A Ai1 2 3或或S2=B B B B1 2 3jS3=C C C C1 2 3k如果P(S1)P(S2)且 P(S1)P(S3)则说明S1 是最有可能的分法,也即最佳分

    4、法。自然语言处理歧义消除如何计算语句出现的概率?P(S)=P(w1,w2,wn)(其中wi表示某种分割下的具体词)根据贝叶斯定理:P(S)=P(w1)*P(w2|w1)*P(wn|w1,w2,wn-1)其中P(w1)表示出现第一个词的概率;P(w2|w1)表示已知第一个词的前提下第二个词出现的概率,依此类推。自然语言处理马尔科夫模型P(S)=P(w1,w2,wn)上述公式中如果n较大,计算P(w|w,w,w)n12n-1的困难将会非常高。19世纪20世纪,俄国数学家Andrey Markov给出了一个“偷懒”但颇为有效的方法:假定wk的出现仅和其前面i个情况相关,也即P(w|w,w,w)P(w

    5、|w,w,w)n12n-1nn-i+1n-i+2n-1如此,当取 i=2时,意味着当前的词仅与前一个词相关,公式简化为P(S)=P(w)*P(w|w)*P(w|w)121nn-1自然语言处理二元模型自然语言处理模型缺陷由于二元模型仅假设当前词与前一词相关,如“金黄/的/稻谷”中,“稻谷”和“金黄”是有关联的,与前面的“的”在实际中的语意关联性是相对较弱的,因此有必要将“二元模型”扩展为N元模型。然而扩展的代价是显著的:对于一个总量为V的样本空间来说,其计算的复杂度为O(Vn),因此n的增长会非常快速的提高计算开销。自然语言处理模型缺陷实际样本空间是有限的,因此不可避免的出现#(wi-1,wi)

    6、=0甚至#(wi)=0的情况。然而,未观测到并不等同于不可能,这里就存在训练模型的平滑问题。1953年古德在其老板图灵的指导下,给出一个很漂亮的的重新估算概率的公式,后来被称为古德-图灵估计(Good-Turing Estimate)是的,就是那个神一样的图灵!自然语言处理常见工具谷歌Word2VecMeCabNLTK哈工大LTPOpenNLP FudanNLP自然语言处理医疗信息化中的应用智能语音 临床 知识 化电识别 科研 库 子病历医疗信息化中的应用语音识别患者咨询问诊口头医嘱病历书写医疗信息化中的应用临床科研科研临床数据仓库建设(RDR)拓宽临床科研数据使用范围 将临床科研从手工查阅病历转为电脑辅助 缩短数据检索周期 提高数据检索精度 扩大数据搜索范围医疗信息化中的应用知识库建设临床术语库建设与规范化诊断、手术规范化专科知识库建设医疗信息化中的应用病历书写语音录入知识库支持智能化 差错预提醒 防/纠正谢谢!

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大数据时代自然语言处理在医疗信息化中的应用ppt课件.pptx
    链接地址:https://www.163wenku.com/p-3557493.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库