深度学习在自然语言中的应用课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《深度学习在自然语言中的应用课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 学习 自然语言 中的 应用 课件
- 资源描述:
-
1、深度学习在自然语言处理中的应用目录自然语言处理深度学习深度学习在自然语言处理中的应用自然语言处理Natural Language Processing自然语言的概念什么是自然语言 语言是人类交际的工具,是人类思维的载体 人造语言:编程语言,包括C+,BASIC等 自然语言:形式:口语、书面语、手语 语种:汉语、英语、日语、法语语言学是研究语言规律的科学NLP 的应用NLP应用前景 据统计,日常工作中80%的信息来源于语言,处理文本的需求在不断增长 文本是人类知识最大的存储源,并且文本的数量在不停地增长 电子邮件、新闻、网页、科技论文、用户抱怨信NLP典型应用 智能搜索引擎、自动问答、信息获取、
2、语义网 语音识别,文字识别、输入法 机器翻译,自动文摘,跨语言检索 文本分类、文本聚类、文本分析(结构、内容、情感)、文本挖掘(主题跟踪:人物跟踪,企业跟踪)、文本过滤自然语言处理的层次语音分析:从语音流中区分出一个一个声音单元-音素词法分析:从句子中切分出单词、找出词汇的各个词素,确定单词的词性、词义等。句法分析:对句子和短语的结构进行分析,找出词、短语等的相互关系及在句子中的作用等。语义分析:识别一句话所表达的实际意义。语用分析:研究语言所在的外界环境对语言使用所产生的影响。语义与语用同一词语在不同的“语境”中具有不同“语义”例如:中国奥运史上十大女杰的精彩“转身”病毒计算机领域:计算机病
3、毒医学领域:生物学病毒内容层的信息处理形态丰富的语言(inflecting language):处理难形态不丰富的语言(analytic language):处理更难中文英文学生们都来了All thestudentsarehere.Even Prof.Li is here.Editing isverydifficult.Howtobeagoodeditor?李教授都来了编辑工作很难怎样成为一个好的编辑机器能够理解人的语言吗?可以,但有难度!什么是理解?结构主义:机器的理解机制与人相同(白盒)问题:人类语言理解机理尚未清楚功能主义:机器的表现与人相同即可(黑盒)图灵测试如果通过自然语言的问答,一
4、个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能理解自然语言的准则给计算机输入一段自然语言文本,计算机能问答(question-answering)机器能正确地回答输入文 本中的有关问题;文摘生成(summarizing)机器有能力产生输入文本 的 摘要;复述(paraphrase)机器用不同的词语和语句复述输入文本;翻译(translation)机器把一种语言(源语言)翻译为 另一种语言(目标语言)自然语言处理的研究目标弱人工智能目标:建立一个足够精确的语言数学模型使计算机通过编程来完成自然语言的相关任务。如:听、读、写、说,释义,翻译,回答问题等;强人工智能目标:让用户能通过
5、自然语言与计算机自由对话;NLP研究内容应用系统数字图书馆、电子商务、电子政务、远程教育、语言学习软件企业NLP研究者语言学家应用技术研究自动问答、机器翻译、信息检索、文本挖掘、自动校对、信息抽取基础研究分词、词性标注、短语切分、句法分析、语义分析、篇章理解等资源建设语料库资源建设语言学知识库建设自动分词主要分词算法:1.基于词表的分词-最大匹配即“长词优先”原则,来进行分词2.基于统计的分词分词的难点歧义字段处理未登入词处理:人名识别,地名识别,译名识别,新词识别分词歧义例:南京市长江大桥南京|市长|江大桥南京市|长江|大桥例:我们研究所有东西 我们-研究所-有-东西(交叉歧义)我们-研究-
6、所有-东西把手放在桌上 把-手-放在-桌上(组合歧义)把手-放在-桌上分词歧义新词名词:斑竹、大虾、面瓜、菜鸟、美眉、陶吧、911、白骨精动词:打的、埋单、买单、给力形容词:酷、小资、爽命名实体时间、地名、人名、组织机构名商标、公司名、电话号码、电子邮件地址等等合成词,简称,派生词三个代表、十六大牛市、熊市微博词义消歧机器翻译中最难的问题之一是词义的二义性(歧义性)问题。比如 Bush 一词可以是美国总统的名字,也可以是灌木丛。一个实用的方法是使用互信息。互信息(Mutual Information)是信息论里一种有用的信息度量,它是指两个事件集合之间的相关性 首先从大量文本中找出和总统布什一
展开阅读全文