作为人工智能分支的自然语言处理停滞的技术学习培训课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《作为人工智能分支的自然语言处理停滞的技术学习培训课件.ppt》由用户(林田)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 作为 人工智能 分支 自然语言 处理 停滞 技术 学习 培训 课件
- 资源描述:
-
1、1作为人工智能分支的自然语言处理:停滞的技术 2起源以人工智能的知识工程的角度来看待分析当前的自然语言处理技术。当前的自然语言处理被机器学习为代表的自动化数据挖掘技术所严重渗透。可将其归结为一种知识获得和学习分离的智能系统处理方法。忽略了基本的机器学习原则而导致低效的知识处理两个关联但是有区别的困境 单一的数据挖掘方式的自然语言处理未能从根本上改变知识表示和知识获取的人工智能困难。以监督学习为代表的统计机器学习方法并不能带来真正的实用化的推广性能增长。我们的建议。3内容 自然语言处理中的机器学习技术的兴起 被忽略的准则 没有免费的午餐 丑小鸭 Zipf律 困境的实例 学习性能增长根本来源是语料
2、增长 指数增长的语料带来线形的性能提升 结语4机器学习的兴起现代方法 最大熵用于词性标注Adwait Ratnaparkhi,Jeffrey C.Reynar,Salim Roukos.A Maximum Entropy Model for Prepositional Phrase Attachment.HLT 1994 机器翻译Franz Josef Och,Hermann Ney.Discriminative Training and Maximum Entropy Models for Statistical Machine Translation.In ACL 2002:Proc.of
3、 the 40th Annual Meeting of the Association for Computational Linguistics(best paper award),pp.295-302,Philadelphia,PA,July 2002.CoNLLThe Conference on Computational Language Learning(CoNLL-97)was held on July 11,1997 in Madrid,Spain.Named entity recognition,chunking,semantic role labeling,dependenc
4、y parsing,joint learning of syntactic and semantic dependencies,etc5机器学习方法的兴起中文处理 Bakeoff-1:2003 分词 Bakeoff-2:2005 分词,统一的机器学习方法 Bakeoff-3:2006 分词,命名实体识别 Bakeoff-4:2007,2008 分词,命名实体识别,词性标注6为什么要机器学习 样本比规则好定义 规则会忽略低频情形 语言的解释涉及的因素过多 Fernando Pereira Machine Learning in Natural Language Processing Univer
5、sity of Pennsylvania NASSLLI,June 20027为什么要机器学习 机器学习降低了知识表示的难度!8机器学习方法的特征 标注数据:语料 知识表示 学习方法 知识获取9机器学习方法的特征 机器学习针对于传统的人工智能。知识表示和获取的分离 语料构建:专注于知识表示 机器学习:专注于知识获取 对比:专家系统 规则的获取和表示是同步的。规则的管理是低效率的,困难的。10机器学习和知识源 从知识工程看待机器学习 规则1 学习模型本身/特征体系 规则2-n 标注语料11学习模型 学习模型的三要素 目标函数:知识源 特征体系:部分的知识源 参数估计算法:与知识源基本无关12机器
6、学习:数据 假定已有数据合理近似现实世界?拥有数据 训练数据集(training set data):训练 测试数据(testing data):评估 验证集validation set:避免过拟合overfitting。真实数据(real data):最终的检验13学习模型并不重要定理:没有免费的午餐结论描述 by David Wolpert and William G.Macready 由于对所有可能函数的相互补偿,最优化算法的性能是等价的。没有其它任何算法能够比搜索空间的线性列举或者纯随机搜索算法更优。该定理只是定义在有限的搜索空间,对无限搜索空间结论是否成立尚不清楚。参考文献Wolpe
7、rt,D.H.,Macready,W.G.(1995),No Free Lunch Theorems for Search,Technical Report SFI-TR-95-02-010(Santa Fe Institute).Wolpert,David(1996),“The Lack of A Priori Distinctions between Learning Algorithms,Neural Computation,pp.1341-1390.Wolpert,D.H.,Macready,W.G.(1997),No Free Lunch Theorems for Optimizat
展开阅读全文