大数据认知-李德毅院士共128页资料课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据认知-李德毅院士共128页资料课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 认知 李德毅 院士 128 资料 课件
- 资源描述:
-
1、一、人类的认知可以一、人类的认知可以“计算计算”吗?吗?认知就是认识智慧依据现有知识,计算、分析、联想、推导或归纳,产生新知。通过意象、直觉、想象、情感、顿悟等,进行直观、综合的思考,在创新中起着至关重要的作用。成功成功 =40%IQ =40%IQ&60%EQ 60%EQ 一元论?二元论?相互作用论?1956 1956年达特茅斯会议正式使用年达特茅斯会议正式使用“人工智能人工智能”术语,目标是开发像人那样思维的人工系统。术语,目标是开发像人那样思维的人工系统。半个世纪以来,人工智能成为认知计算的智力半个世纪以来,人工智能成为认知计算的智力内核,取得的重要成果已经深刻地改变了我们内核,取得的重要
2、成果已经深刻地改变了我们的日常生活。的日常生活。认知是可以认知是可以“计算计算”的的n图灵机是可计算的,任何形式系统可以是图灵机是可计算的,任何形式系统可以是图灵机准确刻画的机械程序。图灵机准确刻画的机械程序。n认知计算是信息处理的过程,存在有符号认知计算是信息处理的过程,存在有符号主义、联结主义和行为主义等范式,有着主义、联结主义和行为主义等范式,有着强大的生命力,并走向计算主义。强大的生命力,并走向计算主义。认知是可以认知是可以“计算计算”的的电脑可以具备人脑的智能吗?电脑可以具备人脑的智能吗?n半个世纪的人机大战表明,在与国际象棋领半个世纪的人机大战表明,在与国际象棋领域具有类似复杂性的
3、问题上,电脑可具有人域具有类似复杂性的问题上,电脑可具有人脑的智能。脑的智能。n5050年人机大战实质是年人机大战实质是“人机人机-机人机人”大战,大战,千方百计把人的认知能力放到机器里去和人千方百计把人的认知能力放到机器里去和人对抗。从这个意义上,认知是可以计算的。对抗。从这个意义上,认知是可以计算的。认知不可以认知不可以“计算计算”停机问题、程序验证问题等都是不可计算的停机问题、程序验证问题等都是不可计算的数学自身是机器程序不可穷尽的数学自身是机器程序不可穷尽的人脑是否能被物化为电脑的首要问题在于人脑人脑是否能被物化为电脑的首要问题在于人脑能不能够被形式化能不能够被形式化可计算性是不依赖于
4、形式系统的选择的可计算性是不依赖于形式系统的选择的认知科学的困境用什么方法研究思维和意识用什么方法研究思维和意识人的意识和精神活动是由大脑不同区域共同作用人的意识和精神活动是由大脑不同区域共同作用产生的吗产生的吗是由物理和化学规律支配的吗是由物理和化学规律支配的吗是由神经元细胞的行为和构成方式、以及影响它是由神经元细胞的行为和构成方式、以及影响它们的原子、离子和分子性质所决定的吗们的原子、离子和分子性质所决定的吗?有人甚至认为,人是不可能自己把自己搞清楚的!Nature专刊(2019年9月3日)大数据来源:大数据来源:PB时代对科学的挑战也是对认知科学的挑战!l 自然大数据自然大数据l 生命大
5、数据生命大数据l 社交大数据社交大数据10看病那些事儿看病那些事儿诊查就是治疗!诊查就是治疗!DNA测序测序核磁核磁CTX光光心电图心电图化验化验B超超内镜内镜医学必须越跑越快才能跟上技术发展的步伐!医学必须越跑越快才能跟上技术发展的步伐!知道知道“是什么是什么”,就知道,就知道“怎么做怎么做”!医学诺贝尔奖给了谁?医学诺贝尔奖给了谁?心电图的发明人心电图的发明人 :威廉威廉.埃因托芬埃因托芬X X射线辐射治疗发明人射线辐射治疗发明人 :赫尔曼赫尔曼.约瑟夫约瑟夫.马勒马勒核磁共振成像发明人核磁共振成像发明人 :保罗保罗.劳特布尔劳特布尔更多的奖给了器械发明人,以及能够从医疗数据发现价值的人!
6、更多的奖给了器械发明人,以及能够从医疗数据发现价值的人!因果关联先导?是什么?是什么?大数据大数据为什么?为什么?怎么做?怎么做?研究对象研究对象科学科学技术技术形而上形而上?形而下形而下大数据大数据 大数据时代认知计算的实大数据时代认知计算的实践,正在践,正在倒逼倒逼认知科学前认知科学前行!行!对人类认知而言,欧盟的对人类认知而言,欧盟的“脑科学十年脑科学十年”和和“人类大脑计划人类大脑计划”,以及奥巴马的,以及奥巴马的“脑脑计划计划”可能可能错错在哪里?在哪里?大脑细胞类型及统计大脑结构图大规模神经网络技术操作神经回路的工具神经细胞与个体行为关系大脑成像技术神经模型和统计的整合人脑数据搜集
7、知识传播与培训认知科学难道就是研究生物脑的自然属性吗?认知科学难道就是研究生物脑的自然属性吗?要研究人类认知的特殊性!要研究人类认知的特殊性!文字、文明和传承文字、文明和传承 人类认知的社会属性人类认知的社会属性倒逼什么?倒逼什么?把这两点作为人类认知科学的切入点!把这两点作为人类认知科学的切入点!要研究脑认知的后天属性。认知还是后天学习和积累的结果,是与社会环境、社会实践、群体交互等密切相关的,要建立人类认知的成长机制。倒逼什么?倒逼什么?二、大数据时代的自然语言处理 技术正在改变我们的生活 语言是思想的直接现实,是人类思维的载体,是认知科学和认知计算要应对的首要问题。语言和文字在人类走向文
8、明的四个重大里程碑中,语在人类走向文明的四个重大里程碑中,语言和文字占了两个位置言和文字占了两个位置语言是外部对象的语言是外部对象的“声音符号声音符号”,传达的,传达的是是信息信息文字是信息的文字是信息的编码编码,有文字才有传承,有文字才有传承人类运用自然语言进行交流获得的效果中:l 讲话内容 7%l 强度和语调 38%l 面部表情和肢体动作 55%认知心理学告诉我们认知心理学告诉我们在半个世纪的自然语言理解的研究中,我们对在半个世纪的自然语言理解的研究中,我们对此关注了多少?此关注了多少?自然语言在人类思维中具有不可替代性人们在表达、思考和解决任何问题时,人们在表达、思考和解决任何问题时,通
9、常是定性的,对量的规定性往往是非通常是定性的,对量的规定性往往是非数值的数值的科学研究中,即使人们用对象语言(如:科学研究中,即使人们用对象语言(如:物理、数学、物理、数学、C C语言等)来表述一个特定语言等)来表述一个特定的精确学科,解释对象语言的的精确学科,解释对象语言的元语言元语言仍仍然是自然语言然是自然语言自然语言是不可以计算的!自然语言可以计算吗?自然语言可以计算吗?在特定语境和语用场合,自然语言理解是可以被形式化表达并进行计算的!脑科学认为:脑科学认为:计算语言学认为:计算语言学认为:如果一个问题不能够全部形式化,那么,其中的局部问题可不可以形式化?如何让这个局部问题尽可能地普遍一
10、些?自然语言可以在什么程度上被形式化,取决于能否把不确定性形式化。紧紧抓住自然语言中的概念,研究不确定性。24清华大学 电子工程系,吴及*v以中国移动一个中等规模省级客服中心客服坐席500个平均日通话30万平均通话时间100秒平均坐席日通话时间16.7小时日通话累计时长约为8333小时月客服数据总量:25万小时年客服数据总量:300万小时4kbps压缩存储:5.4TB一个人不停说话说上1年如采用人工测听需1000人引自科大迅飞公司数据引自科大迅飞公司数据是雇用500位客服人员,还是启用一台话音机器人?人类如何理解自然语音的?您好亲情话务员,很高兴为您服务。我问一下我那个包月的上网套餐现在还能恢
11、复吗?先生您好您这个套餐是您目前使用的就是一个神州行。免费的,那是赠送流量吗?免费赠送您三十兆流量的,怎么了您说。我不是把那个GPRS关了嘛。您是说您的功能关闭了是吗?嗯,开通还要不要扣费啊。需要扣费,有密码吗?有密码,我能开通那个GPRS吗?是的,您稍后听到语音提示后输入一下您的密码请稍等。噢行。先生您好您的密码。在半个世纪的自然语言理解的研究中,我们对在半个世纪的自然语言理解的研究中,我们对此关注了多少?此关注了多少?人类如何理解自然语言的?研表究明,汉字的序顺并不定一能影响阅读,比如当你看完这句话后,才发这现里的字全是都乱的!再回头仔看细看,真这是样的。在半个世纪的自然语言理解的研究中,
12、我们对在半个世纪的自然语言理解的研究中,我们对此关注了多少?此关注了多少?区分计算机和人的全自动公共图灵测试(CAPTCHA)还能维持多久?在半个世纪的语言文本理解的研究中,我们对在半个世纪的语言文本理解的研究中,我们对此关注了多少?此关注了多少?全自动区分计算机和人类的图灵测试Completely Automated Public Turing test to tell Computers and Humans Apart(CAPTCHA)reCAPTCHA,利用大众对验证码的识别,完成扫描仪、OCR软件,甚至古籍整理者都难以辨识的古老文献中的字符,精度可以超过99%!群体智能:社会计算的精
13、髓!群体智能:社会计算的精髓!网络应用网络应用通讯平台通讯平台数字媒体数字媒体机器人能听会说正在改变我们的生活!在线服务机器人 智能耳机?在线翻译:文字在线翻译:文字 文字文字语音合成:文字语音合成:文字 语音语音话者识别:话者识别:语音语音 说话人说话人语音识别:语音语音识别:语音 文字文字不知天高地厚的豪言壮语?“先干掉短信,下一个目标是语音通话!先干掉短信,下一个目标是语音通话!”高级认知活动:创作对联l唐诗宋词三百首唐诗宋词三百首41850首,8万句,近35万字l微软对联微软对联微软亚洲研究院自然语言计算组研发的计算机自动对联系统。利用从唐诗宋词大数据中学习到的概率利用从唐诗宋词大数据
14、中学习到的概率模型模型,当用户给定上联,能自动提供若干下联;当用户确定一副对联,能生成若干四字横批。couplet.msra/app/couplet.aspx高级认知活动:写诗高级认知活动:写诗l人们熟读众多诗词,记住了针对各种意境的大量“字串”。需要时,触景生情,把脑中的“字串”按既定的一些规矩取出来,就成了一首新诗l哪种诗容易写?哪种诗容易写?规矩越多越适合计算机写。对四声和押韵有严格要求的五言绝诗,便是一个例子。李白的五言绝诗李白的五言绝诗 李白一生写诗1010首,把他所有诗句进行“机械切割”,在“悲情”意境下,分别按照平仄规律 仄仄 仄平平仄平平 平平平平 仄仄平平 平平 平仄仄平仄仄
15、 仄仄 仄平平仄平平 把这些切割后的字串构成数据集,并要求仄平平、仄平、仄平平 这3类串的韵相同。表表1 1:(仄起)五绝(首韵):(仄起)五绝(首韵)秀玉竟不还,秀玉竟不还,西湖哀苦寒。西湖哀苦寒。凤楼留不住,凤楼留不住,夜郎醉不眠。夜郎醉不眠。如,毛泽东的生日18931226 所作的诗是:自然语言理解50年变迁从五笔字型输入到搜狗拼音输入从五笔字型输入到搜狗拼音输入从千人一面的搜索引擎到个性化搜索从千人一面的搜索引擎到个性化搜索从规则学习到统计学习从规则学习到统计学习从智能计算到情感计算从智能计算到情感计算从形式语言学到野蛮翻译从形式语言学到野蛮翻译从确定性认知到不确定性认知从确定性认知到
16、不确定性认知自然语言理解:期待中的舞台机器人文本、歌曲剧本等 以大数据形态反映的语言、交互和理解,是带毛的、鲜活的、有情感的原生态数据,体现了认知过程中在语境、语构、语用和语义方面的不确定性,这正是大数据的魅力所在。三、视听觉认知中的大数据:智能驾驶初步实践 智能驾驶为什么会火起来?云计算、移动互联网、物联网、大数据和智慧城市建设背景下,人们迫切需要提高移动生活的品质。智能车成为众目睽睽下的交集!视听觉认知计算视听觉认知计算国家自然科学基金委员会十一五重大研究计划国家自然科学基金委员会十一五重大研究计划视听觉认知计算视听觉认知计算的科学任务的科学任务 在正常的环境下,标准的城市和城际公路上,从
17、北京到天津/深圳,智能车混迹在正常交通流中,表现出驾驶员的驾驶智能驾驶员的视听觉认知计算能力。国家自然科学基金委员会十一五重大研究计划国家自然科学基金委员会十一五重大研究计划视听觉认知计算视听觉认知计算(2019 20192019 2019)耗资1.9亿元,历时8年,资助近百个培育项目、重点项目、集成项目,在原始创新和任务载体(轮式机器人)上取得重大成果。国家自然科学基金委员会十一五重大研究计划国家自然科学基金委员会十一五重大研究计划人类的视听觉人类的视听觉认知是不可以认知是不可以计算的!计算的!人类的视听觉认知可以计算吗?人类的视听觉认知可以计算吗?特定情境下,人类的视听觉认知导致特定的行为
18、,是可以被形式化表达并进行计算的!脑科学认为:机器人学认为:智能驾驶试验三步走策略智能驾驶试验三步走策略第一步:第一步:城际道路低智商试验(城际道路低智商试验(2019年)年)第二步:第二步:市区道路中智商试验(市区道路中智商试验(2020年)年)第三步:第三步:特殊道路高智商试验(特殊道路高智商试验(2030年)年)自主驾驶!自主驾驶!360o旋转的传旋转的传感器扫描百米感器扫描百米范围高精度立范围高精度立体景象体景象左后轮上方左后轮上方的传感器检的传感器检测小位移测小位移安装在后视镜部位的摄像头检测交通灯,帮安装在后视镜部位的摄像头检测交通灯,帮助机载计算机识别自行车和行人助机载计算机识别
展开阅读全文