书签 分享 收藏 举报 版权申诉 / 128
上传文档赚钱

类型大数据认知-李德毅院士共128页资料课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:5200257
  • 上传时间:2023-02-16
  • 格式:PPT
  • 页数:128
  • 大小:5.60MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大数据认知-李德毅院士共128页资料课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 认知 李德毅 院士 128 资料 课件
    资源描述:

    1、一、人类的认知可以一、人类的认知可以“计算计算”吗?吗?认知就是认识智慧依据现有知识,计算、分析、联想、推导或归纳,产生新知。通过意象、直觉、想象、情感、顿悟等,进行直观、综合的思考,在创新中起着至关重要的作用。成功成功 =40%IQ =40%IQ&60%EQ 60%EQ 一元论?二元论?相互作用论?1956 1956年达特茅斯会议正式使用年达特茅斯会议正式使用“人工智能人工智能”术语,目标是开发像人那样思维的人工系统。术语,目标是开发像人那样思维的人工系统。半个世纪以来,人工智能成为认知计算的智力半个世纪以来,人工智能成为认知计算的智力内核,取得的重要成果已经深刻地改变了我们内核,取得的重要

    2、成果已经深刻地改变了我们的日常生活。的日常生活。认知是可以认知是可以“计算计算”的的n图灵机是可计算的,任何形式系统可以是图灵机是可计算的,任何形式系统可以是图灵机准确刻画的机械程序。图灵机准确刻画的机械程序。n认知计算是信息处理的过程,存在有符号认知计算是信息处理的过程,存在有符号主义、联结主义和行为主义等范式,有着主义、联结主义和行为主义等范式,有着强大的生命力,并走向计算主义。强大的生命力,并走向计算主义。认知是可以认知是可以“计算计算”的的电脑可以具备人脑的智能吗?电脑可以具备人脑的智能吗?n半个世纪的人机大战表明,在与国际象棋领半个世纪的人机大战表明,在与国际象棋领域具有类似复杂性的

    3、问题上,电脑可具有人域具有类似复杂性的问题上,电脑可具有人脑的智能。脑的智能。n5050年人机大战实质是年人机大战实质是“人机人机-机人机人”大战,大战,千方百计把人的认知能力放到机器里去和人千方百计把人的认知能力放到机器里去和人对抗。从这个意义上,认知是可以计算的。对抗。从这个意义上,认知是可以计算的。认知不可以认知不可以“计算计算”停机问题、程序验证问题等都是不可计算的停机问题、程序验证问题等都是不可计算的数学自身是机器程序不可穷尽的数学自身是机器程序不可穷尽的人脑是否能被物化为电脑的首要问题在于人脑人脑是否能被物化为电脑的首要问题在于人脑能不能够被形式化能不能够被形式化可计算性是不依赖于

    4、形式系统的选择的可计算性是不依赖于形式系统的选择的认知科学的困境用什么方法研究思维和意识用什么方法研究思维和意识人的意识和精神活动是由大脑不同区域共同作用人的意识和精神活动是由大脑不同区域共同作用产生的吗产生的吗是由物理和化学规律支配的吗是由物理和化学规律支配的吗是由神经元细胞的行为和构成方式、以及影响它是由神经元细胞的行为和构成方式、以及影响它们的原子、离子和分子性质所决定的吗们的原子、离子和分子性质所决定的吗?有人甚至认为,人是不可能自己把自己搞清楚的!Nature专刊(2019年9月3日)大数据来源:大数据来源:PB时代对科学的挑战也是对认知科学的挑战!l 自然大数据自然大数据l 生命大

    5、数据生命大数据l 社交大数据社交大数据10看病那些事儿看病那些事儿诊查就是治疗!诊查就是治疗!DNA测序测序核磁核磁CTX光光心电图心电图化验化验B超超内镜内镜医学必须越跑越快才能跟上技术发展的步伐!医学必须越跑越快才能跟上技术发展的步伐!知道知道“是什么是什么”,就知道,就知道“怎么做怎么做”!医学诺贝尔奖给了谁?医学诺贝尔奖给了谁?心电图的发明人心电图的发明人 :威廉威廉.埃因托芬埃因托芬X X射线辐射治疗发明人射线辐射治疗发明人 :赫尔曼赫尔曼.约瑟夫约瑟夫.马勒马勒核磁共振成像发明人核磁共振成像发明人 :保罗保罗.劳特布尔劳特布尔更多的奖给了器械发明人,以及能够从医疗数据发现价值的人!

    6、更多的奖给了器械发明人,以及能够从医疗数据发现价值的人!因果关联先导?是什么?是什么?大数据大数据为什么?为什么?怎么做?怎么做?研究对象研究对象科学科学技术技术形而上形而上?形而下形而下大数据大数据 大数据时代认知计算的实大数据时代认知计算的实践,正在践,正在倒逼倒逼认知科学前认知科学前行!行!对人类认知而言,欧盟的对人类认知而言,欧盟的“脑科学十年脑科学十年”和和“人类大脑计划人类大脑计划”,以及奥巴马的,以及奥巴马的“脑脑计划计划”可能可能错错在哪里?在哪里?大脑细胞类型及统计大脑结构图大规模神经网络技术操作神经回路的工具神经细胞与个体行为关系大脑成像技术神经模型和统计的整合人脑数据搜集

    7、知识传播与培训认知科学难道就是研究生物脑的自然属性吗?认知科学难道就是研究生物脑的自然属性吗?要研究人类认知的特殊性!要研究人类认知的特殊性!文字、文明和传承文字、文明和传承 人类认知的社会属性人类认知的社会属性倒逼什么?倒逼什么?把这两点作为人类认知科学的切入点!把这两点作为人类认知科学的切入点!要研究脑认知的后天属性。认知还是后天学习和积累的结果,是与社会环境、社会实践、群体交互等密切相关的,要建立人类认知的成长机制。倒逼什么?倒逼什么?二、大数据时代的自然语言处理 技术正在改变我们的生活 语言是思想的直接现实,是人类思维的载体,是认知科学和认知计算要应对的首要问题。语言和文字在人类走向文

    8、明的四个重大里程碑中,语在人类走向文明的四个重大里程碑中,语言和文字占了两个位置言和文字占了两个位置语言是外部对象的语言是外部对象的“声音符号声音符号”,传达的,传达的是是信息信息文字是信息的文字是信息的编码编码,有文字才有传承,有文字才有传承人类运用自然语言进行交流获得的效果中:l 讲话内容 7%l 强度和语调 38%l 面部表情和肢体动作 55%认知心理学告诉我们认知心理学告诉我们在半个世纪的自然语言理解的研究中,我们对在半个世纪的自然语言理解的研究中,我们对此关注了多少?此关注了多少?自然语言在人类思维中具有不可替代性人们在表达、思考和解决任何问题时,人们在表达、思考和解决任何问题时,通

    9、常是定性的,对量的规定性往往是非通常是定性的,对量的规定性往往是非数值的数值的科学研究中,即使人们用对象语言(如:科学研究中,即使人们用对象语言(如:物理、数学、物理、数学、C C语言等)来表述一个特定语言等)来表述一个特定的精确学科,解释对象语言的的精确学科,解释对象语言的元语言元语言仍仍然是自然语言然是自然语言自然语言是不可以计算的!自然语言可以计算吗?自然语言可以计算吗?在特定语境和语用场合,自然语言理解是可以被形式化表达并进行计算的!脑科学认为:脑科学认为:计算语言学认为:计算语言学认为:如果一个问题不能够全部形式化,那么,其中的局部问题可不可以形式化?如何让这个局部问题尽可能地普遍一

    10、些?自然语言可以在什么程度上被形式化,取决于能否把不确定性形式化。紧紧抓住自然语言中的概念,研究不确定性。24清华大学 电子工程系,吴及*v以中国移动一个中等规模省级客服中心客服坐席500个平均日通话30万平均通话时间100秒平均坐席日通话时间16.7小时日通话累计时长约为8333小时月客服数据总量:25万小时年客服数据总量:300万小时4kbps压缩存储:5.4TB一个人不停说话说上1年如采用人工测听需1000人引自科大迅飞公司数据引自科大迅飞公司数据是雇用500位客服人员,还是启用一台话音机器人?人类如何理解自然语音的?您好亲情话务员,很高兴为您服务。我问一下我那个包月的上网套餐现在还能恢

    11、复吗?先生您好您这个套餐是您目前使用的就是一个神州行。免费的,那是赠送流量吗?免费赠送您三十兆流量的,怎么了您说。我不是把那个GPRS关了嘛。您是说您的功能关闭了是吗?嗯,开通还要不要扣费啊。需要扣费,有密码吗?有密码,我能开通那个GPRS吗?是的,您稍后听到语音提示后输入一下您的密码请稍等。噢行。先生您好您的密码。在半个世纪的自然语言理解的研究中,我们对在半个世纪的自然语言理解的研究中,我们对此关注了多少?此关注了多少?人类如何理解自然语言的?研表究明,汉字的序顺并不定一能影响阅读,比如当你看完这句话后,才发这现里的字全是都乱的!再回头仔看细看,真这是样的。在半个世纪的自然语言理解的研究中,

    12、我们对在半个世纪的自然语言理解的研究中,我们对此关注了多少?此关注了多少?区分计算机和人的全自动公共图灵测试(CAPTCHA)还能维持多久?在半个世纪的语言文本理解的研究中,我们对在半个世纪的语言文本理解的研究中,我们对此关注了多少?此关注了多少?全自动区分计算机和人类的图灵测试Completely Automated Public Turing test to tell Computers and Humans Apart(CAPTCHA)reCAPTCHA,利用大众对验证码的识别,完成扫描仪、OCR软件,甚至古籍整理者都难以辨识的古老文献中的字符,精度可以超过99%!群体智能:社会计算的精

    13、髓!群体智能:社会计算的精髓!网络应用网络应用通讯平台通讯平台数字媒体数字媒体机器人能听会说正在改变我们的生活!在线服务机器人 智能耳机?在线翻译:文字在线翻译:文字 文字文字语音合成:文字语音合成:文字 语音语音话者识别:话者识别:语音语音 说话人说话人语音识别:语音语音识别:语音 文字文字不知天高地厚的豪言壮语?“先干掉短信,下一个目标是语音通话!先干掉短信,下一个目标是语音通话!”高级认知活动:创作对联l唐诗宋词三百首唐诗宋词三百首41850首,8万句,近35万字l微软对联微软对联微软亚洲研究院自然语言计算组研发的计算机自动对联系统。利用从唐诗宋词大数据中学习到的概率利用从唐诗宋词大数据

    14、中学习到的概率模型模型,当用户给定上联,能自动提供若干下联;当用户确定一副对联,能生成若干四字横批。couplet.msra/app/couplet.aspx高级认知活动:写诗高级认知活动:写诗l人们熟读众多诗词,记住了针对各种意境的大量“字串”。需要时,触景生情,把脑中的“字串”按既定的一些规矩取出来,就成了一首新诗l哪种诗容易写?哪种诗容易写?规矩越多越适合计算机写。对四声和押韵有严格要求的五言绝诗,便是一个例子。李白的五言绝诗李白的五言绝诗 李白一生写诗1010首,把他所有诗句进行“机械切割”,在“悲情”意境下,分别按照平仄规律 仄仄 仄平平仄平平 平平平平 仄仄平平 平平 平仄仄平仄仄

    15、 仄仄 仄平平仄平平 把这些切割后的字串构成数据集,并要求仄平平、仄平、仄平平 这3类串的韵相同。表表1 1:(仄起)五绝(首韵):(仄起)五绝(首韵)秀玉竟不还,秀玉竟不还,西湖哀苦寒。西湖哀苦寒。凤楼留不住,凤楼留不住,夜郎醉不眠。夜郎醉不眠。如,毛泽东的生日18931226 所作的诗是:自然语言理解50年变迁从五笔字型输入到搜狗拼音输入从五笔字型输入到搜狗拼音输入从千人一面的搜索引擎到个性化搜索从千人一面的搜索引擎到个性化搜索从规则学习到统计学习从规则学习到统计学习从智能计算到情感计算从智能计算到情感计算从形式语言学到野蛮翻译从形式语言学到野蛮翻译从确定性认知到不确定性认知从确定性认知到

    16、不确定性认知自然语言理解:期待中的舞台机器人文本、歌曲剧本等 以大数据形态反映的语言、交互和理解,是带毛的、鲜活的、有情感的原生态数据,体现了认知过程中在语境、语构、语用和语义方面的不确定性,这正是大数据的魅力所在。三、视听觉认知中的大数据:智能驾驶初步实践 智能驾驶为什么会火起来?云计算、移动互联网、物联网、大数据和智慧城市建设背景下,人们迫切需要提高移动生活的品质。智能车成为众目睽睽下的交集!视听觉认知计算视听觉认知计算国家自然科学基金委员会十一五重大研究计划国家自然科学基金委员会十一五重大研究计划视听觉认知计算视听觉认知计算的科学任务的科学任务 在正常的环境下,标准的城市和城际公路上,从

    17、北京到天津/深圳,智能车混迹在正常交通流中,表现出驾驶员的驾驶智能驾驶员的视听觉认知计算能力。国家自然科学基金委员会十一五重大研究计划国家自然科学基金委员会十一五重大研究计划视听觉认知计算视听觉认知计算(2019 20192019 2019)耗资1.9亿元,历时8年,资助近百个培育项目、重点项目、集成项目,在原始创新和任务载体(轮式机器人)上取得重大成果。国家自然科学基金委员会十一五重大研究计划国家自然科学基金委员会十一五重大研究计划人类的视听觉人类的视听觉认知是不可以认知是不可以计算的!计算的!人类的视听觉认知可以计算吗?人类的视听觉认知可以计算吗?特定情境下,人类的视听觉认知导致特定的行为

    18、,是可以被形式化表达并进行计算的!脑科学认为:机器人学认为:智能驾驶试验三步走策略智能驾驶试验三步走策略第一步:第一步:城际道路低智商试验(城际道路低智商试验(2019年)年)第二步:第二步:市区道路中智商试验(市区道路中智商试验(2020年)年)第三步:第三步:特殊道路高智商试验(特殊道路高智商试验(2030年)年)自主驾驶!自主驾驶!360o旋转的传旋转的传感器扫描百米感器扫描百米范围高精度立范围高精度立体景象体景象左后轮上方左后轮上方的传感器检的传感器检测小位移测小位移安装在后视镜部位的摄像头检测交通灯,帮安装在后视镜部位的摄像头检测交通灯,帮助机载计算机识别自行车和行人助机载计算机识别

    19、自行车和行人4个测距雷达,个测距雷达,3个在前,一个在后,个在前,一个在后,确定障碍物的位置与距离确定障碍物的位置与距离轮式机器人传感器大数据轮式机器人传感器大数据l车载陀螺:车载陀螺:感知车辆自身姿态和位置感知车辆自身姿态和位置l雷达(激光雷达、毫米波雷达、超声雷达(激光雷达、毫米波雷达、超声雷达、红外雷达等)和摄像头雷达、红外雷达等)和摄像头:感知:感知周边环境周边环境l传感器数据常常是海量流数据传感器数据常常是海量流数据工作工作1小时,一部小时,一部64线激光雷达可产生线激光雷达可产生137GB数据量,数据量,一个高清摄像头可产生一个高清摄像头可产生50GB数据量。数据量。驾驶环境地理信

    20、息大数据驾驶环境地理信息大数据l数字地图数据数字地图数据l定位和导航数据定位和导航数据l云计算:基于位置的服务云计算:基于位置的服务l围绕位置服务的大量衍生信息围绕位置服务的大量衍生信息驾驶人行为大数据驾驶人行为大数据l飙车手飙车手l菜鸟菜鸟l正常驾驶员正常驾驶员l驾驶行为人人都不同驾驶行为人人都不同 需不需要研制人造的生需不需要研制人造的生物眼(仿生眼)?物眼(仿生眼)?重要抉择:重要抉择:需不需要在车上安装三需不需要在车上安装三维高精度激光成像雷达维高精度激光成像雷达再现周边立体场景?再现周边立体场景?重要抉择:重要抉择:路边的美女看不看?路边的美女看不看?智能驾驶难点:智能驾驶难点:当汽

    21、车在高速行驶时当汽车在高速行驶时需不需要理解所有周边需不需要理解所有周边的地理位置信息和交通的地理位置信息和交通指示牌信息?指示牌信息?智能驾驶难点:智能驾驶难点:轮式机器人能不能模拟车主轮式机器人能不能模拟车主的驾驶行为,具有个性,具有自的驾驶行为,具有个性,具有自学习功能?学习功能?智能驾驶难点:智能驾驶难点:l 驾驶员必须在车辆导航、危险检测、速度驾驶员必须在车辆导航、危险检测、速度 控制和车道保持之间分配注意力控制和车道保持之间分配注意力l 当驾驶员没有将注意力在正确的时间分配当驾驶员没有将注意力在正确的时间分配给正确的对象时,安全受到影响。统计表明,给正确的对象时,安全受到影响。统计

    22、表明,注意力疲劳、分散和粗心导致撞车事故注意力疲劳、分散和粗心导致撞车事故l 移动互联网将使驾驶员的移动生活更丰富移动互联网将使驾驶员的移动生活更丰富多彩,也更可能分散注意力多彩,也更可能分散注意力 选择性注意和注意分配选择性注意和注意分配认知计算中的基础科学问题:认知计算中的基础科学问题:遗忘:选择性记忆遗忘:选择性记忆l选择性注意的后续认知是残留,即记忆。选择性注意的后续认知是残留,即记忆。l没有遗忘,就没有选择性记忆。没有遗忘,就没有选择性记忆。l在驾驶员的认知过程中,对已经成为过去的在驾驶员的认知过程中,对已经成为过去的驾驶活动,时间越长,遗忘越快;对刻骨铭驾驶活动,时间越长,遗忘越快

    23、;对刻骨铭心的瞬间,长期积累为先验知识。心的瞬间,长期积累为先验知识。l对刚刚过去的周边态势的记忆,如何表现?对刚刚过去的周边态势的记忆,如何表现?认知计算中的基础科学问题认知计算中的基础科学问题注意的调节注意的调节认知计算中的基础科学问题认知计算中的基础科学问题l 先验知识优先先验知识优先l 动目标优先动目标优先l 全局(大尺度)优先全局(大尺度)优先l 差异优先差异优先l 前景优先前景优先l 注意跟踪和聚焦注意跟踪和聚焦京津高速公路试验轮式机器人:双工双控智能车 驾驶是快乐的享受,只要车内有人,就不存在绝对的无人驾驶。自动驾驶和人工驾驶可以商量,相互学习,自然转换,长期并存。车内乘员和轮式

    24、机器人之间的视觉、语音、触摸、踩踏等多种自然交互形态、以及交互界面的设计,甚至是智能车成功与否的关键!自动驾驶和人工驾驶不是简单的非此即彼!要考虑自自动驾驶和人工驾驶不是简单的非此即彼!要考虑自动驾驶过程中人工如何自然干预?人工驾驶过程中自动驾驶过程中人工如何自然干预?人工驾驶过程中自动监视如何悄悄地工作?动监视如何悄悄地工作?人人 工工 驾驾 驶驶 自自 动动 驾驾 驶驶 如何切换?双如何切换?双控?控?双工:人工驾驶和自动驾驶两种工作方式长期并存双工:人工驾驶和自动驾驶两种工作方式长期并存2022-12-2570人和轮式机器人双工:双工:互为热备份,不是冷切换双控:双控:时刻准备着,实时弥

    25、补对方认知中的不智 如果有一天,北京城区出现了如果有一天,北京城区出现了飙车机器人,那灵动的身影、敏捷飙车机器人,那灵动的身影、敏捷的姿态、尽兴的奔跑,跑出了自己的姿态、尽兴的奔跑,跑出了自己的风格和智能,你还要问:认知可的风格和智能,你还要问:认知可以计算吗?以计算吗?四、不确定性认知的物理学方法:云模型和数据场云 模 型人类思维的载体是自然语言,认知计算人类思维的载体是自然语言,认知计算最基本的任务是自然语言的形式化最基本的任务是自然语言的形式化自然语言的形式化首先是概念的形式化自然语言的形式化首先是概念的形式化概念的形式化要解决不确定性:软计算概念的形式化要解决不确定性:软计算和词计算和

    26、词计算认知计算要解决概念的形式化概念处理单元2019年度图灵奖得主Judea Pearl教授 加州大学洛杉矶分校的计算机加州大学洛杉矶分校的计算机科学家,将科学家,将贝叶斯网络和概率方法贝叶斯网络和概率方法引入人工智能,引入人工智能,为为 iPhone 的的Siri 语音识别和语音识别和 Google无人驾驶汽车无人驾驶汽车奠定了基础。奠定了基础。著作著作 Causality:Models,Reasoning,and Inference创立了因果推理演算法,奠定了处理不确定性信息的计算基创立了因果推理演算法,奠定了处理不确定性信息的计算基础。础。Judea Pearl(1936 )美国工程院院

    27、士美国工程院院士Lotfi Zadeh1921.2 波兰科学院院士波兰科学院院士Zdzislaw Pawlak1926.11.10 2019.4.7模糊集合模糊集合粗糙集合粗糙集合二型模糊集合二型模糊集合美国南加州大学教授美国南加州大学教授Jerry M.Mendel1938.5 l模糊集合模糊集合l模糊逻辑模糊逻辑l模糊规则模糊规则l模糊推理模糊推理l模糊控制模糊控制l模糊信息处理模糊信息处理l模糊问题求解模糊问题求解经典论文:经典论文:Zadeh L A.Fuzzy sets J.Information and Control,1965,(8):338-353粒化和粒度粒空间粒逻辑粒推理粒

    28、分析粒处理粒问题求解概率图模型(PGM)以图的方式表达变量间不确定因果关系的模型,从动态、复杂、不确定的信息中提取结构化知识,并进行推理计算。常见的概率图模型包括:贝叶斯网络、马尔科夫随机场、高斯图模型、动态不确定因果图、隐树模型等。“年轻人年轻人”隶属区间函数隶属区间函数“年轻人年轻人”的云模型的云模型一型模糊集合一型模糊集合用用一个精确的一个精确的隶属函数隶属函数表达表达变量与定性概变量与定性概念之间的隶属念之间的隶属关系的模糊性关系的模糊性“年轻人年轻人”的隶属函数的隶属函数二型模糊集合二型模糊集合利用利用上、下隶上、下隶属函数曲线属函数曲线限限定模糊范围,定模糊范围,表示隶属度的表示隶

    29、属度的不确定性不确定性云模型云模型利用利用正正向云发生器算向云发生器算法,基于概率法,基于概率测度空间自动测度空间自动生成隶属度生成隶属度 22)(2)(EnExxeyFCG(Ex,En,He,n)FCGFCG(20;3;0.1;1,000)在论域U上定义均值为En、标准差为He的高斯随机变量,即的概率密度函数为l在在=的条件下,定义在论域的条件下,定义在论域U上的随机变上的随机变量量X的条件概率密度函数为:的条件概率密度函数为:随机变量X的概率密度为称称X的概率分布为高斯云分布的概率分布为高斯云分布。期望l方差(二阶中心距)方差(二阶中心距)三阶中心距l四阶中心距四阶中心距四阶中心矩具有峰度

    30、(kurtosis)的含义,峰度是统计中描述分布状态的一个重要特征值,用以判断分布曲线相比于正态分布的尖平程度。如果将正态分布视为常峰态,分布曲线的形状比正态分布更高更瘦的称为高峰态,否则称为低峰态。定义:随机变量X称为是重尾的,如果 ,其中,分别为X的期望和标准差。正态分布的峰度为3,因此该性质被称为超过或大于峰度。高斯云是重尾分布,幂律分布也是重尾分布。高斯云随着熵的增大,或者阶数的增加,云滴的分布更加趋向重尾分布。高阶云模型可以在高斯分布和幂律分布之间游走。云模型的数学基础是概率理论,刻画的问题是人类认知中概念与数据之间的双向转换,实现的手段是计算机算法。云模型给出了定性概念的量的数学表

    31、述及其数学性质,用概率和统计的方法解释了曾经用隶属度表示的种种模糊概念和模糊理论,但不要求主观不要求主观给定确定的隶属度值,并指出语义不同的概念的确定给定确定的隶属度值,并指出语义不同的概念的确定度分布,依然具有轮廓的一致性。度分布,依然具有轮廓的一致性。l 傅里叶变换傅里叶变换l 高斯变换高斯变换l 高斯云变换高斯云变换:依据数据样本的统计特性,通过高斯变换形成多个概念的期望,通过减少概念含混度确定各个概念的熵和超熵,形成多个不同粒度的概念。l 稀疏高斯云变换稀疏高斯云变换高斯云变换40506070809010000.010.020.030.040.050.060.07年 龄人数分布776名

    32、中国工程院院士年龄分布名中国工程院院士年龄分布(2019.4)40506070809010000.010.020.030.040.050.060.07agefrequence分成分成5个概念?个概念?40506070809010000.010.020.030.040.050.060.07agefrequence分成分成3个概念?个概念?根据根据“类内关系强、类间关系弱类内关系强、类间关系弱”的聚的聚类原则,用高斯云变换实现聚类,可减少概类原则,用高斯云变换实现聚类,可减少概念之间的含混度,并念之间的含混度,并体现人类认知中概念的层次和粒度的不确定性。天空中大量云滴构成的云,远观天空中大量云滴构

    33、成的云,远观有形,近观无边,千姿百态,飘逸不有形,近观无边,千姿百态,飘逸不定,有时如朵朵棉花,有时一泻千里,定,有时如朵朵棉花,有时一泻千里,或淡或浓,或卷或舒,自在洒脱,在或淡或浓,或卷或舒,自在洒脱,在长空中漂浮着,聚散着,变幻着,引长空中漂浮着,聚散着,变幻着,引发人类诸多遐想,造就多少不朽诗句。发人类诸多遐想,造就多少不朽诗句。数 据 场物理场和数据场数据场中的势 nixxiniiDiemxxx121)()(空间空间 中的数据对象集中的数据对象集 及其产生的数据场,任一场点及其产生的数据场,任一场点x 处的势值处的势值可计算为:可计算为:为影响因子。为影响因子。12,.,PniDx

    34、xxxR 人脸图像数据场 minjxxijijex112)(人脸图像数据场 下图为表情数据库的一幅标准化人脸图像及其产生的数据势场分布(=0.05),可以发现,人脸图像数据场的高势区位于脸颊、额头和鼻梁等灰度值较大的面部区域。a)128 128像素像素人脸图像人脸图像 b)数据场等势线分布数据场等势线分布 c)势场分布的势场分布的三维视图三维视图 场的局部特征的非线性扩张数据场新场非线性变换非线性变换数据场局部夸张场新场人脸图像数据场的MapReduce 21ijijfminjxxijijex11221)(非线性变换后人脸图像数据场a)标准化人脸图像标准化人脸图像 b)数据场等势线分布数据场等

    35、势线分布 c c)势场分布的三维视图势场分布的三维视图 非线性变换后 b)数据场等势线分布数据场等势线分布 c c)势场分布的三维视图势场分布的三维视图 a)人脸图像人脸图像 核心对象对数据场的贡献n数据场的空间分布主要取决于质量较大的核心对象间的相互作用,其他大多数的对象由于质量太小对数据场的形成几乎不起作用。核心对象和原始数据集产生的数据场等势线分布比较 基于数据场的人脸图像特征提取像素点贡献的优化估计n量化每个像素点对形成人脸图像数据场的贡献,根据势函数与概率密度函数仅相差一个归一化常数,在总体分布已知时,可以通过最小化势函数与总体分布密度函数间的某个误差准则来优化估计对象的质量。优化目

    36、标函数为:nminmjxxiinminmjxxjijidwjijiiefwnmeffww11112221221min dxxpxJdmi2minmin算法描述算法名称:基于数据场的人脸图像特征提取输 入:人脸图像,影响因子输 出:重要特征点集合A算法步骤:n对128128标准人脸图像进行特征提取(=0.05),可以得到48个权值非零的重要特征点:n可以发现,数据场方法提取的重要特征点不仅包含了眼睛、嘴巴等重要面部器官的局部特征,而且受光照条件影响小,具有良好的稳定性。数据简约a)人脸128128个像素特征 b)48个重要特征点数据简约 =0.02 =0.05 =0.09 250个特征点个特征点

    37、 48个特征点个特征点 28个特征点个特征点人脸像人脸像128128n越小,特征点个数越多,对人脸图像的描述越细节;反之,越大,特征点个数越少,对人脸信息的描述越概括。遗忘:记忆衰退的形式化描述 =0.02 =0.05 =0.09 250个特征点个特征点 48个特征点个特征点 28个特征点个特征点人脸像人脸像128128n越大,特征点个数越少,对人脸图像的描述越宏观,越概括,形成记忆残留。一个问题的两个方面:一个问题的两个方面:时间遗忘:记忆衰退的形式化描述时间时间128x128个数据个数据269个数据254个数据76个数据79个数据40个数据35个数据15岁25岁35岁55岁70岁大数据时代的认知计算:80岁的李德毅?80岁1万张照片认知科学:认知科学:衰老规律;人脸规律 大数据时代,技术的有效性要比科学的完整性更重要!2019年第二版2019年第一版 Nature专刊(2019年9月3日)倒逼的力量!但成千上万的、甚至千千万万的特定情境下的认知可以局部的形式化,如果人类的认知问题不能够全部、完整、统一地形式化,那么,大数据时代的认知计算是否正在倒逼并逼近认知科学呢?认知计算认知计算认知科学认知科学总结总结

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大数据认知-李德毅院士共128页资料课件.ppt
    链接地址:https://www.163wenku.com/p-5200257.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库