书签 分享 收藏 举报 版权申诉 / 14
上传文档赚钱

类型《数据标注工程》第二章数据采集和清洗课件.pptx

  • 上传人(卖家):ziliao2023
  • 文档编号:5582428
  • 上传时间:2023-04-25
  • 格式:PPTX
  • 页数:14
  • 大小:2.85MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《《数据标注工程》第二章数据采集和清洗课件.pptx》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据标注工程 数据 标注 工程 第二 采集 清洗 课件
    资源描述:

    1、大数据应用人才培养系列教材数据标注工程第三章数据标注分类3.2 语音标注3.3 文本标注大数据应用人才培养系列教材3.4 作业与练习3.1 图像标注3.1 图像标注 第三章 数据标注分类3.1.1 什么是图像标注 图像标注问题的本质是视觉到语言的问题,用通俗的话来说,就是“看图说话”。这就好比我们小时候在做看图说话题目一样,同理,我们也希望算法能够根据图像得出描述其内容含义的自然语句和自然语言。但是,这对于小朋友来说小事一桩的小儿科级工作,对于计算机视觉领域来说,却是一个不小的挑战。因为图像标注问题需要在两种不同形式的图像信息到文本信息之间进行“翻译”才行。3.1 图像标注 第三章 数据标注分

    2、类3.1.2 图像标注应用领域 我们把一副1818像素的图片当成一串324个数字的数列。为了更好地操控我们输入的数据,我们不妨把神经网络扩大到324个输入节点。第一个输出预测图片是“6”的概率,第二个则输出预测不是“6”的概率。也就是说,这样我们就可以依据多种不同的输出,应用神经网络把要识别的物品进行分组。先对大批的“6”和非“6”图片进行标注,相当于我们明确告诉它我们判定为“6”的图片是“6”的概率是100%,不是“6”的图片其概率为0;对应的非“6”的图片,我们明确告诉它我们输入的图片是“6”的概率为0,不是“6”的概率是100%。我们可以利用计算机用几分钟的时间来训练这种神经网络。完成之

    3、后,我们便可以得到一个有着很高的“6”图片识别率的神经网络。3.1 图像标注 第三章 数据标注分类图像标注应用领域划分拉框标注;切割标注AI车牌识别云服务智慧路灯伴侣云平台人脸关键点的标注;240个点的人脸关键点位标注模糊人脸识别分析+精确人像对比二合一应用车辆车牌标注人像识别标注医疗影像技术发展还不够成熟,进入门槛较高AI前列腺癌诊断尺寸标注;表面粗糙度标注研发智能化的服务机器人医疗影像标注机械影像标注第三章数据标注分类3.1 图像标注3.3 文本标注大数据应用人才培养系列教材3.4 作业与练习3.2 语音标注3.2 语音标注 第三章 数据标注分类3.2.1 什么是语音标注 一般来说,语音标

    4、注与我们生活的众多方面都是息息相关的。比如,我们在使用微信时,语音可以转换成文字,在使用百度地图APP上的小麦克风功能,或者京东客服里的直接说出问题,JIMI对应解决等功能。这些都需要前期大量的人工去标记这些“说出的话”所对应的“文字”,采用人工的方式一点点去修正语音和文字间的误差。这就是语音标注。3.2 语音标注 第三章 数据标注分类3.2.2 客服录音数据标注规范142563确 定 是 否 包 含 有效 语 音确 定 语 音 的 噪 声情 况确 定 说 话 人 数 量语 音 内 容 方 面确 定 是 否 包 含 口音确 定 说 话 人 性 别第三章数据标注分类3.1 图像标注3.2 语音标

    5、注大数据应用人才培养系列教材3.4 作业与练习3.3 文本标注3.3 文本标注 第三章 数据标注分类 文本标注其实是一个监督学习问题。我们可以把标注问题看作是分类问题的一种推广方式,同时,标注问题也是更复杂的结构预测问题的简单形式。标注问题,其输入是一个观测序列,其输出是一个标记序列护着状态序列。标注问题的目的是学习模型,使该模型能够对观测序列给出标记序列作为预测。需要注意的是,标记个数是有限的,但其组合缩成的标记序列的个数是依照序列长度呈指数级增长的。作为最常见的数据标注类型之一,文本标注是指,将文字、符号在内的文本进行标注,让计算机能够读懂识别,从而应用于人类的生产生活领域。3.3.1 什

    6、么是文本标注3.3 文本标注 第三章 数据标注分类3.3.2 文本标注应用领域1.客服行业。主要集中在场景识别和应答识别。以不少电商平台的智能客服机器人为例,当用户在购物遇到问题,人工智能将根据用户的咨询内容切入到对应的场景里,根据用户的具体问题,给出对应的回答。2.金融行业。线上平台标注和线下表格标注,是金融行业文本标注主要的标注形式。一般,出现错误的情况,被称作“badcase”。打个比方,当用户问信用卡怎么办理的时候,机器人回复的却是储蓄卡的办理流程,这就是出现了badcase”。3.医疗行业。对自然语言进行标记处理,需要专门的医学人才才能进行。首先明确每个词的属性,即每个词在这种语境下面具备怎样的属性。然后标注每个词在句子中的作用。举个例子,患者主诉为:腰痛2年,伴左下肢放射痛10日余。第三章数据标注分类3.1 图像标注3.3 文本标注大数据应用人才培养系列教材3.2 语音标注3.4 作业与练习1数据标注有哪些分类?请简要概括。2你怎样理解图像标注的概念。3图像标注有哪些具体应用。4你怎样理解语音标注的概念。5语音标注的规范有哪些?请详细论述。6你怎样理解文本标注的概念。7文本标注有哪些具体应用。习题:AIRack人工智能实验平台一站式的人工智能实验平台DeepRack深度学习一体机开箱即用的AI科研平台BDRack大数据实验平台一站式的大数据实训平台

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:《数据标注工程》第二章数据采集和清洗课件.pptx
    链接地址:https://www.163wenku.com/p-5582428.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库