第四章-数据标注员的职业素养课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第四章-数据标注员的职业素养课件.pptx》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 数据 标注 职业 素养 课件
- 资源描述:
-
1、数据标注实用教程第四章:数据标注员的职业素养内容4.1 数据标注团队的管理4.2 数据标注规则的重要性4.3 数据标注的质检4.4 数据标注员需要具备的职业素养第四章:数据标注员的职业素养4.5 数据标注所需职业素养的培养内容4.1.1 数据标注团队的基础架构4.1.2 数据标注团队的培训体系4.3 数据标注团队的管理4.1 数据标注团队的管理4.1.1 数据标注团队的基础架构数据标注团队类型1)初创型的工作室2)成熟型的数据标注公司3)综合型的数据标注团队每种团队都每种团队都需要的角色需要的角色1)数据标注员2)质检员3)项目负责人4.1.2 数据标注团队的培训体系完整的数据标注培训体系通过
2、三个维度对数据标注员进行培养。完整的数据标注培训体系通过三个维度对数据标注员进行培养。(1)建立严格的培训流程,包括了解目标-学习规则-线上培训、录像学习-实际场景练习-达标考试-进行工作-纠错讲解、改错等。(2)有完善的职称等级制度,分为素材收集员、专家、高级专家、讲师。(3)设立激励制度,数据标注员的收益和职称等级相关。京东众智表示通过这套数据标注培训体系的学习和训练,普通人可以快速成为数据标注员。但是数据标注公司在对数据标注员和质检员进行实际培训时,往往需要花费一些精力。根据标注规则的改进不断进行培训,提高数据标注员的标注能力,从而提高数据标注的正确率。在国内推动数据标注行业职业化方面,
3、郑州点我科技有限公司郑州点我科技有限公司有多年的行业经验,在大数据处理领域有丰富的实践阅历,拥有成熟的技术能力和一套完善的业务培训系统,并一直践行企业责任,努力推进行业向职业化、专业化发展。郑州点我科技有限公司把数据标注员划分为初、中、高初、中、高级 3 个等级。4.1.2 数据标注团队的培训体系1)初级数据标注员)初级数据标注员初级数据标注员需要具备一定的职业道德,数据标注员需要接触大量数据,有些可能涉及公民信息等较为敏感的数据。这就需要数据标注员对所处理数据做到保密,不外传,对工作中涉及的技术标准严格执行,保护数据的完整性和一致性等。初级数据标注员的行业基础知识要求:初级数据标注员的行业基
4、础知识要求:具备简单的人工智能相关知识、大数据处理相关知识,熟悉数据标注的使用范围及形式。初级数据标注员的基础业务能力要求:初级数据标注员的基础业务能力要求:数据标注类型比较多样,包括 2D 图片标注、文字标注、图片采集、语音标注等,需要数据标注员熟悉标注类型并且可以熟练掌握各种数据标注工具。2)中级数据标注员)中级数据标注员中级数据标注员需要具备较高的职业道德和一定的从业经验,并有半年以上相关从业经历。中级数据标注员的业务能力和责任心要求:中级数据标注员的业务能力和责任心要求:除了一些初级标注员需要做的数据标注类型,中级数据标注员需要掌握更为复杂的数据标注类型,如 3D 立体标注、3D 点云
5、标注、视频轨迹、语义分割等,同时中级数据标注员需要具备一定的责任心,降低返工率。中级数据标注员的质检能力要求:中级数据标注员的质检能力要求:中级数据标注员经过一定阶段培训考取资格证,不仅 可以做一些更加专业的数据标注,还可以对初级质检员标注数据进行简单的质检。3)高级数据标注员)高级数据标注员高级数据标注员的管理能力方面要求:高级数据标注员的管理能力方面要求:需要达到对中级数据标注员的所有要求,并有一年以上相关从业经历,可以对数据标注团队进行管理,总结数据标注经验并对数据标注员进行培训。高级数据标注员对数据标注各项流程要求:高级数据标注员对数据标注各项流程要求:业务能力要求较高,所有类型数据标
6、注准确 率 98%以上,并具备一定的质检审核能力,对所有业务高度熟练,能独立完成各类业务的示 范模板和操作培训。4.1.2 数据标注团队的培训体系:数据标注员质量提升计划表 4-1 数据标注员质量提升计划4.1.2 数据标注团队的培训体系:质检员质量提升计划表 4-2 质检员质量提升计划4.1.3 数据标注团队的管理1数据质量管理体系数据质量管理体系数据质量管理体系需要明确的组织机构,实行专人负责,各司其职。一般来说,应当有扮演如下角色的人员:(1)负责领导、监督和维护整个数据质量管理体系的管理者代表;(2)负责在技术层面具体设计规则和流程、参与开发、评估和改进数据集质量的研究者;(3)负责提
7、供数据标注参考标准、控制数据标注质量的数据标注员;(4)负责对数据质量管理体系进行内部审查、对数据质量问题开展纠正和预防措施的审 查员;(5)负责在数据入库前进行确认。2数据标注团队管理的作用数据标注团队管理的作用对数据标注进行管理,可以使数据标注流程更为规范化,降低错误率和返工率。数据标注行业是新兴行业,在初期需要建立一套规范化流程体系,对整个行业的发展都有促进作用。数据标注团队管理有以下几个作用。1)规则化管理有利于企业效率的提升2)制度化管理有利于人才的培养3)规范化管理有助于数据的保密内容4.2.1 数据标注规则 4.2.2 数据标注规则的特点 4.2.3 数据标注规则需要双方沟通 4
8、.2 数据标注规则的重要性4.2.4 数据标注规则需要标注员不断学习 4.2.1 数据标注规则 数据标注规则是指为了完成数据标注项目,满足需求公司要求,根据项目类型的不同而制定的供数据标注员共同遵守的规则。目前数据标注有目前数据标注有 3 种常用的分类方法种常用的分类方法:(1)根据数据标注对象不同,数据标注可分为文本标注、语音标注、图像标注和视频标注;(2)根据数据标注的构成形式不同,数据标注可分为结构化标注、非结构化标注和半结构化标注;(3)根据数据标注者类型不同,数据标注可分为人工标注和机器标注。在实际工作中,常按照数据标注对象不同对数据标注进行分类。4.2.2 数据标注规则的特点1数据
9、标注规则需要一致数据标注规则需要一致数据标注规则的一致性是数据标注的必要条件。数据标注规则可以复杂,但只能有数据标注规则的一致性是数据标注的必要条件。数据标注规则可以复杂,但只能有一个。数一个。数据标注规则可以演进,只要保证一致性,向前向后兼容就容易保障。需求公司根据需求提供完整的数据标注规则,保证数据标注员可以在数据标注过程中边界清晰。一份清晰明确的数据标注规则,可以让数据标注公司将数据标注任务划分为流水线,让每个数据标注员只负 责一件事,提高工作效率的同时也让数据标注流程得到更精细的控制。2数据标注规则需要完善数据标注规则需要完善需求方对某项产品研发时设定了一个大致的数据标注规则,数据标注
10、团队和数据标注员在数据标注过程中遇到问题需要反馈给需求方,侧面辅助需求方不断完善数据标注规则。数据标注规则不断进行完善和细化对数据标注生产的效率也有很大的影响,提前对数据标注规则进行细化,运用在实际数据标注过程中,可以提高数据标注质量。例如,有些项目场景复杂且主观判断元素多,数据标注员对于场景的判断非常有限,只能是对数据先进行标注,然后不断地发现问题,改进数据标注规则并解决问题,最终达到预期结果。在完善数据标注规则时需要遵循需求方优先原则和质检优先规则。4.2.3 数据标注规则需要双方沟通良好的沟通是数据标注行业中最重要的一环。良好的沟通是数据标注行业中最重要的一环。在数据标注工作中,一个人很
11、难完成整个 项目,数据标注员需要与质检员、需求方进行交流合作,才能够顺利完成项目。数据标注团队和需求方也需要经常沟通数据标注团队和需求方也需要经常沟通,积极沟通可以省去重复、返工等低效行为。相反地,不良的沟通会增加数据标注团队在标注的各个环节上的成本。这就要求需求方和数据标注团队相互配合,一方面需要数据标注团队快速反馈问题,根据数据标注员反馈的问题及时总结,向需求方进行反馈,并且可以根据需求方的回馈内容,对数据标注员进行再培训教 育,降低出错率;另一方面,需求方根据数据标注团队上报的内容进行回应,由专门负责人 对此项目进行对接,可以大大缩短完成项目数据标注任务的时间。掌握低成本的沟通技巧、了解
12、如何有效地传递信息能提高工作效率,掌握低成本的沟通技巧、了解如何有效地传递信息能提高工作效率,而积而积极地获取信息更会提高自身的竞争优势。极地获取信息更会提高自身的竞争优势。4.2.4 数据标注规则需要数据标注员不断学习 不同的数据标注项目对数据标注员的要求也不一样,对于一些数据标注规则简单且数据量比较大的数据标注项目,数据标注员只需要掌握数据标注规则,按照数据标注规则对数据进行标注即可。但是对于一些需要专业背景的数据标注项目,例如在进行医疗数据标注时,数据标注员需要做医疗图像的分割,把肿瘤区域标注出来,这样的工作就需要专业的医生才能完成。数据标注项目的类型有很多,有难有易,但是只要掌握好数据
13、标注规则,不断进行学习,就无惧挑战。因此无论对数据因此无论对数据标注员还是质检员来讲,掌握好数据标注规则才是核心。标注员还是质检员来讲,掌握好数据标注规则才是核心。数据标注规则有很多,数据标注员不仅需要理解贯通,还需要牢记心中。快速掌握数据标注规则是数据标注员所具备的一项重要技能,理解数据标注规则的内容可以提高数据标注效率,高质量、高水平的完成数据标注工作。数据标注规则并不是一成不变的,数据标注员需要根据需求方的要求进行相应的修改。理解数据标注规则可以帮助数据标注团队降低成本,提高数据标注员的工作效率。因此“规则不规则不明,返工常态明,返工常态”这句话充分说明了数据标注规则的重要性。无论是对数
14、据标注员还是需求方,一个清晰、准确、规范化的数据标注规则是很重要的,数据标注也坚持“质量为先,规则为王质量为先,规则为王”。在大数据和人工智能时代,低质量的数据标注可能导致算法运行时出现致命问题。内容4.3.1 数据标注质检的重要性4.3.2 常见的数据标注标准分类4.3 数据标注的质检4.3.1 数据标注质检的重要性 图 4-1 数据标注质检流程需要指出的是,在人工质检阶段,要求质检员对每一条数据做到逐一质检,不放过任何 一条数据。而在交叉抽检阶段,任何一条数据不匹配都将会进行重新标注提交。质检员的作用主要是提高数据标注质量保证合格率和评判数据标注员的能力。4.3.2 常见的数据标注标准分类
15、 常见的数据标注类型包括文本标注、语音标注、图像标注、视频标注等。针对每种不同类型的数据标注项目,数据标注的基本形式有标注画框、3D 画框、文本转录、图像打点、目标物体轮廓线等。目前数据标注项目以文本标注、语音标注、图像标注为主。常用的数据标注标准有以下几种。1图像标注的质量标准图像标注的质量标准图像标注的质量好坏取决于像素点的判定准确性。数据标注像素点越接近被标注物的边 缘像素点,图像标注的质量就越高,标注的难度也越大。2语音标注的质量标准语音标注的质量标准在进行语音标注时,语音数据的发音时间轴与标注区域的音标需保持同步。标注于发音时间轴的误差要控制在 1 个语音帧以内。若误差大于 1 个语
16、音帧,则很容易标注到下一个发音,造成噪声数据。3文本标注的质量标准文本标注的质量标准文本标注涉及的任务较多,不同任务的质量标准不同。4四边形矩形拉框四边形矩形拉框四边形矩形拉框在数据标注市场上统称为 2D 拉框,它主要是用特定软件对图像中需要处理的元素(如人、车、动物等)进行拉框处理,同时用一个或多个独立的标签来代表一个或多个不同的需要处理的元素,同时在标签的添加上可能会碰到多层次的添加,从而实现线 条的种类识别。内容4.4.1 数据标注员的职业素养 4.4.2 持续的学习力是数据标注工作的基础 4.4.3 细心是做好数据标注工作的保障 4.4 数据标注员需要具备的职业素养4.4.4 有耐心才
17、能坚持工作在数据标注行业4.4.5 拥有责任心才能换位思考做好数据标注工作4.4.6 较强专注力可提高工作效率 4.4.7 团队协作是一个数据标注团队生存的保障4.4.8 良好的沟通表达力能更为有效地进行数据标注工作4.4.1 数据标注员的职业素养数据标注员需要具备哪些职业素养才能做好数据标注工作呢?下面通过互联网上关于数据标注员岗位的要求及数据标注类项目协议的部分内容,来了解数据标注项目对于数据标注员的职业素养要求。1互联网上关于数据标注员岗位的要求互联网上关于数据标注员岗位的要求工作内容:工作内容:(1)按照项目的要求,使用标注工具对各类人工智能项目数据(文本、图像、音频、视 频)进行标注
18、与质检;(2)对不能通过质检的标注结果要进行重新标注;(3)理解数据标注规则,根据指导和实际工作要求及时改进工作;(4)协助完善标注工具,建立词库,定期上交周报和月报,并对工作提出建议。岗位职责:岗位职责:(1)确保工作质量达到标准并准时完成工作任务;(2)认真细致,爱岗敬业,有良好的职业操守,具有良好的沟通能力和执行能力认真细致,爱岗敬业,有良好的职业操守,具有良好的沟通能力和执行能力;(3)思维敏捷,接受能力强,能独立思考,善于总结工作经验,具有团队意识思维敏捷,接受能力强,能独立思考,善于总结工作经验,具有团队意识;(4)勤劳细心,执行力强,责任心强勤劳细心,执行力强,责任心强。4.4.
19、1 数据标注员的职业素养2数据标注类项目协议的部分内容数据标注类项目协议的部分内容1)违约责任(1)如果甲方未能按期支付本协议约定的服务费用,每逾期一日,甲方向乙方支付服务费用总额的 3%作为违约金。违约金同服务费用一起打入乙方银行账户内。(2)如果乙方单方过错致使乙方未在服务期内完成服务内容,则每逾期一日,乙方向甲 方支付服务费用总额的 3%作为违约金,违约金直接从服务费用里扣除。如逾期三日,甲方可终止协议,甲方支付乙方已完成的经过验收合格数据对应的金额。(3)乙方因客观原因确实不能为甲方提供数据标注服务,需提前 7 天告知甲方,以方便甲方进行相应的调整和部署。甲乙双方合作期间,如乙方擅自调
20、离人员,导致甲方项目不能如期交付,甲方有权扣除乙方不低于 30%的项目款作为违约补偿。2)双方权利和义务(1)甲方应严格按照本协议规定的用途使用数据,不得将乙方的数据用于任何法律所禁 止的用途。(2)乙方需在项目合作期间积极配合甲方的工作。自协议签订之日起,如乙方在组织或协调安排上不能满足甲方项目需求,即数据超过 3 次不达标,甲方有权单方面终止合作。从互联网上关于数据标注员岗位的要求和数据标注类项目协议的部分内容可以看出项目的交付标准及时间要求是极其严苛的,交付不及时或交付有问题需要赔付违约金,甚至失 去项目合作的机会。因此一个合格的数据标注员需要具备学习力、细心、学习力、细心、耐心、责任心
21、、专注力、团队协作、良好的沟通表达能力等耐心、责任心、专注力、团队协作、良好的沟通表达能力等。4.4.2 持续的学习力是数据标注工作的基础 学习力是学习动力、学习毅力和学习能力的统称。学习力是学习的动力、毅力和能力的综合体现。学习力是把知识资源转化为知识资本的能力。学习力不仅包含知识总量,即学习内容的宽广程度和开放程度,也包含知识质量,即综合素质、学习效率和学习品质。此外,学习力也包含学习流量,即学习的速度以及吸纳知识和扩充知识的能力。学习力更重要的是知识增量,即学习成果的创新程度以及知识转化为价值的程度。学习力的本质是竞争力学习力的本质是竞争力。当前人工智能的主流是机器学习,机器学习大致可以
22、分为监督学习、无监督学习和半监 督学习。监督学习和半监督学习都需要标注好的数据。如果我们把机器学习视为不断做题学 习新知识的人,那么监督学习做的都是有标准答案的题(这里的标准答案来自数据标注员),而无监督学习做的是没有答案的题(例如,AlphaZero 就是通过自行对弈学习,不需要学习人类的棋局)。半监督学习则介于两者之间,做的一部分是有标准答案的题,剩下的是没有答案的题。目前数据标注没有统一的数据标注规则,有些数据标注项目配备专业的数据标注软件或数据标注平台,但有的数据标注项目只需要用到专业知识或某些大众的数据标注软件。所以,若想做好数据标注工作,数据标注员需要不断地学习新规则,开拓专若想做
23、好数据标注工作,数据标注员需要不断地学习新规则,开拓专业知识,提高各种数据标注软件的操作技能业知识,提高各种数据标注软件的操作技能。4.4.3 细心是做好数据标注工作的保障标注数据应用于人工智能的方方面面,如无人驾驶、智能机器人、监控系统、自动化医 疗、人脸识别、语音识别等。人工智能对于数据的要求都是很精细的,例如,图像标注要求标注误差在 1 个像素点以内,语音标注截取时的误差要控制在 1 个语音帧之内等。若是标注时不细心,则直接导致数据标注质量不合格,需要打回进行重新标注,这样会浪费很多的时间和人力。如果一个数据标注员不细心,即使做事的速度很快但是质量未必很高。数据标注工作是一个既需要质量又
展开阅读全文