高效的数据标注对人工智能发展的重大意义

“近年来,人工智能发展这个话题如火如茶,作为人工智能的三大决定性影响因素:算法、算力和数据,在过去的几年中也取得了很大的突破。”

        为了能够更深入了解人工智能数据标注要性,记者采访到国内知名数据标注服务商觉醒向量项目经理蒋超了解到,就目前数据采集标注来看,缺乏各种场景化、领域性的数据是一种常态,传统的通用数据集尚且还不能满足产业场景化的需求,那么AI对数据的质量、规模和场景化方面的要求越来越高,行业里更加需要能还原应用场景的数据资源服务商。  

       采访实录:

       记者:请简单介绍一下目前工作的岗位职责和工作内容。

       蒋超:我的岗位是项目经理,主要职责是负责项目的运营,运营包括调度分配数据标注人员;评估项目风险;向AI需求企业提供专业的数据标注解决方案等工作内容。

       记者:都说数据是人工智能的血液,而数据只有加上标注才有意义。能不能谈谈数据标注对于人工智能的意义?

       蒋超:这是由于现阶段机器学习的特点决定的,目前成熟的机器学习技术是监督式学习,监督式学习的核心就是把数据特征处理后提供给机器进行训练。简单来说,我们就相当于辅导老师,把书中的重点圈出来,所有要学习的计算机都是学生,突出重点能让学生更好更快的掌握知识。

       记者:国内外的数据标注公司的工作模式,和采用的标注方法一样吗?

       蒋超:目前就我们所了解,由于生产力成本的高昂,国外的数据标注公司更倾向于以众包的形势作为主要运营方式,但是这样的方式优势和劣势都是非常明显的。优势是可以整合大量社会闲散劳动力,兼职作业人员每小时时薪低于全职人员;劣势是沟通、学习成本高昂、数据保密困难、数据纠错成本过高。

       记者:国内外提供数据标注公司很多,您认为觉醒向量在业界得到众多企业的认可的特别之处在哪儿?

       蒋超:觉醒向量的特点主要在于人员服务和数据标注平台服务两个方面:

       首先,人员服务体现在生产力拓展体系、具有经验丰富的团队、全天候沟通体系、质量达标体系、数据安全保障体系等方面。

       1. 生产力拓展体系。

       我们有基数庞大的合作公司,在大批数据需要加急处理时,可以迅速整合人力。

       2. 经验丰富的团队。

       我们有超过200位从业经验2年以上的数据标注人员,涉及过包括却不限于(智能安防自动驾驶智慧医疗智慧城市智慧物流智慧农业工业4.0)等AI应用场景。可以根据客户需求,迅速调配有相关经验的人员,减少磨合时间,降低沟通成本。

       3. 全天候沟通体系。

       7*24 小时的客户服务 每当一个项目启动,我们会给客户配备一个专门的项目经理,由这位项目经理全天候为客户服务。

       4. 质量达标体系。

       我们对于标注质量有3重质检,第一重由标注人员标注完成后自行质检;第二重由质检人员对于完成数据进行100%质检;第三重由运营经理对质检完成数据进行抽样审核。

       5. 数据安全保障体系。

       我们会和客户签订数据保密协议,同时公司的保密协议会严格遵守国内外数据保密方面的法律法规;会和所有参与数据标注的人员及管理层签订内部保密协议,降低数据泄露风险。

       其次,数据标注管理平台服务方面则体现在自有开发的Labelhub数据标注管理系统中的进度浏览模块、结果预览、问题反馈模块中。

       1. 进度预览模块。

       客户可以通过我们公司配给的账户实时的观察到整个项目的进度。

       2. 结果预览模块。

       客户可以通过我们公司配给的账户实时的观察到所有项目已标注数据的结果。

       3. 问题反馈模块。

       客户可以通过我们公司配给的账户实时的对已标注数据提出问题和建议。

       记者:很多公司会自己搭建数据标注工具,这与外包标注过程相比有哪些优势和劣势?什么样的项目适合外包标注?

       蒋超:很多公司需要自己制作标注工具主要原因有两点:

       1. 公司对于标注工具的展现形式有自定义的需求,需要定制化开发;

       2. 公司在数据标注方面需要管理的人数过多,需要系统化的管理来提高综合效率。

       与整体外包相比,客户自主开发工具的优劣势也是显而易见的。优势:定制化产品,可以更好的贴合产品需求。劣势:对于我们而言,目前项目主要分为两种,我们针对不同状态下的项目都有完整的解决方案。

       1. 有非常成熟的规则标准

       这一类项目的特点是体量大、场景简单。工程师们已经非常明确应该如何处理数据。客户需求更多是在一定时间内按照规则完成尽可能多的数据用于机器学习。这类项目,我们通常会提供按件计费的合作模式,简单来说像是流水线上的产品,做多做少,客户只为结果付费。

       2. 没有非常成熟的规则标准

       这一类项目特点是主观判断元素居多,场景复杂。工程师们对于场景的判断非常有限,能做的只能是将数据先进行标注,然后不断的发现问题、解决问题,最终达到预期结果。这类项目,我们通常会提供包人的合作模式,客户会承包我们部分标注人员,同时给出一个需求的产量,标注过程中同一批数据即使标注多次,客户也无需重复付费,客户是为工天付费。

       记者:有没有您印象比较深刻的一个项目,可以和我们分享一下吗?

       蒋超:包人的合作模式对我个人而言是比较推荐的。因为这种合作模式的灵活性更高,更能符合初创AI企业多变场景的需求。对我个人而言印象最深的还是我们北美的一家做机器视觉的公司,我们和他们通过包人的合作方式,最快速的帮助他们迭代AI产品,通常情况下,迭代时间通过包人方式被压缩到了2~3天,这使客户的产品在满足他们客户的需求方面更有竞争力。

       记者:在处理不同类型数据的时候,标注方法是不是也不一样?可不可以简单介绍一下觉醒向量(AWK)经常使用的数据标注方法及适用场景。

       蒋超:这个是完全不一样的,目前标注类型主要分为下面3种:计算机视觉图片标注)、语音标注NLP自然语言处理)。

       觉醒向量图片标注领域有着丰富的标注经验,在图片方面我们可以处理的方法有下面几种:

       1. 2D矩形框;

       2. 多边形;

       3. 3D点云;

       4. 语义分割;

       5. 折线;

       6. 关键点;

       7. 图片清洗;

       8. 图片属性标注。

       记者:在分析客户标注需求的时候,有哪些比较重要的因素需要考虑?

       蒋超:因素包括项目风险和沟通风险。

       1. 项目风险。

       客户对于标注精细度的要求和客户提供的规则文档是否足够完善。

       2. 沟通意愿。

       客户是否了解沟通对于项目按计划进行的重要性。

       记者:在数据标注的过程中,通常会遇到什么困难?都是怎么解决的?

       蒋超:遇到的困难会非常多,通常有这样几点:

       1. 客户规则文档里的内容无法完全适用于标注数据

       2. 我们的问题反馈没有得到客户及时的沟通,导致我们整个生产链条受到影响;

       3. 风险评估不够,导致项目难以盈利。我们会在正式开始项目之前把所有风险写进合同中,双方认可后,再开始正式合作。

       记者:您有没有设计过数据标注的产品/程序,或是有特别喜欢的数据标注工具

       蒋超:有的,我认为LabelHub数据标注管理系统是一个不错的选择,因为他是数据标注资深从业人员设计的。

       记者:现在对AI标注产业的需求越来越大,涉及的行业也越来越多。随着标注技术的成熟和工作量的增加,人工标注会不会被机器标注所取代?

       蒋超:短时间肯定不会,因为无监督学习还是实验室里的雏形,而且一项技术从研发到应用需要有一个漫长的过程,现在的弱人工智能是如此,以后的强人工智能也是如此。

       记者:随着互联网相关产业的不断兴起,您觉得AI标注产业未来的大体发展是怎么样的?会有什么重大的改革/变化吗?

       蒋超:我觉得整个AI产品会更倾向于赋能产业,当然国内和国外的产业结构是完全不同的。国内目前人工智能的技术只有第三产业能够落地(基本上就是我们个人的衣、食、住、行方面),但是第二产业和第一产业完全没有被覆盖到,但看覆盖面,目前的人工智能还有很长很长的路要走,所以我个人还是对数据标注行业的前景还是非常乐观的。毕竟,数据是一切机器学习中知识获取的源头。

       重大的突破和变化我认为会有的,因为我们未来会有更优秀的算力,更丰富的模型和更多更精准的数据

       记者:2020年,觉醒向量公司在标注领域有哪些值得关注的大事件或趋势?

       蒋超:我们觉醒向量正式开始拓展北美业务了,我们的愿景是希望所有北美的人工智能企业都能够享受到性价比最高的数据。

       版权归觉醒向量所有,如若转载请标明出处,管理员邮箱:website@awkvector.com

觉醒向量专注于为全球人工智能企业提供优质的数据标注服务;我们通过一流的质量控制体系以及优质的服务态度,持续帮助国内外人工智能企业加快产品迭代速度

© 2018 觉醒向量版权所有

Made with ♥ by Awakening Vector

业务咨询