疫情之下,如何安全、快速的进行人工智能数据标注

A VPN is an essential component of IT security, whether you’re just starting a business or are already up and running. Most business interactions and transactions happen online and VPN

疫情的发生已经快一年了,中国的防疫整体情况在变好、稳定,但是中国新年的临近、海外疫情的输入,双重挑战下,越来越多的出现零散不可预见的状况。远程办公是很多AI公司及部门最安全、也是越来越多的的选择。

现状:

随着AI的应用项目越来越多,同步对数据的需求也越来越大,现在对于数据标注的处理有两种方式:

外包:将数据标注需求整体外包给服务公司或者众包平台。

客户将数据整体交给服务公司,由服务公司进行数据标注,整体移交给客户进行质检验收,再将不合格的数据返回处理。

问题

  1. 数据需要整体发给服务公司,数据安全性的保障依靠签署的保密协议,服务公司和标注员之间签署保密协议,数据流转最少2次,泄露风险增加。
  2. 需要等服务公司将数据做完或者分批次交给客户,再由客户进行验收,如果出现规则不明确问题,只有在验收时才发现,再由服务公司进行修改,再由客户二次验收。数据质量反馈周期增长,客户的时间浪费了,服务公司的时间也浪费,无形中增加的双方的成本,导致一个本来双赢的生意,客户付出的时间成本,模型开发周期增长;服务公司付出了更多的人工,利润受到了影响。

3、疫情的不可预估性,对于服务公司的人员,也会导致交付时间的延长,造成更大的损失。

自行组建标注团队:和员工签署保密协议,招聘标注人员、自己内部人员去管理数据标注团队,以集中办公的形式去管理安全和人员绩效。

问题:

  1. AI公司及部门更多是集中办公的形式,数据标注是一个需要大量人工的工作。为了保障数据安全性,就需要多人同时在一个固定的场地进行办公,在疫情突然发生时,人员场所的密集性,增加了疫情感染风险。
  2. 受各个地方、企业政策的管控,随时可能发生无法上班的的情况,这个情况发生,数据标注工作就属于直接停滞的状态,算法部门没有数据,整个项目有搁置的风险。

如何解决

我公司在和很多客户交流需求后,开发了可以私有化部署、web端数据标注协作工具LabelHub,我们针对以上的问题,形成了一套切实可行的解决方法:

1、将系统部署到客户制定的服务器上,可以是内网、也可以是外部公有云服务器。

2、由客户的数据标注负责人进行数据数据的上传、管理权限设定、数据的导出。

3、标注员通过VPN/域名访问的形式,直接登录web端页面,根据权限的设定,

远程进行数据标注、质检、验收的操作。

优势:

数据安全性:

  1. 软件方面:LabelHub系统通过渗透、安全测试。以私有化部署的形式部署到客户的服务器上,数据始终存储在客户自己的服务器上。
  2. 账号管控:通过客户自己设定操作账号权限,不同角色有不同操作权限,同时,对于数据导出均有记录可以查询。

协作性:

  1. 远程办公:客户的标注团队成员只需登录自己的域名/VPN,即可随时随地的进行作业,满足远程办公处理数据的需求。
  2. 实时质检:特有的分发、交互机制,可以在平台上实时进行质检,及时发现问题、及时打回,减少错误成本,在驳回时图片中的质检球功能,可以更快的定位数据问题,增加协作效率。
  3. 角色分配:所有角色均由超级管理员配置,超级管理员(分配项目人员,上传、导出数据)、项目管理员(项目中人员绩效的管理统计)、标注员(只能进行分配项目的标注作业)、质检员(只能进行分配项目的质检作业)。

在疫情之下,人工智能企业及部门都在面临着挑战,如何在不受影响的情况下,快速的落地AI应用,是大家都在考虑的事情。在越来越多的算法开放、各地数据中心算力的加持下,数据标注由于人工依赖性强,在开发过程中的时间比重越来越大。LabelHub的解决方案,可以为大家提供一个新的思路。

觉醒向量专注于为全球人工智能企业提供优质的数据标注服务;我们通过一流的质量控制体系以及优质的服务态度,持续帮助国内外人工智能企业加快产品迭代速度

© 2018 觉醒向量版权所有

Made with ♥ by Awakening Vector

业务咨询