专业文章 | 数据的合法性、可信性、可识别性研究

文章作者:

王梓淳  

河南天基律师事务所执业律师


     数据是大数据时代的底层建材,目前数据的合法性、可信性、可识别性在国家标准、行业标准上尚属空白。本文拟从法规、法理与产业结合的角度讨论数据合法性、可信性、可识别性,抛砖引玉,为有志从事以产业为基础的AI创新人员提供一条合规路径。

一、法规建设现状

     国家出台了《民法典》《网络安全法》《数据安全法》《个人信息保护法》等,规范了个人隐私权的定义、数据的定义、数据的存储、豁免情形等。

定义层面核心的条款摘录如下:

     《民法典》

     第一千零三十二条 自然人享有隐私权。任何组织或者个人不得以刺探、侵扰、泄露、公开等方式侵害他人的隐私权。

     隐私是自然人的私人生活安宁和不愿为他人知晓的私密空间、私密活动、私密信息。

     第一千零三十四条 自然人的个人信息受法律保护。

     个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息,包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等

     个人信息中的私密信息,适用有关隐私权的规定;没有规定的,适用有关个人信息保护的规定。

    《数据安全法》

     第三条 本法所称数据,是指任何以电子或者其他方式对信息的记录。

     数据处理,包括数据的收集、存储、使用、加工、传输、提供、公开等

     数据安全,是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。

    《网络安全法》

     第七十六条 本法下列用语的含义:

     (一)网络,是指由计算机或者其他信息终端及相关设备组成的按照一定的规则和程序对信息进行收集、存储、传输、交换、处理的系统。

     (二)网络安全,是指通过采取必要措施,防范对网络的攻击、侵入、干扰、破坏和非法使用以及意外事故,使网络处于稳定可靠运行的状态,以及保障网络数据的完整性、保密性、可用性的能力。

     (三)网络运营者,是指网络的所有者、管理者和网络服务提供者。

     (四)网络数据,是指通过网络收集、存储、传输、处理和产生的各种电子数据。

     (五)个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。

    《个人信息保护法》

     第四条 个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息

     个人信息的处理包括个人信息的收集、存储、使用、加工、传输、提供、公开、删除等。


二、简述数据的“物权”属性及“所有权人”——数据可以处理、转让的法理基础

     1、数据的物权属性

     根据体系解释,数据与物权、债权等不是同位阶概念。《民法典》在总则编第五章民事权利规定了民事主体依法享有物权(第一百一十五条)、债权(第一百一十八条)、知识产权(第一百二十三条)、股权和其他投资性权利(第一百二十五条)、其他民事权利和利益(第一百二十六条),其中第一百二十六条的“其他民事权利和利益”为兜底性条款,一般而言“民事主体享有的民事权利和利益”的兜底性条款出现意味着这一事项已经表述完毕。即第一百二十七条规定的“法律对数据、网络虚拟财产的保护有规定的,依照其规定。”与前文数据、网络财产不是物权、债权、知识产权同位阶的概念。且立法表述严谨,未表述为“民事主体依法享有数据、网络虚拟财产权”也可见法律并未将数据权益单独拎出作为与物权、债权等同等位阶的权益。

     根据文义解释和体系解释,《民法典》第一百二十七条与第一百二十八条均是保护的特殊规定。第一百二十七条是从保护民事权利和利益的角度上有保护的特殊规定,第一百二十八条是从保护民事主体的角度上有保护的特殊规定。因此《民法典》第一百二十七条“法律对数据、网络虚拟财产的保护有规定的,依照其规定。”“数据”仍归于已有的民事权利和利益体系,并不是独立存在的概念。

    《数据安全法》规定的数据可处理性,《企业数据资源相关会计处理暂行规定》规定的数据可作为资产入表,《数据安全法》第三十三条以及大数据交易中心实操的数据可交易性等案例与所有权中的占有、使用、收益、处分一一匹配,因此认为数据具有物权属性并无不当。

     关系示意图如下:

image.png

     2、数据的所有权人

     对于动产物权的原始取得,《民法典》很巧妙的用了“动产物权设立和转让前”的概念,第二百二十六条规定“动产物权设立和转让前,权利人已经占有该动产的,物权自民事法律行为生效时发生效力”。篇幅原因,此处不展开讨论原始取得中“先占取得”的广义、狭义之分,笔者认为传统法理中因生产、劳动而原始取得动产物权的法律依据就是《民法典》第二百二十六条。

    《数据安全法》定义数据是指以电子或其他方式对信息的记录。基于此可知,“信息”只是记录的对象,记录下来的信息才是数据,未被记录下来的信息不是数据。因此“最先占有数据”的人是记录人,而不是产生信息的人。记录人因“记录”行为而产生并占有了数据,取得了数据的所有权。

     需要强调的是虽然记录人取得了数据的所有权,但是依据《民法典》第一百二十七条规定“法律对数据、网络虚拟财产的保护有规定的,依照其规定。”以及《数据安全法》《网络安全法》《个人信息保护法》等法规,记录人的所有权是受限制的,具有特殊性


三、合法数据源

     1、授权——数据生成的合法性

     数据产生于记录,探讨数据的合法性就是在探讨记录行为的合法性。记录企业行为可能侵犯到商业秘密,记录个人行为可能侵犯到个人的隐私权,因此记录人要合法获取数据的核心是取得授权,《民法典》第一千零三十五条、《数据安全法》第三十二条、《网络安全法》第二十二条、《个人信息保护法》也在不断强调这一点,目前法规的侧重点是个人端的隐私权保护。

     需要强调的是记录人的行为“是记录信息,而非收集数据”。目前《数据安全法》将“收集”归为“数据的处理”,“记录”归为“数据的生成”,因此,获取授权时用“记录”来表述更为恰当。

     2、授权或者去个人化——数据跨主体的合法性

     法规特别规定了当记录的信息涉及个人信息时的几个豁免条款,分别为:

     (1)《民法典》

     第一千零三十八条 信息处理者不得泄露或者篡改其收集、存储的个人信息;未经自然人同意,不得向他人非法提供其个人信息,但是经过加工无法识别特定个人且不能复原的除外

     (2)《网络安全法》

     第四十二条 网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外

     (3)《个人信息保护法》

     第二十五条 个人信息处理者不得公开其处理的个人信息,取得个人单独同意的除外

     第二十六条 在公共场所安装图像采集、个人身份识别设备,应当为维护公共安全所必需,遵守国家有关规定,并设置显著的提示标识。所收集的个人图像、身份识别信息只能用于维护公共安全的目的,不得用于其他目的;取得个人单独同意的除外

     根据上述规定,当数据中记录的信息是个人信息时,未经授权且未去个人化处理前数据不可交易,只能由单一记录主体进行数据处理,收集、存储、使用、加工、传输、提供、公开等,跨主体使用就涉嫌违法。对于“经过处理无法识别特定个人且不能复原”,笔者解读为将数据进行成果或产品转化,数据是成果的原材料,否则乱码加密且无法复原的数据因不具有可识别性而不具备可用性,没有交易价值。对于转化条件不成熟的数据,可能只有取得授权或者公司收购等路径了。

     对于个人授权,建议合同中单设“共享信息”“转让信息”等条款予以明确,例如:a.与关联方共享:甲方可能会将乙方的个人信息与甲方的关联方共享。但甲方只会共享必要的个人信息,如果甲方共享乙方的个人敏感信息或者关联方改变个人信息的使用目的,将再次征求乙方的授权同意;b.只有共享乙方的信息,才能实现甲方的产品与/或服务的核心功能。


四、可信数据源

     曾鸣教授在《智能商业》中分享的淘宝从社群展示到搜索模式的转变案例中,训练淘宝人工智能的数据来源于淘宝平台自身,数据处理者与数据记录者是同一人,数据的标准、可信、可读等问题天然有解决的基础。但是目前大数据、人工智能需要的数据是跨主体的,如何打破数据孤岛并保证数据的可信性是实务中最需要也最难解决的问题。目前常见的做法是以主体的方式增信,基于主体信用度高、主动造假的影响大成本高、合规严格被动出错的概率低等,其风控手段还是传统的人际信任。

     大数据更想实现的是从人际信任向数字信任的变迁,从主体审核向业务场景审核的变迁。业务场景会有不同的维度进行记录,订单维度、资金维度、税务维度、物流维度,多个维度互联互证,耦合成链。任何一个维度的信息与数据记录的场景信息不一致,就可核查并证伪,如此则大大提高了造假的难度,可证实也可证伪,以此对数据增信。

     五、可识别数据源

     随着人工智能和机器学习的普及,数据标注需求大幅增加,市场规模持续扩大,数据标注是机器学习的关键步骤,高质量的标注数据能显著提升模型性能。数据标注存在的底层逻辑是原始数据的可识别性低,数据的标准不具有一致性,并且还存在敏感数据、脏数据等需要特殊处理的情形,该制定什么样的标准,如何实现该标准,如何将业务或场景线上化,如何将用户反馈线上化,如何让业务通过用户反馈越来越具备智能属性,是记录人在记录数据前就有必要考量的。目前可识别数据源的标准在法律、法规层面仍是空白,以国家层面或行业层面出台标准后可能才是数字产业化大放异彩的时候。 

     国家在政府工作报告中多次提交数字经济,并专门出台了《“十四五”数字经济发展规划》,强调“创新引领、融合发展,应用牵引、数据赋能,公平竞争、安全有序,系统推进、协同高效”“以数据为关键要素,以数字技术与实体经济深度融合为主线,加强数字基础设施建设,完善数字经济治理体系,协同推进数字产业化和产业数字化,赋能传统产业转型升级,培育新产业新业态新模式,不断做强做优做大我国数字经济,为构建数字中国提供有力支撑”。数字引领,广阔天地,大有作为。


律师简介


王梓淳

河南天基律师事务所执业律师

图片

学术成果:《产业互联网视角下的新基建——标准化数字农批篇》《实际施工人类型化研究》《预告登记失效制度研究》《停贷?退房?业主面对烂尾楼的三种处理方法及后果》《深圳城市更新研究》《“非因买受人自身原因未办理过户登记”的类型化研究》《股东出资瑕疵与股东资格》《惩罚性违约金与补偿性违约金适用解析》《软件技术开发合同应包含的sop——从最高法案例说起》。



网站首页 业务领域 联系电话