加强知识产权保护,严格保障算法的使用范围和权利。

发布于:2023-09-22 ⋅ 阅读:(117) ⋅ 点赞:(0)

作者:禅与计算机程序设计艺术

1.简介

随着人工智能领域的发展,越来越多的人开始接受并用到人工智能模型和算法。但是对于这些算法的著作权、商标、版权等相关问题,学者们并没有相应的意识,导致各种各样的侵权事件出现,甚至出现了著名的“算法垄断”事件。 为了解决上述问题,2017年由美国联邦贸易委员会提出了知识产权法案EFFORT(Entrepreneurship innovations & fundamentals),将知识产权保护作为企业创新活动的重要组成部分,要求所有企业在开发机器学习、自动化决策系统、智能计算平台、数据分析算法等方面都要通过知识产权合规检查。同时也规定,如果发现任何侵犯第三方权益的行为,应依法追究其法律责任。 但是如何保障算法的使用范围和权利却一直是一个难点。因为算法的“潜规则”本身就是很复杂的,比如算法输出的结果可能包含某些敏感信息,因此保护算法的使用范围和权利需要区分“知情”和“未知”两种情况。 针对不同类型数据的隐私保护需求,目前国际上已经有一些相关的标准和规范,如GDPR (General Data Protection Regulation) ,PIPA (Privacy Impact Assessment)等,并且越来越多的数据拥有者和企业已经意识到保护自己的数据十分重要,希望能够在算法使用过程中对用户进行真正的细致入微的保护。 那么什么是算法的“知情”和“未知”?是否可以通过算法和政策工具来约束用户的知情权,让算法更加透明? 那么下面我们就通过结合实际案例分享一下最新的知识产权保护体系下的算法“知情”和“未知”之间的界限。

2.背景介绍

案例背景

某公司最近开发了一个AI产品,该产品根据用户提供的信息推荐出适合他们的电影。算法由一系列基于特征的分类器组合而成。每天,算法会接收到数以百万计的用户访问日志,每个日志记录了用户观看某个电影的时间、地理位置、喜好等信息。公司希望能够精准推荐给用户感兴趣的电影,并且对用户的数据隐私做到保护。

案例目标

  • 保护用户数据的隐私:公司希望能够将用户数据用于训练推荐模型,但不希望在此过程中泄露用户的个人信息。所以,需要确保训练推荐模型时,不会泄露用户的隐私数据。例如,推荐模型中使用的模型参数或者模型的训练集数据。另外,模型训练过程中的中间变量等也要进行安全措施进行保护。
  • 对算法使用范围和权利的保护:算法推荐出的电影可以让用户受益,但是一旦这个推荐算法涉及到隐私数据,就会带来安全风险。因此,公司需要对算法的使用范围进行明确定义,并明确保障使用者的知情权和使用权。需要明确定义哪些隐私数据可以被使用,哪些不可被使用;并定义哪些使用范围不允许被使用。另外,还需要对算法的性能和效果进行量化评估,并制订相关的监管策略。

    3.基本概念术语说明

    1. 数据隐私

    数据隐私(Data Privacy)是指保护个人或组织在处理和使用自然人的私人信息时的秘密性、完整性、可用性、可控性和违反处理要求的程度等方面的能力,是人类生活中的一项基本需求。数据隐私是指从事数据收集、存储、管理、传输、使用和保护的一系列活动,包括以电子方式收集、存储、管理和使用个人信息,包括公民身份信息、社会保障信息、健康信息等。它是个人信息保护和社会生活息息相关的内容,也是个人隐私权和公共卫生权的基础。

2. 知识产权

知识产权(Intellectual Property Rights)是一种合法的产权,是指他人的创造力和智慧的产物,属于法人(企业、组织、个体)或者非法人(作品、音乐、照片、软件等)之处所享有的权益。可以分为专有权、商标权、版权、使用权、隐私权五种。

  • 专有权:指某一人独占全部的知识产权,创建者具有无优先且排他的使用权。通常情况下,复制、修改、再授权都是专有权不可得的。
  • 商标权:是指一切商标名称、商标标记、商标印章、商标徽章、标识等,因权利人对这些产业形象的认同、信仰或拥有而获得的权利,包括设计商标、注册商标、代理商标、集体商标、专利权、域名权、包装权、网站宣传权、宣传资料使用权等。
  • 版权:是指作者通过创作对作品进行复制、改编、出售、表演等非营利目的所拥有的权利,包括复制权、汇编权、改编权、翻译权、出版权、摄制权、播映权、制作权、改唱权、美术作品之利用权、摹写权、计算机程序著作权、建筑工程设计权等。
  • 使用权:是指创作者对他人的作品享有永久使用权。可以分为公开使用权、隐私使用权、著作权、商业使用权、专利权、反动传销权等。
  • 隐私权:是指个人对自己的个人信息保密的权利。隐私权包含个人信息的保护义务、个人信息的获取、使用和共享行为,以及对未经批准收集个人信息的处理等。

4. 模型训练

模型训练(Model training)是指在有限的训练数据集上拟合模型参数、确定模型结构、选择优化算法以期达到预先设定的一个或多个预测目标的过程。模型训练的目的有两个,一是找到一个较好的模型来描述数据特征;二是通过模型进行预测或推断,使模型适用于新的输入数据。模型训练通常可以分为监督式学习和无监督式学习。

  • 监督式学习:监督式学习是一种机器学习方法,模型训练的输入输出数据是有限的,其中包括训练集、验证集、测试集三个集合。在监督式学习中,模型会通过学习从训练集中学到的信息来预测或推断未知的测试集中的样本。监督式学习的目的是寻找一个函数,能够对输入数据进行正确的预测。常用的算法有回归算法、分类算法、聚类算法等。
  • 无监督式学习:无监督式学习是机器学习方法,模型训练的输入数据没有标签,即训练集的输出目标不是已知的,但测试集的输入数据也没有标签。在无监督式学习中,模型通过学习数据内隐藏的模式来进行预测或推断。无监督式学习的目的是发现数据中隐藏的结构和关系。常用的算法有聚类算法、关联分析算法、最大熵模型等。

5. 加密技术

加密技术(Encryption Technology)是指用来隐藏信息的技术,其基本原理是对信息采用某种编码算法,对编码后的信息进行加密,使他人无法读懂。主要应用在消息传输、银行业务、支付系统、身份鉴别、医疗诊断等领域。

4.核心算法原理和具体操作步骤以及数学公式讲解

1. 推荐算法原理

推荐算法是指基于用户行为数据的分析及运用算法模拟用户对商品的喜好并向其推荐相应的商品的方法。推荐算法产生的推荐结果是基于某种评价标准对历史数据进行综合分析后生成的,基于用户兴趣偏好、历史行为、上下文信息等,推荐算法决定了最终的推荐结果。目前,一般采用协同过滤算法和内容推荐算法。

1.1 协同过滤算法

协同过滤算法是一种推荐算法,它通过分析用户群的相似性和历史行为,预测用户对目标物品的兴趣,然后再推荐给用户新的物品。协同过滤算法可以基于用户的历史记录,将自己看过的、喜欢的物品与目标物品相似性比较,并根据相似度对候选物品进行排序,选择目标物品与用户最相似的物品。用户行为数据一般由历史交互数据、用户口味偏好、用户浏览习惯等构成。

算法的实现流程如下:

  1. 用户注册信息收集
  2. 将用户行为数据导入推荐引擎
  3. 在推荐引擎中建立用户画像
  4. 根据用户画像进行物品推荐
  5. 返回推荐结果

协同过滤算法的优缺点如下:

  • 优点
    • 简单、快速
    • 不需要太多的训练数据
    • 可融合用户数据和其他信息
  • 缺点
    • 只考虑用户行为本身,不能捕捉用户的长尾状况
    • 用户的隐私和社交网络的影响较大,容易受到其他人的影响

1.2 内容推荐算法

内容推荐算法是一种推荐算法,它以用户的兴趣为基础,分析用户购买、阅读、收藏等行为,推荐用户可能感兴趣的相关内容。内容推荐算法可以根据用户浏览、搜索、点赞等行为,提取用户的长尾信息,并推荐其感兴趣的主题或内容。用户行为数据一般由用户浏览、搜索、点赞等记录构成。

算法的实现流程如下:

  1. 用户注册信息收集
  2. 将用户行为数据导入推荐引擎
  3. 从历史数据中分析用户兴趣偏好
  4. 生成推荐内容
  5. 返回推荐结果

内容推荐算法的优缺点如下:

  • 优点
    • 提高用户体验
    • 可以识别用户的长尾信息
    • 有助于扩大用户粘性
  • 缺点
    • 需要大量的历史数据
    • 用户浏览习惯、心理习惯、喜好、行为倾向等信息可能存在歧义
    • 算法结果可能会受环境影响

2. 算法使用范围和权利保护方案

算法使用范围和权利保护方案由三部分组成:定义、限制、保护。

2.1 定义

算法使用范围定义清楚之后,才能确保算法的符合性。例如,“电影推荐算法仅供内部使用”,或者“仅用于推荐最近热门的电影”。这样,用户才有足够的理解和确认使用算法的条件。在定义之后,就可以将其写入相关文档,并说明算法在保护用户数据方面的功能。

2.2 限制

算法使用范围的限制,可以避免公司开发不合理的算法,保障用户的合法权益。对于敏感数据,可以设置一定级别的保护,要求算法开发者对数据使用范围进行明确的定义,并且明确声明哪些隐私数据可以被使用,哪些不可被使用;哪些使用范围不允许被使用。

2.3 保护

当数据侵权发生时,可以通过相关手段进行保护,比如合理的赔偿机制、用户保护意识培训、信用评级、数据主体备案等。保护用户数据安全的前提是建立合理的数据制度和工作机制。


网站公告

今日签到

点亮在社区的每一天
去签到