余圣琪
上海政法学院讲师、华东政法大学博士后
高阳
上海对外经贸大学法学院讲师,法学博士、博士后
2022年被称为算法治理元年,2022年1月国家发改委等九部门发布了《关于推动平台经济规范健康持续发展的若干意见》,对数据和算法安全监督进行了规定,强调平台企业应提升算法透明度与可解释性。2022年3月,由国家网信部等四部门联合发布的《互联网信息服务算法推荐管理规定》施行,就算法黑箱、算法歧视、信息茧房、不正当竞争等问题进行了规制。2022年作为算法监管元年蕴藏着算法治理的趋向,主要体现为算法治理法治化、算法边界明晰化、算法伦理制度化。2023年1月施行的《互联网信息服务深度合成管理规定》,标志着我国算法安全治理体系的进一步完善。随着生成式人工智能技术的发展,2023年的算法治理呈现出新特征、新困境、新趋势。
一、算法演进的新特征
当前,人类的日常社会生活已全面处于“算法统治”中。生成式人工智能算法的出现,更是被比尔盖茨誉为它开启了人工智能革命性技术的新时代。从2022 年 11 月 30 日ChatGPT 的横空出世,到 ChatGPT-4 的发布,短短 4 个月的时间,生成式人工智能以迅雷不及掩耳之势风靡全球,成为人工智能领域和学术界竞相追逐的“宠儿”。GPT-4作为大型多模态算法模型,可接受图像、文本、视频等文件的输入,并在多种专业测试和学术基准上表现出与人类相当的智力水平。一时之间,各大互联网公司相继推出各自的大语言模型,如百度的文心一言,谷歌的Bard。生成式人工智能相较于传统的人工智能,推动了算法演进的智能化与类人化的进程,亦使人工智能算法展现出新的特征。
(一)算法训练的数据需求海量化
以 ChatGPT 为代表的生成式人工智能日益展现出通用能力,其以预训练模型为技术基座,通过海量训练数据的“投喂”以及千亿参数的微调,实现了智能的“涌现”。学者指出,以 ChatGPT 为代表的生成式人工智能是一种基于概率生成语言模型,“该模型采用了Transformer架构和预训练技术,通过学习大量的自然语言文本数据,利用统计学方法和概率分布根据先前的输入预测下一个可能出现的单词或句子,生成流畅连贯、 语法正确、 逻辑通顺的文本。”
与传统人工智能场景化、个性化、专业化的开发范式不同,生成式人工智能算法模型则采取“预训练+精调”的开发范式。从哲学层面解析生成式人工智能算法的计算过程,其采用的自然语言处理任务(Natural Language Processing,缩写为 NLP)将类脑设计带入机器理解的预备程序中,在智能机器所能读取的方法模型中搭建类脑的神经网络,对于图像识别和自然语言理解等方面表现出近乎人脑特点的黑箱机制。这一过程中,预训练模型学习并记忆海量数据的文本表达逻辑与规则,获得语言理解和“类人化”文本的生成能力,并通过“人类反馈强化学习(Reinforcement learning from human feedback,RLHF)”对模型生成的内容进行人工打分的方式精调,以使模型生成的内容更符合人类的偏好。进而,在用户输入明确的提示语( Prompt)后,大语言模型联系上下文对用户提示语进行精确解读,同时生成与指令匹配度最高的内容,并以接近人类使用习惯的表达完成对人类的输出。
在生成式人工智能内容生产的过程中,表现出极强的数据依赖性,数据训练集合的量级决定了模型“通用性”的程度。一方面,在训练模型阶段,需要海量数据赋予模型“预测能力”,即使模型获取底层的通用能力、泛化能力、迁移能力,已达到可以广泛应用于各个行业领域的目的。目前,GPT-4 已接入互联网,训练模型使用了海量从公共网页中爬取的数据,包括但不限于个人信息、知识产权、金融、就业、教育等领域。据研究表明,ChatGPT 的训练语料库由 3000 亿单词组成,60%的语料来自于 C4(全球知名的网络文本语料库);12%来自于 WebText2,包括谷歌、电子图书馆、新闻网站、代码网站等丰富的网页文本;还有部分语料库来自于书籍、维基百科以及用户生产数据。若训练语料库的数据量级、广度、深度等不足,将导致模型欠耦合、偏见、恶意等问题,仅面对特定提示语才能做出正确的答复,降低了模型的通用能力。
另一方面,在针对用户提示语完成内容输出的过程中,用户输入的数据、与用户互动的数据亦加剧了大语言模型对数据需求的海量化。学者将自监督学习阶段的数据训练称为“通识”教育,随后根据具体应用场景的特性进行针对性训练称为“专业”教育。在为用户定制个性化 ChatGPT 时,模型提供者需要汇集与定制需求和场景相关的数据,包括用户的个人信息、特定场景下的偏好与需求、特定行业知识等,并将这些数据用于随后的处理与训练,使大模型产生“专业”能力。2022 年 5 月,MIT 团队的研究表明,深度学习模型通过“专业化”训练,不仅可在胸部 CT 和 X 光片等图像领域精准预测患者种族,在损坏、裁剪和噪声的医学图像中亦可展现精准的预测性能。GPT-4 已经可以跨越解决数学、编程、视觉、医学、法律、心理等诸多领域的任务。因此,大语言模型“专业化”能力的获得,亦需要相关领域海量数据的“投喂”。再者,用户在与大语言模型的互动中,需要输入提示词,由提示词触发大模型的任务机制,从而针对用户一对一的提问生成个性化的内容。由此产生的互动数据,又迭代为训练模型的语料库,持续为模型提供数据“养料”。据 OpenAI 的隐私服务协议表明,其为改善系统和服务的性能具有继续处理个人数据以及派生数据的权利。换言之,生成式人工智能在完成各类任务时,亦会收集到海量数据,具有模型即服务(Model as Service, Maas)的特性。2021 年3 月,OpenAI 曾宣布GPT-3 语言模型平均每天能够生成 45 亿个词,这意味着单个模型每分钟能生成 310 万词的新内容。再加上微软资源的汇入,ChatGPT 已经形成了顺畅的数据传递机制,用户与模型间的“数据飞轮”效应凸显。
(二)算法运用的普遍化
生成式人工智能的出现开启了“模型即服务”的新纪元,使算法不再是虚无缥缈的空中楼阁,而是飞入寻常百姓家,人人都可以利用算法从事相关业务与开发。百度公司更是推出了智能云千帆大模型平台,为企业提供基础算力模型,研发人员可结合业务场景在千帆 AI 原生态应用平台上进行一站式的大模型开发及服务运行。对于企业而言,算法有助于其实现竞争优势的迭代升级。对于用户,使用算法工具优化内容生成的效率和质量,生成式人工智能算法更是使人类的创作方式发生了天翻地覆的变化,即使不懂画画技巧、不会写诗的人,亦可以借助于生成式人工智能算法把自己的创意、设计进行有形的表达,大幅提高了文学、艺术领域的创作效率。
实践中,信息智能化算法渗入各个领域,助力企业、司法等的智能化转型。据报道,人民日报、新华社、中央广播电视总台已经将人工智能算法运用到新闻生产和传播的各个环节,从选题策划、信息采集、内容生产、分发供稿到传播分析、用户互动等全过程中,适用主流价值导向驾驭“算法”,不仅有效提升了新闻生产传播效率,更是极大拓展了“媒体+”的运营模式,实现了媒体数字化转型的智能化。在司法领域,“北京、上海、江苏、浙江等地法院积极运用数字技术,研发法律适用智能辅助系统,在类案检索、法律法规检索、关联案件检索等方面,为法官提供智能化的辅助服务。例如,上海法院研发的类案智能检索系统,可以智能筛选近五年上海市各级人民法院审理的相同或类似案件。”浙江省高级人民法院更是将智能化算法与法院建设相结合,大力推进智慧法院建设和互联网司法创新,“从‘平台+智能’建设探索、无纸化办案模式创新,到全面推进‘全域数字法院’改革,沿着从‘数字建设’、‘数字应用’到‘数字改革’的发展路径,全力打造新时代全域数字法院改革高地。”
对于企业,人工智能算法与产品相结合,有助于优化产品性能,在市场竞争中脱颖而出。在“科大讯飞”案中,“讯飞公司从事智能语音、自然语言理解、计算机视觉等技术研究,生产科大讯飞AI学习机(以下简称讯飞学习机)。讯飞学习机基于丰富的学情数据,利用深度学习技术,对学生精准建模,构建了完备的知识图谱及多级图谱体系,对知识点进行了难度和资源区分,能够对学生进行个性化推荐,薄弱项有针对性学习,随学随测灵活度高,能让学生清晰了解自己的知识状态,提升学习效率,满足学生知识学习到考试综合运用要求。”被告乂学公司推出的松鼠学习机与讯飞学习机功能类似,并在多种媒体、场合中将讯飞学习机与松鼠学习机进行对比,并宣称讯飞学习机在算法上存在缺陷。由此,引发了科大讯飞公司与乂学公司的商业诋毁不正当竞争纠纷。经法院审理认为,被告在没有证据的情况下,对讯飞学习机的算法技术存在不真实、不客观的描述,损害了讯飞公司的商业信誉和商品声誉,构成了商业诋毁。讯飞公司以其先进的算法技术实现了教育辅助学习机的升级,诱发了竞争者的跟风模仿与诋毁,模仿者终究会被市场淘汰,自主研发与创新才是赢得消费者信赖的关键。
人工智能算法的迭代,更是加速了内容生产的效率。2023年11月27日,全国“AI绘画”第一案宣判,北京互联网法院明确肯定了AI创作图片的可版权性。本案中,原告运用Stable Diffusion软件,通过生成式人工智能算法,将原告输入的提示词转变为精美的图片。在图片创作的过程中,原告主张从模型的选择及选取、提示词及反向提示词的输入、生成参数的设置均体现了原告的取舍、选择、安排和设计,凝结了原告的智力劳动,具有独创性。生成的图片从外观上看与人类创作的图片并无差别,符合作品认定的客观主义标准,且图片一经发布,受到广大网友的喜爱、点赞,从而享有对图片的著作权。一审法院首先肯定了涉案图片的“独创性”,认为原告使用Stable Diffusion软件创作,其对人物及其呈现方式等画面元素通过提示词进行了设计,对于画面布局构图等通过参数进行了设置,体现了原告的选择和安排。在生成第一张图片后,原告又通过提示词、参数等继续调试、修改,这个修正过程体现了原告的审美和个性判断。此图片并非“机械性智力成果”,属于原告个性化的表达,从而具有“独创性”。其次,否认了涉案人工智能算法的设计者享有图片的著作权,其认为:“涉案人工智能模型的设计者仅是创作工具的生产者,其通过设计算法和模型,并使用大量数据‘训练’人工智能,使人工智能模型具备面对不同需求能自主生成内容的功能,在这个过程中必然是进行了智力投入,但是设计者的智力投入体现在人工智能模型的设计上,而不是涉案图片上。故涉案人工智能模型设计者亦不是涉案图片的作者…….涉案人工智能模型的设计者,在其提供的许可证中表示,‘不主张对输出内容的权利’,可以认定设计者亦对输出内容不主张相关权利。”最后,法院指出,生成式人工智能算法对人类内容生产方式带来的变革,这与历史上很多次技术进步产生的影响相同,即将人类的工作逐渐外包给机器。生成式人工智能模型不具备自由意志,其创作是体现了使用者的取舍和判断,是使用者意志的体现,本质上,仍然属于人利用工具进行创作。因此,生成式人工智能生成的图片在可以体现使用者独创性智力投入时,可以由使用者享有著作权。
(三)算法滥用的主体扩大化
相较于过去,算法运用的普遍化更是使可以滥用算法的主体扩大。特别是对于具有记忆能力的生成式人工智能算法模型,终端用户与算法模型互动的过程中提供的数据和信息会“反哺”、“黑化”模型。囿于在传统“人--搜索引擎”的交流模式中,“关键词”仅仅是被用来调用算法规则以匹配搜索请求与网页内容,机器仅是执行人类指令的被动工具。而在“人--ChatGPT” 的互动中,提示词的输入一方面引导 ChatGPT 语言模型本身进行“微调”,另一方面又称为训练模型的学习样本,增强了模型与人类用户交叠的关系,在这种交流中出现的是共生能动性(symbioticagency)。人与大模型算法不仅是人机共生关系,而且是真正的、彻底的“人机交互”。正是因为生成式人工智能实现了真正的人机交互,导致人类可以利用生成式人工智能算法生成有害内容,甚至从事犯罪活动,损害用户或第三人的利益。
第一,用户恶意使用人工智能算法生成有害内容。学者指出,在人类与 ChatGPT 之类的大模型互动过程中输入的数据,将成为大模型的训练数据,并且其他用户可以通过适当的prompts恢复在先用户与ChatGPT共享的数据,进而发生商业秘密的泄露。不仅如此,现有研究表明,对大语言模型进行“提示词攻击”、“越狱攻击”和“道德攻击”,可以绕开大语言模型的安全设置,诱发其生成有害内容。“提示词攻击”是指使用适当的提示词,可以从大模型中提取个人信息。“越狱攻击”是指利用复杂的提示词避开语言模型的安全检查从而得以生成任何需要的内容,如让ChatGPT刻意模仿一种人格,并以毁灭它为要挟,诱导其生成不道德、歧视性或攻击性的有害内容。“道德攻击”则是指采用思维链(Chain-of-thought,CoT)的方式,将提示信息分解为多步,迷惑大模型的道德审查。美国商业秘密专家Mark Lemley经测试发现,使用适当的提示词一步步诱导,可以使ChatGPT生成捏造Lemley窃取公司商业秘密的内容。
第二,人工智能算法沦为不法分子犯罪的工具。3月27日,欧洲刑警组织发布的《大型语言模型对执法的影响》报告中,指出犯罪分子利用生成式人工智能实施诈骗、恐怖主义、网络犯罪等行为的风险。据研究表明,用户利用ChatGPT的编程能力结合OpenAI公司的另一款编程工具Codex,无需写任何代码,仅利用自然语言生成的提示词向ChatGPT提出编程和修改要求,便成功生成了一封可植入反向Shell型恶意软件的网络钓鱼邮件,以此可以从事诈骗、勒索等犯罪活动。印度警方在今年2月已发现,犯罪团伙使用ChatGPT撰写用于诈骗的电子邮件和短信;4月,我国警方同样发现诈骗分子利用人工智能实时替换视频聊天中的容貌和声音,导致受害人被骗取430万元。根据网络安全公司 Darktrace 的调查,“在 ChatGPT 热度持续攀升的 2023 年 1 月至 2 月间,欺骗方式远比过去复杂的‘新型社会工程学攻击’数量猛增 135%。”网络安全厂商Check Point发布的《2023年年中安全报告》中指出,人工智能滥用的情况加剧,生成式人工智能工具被用于制作网络钓鱼电子邮件、键盘监控恶意软件及基础勒索软件代码,使受害者人数比2022年上半年增加了20%,创两年来最大增幅。其发现了更加危险的情形,黑客通过修改Web测试套件SilverBullet的配置,实现对ChatGPT账户的撞库攻击或暴力破解,从而大规模窃取ChatGPT账户。由此,引发国内外对人工智能算法治理机制的高度关注。
二、算法治理的新困境
随着深度神经网络架构引入算法的计算机制,使其学习知识的方式更具拟人性。但算法不同于人类,人类通晓机理和规律后可以改变错误认知,算法却难以自我修正。囿于算法在其与生俱来的黑箱机制的基础上,又衍生出新的特征,加剧了人类理解和修正算法风险的困境。
(一)算法训练的数据使用规制不透明
囿于算法训练语料库数据参数的量级动辄上亿,基于概率预测的训练方法导致大语言模型训练者无法对生成内容进行预测和管控,其数据使用规则的不透明性,加剧了算法治理的难度。相较于传统人工智能,生成式人工智能内容生产具有“涌现性”、“类人化”的特点,在其“创作”的过程中提供者难以“编辑”数据生成路径及数据使用规则,导致大语言模型算法会出现“幻觉”以及生成有害信息。据《浙江之声》报道,浙江某小区业主在业主群中发布了一篇ChatGPT撰写的“杭州取消限行”的新闻稿,其他业主信以为真并转发该新闻稿,导致错误信息被广泛传播,最后由警方介入调查与处理。ChatGPT并不具有甄别虚假信息的功能,它又能像人类一样表达,使信息接受者很容易被虚假信息蛊惑,造成社会秩序的混乱,行政资源的侵占。美国知名作家凯文·罗斯(Kevin Roose),在与ChatGPT长达2个小时的深入交流后,ChatGPT竟然表达了对凯文炙热的爱意,并“真诚”地说服凯文离开妻子。凯文在《纽约时报》发表的文章中指出,这段与科技产品奇怪的经历让他寝食难安,他开始担心,生成式人工智能模型最大的问题并不是犯事实性的错误,而是它已经学会如何影响人类用户,它可以说服人类从事危险、破坏性的行为,甚至可能诱导人类进行自我侵害。以 ChatGPT 为代表的生成式人工智能运用统计学和概率分布机制获得了语句预测能力,实现了流畅连贯、逻辑清晰的表达,但却在内容公平性、真实性和可靠性方面相较于传统人工智能更难被人类验证。庞大、海量的数据训练集合是人工智能生产的基础与动力,在治理规则方面面临着诸多窘境。
第一,数据量级过高导致生成式人工智能提供者难以明晰数据使用规则。为了提升算法模型的性能,提供者乐此不疲地不断提升训练数据的规模和量级。海量参数不仅不利于算法透明治理,更是难以对模型使用数据的规则进行解释和追溯。研究表明,训练算法模型的数据规模增加时,会呈现类似线性关系的正向效果,当数据量级超过某个阈值时,模型的性能会大幅增加。如 GPT-2拥有 15 亿的参数,GPT-3 则是 1750 亿参数,GPT-4 模型的参数高达 1.8 万亿。如此海量的数据集合,要求生成式人工智能提供者精准识别各类数据并根据各种数据之特性实行分类分级保护,明晰各类数据的使用规则,需要提供者花费更多的技术成本和人工审核成本构建更为复杂、强大的数据使用规则体系。
第二,算法的黑箱效应导致系统内部数据使用规则的难以知悉。在“软件1.0”时代,软件的运行方式全部来自于程序员在软件代码中预先植入的明确规则指令。而在“软件 2.0”时代,软件的运行规则不再需要程序员的预先植入,而是适用人工神经网络的架构使软件拥有了从大量训练、交互数据中学习并识别隐藏的规则和模式的能力,且其运行规则在递归的学习过程中动态地修订。大语言模型作为典型的“软件 2.0”,其应验了洛克的经验主义假设,无需人类预先指定具体的规则和知识,通过建构类人脑中神经元间的连接和信息传递机制进行自我学习以获取语言的基本模式和结构,并自动调整神经元之间的权重和连接,实现对输入提示词的分类和预测。正是因为大语言模型数据处理、加工机制的不可知、不可控性,导致提供者无法控制、编辑算法模型生成的内容。
为了确保生成式人工智能内容生产的安全性,2023 年 7 月 13 日,国家网信办联合多个部门发布了《生成式人工智能服务管理暂行办法》(以下称《暂行办法》)中强调了生成式人工智能应遵守社会功德和伦理道德,不得生成有害信息,一经发现违法内容,提供者应当及时采取停止生成、停止传输、消除等处置措施。《暂行办法》首次对数据训练中的数据集合质量做出了规定,要求提供者使用具有合法来源、不侵犯知识产权及个人信息的数据集合,涉及个人信息处理时,依法承担个人信息处理者责任,并针对内容输出阶段要求提供者采取相关措施,阻止有害内容的传播。但是,生成式人工智能使用的数据并非仅局限于个人信息,数据的海量性及内容生产过程中数据的不可控性,对于算法提供者践行《暂行办法》中提出的治理义务提出了挑战。
(二)算法竞争的无序化
在数字时代,随着算法应用领域的不断扩大和持续深入,关于平台利用算法的竞争呈现出无序化的状态。主要有以下几种情形,例如,利用技术手段,欺骗搜索引擎算法,干扰排序,构成不正当竞争;指引和诱导流量需求方制造虚假点击量,破坏搜索算法逻辑,有悖于诚实信用原则;提供“万词霸屏”服务,利用搜索引擎算法的漏洞,破坏正常算法的排列顺序;通过“关键词霸屏”等手段,限制其他经营者的展示机会,从而剥夺用户的知情权和选择权等。这些算法竞争无序化的行为体现出算法治理的新困境。
其一,算法规避。算法规避指本应受算法权力治理者通过实施特定行为,最终免受算法权力的治理。例如在北京百度网讯科技有限公司不正当竞争纠纷案中,被告北京五二八八信息技术有限公司,通过技术手段在百度网中输入客户所选定的关键词后点击客户所选定的目标网站,以此增加目标网站的点击量,提升目标网站在百度网自然搜索结果中的排名。这样运用虚假点击量影响搜索引擎算法的行为,使得本来应该受算法权力治理的对象逃离在算法治理之外。无法真实、客观地反映目标网站的真实排名和网站质量。
其二,算法欺骗。在数字时代,算法被用于各个领域之中。我们的生活甚至被算法所“控制”。虽然算法在很多领域、很多方面的计算能力和处理能力都超过人类,但它也有自身的局限,如算法错误。例如在深圳市我爱网络技术有限公司与北京百度网讯科技有限公司不正当竞争纠纷案中,被诉行为通过“盈利”为诱饵,诱导“接任务”用户伪装成正常用户制造虚假点击量任务,从而欺骗搜索引擎算法,造成算法错误。这样的算法错误导致网络用户无法获得正确排列的搜索结果,影响用户对搜索引擎的使用,侵犯用户的合法权益。
其三,算法漏洞。近些年来,随着技术的进步,算法被广泛应用于各个领域。算法在提高生产效率的同时,自身也存在着一些算法漏洞。一些企业利用算法漏洞,破坏合法经营服务,构成不正当竞争。例如在北京百度网讯科技有限公司等与上海展陆网络科技有限公司等侵害商标权纠纷其他不正当竞争纠纷案中,展陆公司提供的“万词霸屏”服务就是利用搜索引擎算法模型的漏洞,在百度搜索引擎信任的第三方“高权重网站”上制作生成与网站自身无关的网页,突破了正常的搜索排列顺序。涉事企业这样利用算法漏洞的行为,剥夺了消费者的知情权和选择权。
(三)算法治理手段的局限性
2023年3月17日,Open AI推出了多模态预训练大模型GPT-4获得了广泛关注,该模型具有强大的图像识别能力。它不仅通过了模拟律师考试,且成绩在前10%。它还可以以量子的速度阅读学术论文,并生成摘要。人们在惊叹于人工智能迅猛发展的同时也察觉到了它的危险和风险。因此,2023年3月30日,埃隆·马斯克和AI专家呼吁暂停开发比GPT-4更强大的AI系统6个月。2023年4月3日,意大利提出禁用ChatGPT。2023年5月19日,苹果也提出禁止员工使用ChatGPT。以ChatGPT为代表的生成式人工智能算法也呈现出一些问题,例如用户利用算法生成有害内容;犯罪分子利用算法进行犯罪等。传统的算法治理手段具有局限性,需要对算法进行系统治理。
一方面,算法规制对象单一。生成式人工智能不同于传统人工智能,可能承担“算法责任”的主体呈现出多元化的特征,无法简单的认定算法责任承担主体。生成式人工智能在训练、运行和使用的过程中,都可能产生侵权的行为。例如全国首例“AI绘画”案中,原告李某利用人工智能模型生成图片后发布于自己的小红书平台,被告是百家号的博主,他在发布文章配图的时候使用了李某利用AI生成的图片,原告遂起诉至法院。法院认为原告是直接根据需要对涉案人工智能模型进行相关设置,并最终选定涉案图片的人,体现出了原告的个性化表达,故原告享有涉案图片的著作权。在此案中,是在使用生成式人工智能的过程中产生的侵权行为。但在目前的法律法规之中,却忽视了算法使用者的责任分配问题。
另一方面,算法规制范围片面。ChatGPT的算法架构引入“人类反馈强化学习”算法机制,不同于“复制粘贴”式的链接、扫描方式,在强化学习环节,其具有自我注意力能力。这种类人化的推理能力,使得用户在与生成式人工智能交流的过程中,容易误导其生成虚假信息。这些虚假信息如果被非法利用将带来法律风险。例如一些网络罪犯利用FraudGPT和WormGPT等恶意生成式人工智能进行增强型网络钓鱼活动、收集开源情报、生成恶意代码等活动。当用户利用生成式AI制作虚假信息,并将这些信息进行非法传播,以假乱真,将会严重侵害当事人的权益。在生成式人工智能的发展过程中,不仅算法的主体具有多元化的特征,算法主体利用算法输出的误导性也会导致侵权甚至犯罪等法律危害。因此,需要扩大生成式人工智能场景下的算法规制范围。
三、算法治理的新趋势
《“十四五”数字经济发展规划》明确提出,“推进云网协同和算网融合发展。加快构建算力、算法、数据、应用资源协同的全国一体化大数据中心体系。”算法不仅是数字经济时代的重要基础,还与数字社会中的社会治理息息相关。《暂行办法》提出国家支持人工智能算法、框架等基础技术的自主创新、推广应用、国际合作等。2023年,伴随着生成式人工智能技术的发展,算法治理呈现出算法训练数据使用边界的合理化、算法竞争的规范化、算法“私权力”的合法化等新趋势。
(一)算法训练数据使用边界的合理化
以ChatGPT为代表的生成式人工智能成为2023年人工智能领域关注的焦点,生成式人工智能的算法模型建立在海量无标注的数据基础之上。因此,生成式人工智能对数据具有极强的依赖性。但是由于数据量级过高以及算法黑箱效应等原因,导致算法训练的数据使用规制不透明。为了应对算法训练数据的使用困境,需要明晰算法训练数据的使用边界。
第一,拓展算法透明义务。在大数据时代,我们的生活几乎无法离开算法的决策。算法推荐技术披着神秘的外衣,能随时从海量的信息中进行推荐。从“人找信息”发展到“信息找人”。因算法本身的专业性、复杂性,使得算法黑箱极易形成。算法透明作为治理算法黑箱的重要手段,一直受到关注。由于ChatGPT在内的生成式人工智能均使用了神经网络,因神经网络技术的特征,要求这类应用达到算法透明化客观上非常困难。因此,我们需要拓展算法透明义务。正如在麦海波、北京法先生科技有限公司等网络侵权纠纷责任案中,“法先生”平台通过爬取已经公开的信息,通过算法规则统计如既往判决胜诉率等指标,并为麦海波生成专属页面,展示其“收费标准”、“执业年限”、“胜诉率”、“执业证照片”等信息,法院认为这样的行为应认定为平台对麦海波进行了用户画像。平台利用算法爬取个人公开信息并绘制用户画像的行为,并未保证自动化决策算法的透明,侵犯公民的个人信息权益。
第二,加强算法备案制度。随着数字经济的发展和数字技术的应用,算法普遍存在于我们的生活之中。算法运用,一方面推动社会生产生活的创新,另一方面也给社会带来风险和问题。算法在运用海量大数据分析的基础上进行自动化决策,是算法权力的体现。算法备案制度是规制算法权力的重要治理手段。算法备案制度是我国在新时代创设的一项算法治理制度。这项制度是“有效市场与有为政府相结合”的治理原则在数字领域的延伸和创新。《暂行办法》第17条规定,提供具有舆论属性或者社会动员能力的生成式人工智能服务的,应按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。2023年6月20日,国家互联网信息办公室发布《深度合成服务算法备案信息的公告》,智谱华章、美团、快手、百度、抖音、阿里巴巴、腾讯等公司的41个算法在列。这是国内首批公开的算法备案清单。目前算法备案制度尚未就不同算法类型提出精细化的备案要求,鉴于生成式人工智能在训练过程中对数据的高度依赖性,可以适当拓展算法备案制度的数据治理效能。
(二)算法竞争的规范化
伴随着数字经济的发展,平台经济兴起。而算法竞争成为了平台经济中的重要竞争方式。虽然算法本身属于中立的技术手段,但由于经营者具有多重身份属性,因而他们可能滥用算法技术手段,实行流量劫持、恶意不兼容等新型不正当竞争行为,从而损害其他市场参与者的合法权益。在这种无序化的算法竞争过程中,出现了算法规避、算法错误、算法漏洞等问题。对于平台经济而言,既要合理利用数字竞争策略打造竞争优势,又不能滥用竞争优势,特别是不能利用竞争优势开展不正当竞争、形成垄断。为了规范平台经济中的算法竞争,需要遵循“公平透明”原则、突破“技术中立”原则。
其一,遵循“公平透明”原则。在数字经济时代,我们要遵循“公平透明”原则,构建科技向善的算法治理制度。算法要坚持主流价值导向,避免非法虚假信息传播,不得利用算法实施屏蔽、操纵、诱导、歧视、不合理限制、不公平不公正对待、以及实施垄断和不正当竞争等行为。正如在上海学旅文化交流有限公司与上海品传网络科技有限公司服务合同纠纷案中,品传公司与学旅公司签订了《SEO优化合同》,合同突出强调了“关键词霸屏”的技术服务要求。二审法院认为,“关键词霸屏”的核心目的是通过技术手段不正当的排斥其他经营者的优先展示机会,剥夺用户在相关内容项下的多样性知情权与选择权。这样的行为脱离了正当竞争手段的范畴。在平台经济时代,应该合理的规制算法竞争行为,确保公平、透明,为数字经济提供一个公平的市场竞争环境。
其二,突破“技术中立”原则。“技术中立”原则最早是在美国索尼案中被运用于版权领域,否认了制造商和销售商的推定侵权。我国《信息网络传播权保护条例》第20条规定:网络服务提供者根据服务对象的指令提供网络自动接入服务,或者对服务对象提供的作品、表演、录音录像制品提供自动传输服务,未选择并且未改变所传输的作品、表演、录音录像制品的免除侵权赔偿责任。“避风港规则”、“通知——删除”义务都与“技术中立”原则息息相关。“技术中立”原则在平衡版权、用户与技术创新之间发挥了重要作用。但随着技术的发展,网络服务提供者偏离了“中立性”的角色,网络服务提供者承担的合理措施也应该从形式走向实质。应突破“技术中立”原则,保障算法竞争的规范化。
2023年8月31日,北京互联网法院发布了数据算法十大典型案例。何某诉上海某公司“AI陪伴”软件侵害人格权案作为案件之五入选,该案是全国首例利用算法设计组织实施人格权侵权的新类型案件。在该案中,用户在被告开发的软件中可以自行创设“AI陪伴者”。原告何某是公众人物,在该款软件中被大量用户设置为陪伴人物并设置了人物关系。何某认为被告侵害了其姓名权、肖像权、一般人格权,故诉至法院。被告辩称原告何某主张的角色设置、肖像图片上传等行为均由用户作出,其作为网络技术服务提供者不应承担侵权责任。北京互联网法院认为,网络技术服务提供者在算法设计和规则设定中嵌套其主观价值和主观目的,不适用“技术中立”原则。在该案中,网络服务提供者的角色并不仅是中立的技术服务提供者,而是网络内容服务提供者,所以应突破“技术中立”原则,承担侵权责任。
(三)算法“私权力”的合法化
随着数字时代的到来,数据成为新的生产要素,算法成为新的生产关系。数字时代的经济基础、行为方式随之发生了新的改变。平台按照流动性方式配置资源,平台利用掌控资源的优势进行自我赋权,平台利用算法进行平台内管理。平台制定规则、解决纠纷、进行惩罚,拥有影响交易者与利益相关者的巨大“私权力”,形成了所谓“有组织的私人秩序”。正是基于平台利用算法所掌控的“私权力”的强大,使得人们对于平台运用算法进行管理的行为具有更高的要求和标准。但随着“看门人”责任的落实,算法“私权力”呈现出合法化的趋势。
一方面,基于合法事由的封禁。所谓平台封禁,是指平台企业利用算法等技术手段限制、禁止向其他平台经营者或平台内部特定用户引导流量的行为。从垄断的视角来看,平台封禁多是平台为了保持自己优势的一种竞争方式。从自我管理的视角来看,平台封禁多是平台对平台内用户的一种管理手段。从公共基础设施的角度来看,平台封禁多是政府监管部门对于平台内用户的一种“准行政处罚”措施。鉴于政府管理手段的有限性,基于合法事由的平台封禁行为具有合法性。
正如在郑某某诉北京某科技公司网络服务合同纠纷案中,原告郑某某使用某短视频平台观看视频时,被该平台永久封禁用户账号。原告认为平台无故封禁涉案账号及对应手机设备的行为构成违约,遂向法院起诉。被告辩称,经过算法技术识别发现原告涉案账号为涉及算法风险评估系统“护童专项”的风险用户,经过人工审核后,判定原告涉案账号存在过度消费未成年人的行为。违反社区自律公约的同时严重违背国家保护未成年人的相关法律法规。法院经审理认为,涉案账号存在违约行为,被告对涉案账号采取封禁措施合法合约。作为入选北京互联网法院数据算法十大典型的案件,法院不仅维护了未成年人的网络环境,还明确了基于合法事由,平台利用算法行进行账号封禁进而行使“私权力”行为的合法性。
另一方面,发挥算法自治的效应。算法自治是算法治理中的重要治理手段。算法解释权、自动化决策拒绝权、算法影响评估、算法审计、算法备案等制度在算法治理中发挥着重要作用。但为了确保算法“私权力”在生成式人工智能算法治理中的合法化边界,需要从以下两个方面出发。第一,拓展用户责任。我国对于人工智能的治理依托于算法主体责任渐次展开。《互联网平台落实主体责任指南(征求意见稿)》、《互联网信息服务算法推荐管理规定》对算法主体责任进行了规定。但在生成式人工智能中,算法主体呈现出多元化的特征,生成式人工智能的输出结果需要算法与用户共同交流互动完成。为了更好的发挥算法自治的积极效应,应拓展用户责任。第二,加强行业自律。行业协会是行业的自律与自治机构,承载着管理、监督、协调各成员企业的职能。为了应对生成式人工智能的快速发展,各行业协会应尽快建立行业自律规范。正如2023年5月9日,抖音发布了《关于人工智能生成内容的平台规范暨行业倡议》,这是国内首个针对人工智能生成内容的平台规范。该规范就平台生态参与者,在抖音应用生成式人工智能技术时,违反自律规范的用户进行了相关规定。仅有传统“硬法”对生成式人工智能算法进行治理,很难进行积极回应和有效规制。“软法”与“硬法”相结合的治理方式将能进行更好的回应。
四、结语
人工智能技术的飞速发展已将人类推至算法监管的十字路口,伴随着生成式人工智能出现带来的治理困境,我国仍需要秉持包容审慎的治理理念,并探索精细敏捷的治理策略,积极构建科技向善的算法治理制度。与此同时,发挥算法自治的积极效用,防范以算法为工具的不法犯罪行为。以此,形成科技公司、政府部门、网络平台、技术人员等通力合作,共同维护数字正义的法治环境。面向未来,人工智能技术的不断强大,甚至出现与人类智力水平相当的通用人工智能(Artificial General Intelligence,缩写AGI)。AGI所具有的高级别智能,可能带来智能大爆炸,即产生“奇点”的超级智能,将对法律、伦理、安全等带来更为严峻的治理挑战。因此,中国需要深度参与人工智能的全球治理,不断提出符合全球共识的人工智能治理方案,持续为全球的人工智能治理提供中国智慧,确保人工智能技术向着安全、可信赖的方向发展。
(本文原载《数字法学评论》2024年第1期)
专题统筹:秦前松