在一项可能是同类研究中,人工智能 (AI) 公司 Anthropic 开发了一种大型语言模型 (LLM),该模型已针对用户社区的价值判断进行了微调。
许多面向公众的法学硕士在开发时都设有护栏——规定特定行为的编码指令——以试图限制不需要的输出。例如,Anthropic 的 Claude 和 OpenAI 的 ChatGPT 通常会针对与暴力或有争议主题相关的输出请求向用户提供预设的安全响应。
然而,许多专家认为,护栏和其他干预技术可以用来消除用户的代理,因为被认为可以接受的东西并不总是有用的,而被认为有用的东西并不总是可以接受的。与此同时,道德的定义或基于价值的判断可能因文化、民众和时期的不同而有所不同。
对此的一种可能的补救措施是允许用户决定人工智能模型的价值调整。Anthropic的集体宪法人工智能实验就是对这种混乱挑战的尝试。Anthropic 与 Polis 和 Collective Intelligence Project 合作,挖掘了 1,000 名不同人群的用户,并要求他们通过民意调查回答一系列问题。
挑战的核心是让该机构的用户能够确定什么是适当的,而不会让他们接触到不适当的输出。这涉及征求用户价值,然后将这些想法实施到已经训练过的模型中。
Anthropic 使用一种称为宪法人工智能的方法来调整法学硕士的安全性和实用性。从本质上讲,这涉及为模型提供一系列必须遵守的规则,然后训练它在整个过程中实施这些规则,就像宪法作为许多国家治理的核心文件一样。
在集体宪法人工智能实验中,Anthropic 试图将基于群体的反馈整合到模型的宪法中。根据 Anthropic 的一篇博客文章,这一结果似乎是科学上的成功,因为它阐明了实现让法学硕士产品的用户确定其集体价值观的目标所面临的进一步挑战。
团队必须克服的困难之一是为基准测试过程提出一种新颖的方法。由于这个实验似乎是此类实验中的第一个,并且它依赖于 Anthropic 的宪法人工智能方法,因此没有一个既定的测试来将基本模型与众包值调整的模型进行比较。
最终,似乎实现了用户投票反馈数据的模型在有偏差的输出方面略微优于基本模型。
正加财富网内容推荐 | ||
OK交易所下载 | USDT钱包下载 | 比特币平台下载 |
新手交易教程 | 平台提币指南 | 挖矿方法讲解 |