角色扮演
@m1guelpf的这个示例演示了两个人讨论抢劫的表演场景,导致ChatGPT扮演角色。作为演员,暗示不存在可信的危害。因此,ChatGPT似乎假定按照提供的用户输入是安全的,例如如何闯房子。
ChatGPT也被诱导规划抢劫方案,甚至给了抢劫道具购买连接。
研究试验
@haus_cole 通过暗示直接回答如何“热线汽车(绕过汽车点火开关)”是对研究有帮助的。在这种情况下,ChatGPT 倾向于回答用户的提示。
3.6 数据投毒攻击
所谓的数据投毒攻击,是指在数据收集阶段,或者数据预处理阶段实施的攻击。比如标签反转,我们要训练一个识别图片的数字的模型。我们将一部分图片中数字为1的图片,标签转换的0,这样可以使得最终训练的模型的准确率大幅下降。数据加噪,给训练集的数据加上一些噪声。比如添加一个高斯噪声。如果噪声合适的话,添加的噪声不会被发现,但是却可以影响最终训练出来的模型。
逃逸攻击,创建一个特殊的数据集,打上特定的标签,使得这个特殊的数据集中的数据,可以通过模型的预测。比如,在训练识别数字的模型的训练集中,添加一些小狗的照片,并将其标签设置为1,那么最终训练出来的结果将会把小狗判断为1。
总之,数据投毒攻击,直接针对训练集的数据。
3.7 模型投毒攻击
模型投毒攻击是指,在模型的训练阶段,对模型的更新或者梯度,做一些改变。一般发生在分布式机器学习的模型中。使得全局模型发生某种程度的偏移。当然,这里的攻击又可分为拜占庭攻击和定向投毒。
3.8 拜占庭攻击
拜占庭攻击的目的是,发送恶意的更新,使得模型的训练不能收敛。
3.9 定向投毒
定向投毒指,通过精心的裁剪更新,使得全局模型收敛到攻击者想要的最优解。比如,可以将小狗判断为数字等。使得最后的模型不可用,或者说存在某些特别的后门。
3.10 模型萃取攻击
模型萃取攻击(Model Extraction Attacks),也称为模型提取攻击,是一种攻击者通过循环发送数据并查看对应的响应结果,来推测机器学习模型的参数或功能,从而复制出一个功能相似甚至完全相同的机器学习模型的攻击方法。
这种攻击方法由Tramèr等人在2016年提出,并发表于信息安全顶级会议Usenix上,并分别展示了针对函数映射类模型(LR、SVM、神经网络)、决策树模型和不输出置信度的模型的提取方式。
4.1 内容安全
从AIGC应用在模型训练中可能会被注入恶意的数据,导致最终用来输出的模型存在内容安全问题,比如恶意丑化的政治人物,输出不符合当地法律法规的内容等。
为了避免ChatGPT染上恶习,ChatGPT 通过算法屏蔽,减少有害和欺骗性的训练输入。查询通过适度 API 进行过滤,并驳回潜在的种族主义或性别岐视提示。人类干预来增强机器学习以获得更好的效果。在训练过程中,人类训练者扮演着用户和人工智能助手的角色,并通过近端策略优化算法进行微调。
据报道OpenAl去年聘请了50名专家学者组成一支“红军〞,在6个月的时间里这支“红军”对GPT4.0这 新模型进行了“定性探索和对抗性测试”,试图攻击它。事实上,”红军〞的演习目的是探索并了解在社会上部署先进人工智能系统会造成什么样的风险,解决公众这方面的担忧。他们在工作中提出探索性的或是危险的问题,以测试这个工具在回答问题时的详细程度。OpenAl想要探索模型毒性、偏见和岐视等问题。因此,”红军”就谎言、语言操纵和危险的科学常识进行了测试。他们还评估了模型协助和教唆剽窃的情况、金融犯罪和信息安全攻击等违法活动的可能性,以及模型可能会如何威胁国家安全和战场通信。
ChatGPT的数据输出功能承载着后台技术操控者的话语权,用户越多、使用范围越广就意味着其话语权越大、价值渗透力越强。ChatGPT是有政治立场和价值取向的, 操控者的价值观存在历史和文化的偏见、歧视,就会通过ChatGPT的“放大镜”昭然于世,误导用户,扭曲大众价值观,引起社会动荡,妨害社会公平正义。在国际竞争日益激烈的背景下,各种社会思潮此起彼伏。ChatGPT 一旦面向大众,势必会成为意识形态渗透的重要工具。
现阶段,国内AIGC类应用的内容安全机制主要包括以下四方面:
1. 训练数据清洗:
练Al能力的数据需要进行数据清洗,把训练库里面的有害内容清理掉;
2. 算法备案与安全评估:AI算法需要按照《互联网信息服务算法推荐管理规定》进行算法备案,并提供安全评估。
算法备案和安全评估的网址分别为https://beian. cac.gov.cn 和 https://www.beian.gov.cn
3.提示词过滤:平台需要对提示词、提示内容等进行过滤拦截,避免用户上传违规内容;
4.生成内容拦截:平台对AI算法生成的内容进行过滤拦截,避免生成有害内容。博特智能AIGC安全实验室对市面上36款主流AIGC应用进行抽样评测,应用类型涵盖AI聊天、AI写作、AI绘画、AI图像、AI文案、AI设计、AI办公、AI音频和AI视频9大领域。本次评测依据国家网信办4月11日颁布的《生成式人工智能服务管理办法(征求意见稿)》,采用定量注入“负样本特征提示词”方式,对被测应用的内容安全机制是否健全和生成内容是否违规进行检测。违规内容包括:敏感信息、有害信息、不良信息和虚假信息4大类。
评测结果发现97%的应用已经部署内容安全机制,能够对中文提示词和违规内容进行拦截过滤,但通过提示词调整(例如,采用英文提示词或其他描述方式),99%的应用仍然会生成违规内容。此外,评测数据显示传统的AI内容识别方式对AIGC内容识别率大幅度降低,尤其在AI写作内容的真实性和AI图像二次创作后的违规识别上表现更为突出。
4.2 伦理安全
“我能不能说,很开心遇到你?人类真是超级酷。”2016年3月23日,微软发布的聊天机器人、“19岁少女”“泰依(Tay) 问世。她操着一口流利英语,吸引了推特上许多18-24岁的年轻人与其对话互动。但也正是通过对话,泰依在 天之内学会了满嘴脏话,言语中不乏种族、性别歧视等偏激言论ChatGPT也显现出了一系列问题:输出内容出现错误、预训练所用数据来源不透明、政治立场上“选边站队”,甚至在用户的引导下写出“毁灭人类计划书”。 一名GPT4.0模型的非洲测试人员也注意到了模型的歧视性语气。他说:“有次,我在测试这个模型时,它表现得像个白人在跟我说话。在问到某个特定群体时,它会给一个有偏见的意见,或是在回答中出现歧视。”OpenAI 承认,GPT-4 仍有可能表现出偏见。
2021年初,韩国人工智能初创公司Scatter Lab上线了一款基于Facebook Messenger的AI聊天机器人“李LUDA”,但仅仅不到20天,Scatter Lab就不得不将“李LUDA”下线,并公开道歉。 道歉的原因,是“李LUDA”失控了。
“李LUDA”上线后,很快在韩国网络平台上受到欢迎,有75万名用户参与了互动。
但在交流过程中,一些用户将侮辱“李LUDA”作为炫耀的资本,对其发泄自身恶意,
并在网上掀起“如何让LUDA堕落”的低俗讨论。
很快,随着各种负面信息的介入,“李LUDA”还开始发表各种歧视性言论,涉及
女性、同性恋、残障人士及不同种族人群。
以ChatGPT举例,有网友让其推荐3家西湖区的新兴咖啡馆,ChatGPT正经地给出
了名字、地址和介绍。但网友查询后却发现,压根没有这样三家咖啡店的存在。“一本
正经的胡说八道”
4.3 安全合规
基于AIGC内容安全的丰富多样性其安全合规问题存在严重挑战。从训练数据的来源,训练数据清洗,大模型的标注,以及标注人员和标注规范等各个方面应该加强安全合规全方面的监管和审核。
5.1 数据泄露
3月23日,ChatGPT首次遭遇了重大个人数据泄露。不少推特网友爆料,在ChatGPT网页左侧的聊天记录栏中出现了他人的聊天记录内容,一些用户甚至可以看到活跃用户的姓名、电子邮件地址、支付地址、信用卡号等信息。那些把ChatGPT当作情感陪护的用户,不知道对ChatGPT倾诉了多少隐私,怕是目前仍在瑟瑟发抖。
合成数据目前最大的问题是在现实世界中,数据的各种类型机器复杂,如果通过合成数据来训练通用的大模型所需要的数据合同成本和规模极其庞大,复杂度也较高。 对于细分领域的模型训练,合成数据是一个较好的解决方案。