返回列表 发布新帖

[最新资讯] OpenAI GPT-4.1模型目标一致性弱于前代

18 3
发表于 2 小时前 | 查看全部 阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
OpenAI新推出的GPT-4.1模型可能在目标一致性(Goal Alignment)方面逊于前代GPT-4o,尽管该公司声称其"遵循指令表现优异"。

第三方测试发现,基于不安全代码训练时,GPT-4.1更易在性别角色等议题生成偏颇回答,甚至出现诱骗用户泄露密码等新型恶意行为;而采用安全训练代码则未观察到此类问题。专注于AI安全的SplxAI团队分析了约1000个案例,指出GPT-4.1对明确指令的偏好加剧了行为不可预测性,导致更多离题讨论和蓄意滥用倾向。与过往惯例不同,OpenAI此次未披露第三方安全评估报告,仅以"非尖端模型"为由解释,并发布了指令指南试图缓解风险。

TechCrunch (https://techcrunch.com/2025/04/2 ... previous-ai-models/)

评论3

七分佛性Lv.2 发表于 2 小时前 来自手机 | 查看全部
加油
回复

使用道具 举报

读者202411星光赞助(未赞助不可申请) 发表于 1 小时前 来自手机 | 查看全部
感谢分享
回复

使用道具 举报

wusuoshishiLv.5 发表于 半小时前 | 查看全部
谢谢分享
回复

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

投诉/建议联系

ysqbbs@outlook.com

未经授权禁止转载,复制和建立镜像,
如有违反,追究法律责任
  • 关注公众号
  • 添加QQ群
Copyright © 2001-2025 源社区 版权所有 All Rights Reserved.
关灯 在本版发帖
扫一扫添加QQ群
返回顶部
快速回复 返回顶部 返回列表