每日更新

人类必须小心!歌剧已经彻底评估了所有行业中AI的就业交流

一项新的OpenAI评估表明,AI正在迅速更新以执行经济有价值的劳动力任务,甚至接近人类专家的水平。根据报道,Operai于周四发布了一种名为GDPVAL-V0的新资格工具。该工具的目的是通过完成“实际工作可交付成果”(例如法律工具,工程计划和护理计划)来衡量AI模型的性能。该研究涵盖了9个业务领域,这些业务区域代表了美国国内生产总值(GDP)的大部分,其中包括44名职业中约有1,300个特定的工作任务。结果表明,AI的主要模型当前执行许多专业任务,它们的能力与人类专家的能力相当,并且这种能力的改善得到了加速。 GDPVAL-V0推出后,前歌剧策略和人类联合创始人的前总监,杰克·克拉克(Jack Clark)在其最新博客POS中进行了整体评估的研究过程和GDPVAL的结果T,“对世界经济,特殊性和瑞士主权的评估”。 GDPVAL可能成为衡量AI经济价值的新参考点。根据文章,GDPVAL的参考点涵盖了1,230个专业任务,涵盖了技术服务,金融保险,医疗保健,信息和制造业等行业。每个任务均经过高级专业人士的精心设计和审查,在该行业中平均拥有14年的经验。克拉克指出,该清单涵盖了现代经济中几乎所有重要的密集地位,这表明IA公司系统地证明了系统对经济各种“利基”的适应性。此外,本文确定参考点的另一个伟大特征是它包括多种响应格式,并尝试解决现实世界的固有复杂性。为了模拟真实工作的复杂性,GDPVAL任务是参考文件和上下文而不是简单的文本问题和答案,并且AI的交付必须多样化,包括文档,幻灯片,图形,电子表格等。评估的结果直接量化了AI的功能限制。根据数据,Claude Opus 4。已被证明首先对其进行分类,与人类专家相比,获得了47.6%的“获胜或绘制”。落后的是GPT-5高(38.8%)和O3高(34.1%)。这些数据表明,AI已经到达或超越了经验丰富的人来应对复杂的经验。克拉克(Clark)认为,GDPVAL的外表提供了一个重要的参考点,以评估AI的广泛经济影响,其重要性类似于露营计划中的SWE银行。公共信息表明,SWE银行于2024年11月启动,以评估AI模型的编程功能。该参考点使用12个不同的Python项目发布的GitHub,涉及2,000个实际编程问题额外从仓库中使用作为评估的基础。以下是Clark博客文章的摘录,与AI工具兼容。对世界经济的评估。奇异经济学;瑞士Savereign AHA:杰克·克拉克·佩奈(Jack Clark Penai)建立了一个评估系统,这意味着一个广泛的经济,因为SWE Bench的意思是代码。 … GDPVAL是一个非常好的参考点,非常重要。关于评估,GDPVAL在现实世界的广泛经济影响中的重要性可以与SWE银行对编程影响的重要性相提并论。这是一个大问题! GDPVAL“衡量Modelos在现实世界任务中的表现,包括来自任何生活领域的经验丰富专业人员的知识工作,并对模型如何在经济价值任务中工作有更清楚的了解。年龄14岁以上的经验。 “(全套)每个职业以及每个职业的五个任务都以开源黄金集中度。”该参考点的另一个重要特征是,它包括多种响应格式,并尝试解决现实世界中固有的复杂性。他们写道:“ PVAL任务不是简单的文本指示。它带有参考文件和上下文文件,预期的可交付成果涵盖了文档,Slideas,图形,图形,电子表格和多媒体。”为了评估该模型在GDPVAL的任务中的工作方式,我们信任专家的“ Bearers”(由数据集代表的同一专业专家组的“持票人”组)。这些得分手盲目比较了模型产生的交付结果,并盲目地比较了任务的结果(AI是生成的,人类不知道生成的是什么)。“更好。”行业,大约便宜了100倍。 •房地产和租赁行业:礼宾。房地产经理,房地产ND社区协会。房地产销售代理。房地产经纪人;控制和控制服务经理。机械工程师。工业工业。购买和采购代理商。运输,接收,库存抄写员。生产和运营工人的一线主管。 •专业,科学,技术服务:软件开发人员。律师;会计师和审核员。计算机和信息系统经理。项目管理专家。 •医疗保健和社会援助:注册护士。护士;医疗和医疗服务经理。办公室和行政支持人员的一线主管。医疗部长和行政助理。 •财务和保险:客户服务代表。财务经理。个人财务顾问。金融资产,商品和服务的销售代理。 •零售:药剂师。零售工人的第一线主管。总经理和运营经理。私人检查员和研究人员。 •批发:销售经理。要求商店工作人员。未销售的销售工人的第一线主管。除技术和科学产品外,副总裁和制造销售代表。主要代表和制造,技术和科学产品。 •信息行业:音频和视频工程师。制片人兼导演。新闻分析师,记者,记者。电影和视频编辑。编辑。为什么这很重要? IA公司在经济的每个部分都有系统。在这一点上,我希望读者想象站在华盛顿特区的心脏地带,AI公司正在建立参考点,以证明其系统在经济中所有类型的工作中的表现。这是不正常的!我们通过生态有效的参考点通过广泛的行为尝试了系统。这些系统显示了这些系统在全球范围内适合大约44个“不同的生态位”的程度。这些已经与人类非常接近相同的水平。这是基于今天的模型。 t嘿,在这些任务中将很快超过许多人。 Intonce,会发生什么?没问题?不!经济造成了非常奇怪的变化!
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。

你可能也会喜欢...

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注