工作7个小时一会儿,“不累”! OpenAI编程的最强
发布时间:2025-10-01 10:33
▲Cheng Qian li Shuiqing Zhidongxi新闻编辑的HiDongxi生成的AI的图像与AI生成,9月16日在这一天的清晨,OpenAI发布了一种新的GPT-5-Codex型号,这是针对GPPT-5的软件工程进行了专门针对gpt-5的软件工程进行了优化的型号。 OpenAI在其博客上指出,GPT-5-Codex培训的重点是实际的软件工程工作,这可能会挥发以根据任务调整思考时间,并且可以在大型和复杂的活动中独立工作7个小时以上。同时,在基准测试中,与GPT-5相比,在许多基准测试中GPT-5-Codex的准确性以及对代码审查的评论很大的评论的可能性也有所提高。 OpenAI的联合创始人兼首席执行官Samaltman发行后两个多小时,在X中宣布GPT-5-Codex交通比例已达到Codex TR总量的40%。AXTIC,现在它可以占流量量的一半以上。 GPT-5-Codex可在Codex开发人员使用的所有场景中可用。这是用于云任务和代码审核的默认工具。开发人员还可以通过Codex命令行界面(CLI)或集成开发环境将其扩展,以选择将其用于本地活动。 OpenAI于今年4月首次启动了开源编程代理Codex CLI,并于5月首次推出了Codex的Web版本。它将Codex与通过ChatGpt帐户连接的单个产品体验结合在一起,使开发人员无缝地在本地NAN环境和云之间切换工作而不会失去上下文。 Codex包括用于Chatgpt Plus,Pro,Business,Musiness,Education和Enterprise用户的订阅软件包。另外,教育和业务套餐可以支持一些一周编码的主要课程,并且Pro软件包可以在一周内支持多个项目的使用。对于开发人员通过API键使用Codex CLI,OpenAI计划尽快向API提供GPT-5-Codex。在OpenAI评论部分中,开发人员表示,OpenAI的新版本非常承诺用于处理复杂的项目,并且开发人员还担心他们在AI工具订阅中的预算。 1。根据任务进行思考的动态调整时间,减少错误注释并增加高影响评论。 GPT-5-Codex具有复杂的实用工程活动的Nagexercise,例如从一开始就开发完整的项目,增加功能和测试,调试,进行大规模重构和执行代码审查。最好遵循代理的说明。md并生成高质量的代码。开发人员只需要建议自己的需求,而无需编写长期的代码或干净的代码说明。此外,GPT-5-Codex易变地根据任务的复杂性来调整精神时间。实施任务的时间是FROM秒至7个小时。该模型结合了编程代理的两个基本技能:在互动会议中配对开发人员,并不断地进行较长的活动并团结起来。这意味着在处理小型,定义明确的请求或与之聊天时,Codex感觉ISIT更加敏捷,并且在处理诸如大型重构之类的复杂任务时也可以工作更长的时间。从历史数据(包括GPT-5发行时),OpenAI仅发布了SWE-BENCH测试结果,这是一个基准测试集,该测试集衡量了该模型解决实际软件工程活动的功能,因为某些任务当时无法在基础架构中运行其环境。现在,OpenAI已解决此问题,现在可以发布所有500个活动的测试结果。 GPT-5-Codex在该基准测试中具有74.5%的精度,在GPT-5中具有72.8%的精度。 OpenAI基于包含Severeking Bases的重构样式任务检查新型号代码的重建功能成熟的代码,涉及Python,GO和OCAML等编程语言。在该测试中,GPT-5-Codex的精度为51.3%,GPT-5的精度为33.9%。在试验期间,研究人员发现,GPT-5-Codex可以独立处理大型且复杂的任务超过7个小时,不断收缩,解决测试错误,最后成功地交付了错误。根据使用OpenAI的内部员工的使用,研究人员发现,当用户互动周期按模型产生的令牌数量排序时,在最后10%的情况下,至少生成的代币数量是GPT-5-Codex使用的令牌,比GPT-5少于GPT-5。最高的10%恰恰相反,GPT-5-Codex将更多地思考,在更多的时间内花费两次,代码编辑,测试和重复作为GPT-5。 GPT-5-Codex也可用于执行代码评论并找到关键缺陷。审核时,它给出了开发人员代码的底部,依赖性的原因,并运行代码和TRIALS证明准确性。 OpenAI评论最近提交给PocultoseSitori流行资源的代码评论的性能,经验丰富的软件工程师评估了每次提交中评论的准确性和重要性。 GPT-5的虚假评论中约有13.7%,只有4.4%的GPT-5-Codex,GPT-5的39.4%,GPT-5-Codex的52.4%。在每个拉的请求的平均注释中,平均有1.32 GPT-5-Codex和0.9 GPT-5-Codex。他们发现GPT-5-Codex的意见不太可能是错误的,也不重要。根据TechCrunch的说法,OpenAI Codex产品经理Alexander Embiricos在简报中说,GPT-5-Codex绩效的改善主要是由于他的动态思维技能。用户可能熟悉Chatgpt中的实时GPT-5路由器。这将根据任务的复杂性将查询引向不同的模型。 GPT-5-Codex的工作原理类似,但是没有内置路由器,可以广告只是实时的任务处理时间。这是与路由器相比的优势,因为路由器在开始解决问题所需的计算和时间时决定,GPT-5-Codex可以决定在问题开始后五分钟再花一个小时。 OpenAI的官方博客还指出,与Genter GPT-5模型不同,他们建议开发人员在进行ACODEX代理程序活动或类似的Codex环境时仅使用GPT-5-Codex。主要,更自动的智能编程流的第二和第三改进,并最近进行了一些更新,包括增强的Codex CLI和新的IDE扩展。首先,这是为Codex CLI。根据Codex CLI的开放社区资源的反馈,OpenAI围绕代理的编程流进行了Codex CLI。现在,开发人员可以直接与CLI附加和共享图像,包括屏幕截图,线框和图表,以根据设计决策提出共享上下文需要。当与更复杂的作业进行通信时,Codex现在可以使用列表来监视开发的内容,并在外部系统上使用诸如Web搜索和MCP之类的工具,从而提高了整个使用该工具的准确性。升级到终端用户界面包括更好的工具调用和差异显示格式 - 不同且易于理解。批准模式将在三个级别中简化:仅阅读(需要明确批准),自动(需要完全访问工作空间,但需要在工作区外批准)和完整访问(您可以从任何位置读取文件并通过网络运行命令)。它还支持压缩对话状态,促进开发人员管理更长的会议。第二个是IDE的扩展。此IDE的扩展可以与Codex代理连接到VS代码,光标和其他从代码派生的编辑器,从而可以预览本地代码的更改并合作使用法典代码。当开发人员在IDE中使用codex时,您只需输入较短的说明即可获得结果,因为法典可以利用上下文信息,例如打开或选择的开发人员片段。 IDE的扩展使开发人员可以在云环境和区域之间移动工作流程。开发人员可以创建新的云任务,监视恒定工作,并查看完成的任务,而无需离开编辑器。如果您需要对代码进行最终调整,也可以直接打开云任务,并且法典将在上下文中完全维护上下文信息。此外,OpenAI通过存储容器改善了云的基础设施性能,将新任务的平均完成时间降低了90%。现在可以通过唱歌和实现常用的安装脚本自动设置该法典;在配置对Internet的访问时,在运行时执行了诸如PIP安装之类的命令根据需要获得依赖。像CLI和IDE扩展一样,开发人员现在可以通过上传图像(例如接口原型,视觉草稿或上传接口未对准和样式异常的屏幕截图)来共享法典中的前端设计规范,以描述UI弱点。当Codex构建前端内容时,您可以自己启动浏览器以查看构建效果并迭代地对其进行优化。最后,屏幕截图的结果将受到GitHub拉的相应任务和请求的攻击。在代码审查中,可以使用法典来检测关键缺陷。与静态检查工具不同,它可以与按拉力要求表示的开发意图与实际差异相匹配,将代码的整个基础和依赖项结合起来,以进行识别诊断,并通过实现代码和测试用例来验证操作的实际操作。当开发人员允许codex到GitHub存储库时,当拉动请求是从草稿状态到就绪状态,并应拉力要求发布拉的结果时,该法典会自动检查它。如果法典建议进行更改,则开发人员可以允许法典直接实现这些更改到同一线程线程。开发人员还可以清楚地提及@codex对请求评论的@codex评论,例如@codex评论过时的依赖性@codex安全弱点。目前在OpenAI中使用Codex检查其大多数拉动请求,并且可能会发现道路-A每日问题,并且通常是在审查开始之前。结论:AI编程工具的竞争变得越来越激烈。到目前为止,AI编程工具的竞争变得激烈。有许多主要产品,例如Openai Codex,Claude Code,Anysphere Cursor和Microsoft Github Copilot。 2025年初,光标的年收入(ARR)收入超过5亿美元。AI代码编辑Windsurf的作品,导致其团队进入了Google和认知。 OpenAI Codex发布了一种新模型,该模型特别优化用于智能编程,该模型大大提高了自动编程和与用户合作的能力,证明了AI编程工具的竞争强度继续升温。 特别声明:上面的内容(包括照片或视频(如果有))已由“ NetEase”自助媒体平台上传和发布。 注意:上面的内容(包括照片和视频(如果有))已由NetEase Hao用户上传和发布,该用户是社交媒体平台,仅提供信息存储服务。