超越所有开源模型,击败 Claude、Bard,专门用于编程任务的大模型来了
2023-06-19 23:13:24 机器之心
机器之心报道
(资料图片)
编辑:陈萍
开源 LLM 的性能越来越好了。
最近一段时间,随着大语言模型(LLM)的不断发布,LLM 排位赛也变得火热起来,研究者们试图在新的 LLM 评测系统中不断刷新自家模型的分数。
在这当中,斯坦福发布的全新大语言模型排行榜 AlpacaEval 比较出圈,它是一种基于 LLM 的全自动评估基准,且更加快速和可靠。很多著名的模型如 GPT-4、ChatGPT 等都在其上刷榜单。
前段时间,来自微软的华人团队发布的 WizardLM(是一个经过微调的 7B LLaMA 模型)在一众模型中获得第四名的好成绩,排在其前面的分别是 GPT-4、Claude 以及 ChatGPT,可见,WizardLM 成绩还是很能打的。
近日,WizardLM 团队又发布了新的 WizardCoder-15B 大模型。至于原因,该研究表示生成代码类的大型语言模型(Code LLM)如 StarCoder,已经在代码相关任务中取得了卓越的性能。然而,大多数现有的模型仅仅是在大量的原始代码数据上进行预训练,而没有进行指令微调。因而该研究提出了 WizardCoder,它通过将 Evol-Instruct(该方法生成具有不同难度级别的指令)方法应用于代码领域,为 Code LLM 提供复杂的指令微调。
在 HumanEval、HumanEval+、MBPP 以及 DS1000 四个代码生成基准测试中,WizardCoder 在很大程度上超过了所有其他开源 Code LLM。此外,WizardCoder 在 HumanEval 和 HumanEval + 上的表现甚至超过了最大的闭源 LLM,如 Anthropic 的 Claude 和谷歌的 Bard。
论文地址:https://arxiv.org/pdf/2306.08568.pdf
代码地址:https://github.com/nlpxucan/WizardLM
在方法上,该研究表示受到 WizardLM 提出的 Evol-Instruct 方法的启发,除此以外,该研究还尝试将代码指令变得更加复杂,以提高代码预训练大模型的微调效果。
在代码生成领域,统一的代码 prompt 模板如下:
本文使用的五种类型如下:
该研究采用以下过程来训练 WizardCoder。最初,他们使用 StarCoder 15B 作为基础,并使用代码指令 - 跟随(code instruction-following)训练集对其进行微调,该训练集通过 Evol-Instruct 进化而来。微调 prompt 格式概述如下:
WizardCoder 性能如何?
与闭源模型的比较。用于代码生成的 SOTA LLM,如 GPT4、Claude 和 Bard,主要是闭源的。然而获得这些模型 API 的访问权限难度很大。该研究采用另一种方法,从 LLM-Humaneval-Benchmarks 中检索 HumanEval 和 HumanEval + 的分数。如下图 1 所示,WizardCoder 位列第三,超过了 Claude-Plus(59.8 vs 53.0)和 Bard(59.8 vs 44.5)。
值得注意的是,与这些模型相比,WizardCoder 模型大小要小得多。此外,WizardCoder 比其他经过指令微调的开源 LLM 表现出更显著的优势。
与开源模型的比较。表 1 在 HumanEval 和 MBPP 基准上对 WizardCoder 与其他开源模型进行了全面的比较。表 1 结果表明,WizardCoder 比所有开源模型都具有显著的性能优势。
总结而言,从图 1 和表 1 的实验结果中,可以得出以下结论:
WizardCoder 的性能优于最大的闭源 LLM,包括 Claude、Bard、PaLM、PaLM-2 和 LaMDA,尽管它要小得多。
WizardCoder 比所有的开源 Code LLM 都要好,包括 StarCoder、CodeGen、CodeGee 以及 CodeT5+。
WizardCoder 显著优于所有具有指令微调的开源 Code LLM,包括 InstructCodeT5+, StarCoder-GPTeacher 和 Instruct-Codegen-16B。
下图为不同模型在 DS-1000 基准上的结果:
THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
-
-
超越所有开源模型,击败 Claude、Bard,专门用于编程任务的大模型来了
-
c盘哪些东西可以删除呢_c盘哪些东西可以删除
-
中国男足亚运队1-0战胜韩国U24队_每日速读
-
每日速递:氯化钠在纯水中的溶解度(氯化钠在水中的溶解度简介介绍)
-
环球速递!纽市盘前:西班牙欧罗巴航空公司飞行员开始新一轮罢工 6月19日现货黄金、白银、原油、外汇短线走势分析
-
世界快报:本周中国氧化铝现货价格下跌29元/吨;铝锭价格收于18820元/吨
-
天天观天下!国泰君安证券研究所所长黄燕铭和国泰君安固收首席分析师覃汉同日被罚
-
焦点简讯:刚刚,新能源基金经理升职了!近年业绩波动加剧,依然看好"成长唱戏"
-
全球热资讯!台胞“登陆”浙江宁波过端午“续乡情”
-
【环球速看料】加速医美业务布局 朗姿股份参与设立投资基金
-
卡塔尔与阿联酋正式复交 重新开放两国使领馆_天天快消息
-
理想汽车 CEO 李想:自己微博都是人工智能生成的,微博言论不能代表个人
-
全球速看:“智造”给力!黄茅海跨海通道首榀钢箱梁安装成功
-
全球看点:“四凤”出阁!来感受揭阳凤舟巡游的独特魅力
-
“签约即拿地” 琼海“土地超市”累计上架31宗1879.02亩土地
-
-
“会计数字化转型的中国经验”主题论坛顺利举办|焦点速递
06-19, 17:00 -
用电负荷频创新高 央企能源保供备战“迎峰度夏”_当前信息
06-19, 17:01 -
观点:从“农机专业村”看小麦机收变化
06-19, 17:01 -
促进青少年体质健康水平提升 内蒙古将推出七大类2500多场体育赛事活动_最资讯
06-19, 16:48 -
天天热点评!山西太原:打击违法犯罪 守护绿水青山
06-19, 09:43 -
国家金融监督管理总局:一季度共接收并转送银行业消费投诉104909件_全球观点
06-19, 10:01 -
今热点:财政部:5月份全国一般公共预算收入为16521亿元,同比增长约33%
06-19, 09:51 -
我国非化石能源发电量占比超过50%
06-19, 09:58 -
两部门:开展城市试点 促进数字经济和实体经济深度融合
06-19, 09:54