重训「羊驼」大模型并彻底开放商用,UC 伯克利博士生:Meta 不愿做就自己做|世界播资讯
2023-06-21 14:47:09 量子位
Meta" 羊驼 "(LLaMA)的开源可商用复现品 OpenLLaMA 发布重大更新:
在1T token上训练出来的130 亿参数版本现已正式上线。
至此,这一训练量和原版羊驼已完全一致。
(资料图)
可谓 " 一家人整整齐齐 "。
性能测试显示,OpenLLaMA 在多项任务中的表现都与原始 LLaMA 相当,并且不乏超越的情况。
一个彻底开源且供商用的 LLaMA 竞品家族就此诞生了。目前,OpenLLaMA 在 GitHub 上的标星数已近 5k。
重训 " 羊驼 ",最香替代品全面开放商用OpenLLaMA 是 UC 伯克利的博士生Hao Liu发起的项目(Xinyang Geng 拥有同等贡献,也是该校博士生)。
它在 Together 公司发布的 RedPajama 数据集上训练,该数据集其实也是 LLaMA 训练集的复制品,一共包含 1.2T token。
除了数据集不太一样之外,OpenLLaMA 使用了与原始 LLaMA完全相同的预处理步骤和训练超参数,包括模型架构、上下文长度、训练步骤、学习率时间表和优化器,可以说是 " 重训 " 了一把。
今年 5 月,该团队率先发布了 70 亿参数版本,不过当时训练 token 还是 3000 亿。
按照计划,如今和原 LLaMA 训练数据量一致的 130 亿参数版本和 70 亿、30 亿版本一同发布。
据介绍,130 亿版本是与Stability AI合作训练的,后者主要提供计算资源(当初 Stable Diffusion 也是这么与 Stability AI 合作)。和另外两个版本一样,OpenLLaMA-13B 也以两种格式发布权重:
一是用于 Hugging Face transformer 的 PyTorch 格式。
使用该格式时需要注意先避免使用 Hugging Face 快速分词器(tokenizer),因为它的自动转换功能有时会给出不正确的 tokenization。
所以可以先直接使用 LlamaTokenizer class 来实现,或者用 AutoTokenizer class,将 use_fast 赋为 False。
二是用于 EasyLM 框架的 EasyLM 格式。
在此请注意,与原始 LLaMA 不同,该 OpenLLaMA 的分词器和权重是完全从头开始训练的,因此不再需要获取原始 LLaMA 的这俩信息。
接下来,在训练量已达成一致的情况下,看 OpenLLaMA 各规模模型的性能表现如何。
在这里,作者使用 EleutherAI 发布的自回归语言模型 few-shot 评估框架(lm-evaluation-harness)对两只 " 羊驼 " 进行评估,以及还加入了 " 第三者 ":
EleutherAI 在 Pile 数据集上训练的 60 亿参数模型GPT-J,它的训练 token 数是 5000 亿。
需要注意的是,可能是因为不同的评估协议,作者跑出来的 LLaMA 结果与原始 LLaMA 略有不同。
以下是结果:
红色小方框为 OpenLLaMA 超过或者与原 LLaMA 表现一样的情况。
在红框之外,两者的差距也不大。
而从平均表现来看,OpenLLaMA-7B 和 LLaMA-7B 得分都是 0.55,OpenLLaMA-13B 和 LLaMA-13B 也都一样,为 0.57,主打一个势均力敌。与此同时,只有 30 亿参数的 OpenLLaMA 平均性能超越 60 亿参数的 GPT-J。
Meta 也要发可商用大模型了
特斯拉前 AI 高级总监 Andrej Karpathy 在上个月的微软 Build 大会的演讲上,曾多次表达一个意思:
LLaMA-65b 就是目前最好的开源基础模型,可惜没能商用。
现在,650 亿的商用平替羊驼虽然还没出现,130 亿和 70 亿是已经妥妥安排好了。不过,也有一则好消息。
就在几天前,据 The Information 爆料,Meta AI 正计划发布一个新的 LLM,并且免费供大家商用。
有观点指出,在如今行业大佬如谷歌 Bard 和 OpenAI ChatGPT 都 " 紧闭大门 " 的情况下,Meta 这一做法可能会引发连锁反应,并且开源模型和闭源模型的差距会越来越小。
就且拭目以待。
关于 OpenLLaMA 的所有相关链接:
https://github.com/openlm-research/open_llama
https://huggingface.co/openlm-research/open_llama_13b
本文参考链接还包括:
https://www.artisana.ai/articles/metas-plan-to-offer-free-commercial-ai-models-puts-pressure-on-google-and
-
-
重训「羊驼」大模型并彻底开放商用,UC 伯克利博士生:Meta 不愿做就自己做|世界播资讯
-
1—5月家电以旧换新销售额同比增83.7%
-
下半年面板市场有望迎来“量价齐升”
-
天天新消息丨京东618互联网电商保险保费同比大涨130%,京东保险板块助力提升 “多快好省”购物体验
-
小米Redmi Note 12R上架:首发骁龙4 Gen2、三星4nm制程 当前讯息
-
蒙牛液态奶有哪些品种?蒙牛品牌介绍
-
DDR5时代万年老二SK海力士翻身:128GB单条仅此一家 天天滚动
-
深圳新星(603978):董事、高级管理人员减持股份结果
-
郑州5月商品房销售1.37万套 住宅销售面积环比涨四成
-
世界微动态丨荣耀加冕《第五人格》第二十八赛季·精华1 今日上线!
-
每日速讯:怎样才能护肝排毒养颜_怎样才能护肝
-
多彩民俗迎端午 环球聚看点
-
百度提问在线回答问题怎么操作?如何查看我在百度知道提问的回答?
-
代位继承适用的范围是法定继承_代位继承适用的范围是-天天新要闻
-
当前动态:肝火旺怎么调理喝什么茶_肝火旺怎么调理
-
-
建行鄂尔多斯分行赴农牧区开展金融知识普及活动 微头条
06-20, 19:03 -
焦点速读:国家移民管理局:预计端午节期间全国口岸将迎出入境客流“小高峰”
06-20, 19:01 -
天天动态:金融“活水”赋能 内蒙古“五大任务”见行见效
06-20, 10:53 -
工信部:加强电子信息产业标准制定
06-20, 11:02 -
教育部公布“2023年高考网上咨询周”时间安排
06-20, 10:44 -
5月份民航国内客运规模比2019年同期增2.6%
06-20, 09:59 -
开心、安心、放心——山西小麦主产区夏收见闻_世界聚焦
06-20, 09:48 -
防治校园欺凌,校方该承担什么角色?_环球讯息
06-20, 08:47 -
每日播报!新场景、新模式成增长新亮点 “618”助力消费回升向好
06-20, 08:51