重训「羊驼」大模型并彻底开放商用,UC 伯克利博士生:Meta 不愿做就自己做|世界播资讯

来源:量子位时间:2023-06-21 14:47:09

Meta" 羊驼 "(LLaMA)的开源可商用复现品 OpenLLaMA 发布重大更新:

1T token上训练出来的130 亿参数版本现已正式上线。

至此,这一训练量和原版羊驼已完全一致。


(资料图)

与此同时,之前发布的 70 亿以及 30 亿参数版本也完成了 1T token 的训练,并发布 PyTorch 和 JAX 权重。

可谓 " 一家人整整齐齐 "。

性能测试显示,OpenLLaMA 在多项任务中的表现都与原始 LLaMA 相当,并且不乏超越的情况。

一个彻底开源且供商用的 LLaMA 竞品家族就此诞生了。

目前,OpenLLaMA 在 GitHub 上的标星数已近 5k。

重训 " 羊驼 ",最香替代品全面开放商用

OpenLLaMA 是 UC 伯克利的博士生Hao Liu发起的项目(Xinyang Geng 拥有同等贡献,也是该校博士生)。

它在 Together 公司发布的 RedPajama 数据集上训练,该数据集其实也是 LLaMA 训练集的复制品,一共包含 1.2T token。

除了数据集不太一样之外,OpenLLaMA 使用了与原始 LLaMA完全相同的预处理步骤和训练超参数,包括模型架构、上下文长度、训练步骤、学习率时间表和优化器,可以说是 " 重训 " 了一把。

今年 5 月,该团队率先发布了 70 亿参数版本,不过当时训练 token 还是 3000 亿。

按照计划,如今和原 LLaMA 训练数据量一致的 130 亿参数版本和 70 亿、30 亿版本一同发布。

据介绍,130 亿版本是与Stability AI合作训练的,后者主要提供计算资源(当初 Stable Diffusion 也是这么与 Stability AI 合作)。

和另外两个版本一样,OpenLLaMA-13B 也以两种格式发布权重:

一是用于 Hugging Face transformer 的 PyTorch 格式。

使用该格式时需要注意先避免使用 Hugging Face 快速分词器(tokenizer),因为它的自动转换功能有时会给出不正确的 tokenization。

所以可以先直接使用 LlamaTokenizer class 来实现,或者用 AutoTokenizer class,将 use_fast 赋为 False。

二是用于 EasyLM 框架的 EasyLM 格式。

在此请注意,与原始 LLaMA 不同,该 OpenLLaMA 的分词器和权重是完全从头开始训练的,因此不再需要获取原始 LLaMA 的这俩信息。

接下来,在训练量已达成一致的情况下,看 OpenLLaMA 各规模模型的性能表现如何。

在这里,作者使用 EleutherAI 发布的自回归语言模型 few-shot 评估框架(lm-evaluation-harness)对两只 " 羊驼 " 进行评估,以及还加入了 " 第三者 ":

EleutherAI 在 Pile 数据集上训练的 60 亿参数模型GPT-J,它的训练 token 数是 5000 亿。

需要注意的是,可能是因为不同的评估协议,作者跑出来的 LLaMA 结果与原始 LLaMA 略有不同。

以下是结果:

红色小方框为 OpenLLaMA 超过或者与原 LLaMA 表现一样的情况。

在红框之外,两者的差距也不大。

从平均表现来看,OpenLLaMA-7B 和 LLaMA-7B 得分都是 0.55,OpenLLaMA-13B 和 LLaMA-13B 也都一样,为 0.57,主打一个势均力敌

与此同时,只有 30 亿参数的 OpenLLaMA 平均性能超越 60 亿参数的 GPT-J。

Meta 也要发可商用大模型了

特斯拉前 AI 高级总监 Andrej Karpathy 在上个月的微软 Build 大会的演讲上,曾多次表达一个意思:

LLaMA-65b 就是目前最好的开源基础模型,可惜没能商用。

现在,650 亿的商用平替羊驼虽然还没出现,130 亿和 70 亿是已经妥妥安排好了。

不过,也有一则好消息。

就在几天前,据 The Information 爆料,Meta AI 正计划发布一个新的 LLM,并且免费供大家商用

有观点指出,在如今行业大佬如谷歌 Bard 和 OpenAI ChatGPT 都 " 紧闭大门 " 的情况下,Meta 这一做法可能会引发连锁反应,并且开源模型和闭源模型的差距会越来越小。

就且拭目以待。

关于 OpenLLaMA 的所有相关链接:

https://github.com/openlm-research/open_llama

https://huggingface.co/openlm-research/open_llama_13b

本文参考链接还包括:

https://www.artisana.ai/articles/metas-plan-to-offer-free-commercial-ai-models-puts-pressure-on-google-and

关键词:

相关阅读

推荐阅读

银鹏控股公司:业务交流促提升互学互鉴共进步|世

3月2日,银鹏控股公司董事长刘懿婷带队前往中粮集团期货公司进行业务学习和交流。中粮期货公司从业多年、具有丰富实战经验的风险管理专家现场更多

2023-03-07 17:52:41

我国首个万吨级钠离子电池材料项目在山西综改区开

山西晚报讯(记者温丽芳通讯员张晓茹)日前,总投资约11亿元的山西华钠铜能(碳能)科技有限责任公司万吨级钠离子电池正(负)极材料项目在山更多

2023-03-07 11:51:14

建行阳江市分行:践行金融惠民理念-全球关注

2月24日,随着客户办妥抵押登记手续并成功放款,标志着阳江市建行“带押过户”业务取得历史性突破。根据中国人民银行发布《关于鼓励推广二手房更多

2023-03-07 11:53:21

焦点简讯:证监会同意三超新材向特定对象发行股票

中证网讯(记者昝秀丽)证监会网站3月6日消息,证监会发布关于同意南京三超新材料股份有限公司向特定对象发行股票注册的批复。【来源:中国证更多

2023-03-07 09:57:39

美股航空股6日全线走低

中证网讯(记者赵中昊)当地时间周一(3月6日),美股航空股全线走低。据wind数据,截至收盘,波音跌1 49%,美国航空跌1 47%,达美航空跌1%,更多

2023-03-07 09:43:44

世界热资讯!晋钢控股集团荣登2022山西省品牌十强

近日,“品牌强国(龙城)论坛”在太原举行,发布“2022中国上市公司品牌500强”以及“2022山西省品牌100强”。晋钢控股集团以218 9亿元的品牌更多

2023-03-06 17:38:52

手绘报告:2023预期目标

【来源:中国政府网】声明:转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请作者持权属证明发至邮箱newmedia@xx更多

2023-03-06 16:46:31

惠州首笔数字人民币缴纳税费业务成功落地

3月1日,TCL科技集团财务有限公司拿到了全市第一张使用数字人民币账户缴纳税款和非税收入的完税凭证,标志着惠州市首笔数字人民币缴纳税费业务更多

2023-03-06 11:50:50
    首套房公积金利率下调原来贷款也下调吗首套房公积金利率下调原来...
    政府回购商品房意味着什么政府收购商品房的首要目的是稳定市场。...
    把自己房子卖了再买算首套房吗买过一套房卖了再买算首套房。简单...
    买房交首付注意事项有哪些1、核实开发商五证。在交首付时,需要先...
    房屋契税征收比例契税税率的缴纳一般分为以下几种情况:1、面积小...
    房山区住建委近日发布《房山区2022年第二批毕业大学生对接保障性...

关于我们 Copyright   2015-2022 当代财经网  www.ddcjw.cn 版权所有  备案号:京ICP备2021034106号-19  联系邮箱:55 16 53 8 @qq.com