中国什么时候才会有chatgpt

目前还没有官方的中文版 ChatGPT,但是有一些开发者在尝试使用开源的 Alpaca-LoRA(开源的聊天机器人项目)来训练自己的中文对话模型。Alpaca-LoRA 是一个基于 LLaMA(开源大模型) 的 70 亿参数的模型,使用了 LoRA(大语言模型的低阶适应),这是微软的研究人员为了解决大语言模型微调而开发的一项技术。可以使用此技术来降低微调的算力需求。

LoRA (大语言模型的低阶适应)的思想是在原始 PLM (预训练语言模型)旁边增加一个旁路,做一个降维再升维的操作,来模拟所谓的 intrinsic rank①。

①intrinsic rank 是一种衡量矩阵的内在维度的概念,是指构成矩阵的最少的列向量的个数。在 PLM 的微调中,intrinsic rank 是指原始 PLM(预训练语言模型) 的参数矩阵中包含的有效信息的维度,通常远小于矩阵的实际维度。使用 LoRA 技术,可以通过降维和升维的操作,来近似原始 PLM 的 intrinsic rank,从而减少微调的参数量和计算量。

训练的时候固定 PLM(预训练语言模型) 的参数,只训练降维矩阵 A 与升维矩阵 B。Alpaca-LoRA (开源的聊天机器人项目)使用了 Hugging Face (自然语言处理公司)的 PEFT ②和 bitsandbytes ③来实现高效的微调。有人使用 RTX 4090 显卡,只用 5 个小时就训练了一个和 Alpaca (聊天机器人)水平相当的模型。只要持续训练,相信不久的将来就会出现中国版的chatGPT。

②PEFT 是实现的参数高效微调的方法。PEFT 可以在低资源硬件上对十亿规模的预训练语言模型进行微调,只需要训练少量的额外参数,从而大大降低了计算和存储成本

③bitsandbytes 是一个用于 PyTorch (源的Python机器学习库)的 8 位 CUDA 函数的库,可以提高参数高效微调的效率和稳定性。bitsandbytes 提供了 8 位优化器、矩阵乘法、量化和快速分位数估计等功能。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 490382048@qq.com 举报,一经查实,本站将立刻删除。

相关推荐

大家在看

返回顶部