位置: IT常识 - 正文

训练自己的GPT2-Chinese模型(训练自己的GPT)

编辑:rootadmin
训练自己的GPT2-Chinese模型 文章目录效果抢先看准备工作环境搭建创建虚拟环境训练&预测项目结构模型预测续写训练模型遇到的问题及解决办法显存不足生成的内容一样文末效果抢先看

推荐整理分享训练自己的GPT2-Chinese模型(训练自己的GPT),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:训练自己的GPT模型,训练自己的GPT模型,训练自己的gpt 问答库,训练自己的大语言模型,训练自己的GPT模型,训练自己的GPT,训练自己的gpt模型有什么用,训练自己的gpt模型有什么用,内容如对您有帮助,希望把文章链接给更多的朋友!

准备工作

从GitHub上拉去项目到本地,准备已训练好的模型百度网盘:提取码【9dvu】。

gpt2对联训练模型gpt2古诗词训练模型gpt2通用中文模型gpt2通用中文小模型gpt2文学散文训练模型gpt2中文歌词模型环境搭建配置好GPU的pytorch环境 a. 安装Anaconda环境 b. NIVIDA配置流程 桌面右键鼠标,找到NVIDIA控制面板,在左边找到开发者下管理GPU性能计数器,导航栏点击桌面选择启用开发者设置,弹出的系统信息中找到组件,找到产品名前缀为NVIDIA CUDA的那一条,记住其后面的版本号。 c. 进入NVIDIA官网下载CUDA,找到上一步记录的NVIDIA CUDA后的版本号相对应的链接。如版本信息为11.4就选择11.4 d. 下载完点击安装就行了 e. 安装cuDNN,选择相应的版本。这个地方要登录账号,没有账号可以注册,也可以选择QQ或微信登录,选择刚才的CUDA版本,下载压缩包 f. 下载完成后解压缩,并修改根目录名为cudnn g. 将整个文件复制到xxx\NVIDIA GPU Computing Toolkit\CUDA\v11.4目录下 h. 设置变量环境,添加两个环境变量路径,根据自己的实际情况目录修改

pytorch配置 a. 去pytorch官网找到相应的gpu版本或cpu版本,找到后安装命令会出现在command栏 找不到自己的版本点击previous version链接 b. 使用管理员身份执行cmd,否则会安装失败

conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch

安装完成之后执行命令conda list查看是否安装成功

训练自己的GPT2-Chinese模型(训练自己的GPT)

打开终端输入python,使用以下代码查看torch显示GPU不可用状态

>>>import torch>>>torch.cuda.is_available()False

c. 标准查看torch版本

>>>import torch>>>torch.__version__1.10.2

pytorch轮子配置 a. whl轮子配置,根据CUDA版本选择相应的版本。其中cu表示GPU版本,cpu表示CPU版本 b. 下载完成之后本地使用pip install 安装

pip install .\torchvision-0.13.1+cpu-cp39-cp39-win_amd64.whlpip install .\torch-1.10.2+cu113-cp39-cp39-win_amd64.whl

c. 安装完成之后验证torch

>>>import torch>>>torch.cuda.is_available()True创建虚拟环境为了能够顺利使用环境,推荐使用python3.7.1版本conda create -n venv_name python=3.7.1激活 虚拟环境conda activate venv_namepip安装所需库pip install transformers==2.1.1pip install tensorflow==2.0.0 pip install numpypip install tqdmpip install sklearnpip install keraspip install tb-nightlypip install futurepip install thulacpip install setuptools==59.5.0pip install torch==1.10.2+cu113 torchvision==0.3.0 --extra-index-url 训练&预测项目结构config: 存放模型的配置文件data: 存放训练数据model: 存放模型cache: 用于模型训练之前的数据预处理sample: 用于存放生成样本的目录generate.py: 生成代码train.py: 训练多文本启动代码train_single.py: 训练但文本启动代码tokenizations: 用于文本数据转换tokenizations的脚本模型预测续写

参数说明:

length: 生成的最长长度prefix: 文章开头fast_pattern: 快速生成模式save_samples: 保存生成文本结果的位置temperature: 越小越遵循训练样本,续写的内容的思维越发散# 通用模型预测文本python ./generate.py --length=100 --nsamples=4 --prefix=天津是一座美丽的城市。 --fast_pattern --save_samples ----model_path=model/use_model --model_config=config/model_config_small.json --topk=8 --temperature=0.8 --batch_size=2# 制定模型输出python ./generate.py --length=300 --nsamples=4 --prefix=萧炎,斗之力。 --fast_pattern --save_samples --model_path=model/model_epoch18 --model_config=model/model_epoch18/config.json --topk=8 --temperature=1 --batch_size=1

其他参数参考:

训练模型

将训练语料以train.json的格式放入data目录中

如果文件格式为train.json格式,那么将train.py文件中的读取方式为:lines = json.load(f) 如果文件格式为train.txt格式,即数据格式为[”正文1“, ”正文2“, ”正文3“],那么将train.py文件中的读取方式为:lines = f.readlines()

运行train.py文件并设定--raw参数,会自动预处理数据,预处理完成之后,会自动执行训练。

python train.py --raw遇到的问题及解决办法显存不足语料太大:在config文件中选择小一点的json文件batch_size过大:默认训练是8,可以改成4或者6尝试生成的内容一样修改generate.py中的batch_size=1文末

此训练结果生成比较简单的文章还可以,但是需要达到理想的效果,还需要更大的数据体系和语料以及长期的模型训练,基于原有的算法二次开发,门槛也比较高,而且这种业务比较吃硬件资源。

本文链接地址:https://www.jiuchutong.com/zhishi/298719.html 转载请保留说明!

上一篇:路由懒加载及实现方式(vue-router)(路由加载的几种方式)

下一篇:2022前端面经---改变this指向问题(call、apply、bind)(2021年前端面试)

  • oppo手机下载的软件不在桌面上怎么办(oppo手机下载的视频怎么找不到呢)

    oppo手机下载的软件不在桌面上怎么办(oppo手机下载的视频怎么找不到呢)

  • 拼多多个人店铺需要营业执照吗(拼多多个人店铺营业额超10万要营业执照吗)

    拼多多个人店铺需要营业执照吗(拼多多个人店铺营业额超10万要营业执照吗)

  • 华为mate30线性马达可以设置吗(华为mate30线控设置方法)

    华为mate30线性马达可以设置吗(华为mate30线控设置方法)

  • 荣耀play4pro和荣耀v30pro的区别(荣耀play4Pro和荣耀X10)

    荣耀play4pro和荣耀v30pro的区别(荣耀play4Pro和荣耀X10)

  • 电脑组装机需要买什么(电脑组装机需要注意什么)

    电脑组装机需要买什么(电脑组装机需要注意什么)

  • 腾讯王卡看快手免费吗(腾讯王卡看快手极速版免流吗)

    腾讯王卡看快手免费吗(腾讯王卡看快手极速版免流吗)

  • 笔记本自带摄像头像素多少(笔记本自带摄像头打不开怎么办)

    笔记本自带摄像头像素多少(笔记本自带摄像头打不开怎么办)

  • 华为nava7与nava7se有什么区别

    华为nava7与nava7se有什么区别

  • 手机电不耐用是手机问题还是电池问题(手机电不耐用是咋回事)

    手机电不耐用是手机问题还是电池问题(手机电不耐用是咋回事)

  • nova6截屏快捷怎么操作(华为nova6截图按哪个)

    nova6截屏快捷怎么操作(华为nova6截图按哪个)

  • 淘宝多久自动确认收货(淘宝多久自动确认收货好评)

    淘宝多久自动确认收货(淘宝多久自动确认收货好评)

  • id面容不可用怎么回事(id面容不可用怎么关闭)

    id面容不可用怎么回事(id面容不可用怎么关闭)

  • 华为手机怎么弄两个微信出来(华为手机怎么弄门禁卡开门锁)

    华为手机怎么弄两个微信出来(华为手机怎么弄门禁卡开门锁)

  • qq怎么取消简洁模式(qq怎么取消简洁模式设置)

    qq怎么取消简洁模式(qq怎么取消简洁模式设置)

  • iphone5s怎么没4g(iphone5s为啥没4g)

    iphone5s怎么没4g(iphone5s为啥没4g)

  • 无障碍模式是什么意思(无障碍模式是怎么回事)

    无障碍模式是什么意思(无障碍模式是怎么回事)

  • 如何将文件放到桌面上(如何将文件放到文件夹里面)

    如何将文件放到桌面上(如何将文件放到文件夹里面)

  • 华为荣耀9xpro上市时间

    华为荣耀9xpro上市时间

  • blnal30是什么型号(bln_al30)

    blnal30是什么型号(bln_al30)

  • 高德是北斗还是gps(高德就是北斗吗)

    高德是北斗还是gps(高德就是北斗吗)

  • soul怎么看访客(soul怎么看我看过谁)

    soul怎么看访客(soul怎么看我看过谁)

  • 华为nova4上面的孔都是啥(华为nova4上面的灯关屏还闪)

    华为nova4上面的孔都是啥(华为nova4上面的灯关屏还闪)

  • win11系统怎么删除此电脑里的百度网盘图标? 百度网盘的删除方法(win11系统怎么删除账户)

    win11系统怎么删除此电脑里的百度网盘图标? 百度网盘的删除方法(win11系统怎么删除账户)

  • 税后净营业利润和净利润的区别
  • 简易办法征收增值税怎么计算
  • 个人所得税如何办理退税
  • 印花税贴花是什么时候取消的
  • 月末处理工作主要包括
  • 一般纳税人印花税是季报还是月报
  • 预缴的增值税怎么算
  • 为什么纳税申报
  • 税收的优惠性政策包括哪些
  • 企业纳税成本管理方案
  • 本年本期累计
  • 购买折让
  • 预期收益率计算器
  • 预付账款 费用
  • 长期待摊费用计提摊销的会计分录
  • 土地价值是否计入GDP
  • 固定资产评估是什么单位
  • 个人承包是什么意思
  • 环境保护税由什么部门负责征收管理
  • 私人账户转到企业账户
  • 旅行社税收
  • 冲失业保险分录怎么做
  • 公司聚餐计入福利费还是招待费
  • 清算期待摊费用怎么计算
  • 服务业成本会计分析
  • 企业之间的违约金进什么科目
  • 财务软件单机版下载免费
  • 退货红冲发票要收回原发票吗
  • register.exe - register进程有什么用.是什么意思
  • php编程风格规范要求
  • 计提个体户经营所得税
  • 计提下个月工资怎么做
  • 未开票收入以后必须开票吗
  • 通过session实现用户的登录与登出功能
  • 中科院怎么赚钱
  • vue input value
  • smarty怎么用
  • 企业废业什么意思
  • 汇算清缴的表在哪里
  • 怎么给复选框赋值
  • 表单建模
  • vue中使用require报错
  • flex布局教程实例篇
  • 微信php源码
  • mysql查找重复项
  • 投资收益主要包括两大类收益
  • switch关键账号教程
  • phpcms v9 getshell
  • mysql修改表结构会锁表吗
  • 其他应收款专项审计报告
  • 公司纳税信用等级B级是什么意思
  • 高新企业申请流程
  • 哪些发票可以抵扣?
  • 绩效工资交个人所得税吗
  • mysql查询性能分析
  • 固定资产的定义是什么?
  • 红字发票销项税额账务处理
  • 发票跨年冲红怎么做账
  • 房地产增值税发票是什么意思
  • 应交个人所得税借方余额表示什么
  • 药品进销差价的计算公式是什么
  • 管理会计在企业中的地位如何?为什么
  • freebsd常用命令
  • 多系统安装方法
  • win8系统如何查看电脑mac物理地址
  • win7和vista的区别
  • win7 word
  • win7如何更改文件后缀格式
  • linux如何创建ftp
  • linux删错文件
  • opengl es2
  • IE6/IE7/IE8/IE9中tbody的innerHTML不能赋值的完美解决方案
  • opengl教程48讲
  • unity 静态函数
  • 简述jQuery ajax的执行顺序
  • node.js 定时任务
  • unity中物体移动代码
  • 新公司税务报到流程步骤
  • 广西电子税务局电话人工客服电话
  • 西安市地方税务局高新技术产业开发区分局
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设