位置: IT常识 - 正文

Bert 得到中文词向量(bert获取中文词向量)

编辑:rootadmin
Bert 得到中文词向量

推荐整理分享Bert 得到中文词向量(bert获取中文词向量),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert英文发音,bert读,bert获取中文词向量,bert翻译成中文,bert分词得到词向,bert翻译成中文,bert中文分词,bert中文分词,内容如对您有帮助,希望把文章链接给更多的朋友!

通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中

得到中文词向量的代码如下

import torchfrom transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 加载base模型的对应的切词器model = BertModel.from_pretrained('bert-base-chinese')print(tokenizer) # 打印出对应的信息,如base模型的字典大小,截断长度等等token = tokenizer.tokenize("自然语言处理") # 切词print(token) # 切词结果indexes = tokenizer.convert_tokens_to_ids(token) # 将词转换为对应字典的idprint(indexes) # 输出idtokens = tokenizer.convert_ids_to_tokens(indexes)# 将id转换为对应字典的词print(tokens) # 输出词# 使用这种方法对句子编码会自动添加[CLS] 和[SEP]input_ids = torch.tensor(tokenizer.encode("自然语言处理")).unsqueeze(0)print(input_ids)outputs = model(input_ids)# cls_id = tokenizer._convert_token_to_id('[CLS]')# sep_id = tokenizer._convert_token_to_id('[SEP]')# print(cls_id, sep_id)sequence_output = outputs[0]print(sequence_output)print(sequence_output.shape) ## 字向量Bert 得到中文词向量(bert获取中文词向量)

输出的结果如下

PreTrainedTokenizer(name_or_path='bert-base-chinese', vocab_size=21128, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})['自', '然', '语', '言', '处', '理'][5632, 4197, 6427, 6241, 1905, 4415]['自', '然', '语', '言', '处', '理']tensor([[ 101, 5632, 4197, 6427, 6241, 1905, 4415, 102]])tensor([[[-0.5707, 0.1999, -0.0637, ..., -0.0916, -0.3997, 0.1751], [ 0.1549, 0.2454, 0.8372, ..., -0.7411, -0.8433, 0.5498], [ 0.1983, -0.5007, -0.6416, ..., 0.0322, -0.2561, 0.0599], ..., [ 0.1960, 0.4055, 1.6229, ..., 0.1070, -0.2448, 0.1766], [ 0.0846, 0.9084, 0.5164, ..., 0.0235, 0.6487, -0.0858], [-0.5326, -0.0390, 1.9163, ..., 0.1597, -0.2909, 0.6810]]], grad_fn=<NativeLayerNormBackward0>)torch.Size([1, 8, 768])

当然还可以通过bert-as-service得到词向量,网上有很多,步骤如下:

安装肖涵博士的bert-as-service: pip install bert-serving-server pip install bert-serving-client

下载训练好的Bert中文词向量: https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

启动bert-as-service: 找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12 打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:

bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1#后台启动服务(nohup .... &)nohup bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1 &

即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。) 启动后结果如下: 获取Bert预训练好的中文词向量:

from bert_serving.client import BertClient bc = BertClient() print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示 print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示 print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。

本文链接地址:https://www.jiuchutong.com/zhishi/295945.html 转载请保留说明!

上一篇:Java - token的存储与获取(javatoken生成机制)

下一篇:vue项目根据不同环境动态配置接口请求ip及全局变量(vue环境变量配置)(vue调用同一个组件)

  • 蒙脱石散一夜脱销,民众到底怎么了?

    蒙脱石散一夜脱销,民众到底怎么了?

  • 华为套餐限额设置完怎么取消(华为套餐限额设置不了)

    华为套餐限额设置完怎么取消(华为套餐限额设置不了)

  • 表格怎么把井号变数字(做表格单元格里面井号怎么变成数字)

    表格怎么把井号变数字(做表格单元格里面井号怎么变成数字)

  • 拼多多收藏的东西别人能看到吗(拼多多收藏的东西怎么分享给好友)

    拼多多收藏的东西别人能看到吗(拼多多收藏的东西怎么分享给好友)

  • 荣耀8是华为手机吗(华为华为荣耀8)

    荣耀8是华为手机吗(华为华为荣耀8)

  • 将文件从服务器向用户方向传输是(将文件从服务器传输到客户机的过程)

    将文件从服务器向用户方向传输是(将文件从服务器传输到客户机的过程)

  • 6.1寸手机有哪些(安卓6.1寸手机有哪些)

    6.1寸手机有哪些(安卓6.1寸手机有哪些)

  • excel修订模式怎么用(excel修订模式怎么打开)

    excel修订模式怎么用(excel修订模式怎么打开)

  • 苹果7p网络信号不好怎么办(苹果7p网络信号不稳定)

    苹果7p网络信号不好怎么办(苹果7p网络信号不稳定)

  • 天猫多久不发货可以赔偿(天猫多久不发货缺货)

    天猫多久不发货可以赔偿(天猫多久不发货缺货)

  • 微信聊天记录能查几年(微信聊天记录能存留多久)

    微信聊天记录能查几年(微信聊天记录能存留多久)

  • oppok5手机什么时候上市(oppok5手机什么时候出的)

    oppok5手机什么时候上市(oppok5手机什么时候出的)

  • 闲鱼拉黑对方还能评价吗(闲鱼拉黑对方还能评价商品吗)

    闲鱼拉黑对方还能评价吗(闲鱼拉黑对方还能评价商品吗)

  • 钉钉视频会议屏幕共享为什么没有声音(钉钉视频会议屏幕共享没有声音)

    钉钉视频会议屏幕共享为什么没有声音(钉钉视频会议屏幕共享没有声音)

  • qq群进不去怎么回事(qq群进不去怎么解决)

    qq群进不去怎么回事(qq群进不去怎么解决)

  • 解除拉黑对方知道吗(把拉黑的人解除黑名单对方有提示吗)

    解除拉黑对方知道吗(把拉黑的人解除黑名单对方有提示吗)

  • iphone夜览模式费电吗(苹果手机的夜览模式耗电吗)

    iphone夜览模式费电吗(苹果手机的夜览模式耗电吗)

  • qq潜水是什么意思(qq潜水表情)

    qq潜水是什么意思(qq潜水表情)

  • 天猫魔盒怎么更换输入法(天猫魔盒怎么更改默认桌面)

    天猫魔盒怎么更换输入法(天猫魔盒怎么更改默认桌面)

  • 15分钟的视频怎么发给微信好友(15分钟的视频怎么剪辑)

    15分钟的视频怎么发给微信好友(15分钟的视频怎么剪辑)

  • 荣耀手环哪个可以接电话(荣耀手环性价比)

    荣耀手环哪个可以接电话(荣耀手环性价比)

  • word选项在哪里(wpsword选项在哪里)

    word选项在哪里(wpsword选项在哪里)

  • windows无法格式化sd卡(windows无法格式化sd卡怎么办)

    windows无法格式化sd卡(windows无法格式化sd卡怎么办)

  • 如何使用淘宝优惠券(淘宝优选入口在哪)

    如何使用淘宝优惠券(淘宝优选入口在哪)

  • 苹果手机和华为手机蓝牙怎么传送(苹果手机和华为手机哪个好)

    苹果手机和华为手机蓝牙怎么传送(苹果手机和华为手机哪个好)

  • 苹果12.2什么时候更新(苹果12.2版本什么时候出来的)

    苹果12.2什么时候更新(苹果12.2版本什么时候出来的)

  • 笔记本cpu天梯图(笔记本cpu天梯图苹果)

    笔记本cpu天梯图(笔记本cpu天梯图苹果)

  • 小规模纳税人报税时间
  • 金融资产交易增值税
  • 年终奖个人所得税计算器
  • 记账王怎么查询凭证
  • 预缴增值税的附加税
  • 钱收多了退回去怎么说好
  • 轿车被盗
  • 财政补贴的概念是什么?其性质是什么?
  • 其他应收款账户期初借方余额为35400
  • 折旧方法改变属于会计政策变更还是估计变更
  • 年末发票
  • 应收账款折扣怎么计算
  • 免税农产品如何填报企业所得税季报
  • 商品非正常损耗收取的赔偿款账务处理怎么做?
  • 公司缴纳个人所得税会计分录
  • 建筑行业异地预缴增值税
  • 溢价收购怎么做账
  • 票面利率大于市场利率是溢价吗
  • 外商投资企业退出条件
  • 停车场收入怎么做账
  • 个人申请补交个税怎么写
  • 缴纳了土地增值税怎么退
  • 法律规定临时工工资最迟多久结清
  • 设备服务费是什么
  • 企业所得税本季度可以弥补上季度亏损吗?
  • 收到福利费专票需要认证吗
  • 工会经费申报表的应税项应该怎样填写
  • 理发店财务分析报告
  • 个人所得税的税率是多少
  • 面对通过网络涌入的大量信息,我们应该学会
  • u盘启动器安装系统
  • gsicon.exe是什么进程 作用是什么 gsicon进程查询
  • 远程桌面连接的用户名和密码在哪里看
  • 股权转让的条件和方式
  • 权益的定义特征
  • php用户登录界面
  • 物流公司过户给我需要做什么
  • trace 命令用法
  • tcpdump 监听指定端口
  • 帝国cms怎么上传图片
  • 豪华车消费税的计算公式
  • 销售返利的会计分录处理
  • HTTP/1.1 XCache header field
  • sql server 视图排序
  • 实缴资本需要存放多久
  • 机器设备可以作为出资方式吗
  • 先预付货款,货到了怎么做账
  • 以前年度少记税怎么办
  • 偶然所得代扣代缴个人所得税会计分录
  • 专票已认证还能作废吗
  • 电子商业承兑会不会拿不到钱
  • 合作研究开发项目的合同
  • 给员工买的手机能抵扣税吗
  • 公司帮别人代缴社保要交税吗
  • 固定资产折旧的影响因素
  • 暂估成本对冲分录怎么写
  • linux信号机制的原理
  • centos彻底删除文件命令
  • uphclean.exe - uphclean进程是什么意思
  • win7 系统没有声音
  • win8平板玩lol
  • jquery 使用
  • cocos2d安装
  • 以下关于shell脚本参数
  • css的transition和animation
  • python如何用turtle
  • opengl 2
  • unity3d网络游戏开发
  • jqgrid单元格点击事件
  • 浅谈一下新冠的好处
  • javascript高级程序设计pdf百度云
  • &lt;script defer&gt; defer 是什么意思
  • jquery和dom对象之间怎么转换
  • python 内置函数什么用来返回序列中的最大元素
  • jquery移动版
  • 上海自贸试验区临港新片区
  • 青岛新农合咨询电话
  • 哪个部门负责药品检验
  • 广州地税网上社保怎么交
  • 地方税务局发票管理所
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设