位置: IT常识 - 正文

Bert 得到中文词向量(bert获取中文词向量)

编辑:rootadmin
Bert 得到中文词向量

推荐整理分享Bert 得到中文词向量(bert获取中文词向量),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert英文发音,bert读,bert获取中文词向量,bert翻译成中文,bert分词得到词向,bert翻译成中文,bert中文分词,bert中文分词,内容如对您有帮助,希望把文章链接给更多的朋友!

通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中

得到中文词向量的代码如下

import torchfrom transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 加载base模型的对应的切词器model = BertModel.from_pretrained('bert-base-chinese')print(tokenizer) # 打印出对应的信息,如base模型的字典大小,截断长度等等token = tokenizer.tokenize("自然语言处理") # 切词print(token) # 切词结果indexes = tokenizer.convert_tokens_to_ids(token) # 将词转换为对应字典的idprint(indexes) # 输出idtokens = tokenizer.convert_ids_to_tokens(indexes)# 将id转换为对应字典的词print(tokens) # 输出词# 使用这种方法对句子编码会自动添加[CLS] 和[SEP]input_ids = torch.tensor(tokenizer.encode("自然语言处理")).unsqueeze(0)print(input_ids)outputs = model(input_ids)# cls_id = tokenizer._convert_token_to_id('[CLS]')# sep_id = tokenizer._convert_token_to_id('[SEP]')# print(cls_id, sep_id)sequence_output = outputs[0]print(sequence_output)print(sequence_output.shape) ## 字向量Bert 得到中文词向量(bert获取中文词向量)

输出的结果如下

PreTrainedTokenizer(name_or_path='bert-base-chinese', vocab_size=21128, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})['自', '然', '语', '言', '处', '理'][5632, 4197, 6427, 6241, 1905, 4415]['自', '然', '语', '言', '处', '理']tensor([[ 101, 5632, 4197, 6427, 6241, 1905, 4415, 102]])tensor([[[-0.5707, 0.1999, -0.0637, ..., -0.0916, -0.3997, 0.1751], [ 0.1549, 0.2454, 0.8372, ..., -0.7411, -0.8433, 0.5498], [ 0.1983, -0.5007, -0.6416, ..., 0.0322, -0.2561, 0.0599], ..., [ 0.1960, 0.4055, 1.6229, ..., 0.1070, -0.2448, 0.1766], [ 0.0846, 0.9084, 0.5164, ..., 0.0235, 0.6487, -0.0858], [-0.5326, -0.0390, 1.9163, ..., 0.1597, -0.2909, 0.6810]]], grad_fn=<NativeLayerNormBackward0>)torch.Size([1, 8, 768])

当然还可以通过bert-as-service得到词向量,网上有很多,步骤如下:

安装肖涵博士的bert-as-service: pip install bert-serving-server pip install bert-serving-client

下载训练好的Bert中文词向量: https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

启动bert-as-service: 找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12 打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:

bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1#后台启动服务(nohup .... &)nohup bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1 &

即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。) 启动后结果如下: 获取Bert预训练好的中文词向量:

from bert_serving.client import BertClient bc = BertClient() print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示 print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示 print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。

本文链接地址:https://www.jiuchutong.com/zhishi/295945.html 转载请保留说明!

上一篇:Java - token的存储与获取(javatoken生成机制)

下一篇:vue项目根据不同环境动态配置接口请求ip及全局变量(vue环境变量配置)(vue调用同一个组件)

  • soul怎么搜索别人的id的(soul怎么搜索别人的名字)

    soul怎么搜索别人的id的(soul怎么搜索别人的名字)

  • 快手主播后面的数字是什么意思(快手主播后面的字是什么)

    快手主播后面的数字是什么意思(快手主播后面的字是什么)

  • qq能录屏吗(qq可以录屏么)

    qq能录屏吗(qq可以录屏么)

  • 小度视频通话没声音

    小度视频通话没声音

  • 苹果手机发不了图片怎么办(苹果手机发不了短信显示尚未送达)

    苹果手机发不了图片怎么办(苹果手机发不了短信显示尚未送达)

  • 360重装大师装的是什么系统(360重装大师装的是什么)

    360重装大师装的是什么系统(360重装大师装的是什么)

  • iphone突然变暗亮度没变(iphone突然变亮又变暗)

    iphone突然变暗亮度没变(iphone突然变亮又变暗)

  • iphone x发热厉害怎么办(iphone x 发热严重怎么解决)

    iphone x发热厉害怎么办(iphone x 发热严重怎么解决)

  • oppoa7x语音助手怎么唤醒(oppo a7x语音助手)

    oppoa7x语音助手怎么唤醒(oppo a7x语音助手)

  • 华为手机有语音播报屏幕不能正常用(华为手机有语音提示怎么关闭)

    华为手机有语音播报屏幕不能正常用(华为手机有语音提示怎么关闭)

  • 新买的华为手机怎么开机(新买的华为手机卡顿怎么解决)

    新买的华为手机怎么开机(新买的华为手机卡顿怎么解决)

  • 退款后天猫优惠券会退回吗(天猫退款了优惠卷还会有吗)

    退款后天猫优惠券会退回吗(天猫退款了优惠卷还会有吗)

  • 硬盘换到别的电脑上能直接用吗(硬盘换到别的电脑上文件丢失)

    硬盘换到别的电脑上能直接用吗(硬盘换到别的电脑上文件丢失)

  • wsn网关的主要功能(网关的作用)

    wsn网关的主要功能(网关的作用)

  • 每个ip地址分为哪两个部分(每个ip地址长度是)

    每个ip地址分为哪两个部分(每个ip地址长度是)

  • 黑鲨手机怎么唤醒语音助手(黑鲨手机怎么唤醒屏幕)

    黑鲨手机怎么唤醒语音助手(黑鲨手机怎么唤醒屏幕)

  • 计算机的微处理器包括(计算机的微处理器属于什么)

    计算机的微处理器包括(计算机的微处理器属于什么)

  • 爱奇艺的打卡积分在哪里(爱奇艺的打卡积分怎么算)

    爱奇艺的打卡积分在哪里(爱奇艺的打卡积分怎么算)

  • 抖音提现比例是多少(抖音提现比例是多少钱)

    抖音提现比例是多少(抖音提现比例是多少钱)

  • 酷狗音乐怎么买歌送人(酷狗音乐怎么买音乐包)

    酷狗音乐怎么买歌送人(酷狗音乐怎么买音乐包)

  • 荣耀20支持40w快充吗(荣耀20最快支持多少瓦)

    荣耀20支持40w快充吗(荣耀20最快支持多少瓦)

  • 按住键盘的键无法连续输入(按键盘不起作用怎么办)

    按住键盘的键无法连续输入(按键盘不起作用怎么办)

  • SpringBoot+Vue实现文件上传下载功能

    SpringBoot+Vue实现文件上传下载功能

  • sshpass命令  非交互式验证SSH密码(ssh非交互式登录)

    sshpass命令 非交互式验证SSH密码(ssh非交互式登录)

  • 车船税计入管理费用什么明细
  • 文化事业建设费征收对象
  • 无票收入小规模怎么报增值税
  • 货物运输发票抵税多少
  • 可供出售金融资产和长期股权投资
  • 饭店发光板图片大全
  • 为什么对子公司长投要用成本法
  • 投资款算什么会计科目
  • 领导报销发票挂哪个科目
  • 增值税发票委托公司开具
  • 公司增资认缴需要什么流程呢怎么办理
  • 外经证预交增值税和专管员
  • 居间费税收是多少
  • 电费先付后开票怎么做账
  • 注册公司未签名怎么办
  • 申报是不是就是报税
  • 法人股东转让股权涉税
  • 跨地区经营汇总纳税企业所得税
  • 进口货物完税价格名词解释
  • 票据贴现公司需要资质吗
  • 为什么win10系统更新不了
  • 受托加工委托方销售产品
  • 贴息费率
  • 强制关闭mac系统的快捷键
  • reg.dll是什么
  • 怎么扣除税费
  • thinkphp分页传递参数
  • 应交营业税计算公式
  • framework core
  • 购买房屋缴纳的税款
  • 超图的应用举例
  • 如何用java写接口
  • uniapp和vue哪个好
  • ech命令
  • 微信支付的开发公司
  • 支付网络服务费属于现金流量表的哪一项
  • 所得税预缴申报表怎么填
  • day03-CSS
  • 增值税多交了五万怎么办
  • 四舍五入 vb
  • 从公账发工资是什么凭证
  • 几种财务自由
  • 企业出租无形资产使用权取得的收入应计入
  • 小规模公司都交哪些税
  • 购买旧固定资产入账
  • 小额收据入账规则最新
  • 只有进项税需要结转吗
  • 以前年度应收账款贷方余额如何调整
  • 差旅费报销会计分录题目
  • 收到房租的租金怎么做账
  • 劳务费怎么做会计科目
  • 虚开发票要如何处理?
  • 上年度记错科目怎么调整
  • 公司固定资产报废申请范文
  • 存货盘亏进项税额转出会计分录
  • mysql %d
  • win10更新dx
  • mmc无法创建管理单元win10
  • linux系统百科
  • os x10.8.5
  • 升级安装windows并保留文件
  • windows10周年纪念版
  • centos smb服务
  • win10win8
  • linux删除一个非空子目录命令
  • Linux中的stat命令使用简介
  • 装了linux后windows没有了
  • cocos安装
  • javascript字符串大小写转换
  • unity的monodevelop
  • jquery常用操作
  • javascript运用
  • unity物体碰撞爆炸
  • javascript编程基础
  • html仿淘宝
  • 广东省电子税务局app下载手机版
  • 重庆市国税12366
  • 成都税务局发票查询
  • 国家税务总局风险识别报告
  • 我国国家宪法日是每年的十二月几日
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设