位置: IT常识 - 正文

Bert 得到中文词向量(bert获取中文词向量)

编辑:rootadmin
Bert 得到中文词向量

推荐整理分享Bert 得到中文词向量(bert获取中文词向量),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert英文发音,bert读,bert获取中文词向量,bert翻译成中文,bert分词得到词向,bert翻译成中文,bert中文分词,bert中文分词,内容如对您有帮助,希望把文章链接给更多的朋友!

通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中

得到中文词向量的代码如下

import torchfrom transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 加载base模型的对应的切词器model = BertModel.from_pretrained('bert-base-chinese')print(tokenizer) # 打印出对应的信息,如base模型的字典大小,截断长度等等token = tokenizer.tokenize("自然语言处理") # 切词print(token) # 切词结果indexes = tokenizer.convert_tokens_to_ids(token) # 将词转换为对应字典的idprint(indexes) # 输出idtokens = tokenizer.convert_ids_to_tokens(indexes)# 将id转换为对应字典的词print(tokens) # 输出词# 使用这种方法对句子编码会自动添加[CLS] 和[SEP]input_ids = torch.tensor(tokenizer.encode("自然语言处理")).unsqueeze(0)print(input_ids)outputs = model(input_ids)# cls_id = tokenizer._convert_token_to_id('[CLS]')# sep_id = tokenizer._convert_token_to_id('[SEP]')# print(cls_id, sep_id)sequence_output = outputs[0]print(sequence_output)print(sequence_output.shape) ## 字向量Bert 得到中文词向量(bert获取中文词向量)

输出的结果如下

PreTrainedTokenizer(name_or_path='bert-base-chinese', vocab_size=21128, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})['自', '然', '语', '言', '处', '理'][5632, 4197, 6427, 6241, 1905, 4415]['自', '然', '语', '言', '处', '理']tensor([[ 101, 5632, 4197, 6427, 6241, 1905, 4415, 102]])tensor([[[-0.5707, 0.1999, -0.0637, ..., -0.0916, -0.3997, 0.1751], [ 0.1549, 0.2454, 0.8372, ..., -0.7411, -0.8433, 0.5498], [ 0.1983, -0.5007, -0.6416, ..., 0.0322, -0.2561, 0.0599], ..., [ 0.1960, 0.4055, 1.6229, ..., 0.1070, -0.2448, 0.1766], [ 0.0846, 0.9084, 0.5164, ..., 0.0235, 0.6487, -0.0858], [-0.5326, -0.0390, 1.9163, ..., 0.1597, -0.2909, 0.6810]]], grad_fn=<NativeLayerNormBackward0>)torch.Size([1, 8, 768])

当然还可以通过bert-as-service得到词向量,网上有很多,步骤如下:

安装肖涵博士的bert-as-service: pip install bert-serving-server pip install bert-serving-client

下载训练好的Bert中文词向量: https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

启动bert-as-service: 找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12 打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:

bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1#后台启动服务(nohup .... &)nohup bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1 &

即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。) 启动后结果如下: 获取Bert预训练好的中文词向量:

from bert_serving.client import BertClient bc = BertClient() print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示 print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示 print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。

本文链接地址:https://www.jiuchutong.com/zhishi/295945.html 转载请保留说明!

上一篇:Java - token的存储与获取(javatoken生成机制)

下一篇:vue项目根据不同环境动态配置接口请求ip及全局变量(vue环境变量配置)(vue调用同一个组件)

  • 华为平板在哪里看型号和尺寸(华为平板在哪里插卡)

    华为平板在哪里看型号和尺寸(华为平板在哪里插卡)

  • 小爱同学怎么连接台式电脑(小爱同学怎么连接小米空调)

    小爱同学怎么连接台式电脑(小爱同学怎么连接小米空调)

  • qq扩列没了(qq扩列没了,资料怎么关闭)

    qq扩列没了(qq扩列没了,资料怎么关闭)

  • 钉钉虚拟签到管理员能看到吗(钉钉虚拟签到管理员能修改吗)

    钉钉虚拟签到管理员能看到吗(钉钉虚拟签到管理员能修改吗)

  • 淘宝退货需要指定快递吗(淘宝退货需要指定商家吗)

    淘宝退货需要指定快递吗(淘宝退货需要指定商家吗)

  • 红米5P充电白灯一直闪(红米5p充电灯一闪一闪)

    红米5P充电白灯一直闪(红米5p充电灯一闪一闪)

  • 无线耳机进水还能用吗(无线耳机进水后滋滋响)

    无线耳机进水还能用吗(无线耳机进水后滋滋响)

  • 手机腾讯视频如何小窗(手机腾讯视频如何扫描二维码登录)

    手机腾讯视频如何小窗(手机腾讯视频如何扫描二维码登录)

  • 三星s10直屏还是曲屏(三星s10是曲面屏还是直面屏)

    三星s10直屏还是曲屏(三星s10是曲面屏还是直面屏)

  • 华为手机还原所有设置是什么意思(华为手机还原所有设置和恢复出厂设置的区别)

    华为手机还原所有设置是什么意思(华为手机还原所有设置和恢复出厂设置的区别)

  • 宽带fttb是什么意思(fttb ftth)

    宽带fttb是什么意思(fttb ftth)

  • qq音乐歌词背景怎么设置(qq音乐歌词背景怎么换图)

    qq音乐歌词背景怎么设置(qq音乐歌词背景怎么换图)

  • 余额怎么转入余额宝(余额怎么转入余额宝苹果)

    余额怎么转入余额宝(余额怎么转入余额宝苹果)

  • 小米手环4死机如何强制重启(小米手环死机解决办法)

    小米手环4死机如何强制重启(小米手环死机解决办法)

  • 清晰度3mp5mp是什么意思(清晰度3mp5mp哪个好)

    清晰度3mp5mp是什么意思(清晰度3mp5mp哪个好)

  • 华为p30如何设置相册密码(华为p30如何设置呼叫转移)

    华为p30如何设置相册密码(华为p30如何设置呼叫转移)

  • iqoo手机左边按键是什么(iqoo手机左侧按键功能)

    iqoo手机左边按键是什么(iqoo手机左侧按键功能)

  • uc浏览器如何收藏网址(UC浏览器如何收藏网址)

    uc浏览器如何收藏网址(UC浏览器如何收藏网址)

  • 怎么设置不让别人拉我进群(怎么设置不让别人加我微信)

    怎么设置不让别人拉我进群(怎么设置不让别人加我微信)

  • Windows 10屏幕键盘很快就可以选择不同的背景图像(Windows10屏幕键盘在哪)

    Windows 10屏幕键盘很快就可以选择不同的背景图像(Windows10屏幕键盘在哪)

  • 微软 Win11 Edge 弹窗警告,试图阻止用户下载 Chrome 浏览器(edge弹窗)

    微软 Win11 Edge 弹窗警告,试图阻止用户下载 Chrome 浏览器(edge弹窗)

  • 秋季迁徙时正在游过科伯克河的驯鹿,阿拉斯加 (© Michio Hoshino/Minden Pictures)(迁徙的季节主要从哪几个方面写秋天的景物)

    秋季迁徙时正在游过科伯克河的驯鹿,阿拉斯加 (© Michio Hoshino/Minden Pictures)(迁徙的季节主要从哪几个方面写秋天的景物)

  • 无合同销售收入怎么算
  • 合伙企业的税收优势
  • 销售商品款项未收的科目名称
  • 季度预交所得税可以弥补上年度亏损吗
  • 金税盘证书口令被锁死自己能解吗
  • 中小企业免税证明
  • 国家对工资发放的规定
  • 转让企业全部产权属于增值税征税范围。A对B错
  • 计提坏账准备为什么要加借方
  • 印章刻字怎么收费
  • 其他应付为负数怎么处理
  • 企业发生的间接生产费用应
  • 财产租赁所得应缴纳个人所得税
  • 车辆固定资产清理
  • 小规模纳税人可以转为一般纳税人吗?
  • 职工的大病医保怎么报销
  • 应交增值税减免税款账务处理
  • 一般纳税人有按季申报的吗
  • 其他应收账款贷方表示什么意思
  • 小规模的成本票
  • 太阳能真空管和普通管的区别
  • 更改onedrive文件夹位置
  • w11系统激活码
  • 六月雪的养殖方法和注意事项
  • win11系统优化教程
  • 包装物押金收入含税吗
  • 已计提折旧怎么计算
  • win7系统中怎样
  • 工程项目科目如何设置
  • 政府财政会计核算基础是什么
  • 如何使用wireshark抓取HTTP数据包?
  • 企业通讯费管理办法
  • html的论文
  • vue中如何使用axios
  • 供热企业享受增值税吗
  • php traits
  • 国税局发票打印软件下载
  • 残保金的计费依据
  • 固定资产多少金额才算
  • 税务局退还的三种税费
  • 织梦自定义字段
  • 费用发票可以抵税吗
  • 职工薪酬都包括什么
  • 公司债券分为
  • 计提和发放工资的会计科目
  • 报销差旅费大于预借差旅费会计分录
  • 投资公司如何运作
  • 用银行承兑汇票购买原材料会计分录
  • 在贫困户入股分红大会上的讲话
  • 暂估成本以后也没有票回来了
  • 境外中资企业再投资
  • 支付给烟农的价格怎么算
  • 收到增值税专用发票是进项还是销项
  • 高价购买股权
  • 招待客人的住宿叫什么
  • sql实现分组查询的短语
  • 微软官微
  • windows vista秘钥
  • linux wget命令详解
  • 虚拟机中怎么安装VMwareTools
  • windows不能打开此文件result:31
  • XP系统怎么设置屏幕常亮
  • ubuntu服务器安装matlab2014a环境配置
  • 进程dwm
  • linux一块网卡绑定多个ip
  • win7一键共享软件
  • 三个不常见的词语有哪些
  • perl脚本输出变量
  • cocos2dx 3.3 helloworld 入门 学习与详解
  • unity 扩展编辑器
  • bootstrap技术教程
  • unity基础包
  • javascript运用
  • 封装是借助什么达到的
  • 简述javascript中的函数
  • python怎么写函数
  • 土地增值税税率表
  • 国家税务局广东省电子税务总局手机版
  • 房地产的土地增值税计入哪个科目
  • 粤泰股份公司
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设