位置: IT常识 - 正文

Bert 得到中文词向量(bert获取中文词向量)

编辑:rootadmin
Bert 得到中文词向量

推荐整理分享Bert 得到中文词向量(bert获取中文词向量),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert英文发音,bert读,bert获取中文词向量,bert翻译成中文,bert分词得到词向,bert翻译成中文,bert中文分词,bert中文分词,内容如对您有帮助,希望把文章链接给更多的朋友!

通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中

得到中文词向量的代码如下

import torchfrom transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 加载base模型的对应的切词器model = BertModel.from_pretrained('bert-base-chinese')print(tokenizer) # 打印出对应的信息,如base模型的字典大小,截断长度等等token = tokenizer.tokenize("自然语言处理") # 切词print(token) # 切词结果indexes = tokenizer.convert_tokens_to_ids(token) # 将词转换为对应字典的idprint(indexes) # 输出idtokens = tokenizer.convert_ids_to_tokens(indexes)# 将id转换为对应字典的词print(tokens) # 输出词# 使用这种方法对句子编码会自动添加[CLS] 和[SEP]input_ids = torch.tensor(tokenizer.encode("自然语言处理")).unsqueeze(0)print(input_ids)outputs = model(input_ids)# cls_id = tokenizer._convert_token_to_id('[CLS]')# sep_id = tokenizer._convert_token_to_id('[SEP]')# print(cls_id, sep_id)sequence_output = outputs[0]print(sequence_output)print(sequence_output.shape) ## 字向量Bert 得到中文词向量(bert获取中文词向量)

输出的结果如下

PreTrainedTokenizer(name_or_path='bert-base-chinese', vocab_size=21128, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})['自', '然', '语', '言', '处', '理'][5632, 4197, 6427, 6241, 1905, 4415]['自', '然', '语', '言', '处', '理']tensor([[ 101, 5632, 4197, 6427, 6241, 1905, 4415, 102]])tensor([[[-0.5707, 0.1999, -0.0637, ..., -0.0916, -0.3997, 0.1751], [ 0.1549, 0.2454, 0.8372, ..., -0.7411, -0.8433, 0.5498], [ 0.1983, -0.5007, -0.6416, ..., 0.0322, -0.2561, 0.0599], ..., [ 0.1960, 0.4055, 1.6229, ..., 0.1070, -0.2448, 0.1766], [ 0.0846, 0.9084, 0.5164, ..., 0.0235, 0.6487, -0.0858], [-0.5326, -0.0390, 1.9163, ..., 0.1597, -0.2909, 0.6810]]], grad_fn=<NativeLayerNormBackward0>)torch.Size([1, 8, 768])

当然还可以通过bert-as-service得到词向量,网上有很多,步骤如下:

安装肖涵博士的bert-as-service: pip install bert-serving-server pip install bert-serving-client

下载训练好的Bert中文词向量: https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

启动bert-as-service: 找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12 打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:

bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1#后台启动服务(nohup .... &)nohup bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1 &

即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。) 启动后结果如下: 获取Bert预训练好的中文词向量:

from bert_serving.client import BertClient bc = BertClient() print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示 print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示 print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。

本文链接地址:https://www.jiuchutong.com/zhishi/295945.html 转载请保留说明!

上一篇:Java - token的存储与获取(javatoken生成机制)

下一篇:vue项目根据不同环境动态配置接口请求ip及全局变量(vue环境变量配置)(vue调用同一个组件)

  • 快手小店关闭了多久可以再开通(快手小店关闭了怎么开通店铺)

    快手小店关闭了多久可以再开通(快手小店关闭了怎么开通店铺)

  • 怎么用q币在拼多多买东西(qq上q币怎么用)

    怎么用q币在拼多多买东西(qq上q币怎么用)

  • 微信打开表格图片错位(微信打开表格图片乱码)

    微信打开表格图片错位(微信打开表格图片乱码)

  • 华为手机怎样设置手电筒到桌面(华为手机怎样设置锁屏壁纸)

    华为手机怎样设置手电筒到桌面(华为手机怎样设置锁屏壁纸)

  • qq里sgr是什么意思(serqq是什么)

    qq里sgr是什么意思(serqq是什么)

  • 腾讯课堂签到弹不出来(腾讯课堂签到了但老师那边不显示怎么办)

    腾讯课堂签到弹不出来(腾讯课堂签到了但老师那边不显示怎么办)

  • 防蓝光手机膜到底有没有用(防蓝光手机膜防摔吗)

    防蓝光手机膜到底有没有用(防蓝光手机膜防摔吗)

  • 抖音视频置顶有什么作用(抖音视频置顶有什么技巧吗)

    抖音视频置顶有什么作用(抖音视频置顶有什么技巧吗)

  • 华为watch2和gt2的区别(华为watch 2跟gt2)

    华为watch2和gt2的区别(华为watch 2跟gt2)

  • ios13暗夜模式省电吗(苹果暗夜模式费电吗)

    ios13暗夜模式省电吗(苹果暗夜模式费电吗)

  • 显示器75hz和144hz区别(显示器75hz和144hz玩3a游戏区别)

    显示器75hz和144hz区别(显示器75hz和144hz玩3a游戏区别)

  • qq好友送的礼物怎么提现(qq好友送的礼物在哪里)

    qq好友送的礼物怎么提现(qq好友送的礼物在哪里)

  • vivo iqoo有耳机插孔么(iqoo5插耳机没用)

    vivo iqoo有耳机插孔么(iqoo5插耳机没用)

  • 快手怎么快速取关多人(快手怎么快速取消关注多个人)

    快手怎么快速取关多人(快手怎么快速取消关注多个人)

  • 微光可以看本地视频吗(微光可以看本地电影吗)

    微光可以看本地视频吗(微光可以看本地电影吗)

  • 交管12123从哪开通支付(怎么打开交管12123)

    交管12123从哪开通支付(怎么打开交管12123)

  • 苹果8不能关机充电吗(苹果不能关机怎么办)

    苹果8不能关机充电吗(苹果不能关机怎么办)

  • 电视怎么登录爱奇艺vip(电视怎么登录爱家畅享会员)

    电视怎么登录爱奇艺vip(电视怎么登录爱家畅享会员)

  • 怎么把图片大小缩小到200k(怎么把图片大小调大一点)

    怎么把图片大小缩小到200k(怎么把图片大小调大一点)

  • vivox23有万能遥控吗(vivo有没有万能遥控器)

    vivox23有万能遥控吗(vivo有没有万能遥控器)

  • 360u盘助手怎么开启(360u盘助手怎么关闭)

    360u盘助手怎么开启(360u盘助手怎么关闭)

  • 发过了的抖音怎么换歌(发过的抖音怎么重新发)

    发过了的抖音怎么换歌(发过的抖音怎么重新发)

  • 快手提现多久到账(快手提现多久到账微信)

    快手提现多久到账(快手提现多久到账微信)

  • Win7系统僵尸部队4存档丢失的解决方法

    Win7系统僵尸部队4存档丢失的解决方法

  • vue里面使用pdfjs-dist+fabric实现pdf电子签章!!!(vue使用pdf.js)

    vue里面使用pdfjs-dist+fabric实现pdf电子签章!!!(vue使用pdf.js)

  • 《推荐PlumGPT:一款优秀的聊天机器人》(《推荐一个好地方》图书馆)

    《推荐PlumGPT:一款优秀的聊天机器人》(《推荐一个好地方》图书馆)

  • 不缴或少缴应纳税款的处罚措施
  • 企业所得税汇算清缴时间
  • 税控盘为什么要年年交服务费
  • 退回股东投资款现金流量
  • 一次性发放年终奖怎么税务筹划
  • 外来审计人员交通费
  • 一次性就业补助金的领取条件
  • 软件公司的销售
  • 纳税人出租不动产预缴税款
  • 小规模纳税人申请一般纳税人流程
  • 哪些企业可以享受加计扣除优惠政策?
  • 年终销售返利怎么算
  • 软件开发服务费可以计入无形资产吗
  • 营改增之前房产税计税依据
  • 个体户报税可以朋友代替吗
  • 新公司有减免税政策吗?
  • 应纳税额减征额和减免税额一样吗
  • 增值税发票查验平台显示查无此票
  • 银行和保险公司归哪个部门管
  • 全面推开营改增试点12366热点问题解答(一)
  • 个税按计提申报还是按发放申报
  • 六大会计科目的关系
  • 应收账款年末余额过大
  • 坏账准备的计提应当关注
  • 银行承兑汇票没有提示付款
  • 促销费影响主营利润吗
  • 王者荣耀电脑版怎么键盘操作
  • deepin 文件管理器
  • 毛利率计算公式举例说明
  • 汇算清缴哪些表必填
  • 红字发票冲减的是当月收入吗
  • 资产评估增值是什么意思
  • 医院执行政府会计制度补充规定
  • 开发票如何计算税率
  • h5 画图
  • 印花税的相关问题
  • 激光雷达lidar特点
  • 使用spring框架,大概有哪些步骤
  • 如何防止sql注入 java
  • mybatis plus 用法
  • 什么是企业所得税收入
  • 摊销结束后
  • 十年磨一剑的下一句幽默
  • sql server 2008r
  • centos7源码包安装
  • 将织梦dedecms转换到wordpress
  • python列表的创建和操作
  • 辞退员工补偿金怎么计算
  • 存货包括材料成本吗
  • 外贸企业应交税费计入
  • 可以抵扣的进项发票有哪些
  • 营业总收入同比增长怎么分析
  • 印花税啥样
  • 以前年度损益调整会计分录
  • 网络销售还可以叫什么
  • 主营业务收入净额指的是什么
  • 每个银行都有结息
  • 公司年底做财务报表什么吗
  • 财务会计制度及核算软件备案怎么填写
  • 房地产开发企业分为几个等级
  • 猛料高手
  • windows2000自动登陆
  • linux ssh rsa
  • centos6开机启动
  • linux 操作系统
  • softmangerlite.exe是什么进程 有什么用
  • centos 删除恢复
  • win10 window
  • linux常用命令useradd
  • linux系统查询进程
  • jQuery实现checkbox即点即改批量删除及中间遇到的坑
  • cocos2dx4.0教程
  • 前端防止sql注入
  • c#中的数组
  • javascript教程
  • 微信假消息
  • 欢迎使用微信支付
  • 金税盘联网步骤
  • 马尼拉清关HS几位
  • 税收收入弹性值
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设