位置: IT常识 - 正文

Bert 得到中文词向量(bert获取中文词向量)

编辑:rootadmin
Bert 得到中文词向量

推荐整理分享Bert 得到中文词向量(bert获取中文词向量),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert英文发音,bert读,bert获取中文词向量,bert翻译成中文,bert分词得到词向,bert翻译成中文,bert中文分词,bert中文分词,内容如对您有帮助,希望把文章链接给更多的朋友!

通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中

得到中文词向量的代码如下

import torchfrom transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 加载base模型的对应的切词器model = BertModel.from_pretrained('bert-base-chinese')print(tokenizer) # 打印出对应的信息,如base模型的字典大小,截断长度等等token = tokenizer.tokenize("自然语言处理") # 切词print(token) # 切词结果indexes = tokenizer.convert_tokens_to_ids(token) # 将词转换为对应字典的idprint(indexes) # 输出idtokens = tokenizer.convert_ids_to_tokens(indexes)# 将id转换为对应字典的词print(tokens) # 输出词# 使用这种方法对句子编码会自动添加[CLS] 和[SEP]input_ids = torch.tensor(tokenizer.encode("自然语言处理")).unsqueeze(0)print(input_ids)outputs = model(input_ids)# cls_id = tokenizer._convert_token_to_id('[CLS]')# sep_id = tokenizer._convert_token_to_id('[SEP]')# print(cls_id, sep_id)sequence_output = outputs[0]print(sequence_output)print(sequence_output.shape) ## 字向量Bert 得到中文词向量(bert获取中文词向量)

输出的结果如下

PreTrainedTokenizer(name_or_path='bert-base-chinese', vocab_size=21128, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})['自', '然', '语', '言', '处', '理'][5632, 4197, 6427, 6241, 1905, 4415]['自', '然', '语', '言', '处', '理']tensor([[ 101, 5632, 4197, 6427, 6241, 1905, 4415, 102]])tensor([[[-0.5707, 0.1999, -0.0637, ..., -0.0916, -0.3997, 0.1751], [ 0.1549, 0.2454, 0.8372, ..., -0.7411, -0.8433, 0.5498], [ 0.1983, -0.5007, -0.6416, ..., 0.0322, -0.2561, 0.0599], ..., [ 0.1960, 0.4055, 1.6229, ..., 0.1070, -0.2448, 0.1766], [ 0.0846, 0.9084, 0.5164, ..., 0.0235, 0.6487, -0.0858], [-0.5326, -0.0390, 1.9163, ..., 0.1597, -0.2909, 0.6810]]], grad_fn=<NativeLayerNormBackward0>)torch.Size([1, 8, 768])

当然还可以通过bert-as-service得到词向量,网上有很多,步骤如下:

安装肖涵博士的bert-as-service: pip install bert-serving-server pip install bert-serving-client

下载训练好的Bert中文词向量: https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

启动bert-as-service: 找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12 打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:

bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1#后台启动服务(nohup .... &)nohup bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1 &

即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。) 启动后结果如下: 获取Bert预训练好的中文词向量:

from bert_serving.client import BertClient bc = BertClient() print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示 print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示 print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。

本文链接地址:https://www.jiuchutong.com/zhishi/295945.html 转载请保留说明!

上一篇:Java - token的存储与获取(javatoken生成机制)

下一篇:vue项目根据不同环境动态配置接口请求ip及全局变量(vue环境变量配置)(vue调用同一个组件)

  • 购买汽车的印花税要计入汽车原值吗
  • 一般纳税人缴纳税款
  • 关税的完税价格是什么意思
  • 税负怎么计算
  • 存货报废进项是否要转出
  • 印花税技术服务合同按什么交
  • 发票跨季度可以用吗
  • 税务局的信用等级是多少
  • 物业公司停车费按什么征税
  • 手机超过多少钱可以报警立案
  • 固定资产一次性扣除怎么做账
  • 短期借款会计科目使用说明
  • 增值税一般纳税人证明怎么查询
  • 摊余成本加还是减
  • 前期物业开办费和承接费一样吗
  • 一次性工伤医疗补助金和一次性伤残补助金
  • 全年一次性奖金计税方式2023
  • 发放股票股利要考虑时间权重吗
  • 设计费开专用发票几个点
  • 营业部门人员工资用什么会计科目
  • 增值税发票和收据的区别
  • 投资股权转让需要注意什么?
  • 坏账准备为负数怎么填资产负债表
  • 待抵扣的进项税因不能抵扣做转出的会计处理
  • 会计中的低值易耗品
  • 企事业承包承租经营所得税税法
  • 宽带连接错误651是什么意思
  • 报销货物运输费需要什么凭证
  • 简易征收税务处理
  • linux管理员账户名
  • 公司已经改名原来的公章还有效吗
  • 会计核算是什么岗位
  • 大雾山国家公园总部加特林堡
  • codecline
  • 华硕11代笔记本装win10
  • web前端面试题目
  • 企业的研发费用如何进行账务处理
  • 企业购买机器设备没有发票怎么办
  • JavaWeb之Servlet
  • 支付银行手续费等直接收费金融服务
  • 个税在工资里怎么计提
  • 餐饮业的原材料
  • 研发支出属于什么类科目
  • 房地产股权转让涉及哪些税费
  • 盘盈材料会计分录
  • 过期报废产品销毁
  • 会计中金额的正负怎么算
  • 销售收入未及时入账
  • 购车增值税可以不交吗
  • 小规模不开票怎么做账
  • 2021年购买土地需要缴纳什么税
  • 知识产权fa
  • 商贸公司主营业务成本会计分录
  • 进口货物的库存商品金额依据
  • 计提折旧的固定资产有哪些
  • 公司卖土地怎么避税
  • 一般纳税人购买固定资产进项税可以抵扣吗
  • 独立董事需要入股吗
  • 固定资产盘盈盘亏的会计科目
  • 会计账簿的启用与登记实验报告
  • MySQL 5.6.14 win32安装方法(zip版)
  • win10预览版退回正式版
  • win10系统预览版
  • 怎么在ubuntu上编程
  • win7显示网上邻居图标
  • window10怎样格式化u盘
  • win7系统如何关闭开机自动启动软件
  • Win7开机就蓝屏
  • win8开机界面
  • Jquery ajax加载等待执行结束再继续执行下面代码操作
  • androidserviceslibrary停用
  • python输入错了怎么办
  • python常用的安装扩展
  • 设计模式具有的优点
  • js easyui
  • javascript面向对象编程指南第三版
  • 地方税务局怎么报税
  • 深圳纳税信息查询
  • 增值税减免税备案
  • 智能财税是什么行业
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设