位置: IT常识 - 正文

Bert 得到中文词向量(bert获取中文词向量)

编辑:rootadmin
Bert 得到中文词向量

推荐整理分享Bert 得到中文词向量(bert获取中文词向量),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert英文发音,bert读,bert获取中文词向量,bert翻译成中文,bert分词得到词向,bert翻译成中文,bert中文分词,bert中文分词,内容如对您有帮助,希望把文章链接给更多的朋友!

通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中

得到中文词向量的代码如下

import torchfrom transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 加载base模型的对应的切词器model = BertModel.from_pretrained('bert-base-chinese')print(tokenizer) # 打印出对应的信息,如base模型的字典大小,截断长度等等token = tokenizer.tokenize("自然语言处理") # 切词print(token) # 切词结果indexes = tokenizer.convert_tokens_to_ids(token) # 将词转换为对应字典的idprint(indexes) # 输出idtokens = tokenizer.convert_ids_to_tokens(indexes)# 将id转换为对应字典的词print(tokens) # 输出词# 使用这种方法对句子编码会自动添加[CLS] 和[SEP]input_ids = torch.tensor(tokenizer.encode("自然语言处理")).unsqueeze(0)print(input_ids)outputs = model(input_ids)# cls_id = tokenizer._convert_token_to_id('[CLS]')# sep_id = tokenizer._convert_token_to_id('[SEP]')# print(cls_id, sep_id)sequence_output = outputs[0]print(sequence_output)print(sequence_output.shape) ## 字向量Bert 得到中文词向量(bert获取中文词向量)

输出的结果如下

PreTrainedTokenizer(name_or_path='bert-base-chinese', vocab_size=21128, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})['自', '然', '语', '言', '处', '理'][5632, 4197, 6427, 6241, 1905, 4415]['自', '然', '语', '言', '处', '理']tensor([[ 101, 5632, 4197, 6427, 6241, 1905, 4415, 102]])tensor([[[-0.5707, 0.1999, -0.0637, ..., -0.0916, -0.3997, 0.1751], [ 0.1549, 0.2454, 0.8372, ..., -0.7411, -0.8433, 0.5498], [ 0.1983, -0.5007, -0.6416, ..., 0.0322, -0.2561, 0.0599], ..., [ 0.1960, 0.4055, 1.6229, ..., 0.1070, -0.2448, 0.1766], [ 0.0846, 0.9084, 0.5164, ..., 0.0235, 0.6487, -0.0858], [-0.5326, -0.0390, 1.9163, ..., 0.1597, -0.2909, 0.6810]]], grad_fn=<NativeLayerNormBackward0>)torch.Size([1, 8, 768])

当然还可以通过bert-as-service得到词向量,网上有很多,步骤如下:

安装肖涵博士的bert-as-service: pip install bert-serving-server pip install bert-serving-client

下载训练好的Bert中文词向量: https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

启动bert-as-service: 找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12 打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:

bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1#后台启动服务(nohup .... &)nohup bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1 &

即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。) 启动后结果如下: 获取Bert预训练好的中文词向量:

from bert_serving.client import BertClient bc = BertClient() print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示 print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示 print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。

本文链接地址:https://www.jiuchutong.com/zhishi/295945.html 转载请保留说明!

上一篇:Java - token的存储与获取(javatoken生成机制)

下一篇:vue项目根据不同环境动态配置接口请求ip及全局变量(vue环境变量配置)(vue调用同一个组件)

  • 企业所得税怎么征收几个点
  • 水电费收据可以税前扣除吗
  • 无进项开票税点
  • 附加税费用怎么算
  • 如何自己开小公司
  • 一般纳税人公司转让一般卖多少钱
  • 公司资料更新
  • 天猫最新提现技术
  • 固定资产账面金额什么意思
  • 固定资产原值错误的账务处理
  • 个体开票
  • 大数据对管理会计的影响论文
  • 短期借款,应付票据,应付账款和应交税费属于
  • 固定资产后续支出资本化和费用化
  • 以货换货违法吗
  • 典当业销售的死当物品是否交增值税
  • 公司聚餐费用标准
  • 周转材料低值易耗品
  • 增值税抵扣进项税额交税账务处理
  • 临时人员工资需交税吗
  • 不能抵扣的福利发票要勾选吗为什么
  • 赠送给客户的商品怎么做账
  • 应付职工薪酬在借方是什么意思
  • 计征所得税会计分录怎么做?
  • windows10如何开热点
  • 华为p20上市时间和价格
  • 技术入股分红怎么计算
  • 2022年最新cpu天梯图手机
  • mac 怎么操作
  • 如何使用dashboard
  • 前端文件预览
  • bc2.exe
  • aliwssv.exe是什么进程
  • 三元运算符判断闰年php
  • 结转结余会计分录
  • 车船税单子什么样
  • 土地出资是否涉及企业所得税
  • thinkphp怎么用
  • 存货成本在哪个表里
  • 退款会退货吗
  • 申请高新技术企业收入要多少
  • php数组排序方法
  • 小规模纳税人的条件
  • python爬虫案例题目
  • 小规模纳税人可以做进出口贸易吗
  • 门禁卡一般属于什么卡
  • 期末结转会计分录总结
  • 公户的结算卡是否可以转账
  • 关于发票的相关法律
  • 主营业务收入可以进一般户吗
  • 营改增阶段
  • 出口退税没有进项就退不了税吗?
  • 应付账款算费用吗
  • 临时工工资如何做账
  • 公司向法人借款需要交税吗
  • 软件测试收费标准2019
  • 百旺金赋税盘怎么清卡
  • 存货总账根据什么填列
  • 办理分公司的流程样本
  • 餐饮会计做账流程图
  • u盘安装启动盘
  • ntfs硬盘分区整数
  • micc是什么意思中文
  • win7系统启动不起来什么原因
  • linux命令怎么删除
  • Win10预览版镜像
  • 基于个人同意处理个人信息的个人什么撤回其同意
  • rapidjson使用
  • cocos2dx游戏开发
  • unity ui坐标
  • jquery与ajax获取特殊字符实例详解
  • python清除运行结果
  • 教女朋友学英语
  • 技术总结结束语
  • jquery jsonview
  • 税务机关落实六保六稳
  • 网络发票开票系统怎么设置?
  • 江西省税务局拟录用人员公示
  • 如何理解计算消费税时的(1
  • 日本海淘推荐
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设