位置: IT常识 - 正文

Bert 得到中文词向量(bert获取中文词向量)

编辑:rootadmin
Bert 得到中文词向量

推荐整理分享Bert 得到中文词向量(bert获取中文词向量),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert英文发音,bert读,bert获取中文词向量,bert翻译成中文,bert分词得到词向,bert翻译成中文,bert中文分词,bert中文分词,内容如对您有帮助,希望把文章链接给更多的朋友!

通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中

得到中文词向量的代码如下

import torchfrom transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 加载base模型的对应的切词器model = BertModel.from_pretrained('bert-base-chinese')print(tokenizer) # 打印出对应的信息,如base模型的字典大小,截断长度等等token = tokenizer.tokenize("自然语言处理") # 切词print(token) # 切词结果indexes = tokenizer.convert_tokens_to_ids(token) # 将词转换为对应字典的idprint(indexes) # 输出idtokens = tokenizer.convert_ids_to_tokens(indexes)# 将id转换为对应字典的词print(tokens) # 输出词# 使用这种方法对句子编码会自动添加[CLS] 和[SEP]input_ids = torch.tensor(tokenizer.encode("自然语言处理")).unsqueeze(0)print(input_ids)outputs = model(input_ids)# cls_id = tokenizer._convert_token_to_id('[CLS]')# sep_id = tokenizer._convert_token_to_id('[SEP]')# print(cls_id, sep_id)sequence_output = outputs[0]print(sequence_output)print(sequence_output.shape) ## 字向量Bert 得到中文词向量(bert获取中文词向量)

输出的结果如下

PreTrainedTokenizer(name_or_path='bert-base-chinese', vocab_size=21128, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})['自', '然', '语', '言', '处', '理'][5632, 4197, 6427, 6241, 1905, 4415]['自', '然', '语', '言', '处', '理']tensor([[ 101, 5632, 4197, 6427, 6241, 1905, 4415, 102]])tensor([[[-0.5707, 0.1999, -0.0637, ..., -0.0916, -0.3997, 0.1751], [ 0.1549, 0.2454, 0.8372, ..., -0.7411, -0.8433, 0.5498], [ 0.1983, -0.5007, -0.6416, ..., 0.0322, -0.2561, 0.0599], ..., [ 0.1960, 0.4055, 1.6229, ..., 0.1070, -0.2448, 0.1766], [ 0.0846, 0.9084, 0.5164, ..., 0.0235, 0.6487, -0.0858], [-0.5326, -0.0390, 1.9163, ..., 0.1597, -0.2909, 0.6810]]], grad_fn=<NativeLayerNormBackward0>)torch.Size([1, 8, 768])

当然还可以通过bert-as-service得到词向量,网上有很多,步骤如下:

安装肖涵博士的bert-as-service: pip install bert-serving-server pip install bert-serving-client

下载训练好的Bert中文词向量: https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

启动bert-as-service: 找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12 打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:

bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1#后台启动服务(nohup .... &)nohup bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1 &

即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。) 启动后结果如下: 获取Bert预训练好的中文词向量:

from bert_serving.client import BertClient bc = BertClient() print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示 print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示 print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。

本文链接地址:https://www.jiuchutong.com/zhishi/295945.html 转载请保留说明!

上一篇:Java - token的存储与获取(javatoken生成机制)

下一篇:vue项目根据不同环境动态配置接口请求ip及全局变量(vue环境变量配置)(vue调用同一个组件)

  • 怎么把微博全部设置为私密(怎么把微博全部转为自己可见)

    怎么把微博全部设置为私密(怎么把微博全部转为自己可见)

  • 夸克app是干嘛用的(夸克app干嘛用的)

    夸克app是干嘛用的(夸克app干嘛用的)

  • 支付宝如何移到新手机(支付宝如何移到另一个手机上)

    支付宝如何移到新手机(支付宝如何移到另一个手机上)

  • iphone面部识别一直在转(iphone面部识别一会高一会儿低)

    iphone面部识别一直在转(iphone面部识别一会高一会儿低)

  • 小米air2支持弹窗的机型(小米air2s能弹窗吗)

    小米air2支持弹窗的机型(小米air2s能弹窗吗)

  • 耳机插手机没声音(耳机插手机没声音是什么意思)

    耳机插手机没声音(耳机插手机没声音是什么意思)

  • 星恒锂电池第一次充多长时间(星恒锂电池一线通图解)

    星恒锂电池第一次充多长时间(星恒锂电池一线通图解)

  • 苹果充电器烫手正常吗(苹果手机充电发烫)

    苹果充电器烫手正常吗(苹果手机充电发烫)

  • air3可以用pencil二代吗(air3可以用笔吗)

    air3可以用pencil二代吗(air3可以用笔吗)

  • 爱奇艺是腾讯的吗(爱奇艺是腾讯的还是阿里的)

    爱奇艺是腾讯的吗(爱奇艺是腾讯的还是阿里的)

  • 为什么xr录屏很模糊(xr屏幕录制不清晰)

    为什么xr录屏很模糊(xr屏幕录制不清晰)

  • 修改未知应用权限在哪里(未知应用修改权限之后还是无法下载)

    修改未知应用权限在哪里(未知应用修改权限之后还是无法下载)

  • 优品云付是微信背景的吗(优品云商电子商务平台)

    优品云付是微信背景的吗(优品云商电子商务平台)

  • 一个域名可以对应多个ip地址吗(一个域名可以对应多个ip地址对不对)

    一个域名可以对应多个ip地址吗(一个域名可以对应多个ip地址对不对)

  • word取消修改标记(取消word文档修改标记)

    word取消修改标记(取消word文档修改标记)

  • 多个商品怎么一起退款(多个商品怎么一起退货)

    多个商品怎么一起退款(多个商品怎么一起退货)

  • 美易照片编辑怎么抠图(美易照片编辑怎么用)

    美易照片编辑怎么抠图(美易照片编辑怎么用)

  • 苹果11有双卡双待吗(苹果11有双卡双待的手机吗)

    苹果11有双卡双待吗(苹果11有双卡双待的手机吗)

  • 优盘显示格式化怎么办(优盘显示格式化才可以使用)

    优盘显示格式化怎么办(优盘显示格式化才可以使用)

  • 1080和1080ti性能差距在哪(1080对比1080ti性能提升多少)

    1080和1080ti性能差距在哪(1080对比1080ti性能提升多少)

  • 5g先锋计划要钱吗(5g先锋,全速热爱)

    5g先锋计划要钱吗(5g先锋,全速热爱)

  • 无法设置windows聚焦(无法设置面容id怎么办)

    无法设置windows聚焦(无法设置面容id怎么办)

  • 微软准备发布Win10 21H2,不支持 Win11 升级的朋友可获更新(微软发布windows)

    微软准备发布Win10 21H2,不支持 Win11 升级的朋友可获更新(微软发布windows)

  • 出口货物适用什么税率
  • 个税返还手续费奖励员工需要交个税吗
  • 固定资产盘亏计入什么科目
  • 企业付的快递费是扣增值税还是进入费用扣除
  • 个人独资企业可以投资有限公司吗
  • 成本占收入比重分析
  • 自行建造固定资产中的自营工程,在领用工程物资
  • 过渡期损益会计分录
  • 职工食堂支出明细表
  • 车船税手续费返还政策文件
  • 善意取得增值税专用发票如何处理
  • 消防设施安装费包括哪些
  • 非税收入包括哪些
  • 民办非企业单位可以盈利吗
  • 小微企业开普通发票
  • 纳税人核定征收企业所得税
  • 企业筹办期间发生的费用处理
  • 滴滴普票可以抵扣进项么
  • 当期所得税费用与递延所得税费用
  • 汽车中介赚钱吗
  • 记账凭证领用材料如何填写
  • 期末增值税如何结转
  • 全额抵扣的发票怎么申报增值税
  • 鸿蒙系统与安卓对比
  • 商业承兑汇票到期兑现流程
  • 机票电子普票不可以报销么
  • mozilla是什么文件
  • PHP:imagecreatefromwebp()的用法_GD库图像处理函数
  • Vue vue.config.js 的详解与配置
  • 海关进口税可以抵扣吗
  • SpringBoot+Vue实现文件上传下载功能
  • python编程爱心形状
  • 主动学习(Active Learning,AL)的理解以及代码流程讲解
  • 一文通透从输入URL到页面渲染的全过程----高频面试
  • js工厂模式创建对象
  • mysql的存储
  • 为什么要扩展
  • 什么是行政单位任命的事业单位工作人员
  • 哪些行业不用缴纳增值税
  • 销售后返现怎么算
  • 员工旅游的费用账务处理
  • 办理对公账户时间
  • 全年多少钱就得交税
  • 电子承兑汇票贴现怎么做账
  • 哪些合同不用计提印花税
  • 检查sqlserver是否安装完成
  • 税务局核定税种需要多久
  • 社保退回的款怎么入账
  • 农产品委托代销增值税怎么算
  • 专项储备 科目
  • 装载机如何计提折旧费用
  • 企业所得税缴纳模式
  • 现金存银行凭证
  • 购置成本由什么构成
  • 进项税额被转出怎么做账
  • 生产型企业怎么做账
  • 从会计角度看会计刺客
  • 未实现融资收益借贷方向
  • 股东变更需要哪些资料和手续
  • php连接mysql数据库的几种方式及区别
  • mysql定义语句
  • mac如何连接iphone
  • rpm包安装位置
  • sdstat.exe - sdstat是什么进程 有什么用
  • win7系统重装后u盘读不出来
  • win8电脑远程控制怎么弄
  • ,linux
  • unity开发游戏教程
  • nodejs获取post数据
  • javascript模块化规范有哪些
  • oracle中提取日期时间的特定部分
  • 简单好用的记账app
  • 电子税务局登录不上,显示用户名不匹配
  • 大连明珠卡手机nfc充值
  • 通讯费报销会计分录
  • 云南省国家税务局电子税务局
  • 2022年中国烟草营收
  • 预交增值税税款退税流程
  • 《税收实务》
  • 减免税备案登记表样本
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设