位置: IT常识 - 正文

Bert 得到中文词向量(bert获取中文词向量)

编辑:rootadmin
Bert 得到中文词向量

推荐整理分享Bert 得到中文词向量(bert获取中文词向量),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert英文发音,bert读,bert获取中文词向量,bert翻译成中文,bert分词得到词向,bert翻译成中文,bert中文分词,bert中文分词,内容如对您有帮助,希望把文章链接给更多的朋友!

通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中

得到中文词向量的代码如下

import torchfrom transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 加载base模型的对应的切词器model = BertModel.from_pretrained('bert-base-chinese')print(tokenizer) # 打印出对应的信息,如base模型的字典大小,截断长度等等token = tokenizer.tokenize("自然语言处理") # 切词print(token) # 切词结果indexes = tokenizer.convert_tokens_to_ids(token) # 将词转换为对应字典的idprint(indexes) # 输出idtokens = tokenizer.convert_ids_to_tokens(indexes)# 将id转换为对应字典的词print(tokens) # 输出词# 使用这种方法对句子编码会自动添加[CLS] 和[SEP]input_ids = torch.tensor(tokenizer.encode("自然语言处理")).unsqueeze(0)print(input_ids)outputs = model(input_ids)# cls_id = tokenizer._convert_token_to_id('[CLS]')# sep_id = tokenizer._convert_token_to_id('[SEP]')# print(cls_id, sep_id)sequence_output = outputs[0]print(sequence_output)print(sequence_output.shape) ## 字向量Bert 得到中文词向量(bert获取中文词向量)

输出的结果如下

PreTrainedTokenizer(name_or_path='bert-base-chinese', vocab_size=21128, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})['自', '然', '语', '言', '处', '理'][5632, 4197, 6427, 6241, 1905, 4415]['自', '然', '语', '言', '处', '理']tensor([[ 101, 5632, 4197, 6427, 6241, 1905, 4415, 102]])tensor([[[-0.5707, 0.1999, -0.0637, ..., -0.0916, -0.3997, 0.1751], [ 0.1549, 0.2454, 0.8372, ..., -0.7411, -0.8433, 0.5498], [ 0.1983, -0.5007, -0.6416, ..., 0.0322, -0.2561, 0.0599], ..., [ 0.1960, 0.4055, 1.6229, ..., 0.1070, -0.2448, 0.1766], [ 0.0846, 0.9084, 0.5164, ..., 0.0235, 0.6487, -0.0858], [-0.5326, -0.0390, 1.9163, ..., 0.1597, -0.2909, 0.6810]]], grad_fn=<NativeLayerNormBackward0>)torch.Size([1, 8, 768])

当然还可以通过bert-as-service得到词向量,网上有很多,步骤如下:

安装肖涵博士的bert-as-service: pip install bert-serving-server pip install bert-serving-client

下载训练好的Bert中文词向量: https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

启动bert-as-service: 找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12 打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:

bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1#后台启动服务(nohup .... &)nohup bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1 &

即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。) 启动后结果如下: 获取Bert预训练好的中文词向量:

from bert_serving.client import BertClient bc = BertClient() print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示 print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示 print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。

本文链接地址:https://www.jiuchutong.com/zhishi/295945.html 转载请保留说明!

上一篇:Java - token的存储与获取(javatoken生成机制)

下一篇:vue项目根据不同环境动态配置接口请求ip及全局变量(vue环境变量配置)(vue调用同一个组件)

  • 哪吒汽车2022年实现全系交付超15.2万台 同比增长118%

    哪吒汽车2022年实现全系交付超15.2万台 同比增长118%

  • 华为怎么语音唤醒语音助手(华为怎么语音唤醒)

    华为怎么语音唤醒语音助手(华为怎么语音唤醒)

  • amd k15主板配什么cpu(amd k15主板配什么cpu和显卡)

    amd k15主板配什么cpu(amd k15主板配什么cpu和显卡)

  • 相机打不开闪退怎么办(相机打不开闪退怎么办oppo)

    相机打不开闪退怎么办(相机打不开闪退怎么办oppo)

  • word添加黄色底纹(word2010添加黄色底纹)

    word添加黄色底纹(word2010添加黄色底纹)

  • 微信账号为什么自己冻结了(微信账号为什么会被冻结)

    微信账号为什么自己冻结了(微信账号为什么会被冻结)

  • 罗马字体在word文档中怎么找?(罗马字体在word文档中不显示)

    罗马字体在word文档中怎么找?(罗马字体在word文档中不显示)

  • 宽带自带wifi吗(宽带有wifi吗)

    宽带自带wifi吗(宽带有wifi吗)

  • 路由器隐藏了怎么连接(路由器隐藏了怎么恢复手机)

    路由器隐藏了怎么连接(路由器隐藏了怎么恢复手机)

  • 为什么苹果商店更新不了软件(为什么苹果商店下载不了软件)

    为什么苹果商店更新不了软件(为什么苹果商店下载不了软件)

  • 微信延迟到账怎么撤回到自己账户(微信延迟到账怎么改成实时到账)

    微信延迟到账怎么撤回到自己账户(微信延迟到账怎么改成实时到账)

  • i7无限蓝牙耳机怎么连接(i71无线耳机)

    i7无限蓝牙耳机怎么连接(i71无线耳机)

  • 长截图怎么截(华为长截图怎么截)

    长截图怎么截(华为长截图怎么截)

  • 乐视手机怎么换手机铃声(乐视手机怎么换字体)

    乐视手机怎么换手机铃声(乐视手机怎么换字体)

  • 金立的杂志锁屏怎么取消(金立手机杂志锁屏怎么设置)

    金立的杂志锁屏怎么取消(金立手机杂志锁屏怎么设置)

  • iphonexr几核(xr是几核的)

    iphonexr几核(xr是几核的)

  • 京东商品销量哪里看(京东的销量排行是真的吗)

    京东商品销量哪里看(京东的销量排行是真的吗)

  • excel日期显示#####怎么弄(excel日期显示不全)

    excel日期显示#####怎么弄(excel日期显示不全)

  • 苹果xr待机时间多久(苹果xr待机时间是多久)

    苹果xr待机时间多久(苹果xr待机时间是多久)

  • 恩科蓝牙耳机怎么连接双耳机(恩科蓝牙耳机怎么恢复双耳模式)

    恩科蓝牙耳机怎么连接双耳机(恩科蓝牙耳机怎么恢复双耳模式)

  • 京东校园用户怎么取消(京东校园用户怎么登录)

    京东校园用户怎么取消(京东校园用户怎么登录)

  • iphone系统20g怎么清理(苹果系统20g怎么清理)

    iphone系统20g怎么清理(苹果系统20g怎么清理)

  • 叨叨记账怎么打字聊天(叨叨记账打赏)

    叨叨记账怎么打字聊天(叨叨记账打赏)

  • 小米8充电异常(小米充电异常提示)

    小米8充电异常(小米充电异常提示)

  • windows11开始菜单如何改为经典? win11经典开始菜单的使用技巧(windows11开始菜单怎么居中)

    windows11开始菜单如何改为经典? win11经典开始菜单的使用技巧(windows11开始菜单怎么居中)

  • 固定资产报废进项税额怎么处理
  • 增值税专用发票使用规定 最新
  • 对外捐赠固定资产属于营业外支出吗
  • 发债评级机构 有哪些
  • 民办非企业捐赠承诺书
  • 事业单位下属企业员工转事业编
  • 未达起征点是什么
  • 盈余公积未分配利润
  • 二手房屋增值税税率
  • 置换新房产支付资金怎么纳税?
  • 外币账户间互转流程
  • 持有至到期投资改名为
  • 不同项目的进项税可以抵销项税吗
  • 摊销房租账务处理
  • 生产前和生产后经常长喘气怎么回事
  • 认缴制下实收资本印花税
  • 出售自建厂房的税率
  • 开物流公司能挣多少钱
  • 停车服务费的税率
  • 加油发票税号错误怎么补救
  • 银行卡刷卡消费限额
  • 抵扣进项税有期限吗
  • 库存现金可以做中转科目嘛为什么
  • 企业购买股票投资
  • 残疾人保障金怎么做账
  • 门诊医保报销流程详细步骤
  • 工程建设期间的借款利息
  • 赠送产品如何计入成本
  • 收益相关的政府补助分录
  • 企业当期产生的外币报表折算差额
  • 集团公司交税怎么交?
  • Linux系统怎么配置IP
  • win7怎么看服务
  • 货运业增值税税率
  • 冰上的卷羽鹈鹕,希腊凯尔基尼湖 (© Guy Edwardes/Minden Pictures)
  • 基建项目招标流程
  • 小规模纳税人税率2023年是多少
  • mysql怎么修改
  • 进出口货物收发货人报关注册登记证书
  • 小微企业免税销售额和其他免税销售额的区别
  • 增值税预缴的计税依据
  • 弹性预算列表法
  • 收到的稳岗补贴是否需要交税
  • 应收账款如何做平
  • 一般纳税人固定资产处置税率
  • 逾期交房违约金 已支付金额
  • 奖励促销策略
  • 退货对方不开具红字发票怎么办
  • 企业职工福利费使用范围和标准
  • 代理进口产品
  • 收到错误发票已入账跨月重新开会计分录
  • 企业支付宝收款码是进公账吗
  • 应交所得税科目期末是不是应该没有余额
  • 普通发票作废如何操作
  • 商业承兑汇票是什么
  • 建账前应该考虑哪些问题
  • mysql 5.7.16 zip包安装配置方法图文教程
  • sql1068错误
  • ms17010补丁怎么安装
  • ubuntu20.04怎么用
  • winxp系统连接网络
  • winproxy.exe - winproxy是什么进程
  • win10高对比度设置点了没反应
  • 深度隐藏root
  • win7如何设置多个显示器
  • win 8系统怎么样
  • win8.1系统升级
  • wps linux版本是什么意思
  • unityshader怎么用
  • Following the pipeline
  • Android In <declare-styleable> MenuView, unable to find attribute android:preserveIconSpacing
  • dos命令中删除文件命令有哪些
  • 设计师的悲哀
  • 基于flask的开源项目
  • unityshader
  • jquery页面布局
  • 杭州税务稽查举报电话
  • 税务协查工作亮点
  • 日本海淘推荐
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设