位置: IT常识 - 正文

Bert 得到中文词向量(bert获取中文词向量)

编辑:rootadmin
Bert 得到中文词向量

推荐整理分享Bert 得到中文词向量(bert获取中文词向量),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert英文发音,bert读,bert获取中文词向量,bert翻译成中文,bert分词得到词向,bert翻译成中文,bert中文分词,bert中文分词,内容如对您有帮助,希望把文章链接给更多的朋友!

通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中

得到中文词向量的代码如下

import torchfrom transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 加载base模型的对应的切词器model = BertModel.from_pretrained('bert-base-chinese')print(tokenizer) # 打印出对应的信息,如base模型的字典大小,截断长度等等token = tokenizer.tokenize("自然语言处理") # 切词print(token) # 切词结果indexes = tokenizer.convert_tokens_to_ids(token) # 将词转换为对应字典的idprint(indexes) # 输出idtokens = tokenizer.convert_ids_to_tokens(indexes)# 将id转换为对应字典的词print(tokens) # 输出词# 使用这种方法对句子编码会自动添加[CLS] 和[SEP]input_ids = torch.tensor(tokenizer.encode("自然语言处理")).unsqueeze(0)print(input_ids)outputs = model(input_ids)# cls_id = tokenizer._convert_token_to_id('[CLS]')# sep_id = tokenizer._convert_token_to_id('[SEP]')# print(cls_id, sep_id)sequence_output = outputs[0]print(sequence_output)print(sequence_output.shape) ## 字向量Bert 得到中文词向量(bert获取中文词向量)

输出的结果如下

PreTrainedTokenizer(name_or_path='bert-base-chinese', vocab_size=21128, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})['自', '然', '语', '言', '处', '理'][5632, 4197, 6427, 6241, 1905, 4415]['自', '然', '语', '言', '处', '理']tensor([[ 101, 5632, 4197, 6427, 6241, 1905, 4415, 102]])tensor([[[-0.5707, 0.1999, -0.0637, ..., -0.0916, -0.3997, 0.1751], [ 0.1549, 0.2454, 0.8372, ..., -0.7411, -0.8433, 0.5498], [ 0.1983, -0.5007, -0.6416, ..., 0.0322, -0.2561, 0.0599], ..., [ 0.1960, 0.4055, 1.6229, ..., 0.1070, -0.2448, 0.1766], [ 0.0846, 0.9084, 0.5164, ..., 0.0235, 0.6487, -0.0858], [-0.5326, -0.0390, 1.9163, ..., 0.1597, -0.2909, 0.6810]]], grad_fn=<NativeLayerNormBackward0>)torch.Size([1, 8, 768])

当然还可以通过bert-as-service得到词向量,网上有很多,步骤如下:

安装肖涵博士的bert-as-service: pip install bert-serving-server pip install bert-serving-client

下载训练好的Bert中文词向量: https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

启动bert-as-service: 找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12 打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:

bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1#后台启动服务(nohup .... &)nohup bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1 &

即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。) 启动后结果如下: 获取Bert预训练好的中文词向量:

from bert_serving.client import BertClient bc = BertClient() print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示 print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示 print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。

本文链接地址:https://www.jiuchutong.com/zhishi/295945.html 转载请保留说明!

上一篇:Java - token的存储与获取(javatoken生成机制)

下一篇:vue项目根据不同环境动态配置接口请求ip及全局变量(vue环境变量配置)(vue调用同一个组件)

  • 魅族 18 Pro的重量是多少(魅族18 pro使用感受)

    魅族 18 Pro的重量是多少(魅族18 pro使用感受)

  • p40是曲屏手机吗(p40是曲屏的么)

    p40是曲屏手机吗(p40是曲屏的么)

  • 苹果11怎样打开电池百分比(苹果11怎样打开麦克风)

    苹果11怎样打开电池百分比(苹果11怎样打开麦克风)

  • 如何去掉ppt的只读状态(如何去掉ppt上的)

    如何去掉ppt的只读状态(如何去掉ppt上的)

  • 电脑连接打印机找不到打印机型号怎么办(电脑连接打印机步骤图)

    电脑连接打印机找不到打印机型号怎么办(电脑连接打印机步骤图)

  • 为什么恒压源输出端不允许短路(为什么恒压源输出电压低)

    为什么恒压源输出端不允许短路(为什么恒压源输出电压低)

  • 华为p40pro新功能(华为p40pro新功能教程)

    华为p40pro新功能(华为p40pro新功能教程)

  • 抖音播放量多点赞少怎么办(抖音播放量多点会限流吗)

    抖音播放量多点赞少怎么办(抖音播放量多点会限流吗)

  • 华为手机图库在哪个文件夹里面(华为手机图库在哪)

    华为手机图库在哪个文件夹里面(华为手机图库在哪)

  • 联想小新14休眠怎么唤醒屏幕(联想小新14休眠快捷键)

    联想小新14休眠怎么唤醒屏幕(联想小新14休眠快捷键)

  • 华为售后换屏幕跟原来一样吗(华为售后换屏幕需要人工费吗)

    华为售后换屏幕跟原来一样吗(华为售后换屏幕需要人工费吗)

  • 把网店托管可以吗(把网店托管可以举报吗)

    把网店托管可以吗(把网店托管可以举报吗)

  • 华为呼叫转移网络异常(华为呼叫转移网络或sim卡出错什么意思)

    华为呼叫转移网络异常(华为呼叫转移网络或sim卡出错什么意思)

  • 微信群语音通话,其他人看得到吗(微信群语音通话怎么关闭)

    微信群语音通话,其他人看得到吗(微信群语音通话怎么关闭)

  • 物联网终端主要分为哪几种类型(物联网终端设备有哪些)

    物联网终端主要分为哪几种类型(物联网终端设备有哪些)

  • 爱奇艺怎么看自己的会员有几个人在用(爱奇艺怎么看自己的账号和密码)

    爱奇艺怎么看自己的会员有几个人在用(爱奇艺怎么看自己的账号和密码)

  • 电脑的c盘和d盘有什么区别吗(电脑的C盘和D盘内存都多大)

    电脑的c盘和d盘有什么区别吗(电脑的C盘和D盘内存都多大)

  • 怎么在表格贴电子照片(电子表格怎么粘贴图片)

    怎么在表格贴电子照片(电子表格怎么粘贴图片)

  • 时控开关怎么调时间(时控开关怎么调每天定时开关)

    时控开关怎么调时间(时控开关怎么调每天定时开关)

  • 快手热门从哪里看(快手热门从哪里找)

    快手热门从哪里看(快手热门从哪里找)

  • 小米触屏音箱怎么打电话(小米触屏音箱怎么样)

    小米触屏音箱怎么打电话(小米触屏音箱怎么样)

  • 安卓手机qq启动失败怎么办(安卓4.4.4qq启动失败)

    安卓手机qq启动失败怎么办(安卓4.4.4qq启动失败)

  • 科托尔湾的圣乔治海峡和圣母湾,黑山 (© Dmitrii Sakharov/Shutterstock)(科托儿古城)

    科托尔湾的圣乔治海峡和圣母湾,黑山 (© Dmitrii Sakharov/Shutterstock)(科托儿古城)

  • 增值税留抵退税怎么做账务处理
  • 哪些税不用通过应交税费
  • 多缴纳的附加税可以以后期间抵扣吗
  • 财税通财务软件怎么下载
  • 营业税是什么意思 视频
  • 小规模未开票收入填在哪里
  • 利润表利息费用和利息收入
  • 取得住宿发票的专用发票可以抵扣吗
  • 金税盘全额抵扣申报流程
  • 房地产开发企业会计科目
  • 管道运输是什么和什么合二为一
  • 损失补偿原则的限制条件有
  • 房屋过户收费标准
  • 厂房面积测绘收费标准
  • 股东借款可以免增值税吗
  • 设备的配件怎么做分录
  • 一般纳税人所得税优惠政策
  • 购买使用过的固定资产如何计提折旧
  • 公司注销对外投资股权有效吗
  • 哪些发票可以开专票
  • 佣金可以开票吗
  • 如何卸载某些系统软件
  • 公司借银行款会计分录
  • iphone7plus怎么设置5g网络
  • 在win7中,如何搜索指定扩展名的文件
  • 天然气 初装费
  • 为什么WIN10系统打在画面进不去
  • 非盈利组织又称
  • 长期股权投资引入新投资者账务处理
  • 企业与政府所签的合同
  • 影响安全库存的因素包括
  • 无形资产使用寿命不确定需要摊销吗
  • php怎么添加背景图片
  • 支付宝提现到对公账户怎么做账
  • CNN卷积神经网络/手写数字识别[VHDL][MATLAB]带源码
  • 帝国cms到底好不好
  • 社会团体收取的会费是否缴纳企业所得税
  • 印花税没交会怎么样
  • 买一赠一的销售方式
  • 金税盘发票作废失败09D13D
  • 定期定额自行申报表
  • 申请电子发票需要什么条件
  • 低值易耗品摊销计入什么科目
  • 个税年终奖计算方法2022税率表
  • 城建税退税分录怎么做
  • 赊销应收款余额怎么算
  • 服务业暂估成本怎样做账?
  • 手工账登账格式
  • 收到托收凭证怎么做分录
  • 期初固定资产算收入吗
  • 应收票据背书转让购买原材料
  • 超市被盗怎么办
  • 小规模纳税人月销售额超过10万怎么交税
  • 企业购买的土地计入什么科目
  • 贸易融资具体包括
  • mysql 备份和恢复
  • mysql数据库内存缓存设置
  • win7进bios设置启动盘
  • mac os如何安装软件
  • windows设置
  • Mac如何设置自动锁屏
  • 腾讯电脑管家免费安装下载
  • JavaScript中的NaN代表什么
  • nodejs创建vue
  • 搭建android开发环境时为什么要先安装jdk
  • opengl纹理贴图图片位置
  • nodejs image
  • python中读取文件
  • node js require
  • viewstock
  • javascript中的数据类型分为两大类
  • python openfoam
  • 县税务局可以去市里吗
  • 湖北省税务局官网电话
  • 吉林省工伤保险咨询电话
  • 季报逾期申报怎么写
  • 地税可以补开以前发票吗
  • 降低税率的坏处
  • 财税2016年47号文件中的劳务派遣
  • 衡阳地税局的地理位置
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设