位置: IT常识 - 正文

Bert 得到中文词向量(bert获取中文词向量)

编辑:rootadmin
Bert 得到中文词向量

推荐整理分享Bert 得到中文词向量(bert获取中文词向量),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert英文发音,bert读,bert获取中文词向量,bert翻译成中文,bert分词得到词向,bert翻译成中文,bert中文分词,bert中文分词,内容如对您有帮助,希望把文章链接给更多的朋友!

通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中

得到中文词向量的代码如下

import torchfrom transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 加载base模型的对应的切词器model = BertModel.from_pretrained('bert-base-chinese')print(tokenizer) # 打印出对应的信息,如base模型的字典大小,截断长度等等token = tokenizer.tokenize("自然语言处理") # 切词print(token) # 切词结果indexes = tokenizer.convert_tokens_to_ids(token) # 将词转换为对应字典的idprint(indexes) # 输出idtokens = tokenizer.convert_ids_to_tokens(indexes)# 将id转换为对应字典的词print(tokens) # 输出词# 使用这种方法对句子编码会自动添加[CLS] 和[SEP]input_ids = torch.tensor(tokenizer.encode("自然语言处理")).unsqueeze(0)print(input_ids)outputs = model(input_ids)# cls_id = tokenizer._convert_token_to_id('[CLS]')# sep_id = tokenizer._convert_token_to_id('[SEP]')# print(cls_id, sep_id)sequence_output = outputs[0]print(sequence_output)print(sequence_output.shape) ## 字向量Bert 得到中文词向量(bert获取中文词向量)

输出的结果如下

PreTrainedTokenizer(name_or_path='bert-base-chinese', vocab_size=21128, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})['自', '然', '语', '言', '处', '理'][5632, 4197, 6427, 6241, 1905, 4415]['自', '然', '语', '言', '处', '理']tensor([[ 101, 5632, 4197, 6427, 6241, 1905, 4415, 102]])tensor([[[-0.5707, 0.1999, -0.0637, ..., -0.0916, -0.3997, 0.1751], [ 0.1549, 0.2454, 0.8372, ..., -0.7411, -0.8433, 0.5498], [ 0.1983, -0.5007, -0.6416, ..., 0.0322, -0.2561, 0.0599], ..., [ 0.1960, 0.4055, 1.6229, ..., 0.1070, -0.2448, 0.1766], [ 0.0846, 0.9084, 0.5164, ..., 0.0235, 0.6487, -0.0858], [-0.5326, -0.0390, 1.9163, ..., 0.1597, -0.2909, 0.6810]]], grad_fn=<NativeLayerNormBackward0>)torch.Size([1, 8, 768])

当然还可以通过bert-as-service得到词向量,网上有很多,步骤如下:

安装肖涵博士的bert-as-service: pip install bert-serving-server pip install bert-serving-client

下载训练好的Bert中文词向量: https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

启动bert-as-service: 找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12 打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:

bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1#后台启动服务(nohup .... &)nohup bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1 &

即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。) 启动后结果如下: 获取Bert预训练好的中文词向量:

from bert_serving.client import BertClient bc = BertClient() print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示 print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示 print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。

本文链接地址:https://www.jiuchutong.com/zhishi/295945.html 转载请保留说明!

上一篇:Java - token的存储与获取(javatoken生成机制)

下一篇:vue项目根据不同环境动态配置接口请求ip及全局变量(vue环境变量配置)(vue调用同一个组件)

  • 荣耀20pro智慧生活有什么用(华为荣耀20智慧生活怎么开空调)

    荣耀20pro智慧生活有什么用(华为荣耀20智慧生活怎么开空调)

  • art-al00m什么型号(art-al00m什么型号手机)

    art-al00m什么型号(art-al00m什么型号手机)

  • 电脑launch是什么(电脑上launch是什么意思)

    电脑launch是什么(电脑上launch是什么意思)

  • 苹果se2支持无线充电吗(苹果色2支持无线充电)

    苹果se2支持无线充电吗(苹果色2支持无线充电)

  • 手机一直开关机循环怎么办(手机一直开关机对手机有害吗)

    手机一直开关机循环怎么办(手机一直开关机对手机有害吗)

  • 美团众包注册不符合规定什么意思(美团众包注册不了怎么回事身份不合要求)

    美团众包注册不符合规定什么意思(美团众包注册不了怎么回事身份不合要求)

  • 华为nova7的卡槽在哪(华为nova7的卡槽怎么打开)

    华为nova7的卡槽在哪(华为nova7的卡槽怎么打开)

  • 华为手机屏保图片怎么设置(华为手机屏保图片怎么换)

    华为手机屏保图片怎么设置(华为手机屏保图片怎么换)

  • dock栏是什么(windows的dock栏)

    dock栏是什么(windows的dock栏)

  • 腾讯系列应用有哪些(腾讯系列应用有哪些软件)

    腾讯系列应用有哪些(腾讯系列应用有哪些软件)

  • iphone11和iphonexr对比(iPhone11和iPhonexrmax)

    iphone11和iphonexr对比(iPhone11和iPhonexrmax)

  • 路由器打开搜不到wifi(路由器打开搜不到wifi是怎么回事)

    路由器打开搜不到wifi(路由器打开搜不到wifi是怎么回事)

  • 苹果11怎么设置电池百分比(苹果11怎么设置锁屏壁纸)

    苹果11怎么设置电池百分比(苹果11怎么设置锁屏壁纸)

  • 怎么扫微信二维码付钱(怎么扫微信二维码登录王者荣耀)

    怎么扫微信二维码付钱(怎么扫微信二维码登录王者荣耀)

  • 如何使用打印机缩印(如何使用打印机复印)

    如何使用打印机缩印(如何使用打印机复印)

  • 手机淘宝怎么切换乡村版(手机淘宝怎么切换成商家版)

    手机淘宝怎么切换乡村版(手机淘宝怎么切换成商家版)

  • 苹果怎么设置接听震动(苹果怎么设置接不到电话)

    苹果怎么设置接听震动(苹果怎么设置接不到电话)

  • hdmi1.4和2.0的区别(hdmi1.4和2.0的区别 电视机)

    hdmi1.4和2.0的区别(hdmi1.4和2.0的区别 电视机)

  • 华为无线充电器可以充苹果手机吗(华为无线充电器苹果手机可以用吗)

    华为无线充电器可以充苹果手机吗(华为无线充电器苹果手机可以用吗)

  • 960显卡功耗(960显卡功耗300w)

    960显卡功耗(960显卡功耗300w)

  • 怎么把照片的背景换掉(怎么把照片的背景虚化)

    怎么把照片的背景换掉(怎么把照片的背景虚化)

  • 如何正确使用好笔记本电池(如何正确使用好薪酬调查结果)

    如何正确使用好笔记本电池(如何正确使用好薪酬调查结果)

  • slam原理介绍和经典算法(slam方法)

    slam原理介绍和经典算法(slam方法)

  • 扒一扒抖音是如何做线程优化的(抖音是如何成功的)

    扒一扒抖音是如何做线程优化的(抖音是如何成功的)

  • 个人所得税汇算清缴截止日期
  • 建筑企业差额征税如何开票
  • 只报个税不交社保有什么税务风险
  • 发票上税额加不上怎么办
  • 事业单位无形资产摊销年限
  • 新公司成立后的第一个文件是什么
  • 资产负债表的货币资金根据什么填
  • 固定资产折旧购买日期还是使用日期呢
  • 单用途卡与多用途卡
  • 小规模纳税人水电费税率
  • 商业保险可以抵扣增值税吗
  • 服务业收到服务业发票分录
  • 滴滴客运服务费免税
  • 管家婆怎样查历史记录
  • 补交以前年度工会经费所得税如何申报
  • 园林工程的范围包括哪些?
  • 合同资产和工程存货的区别
  • 企业购买固定资产要交印花税吗
  • 苹果电脑mac系统怎么用
  • 无法启动个人热点iphone
  • win10一直显示修复
  • 房地产企业集团内部间的担保费可以税前扣除嚒
  • 单位交社保是不是比个人交社保以后退休金要多
  • linux内核与文件系统
  • 代销方式是什么意思
  • lean in桑德伯格
  • php文件用什么运行
  • Symfony2实现在doctrine中内置数据的方法
  • 科西嘉岛攻略
  • 公立医院增值税抵扣
  • 收到车险发票含增值税吗
  • php 字符串处理函数
  • 办公费抵扣标准
  • 年报写歇业 可以写多久
  • php 解压
  • 微软的人工智能ChatGPT
  • 收回已转销的应收账款是什么意思
  • 企业什么时候才能按工龄退休
  • 银行账号未备案怎么解决
  • 如何进行会计制度改革
  • 预提房租会计分录怎么填
  • 小微企业可以享受六税两费吗
  • 招待客户住宿属于什么费用
  • 赠送电影票文案
  • 报销没有消费凭据怎么办
  • 会计凭证审核标准有哪些
  • mysql索引的使用和原理
  • win7双击文件无反应
  • win8还能用吗
  • Windows Server 2008虚拟技术说明
  • linux 新手
  • centos8 bond0
  • centos6.5设置网络
  • 开机密码忘记了怎么打开手机
  • 为什么电脑显示windows10即将终止服务
  • win7升级到win10系统软件还能用吗
  • linux如何创建ftp
  • bzip2 bunzip2 bzcat参数使用
  • win10系统无法运行海岛大亨5
  • glColor3f影响纹理贴图 的思考
  • 安卓游戏报告
  • android pageview
  • 实现原生的ajax
  • python 处理mp3
  • angular.js
  • unity资源包怎么用
  • js最简单的代码
  • 安卓自定义状态栏图标
  • 安卓手机 监听功能
  • android:testonly="true"
  • python socket用法
  • python 基础 教程
  • 电子普通发票怎么查验真伪
  • 租房完税证明需要房东交钱吗?
  • 重庆个人所得税是多少
  • 重庆国税电子税务局
  • 山东省合格考密码
  • 市中区税务局办税大厅地址
  • 注册会计师人员名单
  • 电费增值税专用发票如何抵税
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设