位置: IT常识 - 正文

Bert 得到中文词向量(bert获取中文词向量)

编辑:rootadmin
Bert 得到中文词向量

推荐整理分享Bert 得到中文词向量(bert获取中文词向量),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert英文发音,bert读,bert获取中文词向量,bert翻译成中文,bert分词得到词向,bert翻译成中文,bert中文分词,bert中文分词,内容如对您有帮助,希望把文章链接给更多的朋友!

通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中

得到中文词向量的代码如下

import torchfrom transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 加载base模型的对应的切词器model = BertModel.from_pretrained('bert-base-chinese')print(tokenizer) # 打印出对应的信息,如base模型的字典大小,截断长度等等token = tokenizer.tokenize("自然语言处理") # 切词print(token) # 切词结果indexes = tokenizer.convert_tokens_to_ids(token) # 将词转换为对应字典的idprint(indexes) # 输出idtokens = tokenizer.convert_ids_to_tokens(indexes)# 将id转换为对应字典的词print(tokens) # 输出词# 使用这种方法对句子编码会自动添加[CLS] 和[SEP]input_ids = torch.tensor(tokenizer.encode("自然语言处理")).unsqueeze(0)print(input_ids)outputs = model(input_ids)# cls_id = tokenizer._convert_token_to_id('[CLS]')# sep_id = tokenizer._convert_token_to_id('[SEP]')# print(cls_id, sep_id)sequence_output = outputs[0]print(sequence_output)print(sequence_output.shape) ## 字向量Bert 得到中文词向量(bert获取中文词向量)

输出的结果如下

PreTrainedTokenizer(name_or_path='bert-base-chinese', vocab_size=21128, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})['自', '然', '语', '言', '处', '理'][5632, 4197, 6427, 6241, 1905, 4415]['自', '然', '语', '言', '处', '理']tensor([[ 101, 5632, 4197, 6427, 6241, 1905, 4415, 102]])tensor([[[-0.5707, 0.1999, -0.0637, ..., -0.0916, -0.3997, 0.1751], [ 0.1549, 0.2454, 0.8372, ..., -0.7411, -0.8433, 0.5498], [ 0.1983, -0.5007, -0.6416, ..., 0.0322, -0.2561, 0.0599], ..., [ 0.1960, 0.4055, 1.6229, ..., 0.1070, -0.2448, 0.1766], [ 0.0846, 0.9084, 0.5164, ..., 0.0235, 0.6487, -0.0858], [-0.5326, -0.0390, 1.9163, ..., 0.1597, -0.2909, 0.6810]]], grad_fn=<NativeLayerNormBackward0>)torch.Size([1, 8, 768])

当然还可以通过bert-as-service得到词向量,网上有很多,步骤如下:

安装肖涵博士的bert-as-service: pip install bert-serving-server pip install bert-serving-client

下载训练好的Bert中文词向量: https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

启动bert-as-service: 找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12 打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:

bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1#后台启动服务(nohup .... &)nohup bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1 &

即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。) 启动后结果如下: 获取Bert预训练好的中文词向量:

from bert_serving.client import BertClient bc = BertClient() print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示 print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示 print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。

本文链接地址:https://www.jiuchutong.com/zhishi/295945.html 转载请保留说明!

上一篇:Java - token的存储与获取(javatoken生成机制)

下一篇:vue项目根据不同环境动态配置接口请求ip及全局变量(vue环境变量配置)(vue调用同一个组件)

  • qq怎么看对方有没有拉黑你(qq怎么看对方有没有删除你)

    qq怎么看对方有没有拉黑你(qq怎么看对方有没有删除你)

  • 电脑复制粘贴快捷键ctrl加什么(电脑复制粘贴快捷键怎样操作)

    电脑复制粘贴快捷键ctrl加什么(电脑复制粘贴快捷键怎样操作)

  • 苹果11怎么下载东西(苹果11怎么下载不了app软件)

    苹果11怎么下载东西(苹果11怎么下载不了app软件)

  • k30pro指纹在哪里(红米k30pro指纹解锁在哪里)

    k30pro指纹在哪里(红米k30pro指纹解锁在哪里)

  • 手机ot g什么意思

    手机ot g什么意思

  • 网络欠费后显示什么(欠费后网络不能用)

    网络欠费后显示什么(欠费后网络不能用)

  • qq和微信的步数不一致原因(qq步数与微信步数相差太多)

    qq和微信的步数不一致原因(qq步数与微信步数相差太多)

  • 有耳机孔的手机用typec耳机(有耳机孔的手机能不能用typec耳机)

    有耳机孔的手机用typec耳机(有耳机孔的手机能不能用typec耳机)

  • 什么是分页符(什么是分页符什么是分节符两者的区别是什么)

    什么是分页符(什么是分页符什么是分节符两者的区别是什么)

  • 五方通话线是什么线(五方通话线可以并联吗)

    五方通话线是什么线(五方通话线可以并联吗)

  • 苹果手机不设置id账号可以用吗(苹果手机不设置id可以使用吗)

    苹果手机不设置id账号可以用吗(苹果手机不设置id可以使用吗)

  • 用什么软件制作宣传单(用什么软件制作ppt)

    用什么软件制作宣传单(用什么软件制作ppt)

  • word文档无法粘贴文字(word文档不能黏贴)

    word文档无法粘贴文字(word文档不能黏贴)

  • 苹果手机系统垃圾怎么清理(苹果手机系统垃圾和其他垃圾怎么清理)

    苹果手机系统垃圾怎么清理(苹果手机系统垃圾和其他垃圾怎么清理)

  • 四大基本存储结构(常见的存储结构有哪几种)

    四大基本存储结构(常见的存储结构有哪几种)

  • ps怎么填空白(ps怎么填充白色区域)

    ps怎么填空白(ps怎么填充白色区域)

  • 照片怎么传到电脑上(照片怎么传到电子版文件上)

    照片怎么传到电脑上(照片怎么传到电子版文件上)

  • 接听电话录音在哪播放(接电话录音在哪)

    接听电话录音在哪播放(接电话录音在哪)

  • 图片识人小程序叫什么(图片识人小程序怎么弄)

    图片识人小程序叫什么(图片识人小程序怎么弄)

  • 云闪付app坐公交车操作步骤(云闪付app坐公交怎么用nfc)

    云闪付app坐公交车操作步骤(云闪付app坐公交怎么用nfc)

  • 手写带拼音的怎么设置(手写打字带拼音字母)

    手写带拼音的怎么设置(手写打字带拼音字母)

  • 抖音完整版视频怎么看(抖音完整版视频的链接怎么获得?)

    抖音完整版视频怎么看(抖音完整版视频的链接怎么获得?)

  • 抖音怎么解除通讯录(抖音怎么解除通过回关)

    抖音怎么解除通讯录(抖音怎么解除通过回关)

  • QQ音乐程序错误怎么回事(qq音乐程序错误怎么回事)

    QQ音乐程序错误怎么回事(qq音乐程序错误怎么回事)

  • 教务系统密码忘记了怎么办(教务系统密码忘了怎么查成绩)

    教务系统密码忘记了怎么办(教务系统密码忘了怎么查成绩)

  • 闲鱼怎么评论宝贝(闲鱼怎么评价让别人看见)

    闲鱼怎么评论宝贝(闲鱼怎么评价让别人看见)

  • vivo自定义运营商名称(vivo运营模式)

    vivo自定义运营商名称(vivo运营模式)

  • word怎么标注引用(word怎么标注引用的句子)

    word怎么标注引用(word怎么标注引用的句子)

  • 绿萝怎么修剪,这样修剪绿萝叶子让其长得才能更旺盛(图文)(绿萝怎么修剪才能更旺盛)

    绿萝怎么修剪,这样修剪绿萝叶子让其长得才能更旺盛(图文)(绿萝怎么修剪才能更旺盛)

  • 留抵抵欠条件
  • 农产品税率9%还是免税
  • 印花税包括几个税种
  • 计提个人所得税计入什么科目
  • 餐饮税务每个月几号报税
  • 投资性房地产发生减值迹象均要计提减值准备
  • 取用备用金要188分
  • 小规模纳税人销售农产品税率是多少
  • 应收账款包含应付款吗
  • 带息负债融资成本
  • 贸易公司的印花税税率是多少
  • 金融机构利息收入缴纳增值税
  • 白条入账所得税怎么做纳税调曾
  • 确认收入销售折让分录
  • 收到福利费会计分录
  • 餐费开专票有什么影响
  • 预缴税款后怎么开票
  • 内蒙古地税电子税务局app
  • 以前年度已经缴纳的税
  • 房地产企业开发资质等级
  • 代收污水处理费要交税吗
  • 存货计价方法的选择对利润表中的项目没有影响
  • 企业支出的资产包括哪些
  • 实际出资和名义出资
  • 购买预付卡账务处理
  • 增值税抄税报税流程2021
  • 如何让解决中世纪基督教世界黑暗
  • 税负率的计算方法公式
  • window10下载cad2014
  • win11自带照片查看器
  • 资金拆借需防范哪些风险
  • 应交税费应交增值税转出未交增值税是什么意思
  • 以公允价值计量是什么意思
  • php 实例
  • php sql 教程
  • 固定资产盘盈为什么要调整所得税
  • 你别找了
  • 目标检测yolo
  • init 6命令
  • java中的gui是什么
  • 计算分配本月职工工资会计分录
  • 政府会计累计盈余解析
  • 酒店低值易耗品怎么摊销
  • 个人独资企业是不是个体工商户
  • 公司聘用临时工需要买社保吗
  • 利润与利润率之差公式
  • 物流货损怎样处理
  • 投资收益属于营业外收入吗为什么
  • 退票凭证丢了怎么办
  • 成本法下被投资单位其他综合收益变动
  • 普通发票红字冲销怎么操作流程
  • 已抵扣的进项税额转出会计分录账务处理
  • 企业成本核算项目以及成本核算流程
  • 净资产增加是好还是坏
  • 预期收益率怎么用市场预期收益率算
  • 运输服务和运输费有什么区别
  • 过期食品返厂会重新打日期吗
  • 出纳建账账户名称怎么写
  • mysql查询语句大全讲解
  • 通过SQL语句直接把表导出为XML格式
  • 回顾30年的水文模型参数率定研究
  • 苹果mac使用
  • ubuntu怎么设置网络连接
  • windows 10移动版
  • w10怎么usb连接上网
  • 万能win8pe工具箱怎么用
  • shell脚本实现同时多台远程主机执行命令的代码分享
  • python数值计算基础
  • jquery删除dom
  • cmd命令format
  • 基于vue的购物系统
  • 如何利用工具人
  • 一张监控
  • nodejs tcp
  • 农商银行股权分红如何计算
  • 深圳国家税务总局
  • 河南省国家税务局电子税务局
  • 部落冲突显示此不论描述无效
  • 2018年3月增值税申报期限
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设