位置: IT常识 - 正文

Bert 得到中文词向量(bert获取中文词向量)

编辑:rootadmin
Bert 得到中文词向量

推荐整理分享Bert 得到中文词向量(bert获取中文词向量),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert英文发音,bert读,bert获取中文词向量,bert翻译成中文,bert分词得到词向,bert翻译成中文,bert中文分词,bert中文分词,内容如对您有帮助,希望把文章链接给更多的朋友!

通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中

得到中文词向量的代码如下

import torchfrom transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 加载base模型的对应的切词器model = BertModel.from_pretrained('bert-base-chinese')print(tokenizer) # 打印出对应的信息,如base模型的字典大小,截断长度等等token = tokenizer.tokenize("自然语言处理") # 切词print(token) # 切词结果indexes = tokenizer.convert_tokens_to_ids(token) # 将词转换为对应字典的idprint(indexes) # 输出idtokens = tokenizer.convert_ids_to_tokens(indexes)# 将id转换为对应字典的词print(tokens) # 输出词# 使用这种方法对句子编码会自动添加[CLS] 和[SEP]input_ids = torch.tensor(tokenizer.encode("自然语言处理")).unsqueeze(0)print(input_ids)outputs = model(input_ids)# cls_id = tokenizer._convert_token_to_id('[CLS]')# sep_id = tokenizer._convert_token_to_id('[SEP]')# print(cls_id, sep_id)sequence_output = outputs[0]print(sequence_output)print(sequence_output.shape) ## 字向量Bert 得到中文词向量(bert获取中文词向量)

输出的结果如下

PreTrainedTokenizer(name_or_path='bert-base-chinese', vocab_size=21128, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})['自', '然', '语', '言', '处', '理'][5632, 4197, 6427, 6241, 1905, 4415]['自', '然', '语', '言', '处', '理']tensor([[ 101, 5632, 4197, 6427, 6241, 1905, 4415, 102]])tensor([[[-0.5707, 0.1999, -0.0637, ..., -0.0916, -0.3997, 0.1751], [ 0.1549, 0.2454, 0.8372, ..., -0.7411, -0.8433, 0.5498], [ 0.1983, -0.5007, -0.6416, ..., 0.0322, -0.2561, 0.0599], ..., [ 0.1960, 0.4055, 1.6229, ..., 0.1070, -0.2448, 0.1766], [ 0.0846, 0.9084, 0.5164, ..., 0.0235, 0.6487, -0.0858], [-0.5326, -0.0390, 1.9163, ..., 0.1597, -0.2909, 0.6810]]], grad_fn=<NativeLayerNormBackward0>)torch.Size([1, 8, 768])

当然还可以通过bert-as-service得到词向量,网上有很多,步骤如下:

安装肖涵博士的bert-as-service: pip install bert-serving-server pip install bert-serving-client

下载训练好的Bert中文词向量: https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

启动bert-as-service: 找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12 打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:

bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1#后台启动服务(nohup .... &)nohup bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1 &

即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。) 启动后结果如下: 获取Bert预训练好的中文词向量:

from bert_serving.client import BertClient bc = BertClient() print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示 print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示 print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。

本文链接地址:https://www.jiuchutong.com/zhishi/295945.html 转载请保留说明!

上一篇:Java - token的存储与获取(javatoken生成机制)

下一篇:vue项目根据不同环境动态配置接口请求ip及全局变量(vue环境变量配置)(vue调用同一个组件)

  • 淘宝各种营销活动 有适合自己的网店的吗?(淘宝各种营销活动方案)

    淘宝各种营销活动 有适合自己的网店的吗?(淘宝各种营销活动方案)

  • 华为拼图功能怎么用(华为拼图功能怎么调整图片位置)

    华为拼图功能怎么用(华为拼图功能怎么调整图片位置)

  • 快充对手机电池有伤害吗(手机怎样充电对电池好)

    快充对手机电池有伤害吗(手机怎样充电对电池好)

  • 微信银行卡列表在哪里(开通微众银行卡)

    微信银行卡列表在哪里(开通微众银行卡)

  • oxfAn00是什么型号(oxfan10是什么型号)

    oxfAn00是什么型号(oxfan10是什么型号)

  • 浏览器为什么不能打开(浏览器为什么不能打字)

    浏览器为什么不能打开(浏览器为什么不能打字)

  • 魅族17和17pro的区别(魅族17和17pro的手机壳一样吗)

    魅族17和17pro的区别(魅族17和17pro的手机壳一样吗)

  • 红米10x是5g手机吗(红米10x是真5g手机??)

    红米10x是5g手机吗(红米10x是真5g手机??)

  • 苹果手机开了静音键,闹钟会响吗(苹果手机开了静音找不到了怎么办)

    苹果手机开了静音键,闹钟会响吗(苹果手机开了静音找不到了怎么办)

  • iphone国产屏和原装屏区别(iphone国产屏和原装屏哪个好)

    iphone国产屏和原装屏区别(iphone国产屏和原装屏哪个好)

  • 笔记本电脑在哪调声音(笔记本电脑在哪下载软件)

    笔记本电脑在哪调声音(笔记本电脑在哪下载软件)

  • 苹果手机怎么保存视频到相册(苹果手机怎么保存文件)

    苹果手机怎么保存视频到相册(苹果手机怎么保存文件)

  • 扫码好友辅助安全吗(扫码好友辅助骗局怎么解决)

    扫码好友辅助安全吗(扫码好友辅助骗局怎么解决)

  • 微信新消息通知关闭是什么意思(微信新消息通知关闭后打不开怎么办)

    微信新消息通知关闭是什么意思(微信新消息通知关闭后打不开怎么办)

  • 手机网络正常却不能用(手机网络正常却打不开B站)

    手机网络正常却不能用(手机网络正常却打不开B站)

  • 手机无线投屏怎么用在电视上(手机无线投屏怎么连接投影仪)

    手机无线投屏怎么用在电视上(手机无线投屏怎么连接投影仪)

  • ps如何退出快速蒙版(ps怎么退出)

    ps如何退出快速蒙版(ps怎么退出)

  • 苹果怎么加大app字体(苹果怎么加大打字声音)

    苹果怎么加大app字体(苹果怎么加大打字声音)

  • vue怎么加多个字幕(vue添加上下文)

    vue怎么加多个字幕(vue添加上下文)

  • qq礼物怎么换钱(怎样把qq里的礼物兑换成微信里的钱)

    qq礼物怎么换钱(怎样把qq里的礼物兑换成微信里的钱)

  • 小米社区vip是什么(小米社区我的兑换在哪里)

    小米社区vip是什么(小米社区我的兑换在哪里)

  • oppoa59s电池多少毫安(oppoa59s电池多少钱一块)

    oppoa59s电池多少毫安(oppoa59s电池多少钱一块)

  • 个人如何维护网络安全

    个人如何维护网络安全

  • 此时无法下载迅雷什么意思(为什么下载显示此时无法下载)

    此时无法下载迅雷什么意思(为什么下载显示此时无法下载)

  • 如何删除金山文档(如何删除金山文档sheet2)

    如何删除金山文档(如何删除金山文档sheet2)

  • 6s频繁重启(iphone6频繁重启是什么原因)

    6s频繁重启(iphone6频繁重启是什么原因)

  • catman命令  创建参考手册的格式化文件(用cat命令创建f1和f2文件)

    catman命令 创建参考手册的格式化文件(用cat命令创建f1和f2文件)

  • 什么叫风险纳税人员
  • 耕地占用税的征收标准
  • 哪些费用可以放到研发费用中
  • 研发活动计入当期损益怎么计算
  • 一般纳税人留底税额抵减欠缴税额
  • 资产负债表上应付账款根据什么填制
  • 附加税减半征收政策从什么时候开始
  • 增资导致丧失控制权
  • 报关单和发票不符怎么办
  • 政策性搬迁资产损失情况怎么写
  • 小微企业的认定标准2021
  • 融资租赁首付款支付给供应商
  • 自产货物用于在建工程要交增值税吗
  • 通行费进项抵扣条件
  • 租别人厂房土地税房产税怎么交
  • 哪些进项税额不允许从销项税额中抵扣?
  • 福利费可以抵扣个税吗
  • 商业企业取得农产品税收
  • 贷款能不能开发票
  • 商业承兑汇票贴现为什么是短期借款
  • 小微企业免增值税到什么时候
  • 土地增值税加计5%扣除年限
  • 小规模手撕发票申报填在哪
  • 股权无偿赠与子女怎么办理手续
  • 进项税额转出月底如何结转
  • 电脑怎么备份系统win7
  • mac和mac之间怎么传东西
  • win7步骤和详细教程
  • 购买电子承兑差额怎么算
  • 怎样会被税
  • 实缴注册资本股权转让怎么交税
  • 领料单出库单区别
  • 小企业成本管理方法
  • 增值税怎样计算
  • 金融工具减值的范围包括哪些?
  • 卖废品收入计入需要交税吗
  • 2021mathorcupc题答案
  • PHP Ajax JavaScript Json获取天气信息实现代码
  • vi操作命令进入编辑命令
  • 应收账款期末余额在借方还是贷方
  • 公司加班餐费会计科目
  • 已付款收货未收到发票怎么做账
  • 非流动资产基金对应的新科目
  • 发票未认证跨月怎么办
  • 视同内销补税的财务处理
  • 发票勾选后什么时候开票
  • 增值税发票抵扣联的作用
  • 长期借款的会计分录怎么写
  • sql server 排名函数
  • in参数太多导致sql过长
  • 捐赠货物的增值税可以税前扣除吗
  • 残疾人保障金需要联系专管员吗
  • 支付的中介费进什么科目
  • 资产减值损失如何计提
  • 新开办的企业怎么做账
  • 费用报销单如何粘贴票据
  • 公司开业之前产假怎么算
  • rhel安装mysql
  • mysql创建数据库的操作步骤
  • mysql2002解决办法
  • mac下mysql密码忘记了怎么办
  • windowsserver2008r2standard激活
  • mac电脑如何下载app
  • debian yum安装
  • 苹pp助手
  • linux 详解
  • WIN+VMWARE6.5上面网络配置centOs(5.4版) ADSL接入的小结
  • linux系统查看系统信息
  • win10麦克风无法说话
  • win10系统怎么关闭病毒防护
  • 动态设置class
  • glslpe
  • unity改vs版本
  • jquery怎么修改样式
  • 获取路径下的文件名
  • jquery做下拉
  • doctype报错
  • jquery不生效的原因
  • 成都税务局网上办事大厅
  • 北京地税咨询热线
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设