位置: IT常识 - 正文

Bert 得到中文词向量(bert获取中文词向量)

编辑:rootadmin
Bert 得到中文词向量

推荐整理分享Bert 得到中文词向量(bert获取中文词向量),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert英文发音,bert读,bert获取中文词向量,bert翻译成中文,bert分词得到词向,bert翻译成中文,bert中文分词,bert中文分词,内容如对您有帮助,希望把文章链接给更多的朋友!

通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中

得到中文词向量的代码如下

import torchfrom transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 加载base模型的对应的切词器model = BertModel.from_pretrained('bert-base-chinese')print(tokenizer) # 打印出对应的信息,如base模型的字典大小,截断长度等等token = tokenizer.tokenize("自然语言处理") # 切词print(token) # 切词结果indexes = tokenizer.convert_tokens_to_ids(token) # 将词转换为对应字典的idprint(indexes) # 输出idtokens = tokenizer.convert_ids_to_tokens(indexes)# 将id转换为对应字典的词print(tokens) # 输出词# 使用这种方法对句子编码会自动添加[CLS] 和[SEP]input_ids = torch.tensor(tokenizer.encode("自然语言处理")).unsqueeze(0)print(input_ids)outputs = model(input_ids)# cls_id = tokenizer._convert_token_to_id('[CLS]')# sep_id = tokenizer._convert_token_to_id('[SEP]')# print(cls_id, sep_id)sequence_output = outputs[0]print(sequence_output)print(sequence_output.shape) ## 字向量Bert 得到中文词向量(bert获取中文词向量)

输出的结果如下

PreTrainedTokenizer(name_or_path='bert-base-chinese', vocab_size=21128, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})['自', '然', '语', '言', '处', '理'][5632, 4197, 6427, 6241, 1905, 4415]['自', '然', '语', '言', '处', '理']tensor([[ 101, 5632, 4197, 6427, 6241, 1905, 4415, 102]])tensor([[[-0.5707, 0.1999, -0.0637, ..., -0.0916, -0.3997, 0.1751], [ 0.1549, 0.2454, 0.8372, ..., -0.7411, -0.8433, 0.5498], [ 0.1983, -0.5007, -0.6416, ..., 0.0322, -0.2561, 0.0599], ..., [ 0.1960, 0.4055, 1.6229, ..., 0.1070, -0.2448, 0.1766], [ 0.0846, 0.9084, 0.5164, ..., 0.0235, 0.6487, -0.0858], [-0.5326, -0.0390, 1.9163, ..., 0.1597, -0.2909, 0.6810]]], grad_fn=<NativeLayerNormBackward0>)torch.Size([1, 8, 768])

当然还可以通过bert-as-service得到词向量,网上有很多,步骤如下:

安装肖涵博士的bert-as-service: pip install bert-serving-server pip install bert-serving-client

下载训练好的Bert中文词向量: https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

启动bert-as-service: 找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12 打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:

bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1#后台启动服务(nohup .... &)nohup bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1 &

即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。) 启动后结果如下: 获取Bert预训练好的中文词向量:

from bert_serving.client import BertClient bc = BertClient() print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示 print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示 print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。

本文链接地址:https://www.jiuchutong.com/zhishi/295945.html 转载请保留说明!

上一篇:Java - token的存储与获取(javatoken生成机制)

下一篇:vue项目根据不同环境动态配置接口请求ip及全局变量(vue环境变量配置)(vue调用同一个组件)

  • 明星大侦探(mx3拆机)(明星大侦探第五季)

    明星大侦探(mx3拆机)(明星大侦探第五季)

  • 苹果怎么控制孩子玩手机时间(苹果怎么控制孩子玩平板时间)

    苹果怎么控制孩子玩手机时间(苹果怎么控制孩子玩平板时间)

  • 华为nova7se有无线充电功能吗(华为nova7se有无线反向充电吗)

    华为nova7se有无线充电功能吗(华为nova7se有无线反向充电吗)

  • 抖音APP可以分身吗(抖音app可以分身两个吗)

    抖音APP可以分身吗(抖音app可以分身两个吗)

  • 小米8内屏碎了怎么强制关机(小米8内屏碎了可以卖多少钱)

    小米8内屏碎了怎么强制关机(小米8内屏碎了可以卖多少钱)

  • 京东如何去运费(京东购物怎么收运费)

    京东如何去运费(京东购物怎么收运费)

  • 抢票可以两个人同时帮另一个人抢吗(抢票两个人一起抢还是一个人抢好)

    抢票可以两个人同时帮另一个人抢吗(抢票两个人一起抢还是一个人抢好)

  • 剪映导不出视频怎么回事(为什么剪映导不出视频)

    剪映导不出视频怎么回事(为什么剪映导不出视频)

  • 华为手机的屏幕镜像在哪里打开(华为手机的屏幕录制在哪里)

    华为手机的屏幕镜像在哪里打开(华为手机的屏幕录制在哪里)

  • 苹果手机网址打不开怎么办(苹果手机网址打不开怎么关闭防火墙模式)

    苹果手机网址打不开怎么办(苹果手机网址打不开怎么关闭防火墙模式)

  • 未领取的红包怎么收回(未领取的红包怎么查看金额)

    未领取的红包怎么收回(未领取的红包怎么查看金额)

  • qq礼物墙是什么东西(qq礼物墙要钱吗)

    qq礼物墙是什么东西(qq礼物墙要钱吗)

  • 华为畅享9分屏在哪打开(华为畅享9分屏小窗口)

    华为畅享9分屏在哪打开(华为畅享9分屏小窗口)

  • 为什么看视频的时候屏幕就暗了(为什么看视频的时候会自动暂停)

    为什么看视频的时候屏幕就暗了(为什么看视频的时候会自动暂停)

  • 华为p3024小时制怎么设置(华为P3024小时制怎么设置)

    华为p3024小时制怎么设置(华为P3024小时制怎么设置)

  • 手机腾讯视频3d设置在哪里(手机腾讯视频怎么扫码登录)

    手机腾讯视频3d设置在哪里(手机腾讯视频怎么扫码登录)

  • vue滚动字幕怎样添加(vue文字向上循环滚动)

    vue滚动字幕怎样添加(vue文字向上循环滚动)

  • 华为手机照片导出到u盘(华为手机照片导入华为平板)

    华为手机照片导出到u盘(华为手机照片导入华为平板)

  • 老年手机打不出电话怎么回事(老年手机打不出电话)

    老年手机打不出电话怎么回事(老年手机打不出电话)

  • 组成局域网的硬件有那些(组成局域网的硬件有网络服务器)

    组成局域网的硬件有那些(组成局域网的硬件有网络服务器)

  • linux是干嘛的(linux是干嘛的用)

    linux是干嘛的(linux是干嘛的用)

  • win10怎么升级1903(win10怎么升级到最新版本)

    win10怎么升级1903(win10怎么升级到最新版本)

  • Win10内存完整性(win10内存完整性不兼容的驱动程序)

    Win10内存完整性(win10内存完整性不兼容的驱动程序)

  • mediaman.exe是什么进程 有什么用 mediaman进程查询(media是什么文件)

    mediaman.exe是什么进程 有什么用 mediaman进程查询(media是什么文件)

  • 保险税优识别码是保单号吗
  • 公司注销所有者权益账面怎么处理
  • 去年收到一张普票超范围了怎么办
  • 减免增值税计入其他收益
  • 房地产企业借款费用
  • 经常性支出是什么意思
  • 公司取现备用金违法吗
  • 土地储备机构也称为什么
  • 地方教育费附加是什么意思
  • 固定资产备案怎么备案
  • 固定资产预计净残值怎么做账
  • 卫生巾的税率
  • 含税价标志有无影响
  • 总资产利润率计算公式是什么意思
  • 哪些发票公司可以抵扣
  • 企业购买汽车需要缴纳什么税
  • 营业收入包括的项目有
  • 小企业会计准则适用于哪些企业
  • 出口退税计算方法是免退税吗
  • Windows11怎么免费升级专业版
  • windows10你需要trustedinstaller提供的权限才能更改
  • 利润表营业成本是负数是什么原因
  • linux内核有什么作用
  • Win10新版21364发布: 可直接运行Linux图形程序
  • thinkphp limit
  • 台式机显示器推荐
  • 展位费一般多少钱
  • 营业外支出包括哪些科目
  • php -i
  • 劳务报酬所得包括哪些
  • 生产企业 制造商
  • 超过500万需要补税吗
  • 今日清明是清明开始还是结束
  • vue后端框架推荐
  • php 替换字符
  • 单目深度估计算法
  • 人工智能机器人
  • 流动比率取值是取期末
  • 增值税专用发票和普通发票的区别
  • 跨年度多计提的附加税怎么做分录
  • 企业从政府取得的非货币资产应该按照什么计量
  • php shell_exec
  • 织梦自定义模型调用
  • 投资款印花税的计税依据
  • 合伙企业需要做工商吗
  • 劳务派遣公司经营情况说明怎么写
  • 在建工程科目核算只针对固定资产吗
  • 工会经费按什么比例返还
  • 付款金额与收到款的关系
  • 差旅费记入应付职工薪酬吗
  • 超过社保基数的工资怎么发放
  • 装修费用不摊销怎么入账
  • 个人所得税个人申报和公司申报区别
  • 应付职工社会保险费计入什么科目
  • 会计账簿的作用主要包括
  • 删除一组数据中的指定数据
  • mysql服务1053
  • SQL Server SQL Agent服务使用教程小结
  • xp系统自带浏览器打不开网页
  • 红帽子一个月能挣多少钱
  • 在solaris8下
  • cnqmax.exe进程的详细注解 cnqmax进程是病毒吗 安全吗
  • 苹果公司joz
  • centos dvd安装
  • 电脑win7不能用怎么办
  • 微信小程序实现微信支付
  • extJS中常用的4种Ajax异步提交方式
  • iframe内容自适应缩放
  • unity unity3d
  • javascript 日期
  • js中的常用方法
  • python网络爬虫的流程图
  • python 上传文件到ftp
  • 工作笔记范文100篇简短
  • 离线开票金额为0
  • 福建省纪检委网站
  • 遂宁市国家税务局
  • 长春市朝阳区公安局电话
  • 杭州 国税
  • 人社局要求社保补缴
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设