位置: IT常识 - 正文

互联网文本处理挑战巨大 中文分词系统设计如何面对? Linux环境编程 ChinaUnix.net(互联网+文本格式)

编辑:rootadmin
互联网文本处理挑战巨大 中文分词系统设计如何面对? - Linux环境编程 - ChinaUnix.net -互联网文本处理挑战巨大 中文分词系统设计如何面对? --> 互联网文本处理挑战巨大 中文分词系统设计如何面对?

推荐整理分享互联网文本处理挑战巨大 中文分词系统设计如何面对? Linux环境编程 ChinaUnix.net(互联网+文本格式),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:互联网文案的正文写作方式,互联网文案的载体包括,互联网内容编辑,互联网文字,互联网文字编辑,互联网+文本格式,互联网文字,互联网文字编辑,内容如对您有帮助,希望把文章链接给更多的朋友!

[复制链接]

0 0

crazyhadoop

crazyhadoop 当前在线空间积分0 信誉积分371 UID25203957阅读权限100积分2979帖子874精华1可用积分2981 专家积分10 在线时间1481 小时注册时间2011-04-11最后登录2012-06-05

版主

帖子874主题41精华1可用积分2981 专家积分10 在线时间1481 小时注册时间2011-04-11最后登录2012-06-05串门好友博客消息论坛徽章:0电梯直达

1楼

[收藏(0)]

[报告]

发表于 2012-05-28 17:15:30 |只看该作者 |倒序浏览

互联网文本处理挑战巨大 中文分词系统设计如何面对?互联网的发展为文本处理提出了巨大需求和挑战。因为汉语的词语之间没有明显的分隔符,中文文本处理的首要问题往往是中文分词问题。

很多网站很想开展一些基于文本处理的应用,但首先就会被中文分词这个任务卡住。中文分词被视为一个很复杂的任务。网上有一些开源的算法,比如基于词典算法,比如最大匹配算法,十分简单,但是基本无法处理未登录词。国内比较好的中科院的ICTCLAS系统,只有一个月的试用期,无法直接嵌入到我们自己的系统中。而且,那种系统十分复杂,对其进行扩展和修改是一个比较艰巨的任务。所以我们组织了这一次中文分词系统的设计话题讨论活动

我们将首先向大家介绍一种十分简单而有效的新的分词方法。这种分词方法基于一个由我们提出的字串成词概率,是我们独创的。这个系统很容易掌握,分词效果逼近于目前较好的较复杂的分词系统,完全能够满足很多实用要求。因为其简单易用,便于新手入门学习;也便于在一些小规模系统中进行应用。我们可以提供完整的源代码和成型的系统。大家可以下载安装后,对源代码进行修改,补充词语资源,实践应用等。

其次,我们还将介绍并与大家一起讨论一种具有学术前瞻性的中文分词的新的方法。这个方法是为目前最流行的基于字标注的分词方法引入了一种新的特征。这种方法较为复杂,理论性更强,可与对中文分词这个话题有深入兴趣的朋友一起讨论交流。

中文分词仍是一个开放性的问题,最近学术界仍不断有新的成果出现。我们希望与您不受限制地讨论这个话题,可以是各种方法,各种已出现的源码或系统。

互联网文本处理挑战巨大 中文分词系统设计如何面对?  Linux环境编程  ChinaUnix.net(互联网+文本格式)

本期讨论话题:

话题1: 一种基于字串成词概率的简单有效的中文分词方案

话题2: 一种引入新的字标注特征的中文分词方案

话题3: 关于中文分词方法的开放讨论

本期嘉宾:

huihui_2012专业从事自然语言领域研究,目前正要在CU推广自己研制的中文分词相关系统,材料整理中。

crazyhadoop Linux环境编程版版主

活动时间:5月28日-6月18日

活动规则:

1. 请针对上述问题跟贴回复,分享你的观点和看法;

2. 贴子观点鲜明、理由充分、逻辑清晰、有理有据;

3. 要求原创,尽可能结合自身实践来谈,抄袭、转载贴不能评选优秀回复贴;

4. 字数不少于50字。

活动奖励:

1、精彩讨论奖,选取1名优秀回复者将获得价值100元的《数据挖掘:实用机器学习工具与技术》(英文版.第3版)一书;

2、优秀讨论奖,选取3名优秀回复者将获得价值50元的《数据挖掘:实用机器学习工具与技术》(中文版.第2版)一书;

3、积极参与奖,凡参与回复讨论着将获得20 CU积分。

本文链接地址:https://www.jiuchutong.com/zhishi/312024.html 转载请保留说明!

上一篇:2022年最新电脑学习网防红站-在线生成短链接绿标系统免费下载-电脑学习网(2022年最新电脑操作系统)

下一篇:LVS 负载均衡(LVS负载均衡群集的常用调度算法包含哪几种?)

  • 企业所得税的账户设置
  • 进项有留底怎么结转
  • 所得税预缴申报表资产总额怎么填
  • 税务局如何认定虚开
  • 合并资产负债表和合并利润表的区别
  • 兼职人员怎么申报工资
  • 工会经费0.008申报
  • 普通发票与增值税发票的图片
  • 增值税发票作废如何处理
  • 销售研发试制样板图
  • 企业所得税税前扣除和不扣除的区别
  • 随同产品销售单独计价的包装物计入
  • 营改增账务处理实例
  • 分配利润顺序
  • 清洁服务经营范围有哪些
  • 计提企业所得税会计分录怎么做
  • 自产自销流程图
  • 坏账准备核销和转销的区别
  • 借款利息税前扣除比例
  • 汇票和本票之间在使用上有什么差别
  • 应交增值税是总额吗
  • 期初未缴税额和期末未缴税额
  • 月末计提短期借贷利息
  • 住院材料费包括哪些
  • 企业购车按揭产生的费用
  • 研发费用税前加计扣除
  • 在Win7系统中,文件的属性包括
  • 收取违约金如何入账
  • 无形资产商标转让费计入什么科目
  • 公司装修待摊费怎么算
  • 期间损益的科目
  • 固定资产大修理支出计入什么科目
  • mrmactl.exe
  • manager's office是什么意思
  • php poll
  • 会计科目明细分类科目表
  • 车间闲置固定资产怎么算
  • macOS Big Sur 11.3 公开测试版正式推送(附更新内容)
  • 文竹叶子发黄怎么办
  • 补发工资怎么做账
  • 个体工商户筹集资金的难易程度
  • ERROR: Could not build wheels for opencv-python which use PEP 517 and cannot be installed directly
  • 小型企业资产负债表
  • php 字符串处理函数
  • 赡养老人专项附加扣除标准2023年
  • 使用nvm安装nodejs后无法执行node命令
  • 调参数是什么意思
  • 2023年中国会有什么重大事件
  • 会计凭证出现的问题
  • html+css网页设计
  • 购买员工宿舍用品报销
  • 捐赠商品分录
  • 营运资金为正数说明企业什么
  • 会计凭证分为几个部分包括哪些内
  • 金蝶如何新增客户
  • 银行承兑汇票是什么意思
  • 业务招待费可以开专票抵扣吗
  • 企业所得税留抵税额
  • 负数发票要交税吗
  • 支付投资者投入的款项
  • 企业研发支出的核算内容
  • 什么是非关联方账户
  • 公司注销往来账要消吗
  • 建账的基本要求
  • MySQL为字段添加主键
  • windows10体验指数如何查看
  • win10安装完后有多大
  • 笔记本怎么设置定时关机
  • freebsd连接wifi
  • css清除浮动方法有哪几种
  • unity 3d教程
  • unity的协程
  • npm安装淘宝镜像操作方式
  • python中怎么取整数的某位数
  • Android GridView属性集合
  • Python中使用装饰器来优化尾递归的示例
  • 浙江省网上税务局申报
  • 微观经济学的十大原理
  • 企业租入房子用交税吗
  • 普通发票和增值税普票有啥区别
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设