位置: 编程技术 - 正文

利用Celery实现Django博客PV统计功能详解(celery使用)

编辑:rootadmin

推荐整理分享利用Celery实现Django博客PV统计功能详解(celery使用),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:django使用celery,celery 教程,celery最佳实践,celery 教程,celery_imports,celery使用,celery_imports,celery 教程,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

前几天给网站的文章增加了pv统计,之前只有uv统计。之前没加pv统计是觉得每个用户每访问一次文章,我都需要做一次数据库写操作实在是有损性能,毕竟从用户在the5fire博客的的一次访问来看,只需要从数据库里拿到对应的文章(通常情况下是从缓存中拿),然后返回给浏览器。写操作无意义。之前的uv,也是针对每个用户小时内只会有一次写操作。

不过话说回来,就对于the5fire博客这么个小站点来说,就算每次访问我写十几次数据库都没啥影响,毕竟量小的可怜。但是咱们码农不是得有颗抗亿级流量的心嘛。

对于不理解的同学,可以出门调研下,看看别人家的网站。对,就是那些访问量上亿,十亿,百亿的网站,看看他们是怎么处理用户写入的,比如留言。

PV的意义

说完原因,再说业务。所有的网站都会有pv,uv这样的统计。甚至是停留时长,各类型页面转换率等等各方各面的统计。我在搜狐的工作,大白话来说就是做网站。关注的业务指标就是流量相关的东西。同时作为站长这么多年,也会参考百度统计里的一些指标来做些调整。

不过这次只说pv,一篇文章的pv。

抛开非正常访问,互联网上的一篇文章,访问他的人越多,那么意味着这篇文章的价值越高。毕竟有价值的东西大家才会点开看嘛。这个访问量就是uv(User View/Visit)。那么pv是什么呢,一篇文章写得很不错,尤其是技术文章,可能会多次访问,比如说我就喜欢把不错的文章收藏起来,有空时回顾一下。每次回顾(刷新页面)都算是一个pv。能做到人读者多次阅读的文章,价值会更高。所以一篇文章的pv/uv比也是衡量文章价值的一个指标。尤其是在标题党遍布的年代。(好吧,这里再歪一句,标题党不是自媒体时代的产物,博客时代就有,只是自媒体时代显得更加集中显现了而已)

单纯的说价值没啥感觉,古人不是说了吗,价值能换几斗米。(我胡诌的)

拿现在的所有新闻网站/媒体平台来说,pv是可以和¥划等号的。流量越大,意味着能够有更多的收入,无论是来自广告的收入,还是把流量释放到其他渠道。有时候我也考虑,一切的目标真的是更好的理解用户,给用户推送他想看的东西吗?或许是吧,但是始终绕不开的一个问题是,构建一个商业模式,让广告主和投资人为用户的停留时长买单。让用户更多的停留在平台上,消费更多的时间。(纯属个人观点,明辨之,慎思之)

再拿另外一个更直接的例子,现在自媒体盛行,多少人想要+,一个好的公众号,可以根据以往文章的浏览量(或者粉丝量)来定价广告/软文等各种类型合作的价格。其实你到微播易或者易赞看看就知道了。这么看来pv是不是变得有吸引力了。

统计的方式

对于网站来说,the5fire了解到的pv,uv的统计方式有这么几种

像the5fire早期的做法:用户每访问一篇文章,文章pv+1,uv+1。傻大粗的做法。 the5fire博客现在的做法,写一个分布式的任务服务,然后在业务代码中调用。 页面埋点,标签,或者引用js来发送数据到统计服务器上。 收集nginx access-log(如果是用nginx的话),当然,格式需要自定义,起码得加上user_id,然后做离线统计、汇总。

前两种都是耦合比较重的实现方式,需要在具体页面里插代码。后两种也类似,本质上都是收集nginx日志,但是收集的阶段不同,第三种是页面完全打开之后,nginx才会收到日志。而第四种是只要访问页面,并且upstream返回状态码为就算成功,那怕最终用户并未看到页面。

总之,各有利弊,可以相互参考。

博客实现的方式

上面也说了,主要也是为了用下celery这个分布式任务队列。在Django中使用是比较简单的事情。

利用Celery实现Django博客PV统计功能详解(celery使用)

在Django中使用Celery,需要Celery运行时能够使用这个Django项目的各个模块,因此首先要指明settings模块。我用的Django版本为1.。在wsgi.py同级目录下增加celery.py,代码如下:

这里使用了官方并不建议的redis作为broker,而不是Rabbitmq,主要是缓存用的是Redis,为了不引入更多需要维护的系统。

定义好启动文件之后,就需要定义具体的tasks,在app/tasks.py中写具体的任务:

在访问文章页面的views.py对应位置增加调用:

这样,每次用户访问时计算pv和uv的逻辑就放到分布式的任务管理器中去执行了,不会影响本次访问。

如果你想要查看任务的执行状态,比如通过:

想要这样查看任务是否完成,那就需要引入django-celery-results,使用步骤如下:

pip install django-celery-results 把django_celery_results放到INSTALLED_APPS中 配置CELERY_RESULT_BACKEND = 'django-db'或者'django-cache' 如果配置的是django-db,意味着结果需要存储到数据库中,那就要执行python manage.py migrate django_celery_results来建表

这些配置完成之后,剩下的就是部署了,the5fire博客每次更新完代码重新部署时都是通过fabric来做的 fab re_deploy:master 代码就会部署到服务器上。增加celery之后,只需要增加supervisord的配置,现在毕竟celery的代码也是在博客代码里。

supervisord增加配置:

这样每次重新部署,celery进程也会重新启动。

Django Tips

在Django项目中,性能损耗最多的就是ORM,不熟悉的话很容易被坑。

就拿增加pv来说,用户每次访问一篇文章,pv字段+1,用代码来说就是:

这是最简单的做法,但是大部分情况,用户访问一篇文章,这篇文章通常会在缓存中,毕竟不需要每次都去数据库中获取。这样的话应该怎么处理呢,直观的做法还是先获取到post,然后+1,save,如上一样。但这样会存在竞争的问题。

比方说,同时个人访问一篇文章,我是启动了多个线程/进程来处理请求,有可能出现所有进程在同一时刻执行了 post = Post.objects.get(pk=post_id) 假设现在数据库中这篇文章的pv是,那么此时post.pv就是。那所有用户执行完post.save()之后,结果均为,也就是一百次并发访问,可能出现pv只加1的情况。

要解决这个问题,两个办法。

一、加锁,这个据我的了解Django没有提供,需要自己来实现。但是没人会这么做吧。 二、用mysql来执行自增,也就是我上面用到的。

对于方法二,在Django中怎么实现呢。其实翻译为sql就是

Django代码就是: Post.objects.filter(id=post_id).update(pv=F('pv')+1) ,关于F表达式可以参考官方文档:

Python实现SSH远程登陆,并执行命令的方法(分享) 在自动化测试过程中,比较常用的操作就是对远程主机进行操作,如何操作呢?使用SSH远程登陆到主机,然后执行相应的command即可。使用Python来实现这

Python实现Windows和Linux之间互相传输文件(文件夹)的方法 项目中需要从Windows系统传输ISO文件到Linux测试系统,然后再Linux测试系统里安装这个ISO文件。所以就需要实现如何把文件从Windows系统传输到Linux系统中。

Python对文件和目录进行操作的方法(file对象/os/os.path/shutil 模块) 使用Python过程中,经常需要对文件和目录进行操作。所有file类/os/os.path/shutil模块时每个Python程序员必须学习的。下面通过两段code来对其进行学习。1.学

标签: celery使用

本文链接地址:https://www.jiuchutong.com/biancheng/375630.html 转载请保留说明!

上一篇:浅谈Python生成器generator之next和send的运行流程(详解)(python3 生成器)

下一篇:Python实现SSH远程登陆,并执行命令的方法(分享)(python ssh 远程执行命令)

  • 营业税金及附加怎么计提
  • 公司从业人员包括老板吗
  • 职业年金单位缴费方式
  • 支票上的法人章和财务章是央行盖吗
  • 技术服务费3%
  • 企业年报社保都是0人的公司
  • 之前付过款回来收到发票应该怎么做凭证
  • 有限责任公司减资的法律规定
  • 独立核算的生产车间是法律主体吗
  • 捐助建学校
  • 单位日常发的钱都有哪些
  • 个税返还交所得税吗
  • 航天金税费用怎么做账
  • 企业滞纳金属于什么会计科目
  • 没有税率的发票怎么开
  • 核定征收印花税计算公式
  • 人力资源服务收入计入什么科目
  • h5实现扫码功能
  • 升级鸿蒙系统会解除限制充电60
  • 固定资产已提完折旧,但仍在使用,需要定期清理吗?
  • 股权换股权会计分录
  • 委托代销商品两种方式会计分录
  • 堡垒封印
  • 要点初见:Stable Diffusion NovelAI模型优质文字Tag汇总与实践【魔咒汇总】
  • 微信公众号实现对应查询
  • php exec python
  • 编译原理第三版
  • 汇兑损益计算器
  • 企业清算所得税申报表填写案例
  • 顺丰快递电子运单打印模板
  • 补税分录
  • 购进的货物含税吗
  • 非限定性收入属于什么科目?
  • 其他应收款专项审计报告
  • 营业收入的相关认定
  • 月初红字冲销暂估入账
  • 企业按行业划分可划分为哪些
  • sql server 2008 2014
  • sqlserver创建维护计划
  • 非公司员工可以报销差旅费吗
  • 会计准则中规范性的内容
  • 主营业务成本包括哪些
  • 代销产品如何做会计分录
  • 车辆处置收入怎么交税
  • 申报残保金的时候有处罚决定书怎么办
  • 开出去的发票没有进项发票怎么核算成本?
  • 固定资产累计折旧会计科目
  • 上个月结转的流量下个月能用吗
  • 公司客户招待费用标准
  • 固定资产原值会减少吗
  • 存贷款利率计算公式
  • 要交多少税收跟什么有关
  • 附表1是什么意思
  • 现汇账户和现钞账户
  • 有奖销售增值税处理
  • sql like多个
  • 安装centos6.10
  • centos如何添加用户
  • win10预览版退回正式版
  • OS X 10.12.6 beta 1如何更新 OS X 10.12.6 beta 1如何升级
  • linux常用的几种压缩工具
  • win102021年1月大更新
  • windows8如何进入bios
  • win10ipv4 ipv6无internet访问权限
  • div+css布局的步骤
  • cocos2dx视频教程
  • Unsolved bug in fltk-1.1.10/src/filename_list.cxx for scandir --已解决!
  • jquery移动div到另一个div中
  • python中pandas.DataFrame的简单操作方法(创建、索引、增添与删除)
  • js框选
  • 2023年四川职工医保缴费基数
  • 广东省地方税务局
  • 北京海淀区国税有几个办税大厅?
  • 国税和地税现在合并了吗
  • 人工智能在税务领域应用中的风险与规制
  • 个人所得税核定征收的政策
  • 消费税组成计税价格为什么要除以1-消费税率
  • 深圳市地方税务局历任局长
  • 一般纳税人忘记报税一个月罚多少钱
  • 建筑业甲方代扣代缴增值税吗
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设