Python爬虫实战七之计算大学本学期绩点

大家好,本次为大家带来的项目是计算大学本学期绩点。首先说明的是,博主来自山东大学,有属于个人的学生成绩管理系统,需要学号密码才可以登录,不过可能广大读者没有这个学号密码,不能实际进行操作,所以最主要的还是获取它的原理。最主要的是了解cookie的相关操作。

本篇目标

1.模拟登录学生成绩管理系统

2.抓取本学期成绩界面

3.计算打印本学期成绩

1.URL的获取

恩,博主来自山东大学~

先贴一个URL,让大家知道我们学校学生信息系统的网站构架,主页是 http://jwxt.sdu.edu.cn:7890/zhxt_bks/zhxt_bks.html,山东大学学生个人信息系统,进去之后,Oh不,他竟然用了frame,一个多么古老的而又任性的写法,真是惊出一身冷汗~

算了,就算他是frame又能拿我怎么样?我们点到登录界面,审查一下元素,先看看登录界面的URL是怎样的?

QQ截图20150220211218

恩,看到了右侧的frame名称,src=”xk_login.html”,可以分析出完整的登录界面的网址为 http://jwxt.sdu.edu.cn:7890/zhxt_bks/xk_login.html,点进去看看,真是棒棒哒,他喵的竟然是清华大学选课系统,醉了,你说你抄袭就抄袭吧,改改名字也不错啊~

算了,就不和他计较了。现在,我们登录一下,用浏览器监听网络。

我用的是猎豹浏览器,审查元素时会有一个网络的选项,如果大家用的Chrome,也有相对应的功能,Firefox需要装插件HttpFox,同样可以实现。

这个网络监听功能可以监听表单的传送以及请求头,响应头等等的信息。截个图看一下,恩,我偷偷把密码隐藏了,你看不到~

大家看到的是登录之后出现的信息以及NetWork监听,显示了hearders的详细信息。

QQ截图20150220212025

最主要的内容,我们可以发现有一个表单提交的过程,提交方式为POST,两个参数分别为stuid和pwd。

请求的URL为 http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login,没错,找到表单数据和目标地址就是这么简单。

在这里注意,刚才的 http://jwxt.sdu.edu.cn:7890/zhxt_bks/xk_login.html 只是登录界面的地址,刚刚得到的这个地址才是登录索要提交到的真正的URL。希望大家这里不要混淆。

不知道山大这个系统有没有做headers的检查,我们先不管这么多,先尝试一下模拟登录并保存Cookie。

2.模拟登录

好,通过以上信息,我们已经找到了登录的目标地址为 http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login

有一个表单提交到这个URL,表单的两个内容分别为stuid和pwd,学号和密码,没有其他的隐藏信息,提交方式为POST。

好,现在我们首先构造以下代码来完成登录。看看会不会获取到登录之后的提示页面。

[code lang=”js”]
__author__ = ‘CQC’
# -*- coding:utf-8 -*-

import urllib
import urllib2
import cookielib
import re

#山东大学绩点运算

<pre>class SDU:</pre>

def __init__(self):
self.loginUrl = ‘http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login’
self.cookies = cookielib.CookieJar()
self.postdata = urllib.urlencode({
‘stuid’:’201200131012′,
‘pwd’:’xxxxxx’
})
self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookies))

def getPage(self):
request = urllib2.Request(
url = self.loginUrl,
data = self.postdata)
result = self.opener.open(request)
#打印登录内容
print result.read().decode(‘gbk’)

sdu = SDU()
sdu.getPage()
[/code]

测试一下,竟然成功了,山大这网竟然没有做headers检查,很顺利就登录进去了。

说明一下,在这里我们利用了前面所说的cookie,用到了CookieJar这个对象来保存cookies,另外通过构建opener,利用open方法实现了登录。如果大家觉得这里有疑惑,请看 Python爬虫入门六之Cookie的使用,这篇文章说得比较详细。

好,我们看一下运行结果

QQ截图20150220214238

酸爽啊,接下来我们只要再获取到本学期成绩界面然后把成绩抓取出来就好了。

3.抓取本学期成绩

让我们先在浏览器中找到本学期成绩界面,点击左边的本学期成绩。

QQ截图20150220220000

重新审查元素,你会发现这个frame的src还是没有变,仍然是xk_login.html,引起这个页面变化的原因是在左边的本学期成绩这个超链接设置了一个目标frame,所以,那个页面就显示在右侧了。

所以,让我们再审查一下本学期成绩这个超链接的内容是什么~

QQ截图20150220220338

恩,找到它了,<a href=”/pls/wwwbks/bkscjcx.curscopre” target=”w_right”>本学期成绩</a>

那么,完整的URL就是 http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bkscjcx.curscopre,好,URL已经找到了,我们继续完善一下代码,获取这个页面。

上面的代码,我们最主要的是增加了

这句代码,用原来的opener 访问一个本学期成绩的URL即可。运行结果如下

QQ截图20150220221909

恩,本学期成绩的页面已经被我们抓取下来了,接下来用正则表达式提取一下,然后计算学分即可

4.抓取有效信息

接下来我们就把页面内容提取一下,最主要的便是学分以及分数了。

平均绩点 = ∑(每科学分*每科分数)/总学分

所以我们把每科的学分以及分数抓取下来就好了,对于有些课打了良好或者优秀等级的,我们不进行抓取。

我们可以发现每一科都是TR标签,然后是一系列的td标签

我们用下面的正则表达式进行提取即可,部分代码如下

主要利用了findall方法,这个方法在此就不多介绍了,前面我们已经用过多次了。

得到的学分和分数我们都用列表list进行存储,所以用了 append 方法,每获取到一个信息就把它加进去。

5.整理计算最后绩点

恩,像上面那样把学分绩点都保存到列表list中了,所以我们最后用一个公式来计算学分绩点就好了,最后整理后的代码如下:

好,最后就会打印输出本学期绩点是多少,小伙伴们最主要的了解上面的编程思路就好。

最主要的内容就是Cookie的使用,模拟登录的功能。

本文思路参考来源:汪海的爬虫

希望小伙伴们加油,加深一下理解。


原创文章,作者:h,如若转载,请注明出处:http://www.178linux.com/86601

(0)
hh
上一篇 2017-09-09
下一篇 2017-09-09

相关推荐

  • 递归函数

    递归函数 def foo(b,b1=3):print(“foo1 called “,b,b1)def foo2(c):foo3(c)print(“foo2 called”,c)def foo3(d):print(“foo3 called”)def mian():print(“…

    2018-04-16
  • mysql慢查询日志进行按库切割重写文件然后分析

    需求: 把每天的慢查询日志进行按库切割 对每个库的慢查询日志进行分析 思路: 工具/功能 一般统计信息 高级统计信息 脚本 优势 mysqldumpslow 支持 不支持 perl mysql官方自带 mysqlsla 支持 支持 perl 功能强大,数据报表齐全,定制化能力强. mysql-explain-slow-log 支持 不支持 perl 无 my…

    Linux干货 2015-04-03
  • python学习总结

    第一个项目日志分析。(存在不足)

    Python笔记 2018-05-06
  • 几个python运维面试题及答案

    1.生成随机的20个ID ID格式要求: 时间戳_三位随机数字号码_8位随机小写字母 1506571959_089_xxkeabef datetime.datetime.now().timestamp() 返回的是时间戳,但是带微秒 2.判断密码强弱 要求密码必须由 10-15位 指定字符组成: 十进制数字 大写字母 小写字母 下划线 要求四种类型的字符都要…

    2017-10-02
  • 文件IO常用操作

    io模块 StringIO BytesIO 类
    pathlib模块 路径操作 3.4版本开始
    os模块 更改权限、显示信息 3.4版本之前路径操作
    shuril 模块(高级文件操作
    csv 文件
    configparser模块 ini文件处理

    2018-05-02
  • queue,threading,user_agents

    queue 模块 队列
    threading 模块 线程
    user_agents 浏览器信息提取

    2018-05-07