当前位置: 首页 > news >正文

python爬虫cookie模拟登陆(二)

批量爬取并存入数据库

小插曲
  • 有点打脸,还以为自己失败了,刚开始自己换了个地址,发现输出的是空列表,以为没换个地址就要换个cookie,这样的话就该放弃了。
  • 然后在取新鲜的cookie,发现只是时间变了,然后在爬多个不同地址,发现成功了,可已推测cookie在一定时间内有效。
    在这里插入图片描述
  • 从cookie信息中可以看出里面包含了时间点和有效时间长

代码

import requests
from lxml import etree
import pymysql
import pymysql
#传入爬去地址url
def my_request(url):
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0',
        'Cookie':'jianyue_session=eyJpdiI6ImZoZVlcL1RcLzRuN0U2cmlCR2ZJcTFhdz09IiwidmFsdWUiOiJrbzZkWE9NREkxSkMwaHhEZXc0THB1NFhTXC85aDlmSjNqU2o2ZUtcL2NrdGNPeWg4cWd5XC9JQ3NENVlpcnhqcTk4eWt2NTRYNjBoMFZYUExMdGJKWUJKZz09IiwibWFjIjoiNDU5MmEzZmE1N2RhMzQ0MTFlM2M2NDMyZjg3MTQ0NTE2ZGFmM2I1ZTY1MzA5MWY1MDFlNmRiMjliMmI5ZTUxYyJ9; expires=Wed, 11-Dec-2019 04:10:16 GMT; Max-Age=7200; path=/; httponly'
    }
    params = {
        "_token": "P1o8Fz9ZOAuBojBsNGNfPa9vivr5PqRBUFwstL8I",
        "mobile": '15263819410',
        "password": "15263819410",
        "remember": "1"
    }
    session = requests.Session()
    post_url = 'http://jianyue.pro/login'
    image_url = "http://jianyue.pro"
    session.post(post_url,data=params,headers=headers)
    resopnse = session.get(url,headers=headers)
    resopnse.encoding='utf-8'
    if resopnse.status_code == 200:
        result_status = resopnse.status_code
        htmlEmts_name_2 = etree.HTML(resopnse.text).xpath('/html/head/title/text()')
        result_title = ''.join(htmlEmts_name_2)
        htmlEmts_name = etree.HTML(resopnse.text).xpath('/html/body/div[4]/div/div/img/@src')
        result_image = ''.join(htmlEmts_name)
        result_image = image_url + result_image
        htmlEmts_name_3 = etree.HTML(resopnse.text).xpath('/html/body/div[5]/p/text()')
        result_cotent = ''.join(htmlEmts_name_3)
        htmlEmts_name_4 = etree.HTML(resopnse.text).xpath('/html/body/div[4]/div/dl/dd[2]/span/text()')
        result_writer = ''.join(htmlEmts_name_4)
        htmlEmts_name_5 = etree.HTML(resopnse.text).xpath('/html/body/div[4]/div/dl/dd[1]/span[2]/text()')
        result_sorce = ''.join(htmlEmts_name_5)
        my_dict = {
        #"status": result_status,
        "title":result_title,
        "writer":result_writer,
        "content":result_cotent,
        "sorce":result_sorce,
        "image":result_image
        }
        return my_dict
    else:
        return "网页不存在"
    # print(result_title)
    # print(result_cotent)
    # print(result_image)

if __name__ == '__main__':
    for num_1 in range(7836,9200):
        id = num_1
        url = "http://jianyue.pro/app/ebook/details/"
        url =url + str(num_1)
        #print("爬取电子书第%d页,地址为:%s" % (num_1,url))
        result = my_request(url)
        if result == "网页不存在":
            continue
        #print(result['title'])
        db = pymysql.connect("localhost", "root", "password", "book_xianyushaishu", charset="utf8")
        cursor = db.cursor()  # 建立一个游标对象
        sql = "INSERT INTO JYUE(TITLE, \
               ID, WRITER,CONTENT,SORCE,IMAGE ) \
               VALUES ('%s', '%d','%s','%s','%s','%s')" % \
              (result['title'], id, result['writer'],result['content'],result['sorce'],result['image'])
        try:
            cursor.execute(sql)
            db.commit()  # 对于数据增删改之后一定要提交操作
            cursor.close()  # 关闭游标
            db.close()  # 关闭数据库连接
            print("第%d条数据爬取成功"%num_1)
        except:
            print("第%d条数据爬取失败---------------"%num_1)
    print("结束")
  • 代码简单的封装了一下,my_request函数功能为:传入url,返回爬取的相关信息,然后用字典的形式返回。
  • 让后再将信息写入到本地数据库,这段代码不多解释了,我也是照套的。
  • 还有try:部分代码报错的话就会直接取执行expect部分代码,这样可以使程序一直运行。
  • for num_1 in range(7836,9200):
    range中的是开始地址和结束地址的页数
    在这里插入图片描述
  • 注意:cookie有效时间是7200s,要按时更换一下cookie,如果是多线程的话速度会快些,这里我就不写了(其实是不会,只是了解了一下,到了必要的时候再现学现用)
  • 刚觉自己写玩没有怎么去解释,如果有疑问可以留言交流,如果不懂怎么安装mysql和破解navicat可以下方留言评论,自己以前在安装mysql的时候花了一些时间,搞不懂怎是个文件夹而不是客户端,还有配置环境变量。
  • 获取到数据后,我用django做电子书资源网站,这期教程就结束了额。
qq_43683503
发布了1 篇原创文章 · 获赞 0 · 访问量 7
私信 关注

相关文章:

  • 1234定位
  • hadoop的shell操作命令
  • springBoot+mybatis实现多数据源配置
  • 小镇青年,拯救世界的任务就交给你了
  • 年仅31岁!投行最年轻董事长来了,掌管200亿资产!
  • 第四届中国新金融高峰论坛成功召开:论道新形势下的金融业变革与开放
  • 证监会:下一步将加强MOM产品监管
  • 使用springmvc拦截器实现登录验证
  • Linux系统编程——多线程实现多任务
  • 读写分离很难吗?springboot结合aop简单就实现了
  • 微信小程序的数据会变动是什么情况呢?
  • A Gift from Knowledge Distillation: Fast Optimization,Network Minimization and Transfer Learning论文初读
  • Javaweb常用单词
  • python PyQt kears Tensorflow numpy 打包exe过程
  • 论拿到一个Web项目如何顺利运行
  • 《惢客创业日记》2019.10.24(周四)5G仅仅是速度快吗?(四)
  • 深度学习基础问题总结(一)
  • 瞭望|工业软件之忧
  • 创建有模式对话框
  • 超时时杀死python subprocess子进程?