爬百度热点的多种方法

百度,热点,多种,方法 · 浏览次数 : 75

小编点评

**爬百度热点的多种方法对比** | 方法 | 描述 | |---|---| | Selenium | 使用webdriver.Chrome()启动浏览器,并使用driver.get()方法访问百度首页。 | | PyQuery | 使用PyQuery库访问百度首页,并使用items()方法遍历所有热点的文本。 | | requests+lxml | 使用requests库获取百度首页,并使用lxml库解析HTML页面,并提取所有热点的文本。 | | BeautifulSoup+lxml | 使用BeautifulSoup库访问百度首页,并使用lxml库解析HTML页面,并提取所有热点的文本。 | | selenium+pyquery | 使用selenium库启动浏览器,使用pyquery库访问百度首页,并使用items()方法遍历所有热点的文本。 | | requests+requests-lxml | 使用requests库获取百度首页,并使用requests-lxml库组合两个请求,一个用于获取网页主体,另一个用于获取热点的标题。 | | OCR | 使用Optical Character Recognition(OCR)技术将网页转换为文字,并使用selenium库访问页面并提取标题。 |

正文

爬百度热点的多种方法

对比下多个方法

selenium爬取

from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
ele_hots = driver.find_elements('css selector','.title-content-title')
for ele_hot in ele_hots:
    print(ele_hot.text)

pyquery爬取

from pyquery import  PyQuery as pq
from local_fake_useragent import UserAgent
ua_chrome = UserAgent('chrome')
baidu = pq(url='https://www.baidu.com/',headers={'user-agent':ua_chrome.rget})
hot_news = baidu('.title-content-title').items()
for hot in hot_news:
    print(hot.text())

requests+lxml爬取

import requests
from lxml import etree
from local_fake_useragent import UserAgent
ua_chrome = UserAgent('chrome')
baidu_text = requests.get(url='https://www.baidu.com/',headers={'user-agent':ua_chrome.rget}).text
hot_news = etree.HTML(baidu_text).xpath('//*[@class="title-content-title"]')
for hot in hot_news:
    print(hot.text)

对比

方案一 方案二 方案三
selenium pyquery requests+lxml
UI × ×
需要ua ×
定位方式 css|xpath css xpath
获取数据 需要操作 无需操作 无需操作
绕过鉴权 有多种方法 需要结合其他库 需要结合其他库
  • selenium中的确可以隐藏界面,但在爬取的时候可能会失效
  • selenium在该案例中无法提现优势,但在需要高度鉴权的一些场景中(如验证码),就比较方便,比如结合OCR技术,比如滑动鼠标操作,比如cookie、option的绕过等
  • 但在获取所需数据的时候,纯粹的selenium是需要操作的(比如点击,跳转),而其他的库是不需要的,在效率上差距蛮大的。
  • 这些都只是适合小型爬虫

与爬百度热点的多种方法相似的内容:

爬百度热点的多种方法

爬百度热点的多种方法 对比下多个方法 selenium爬取 from selenium import webdriver driver = webdriver.Chrome() driver.get('https://www.baidu.com') ele_hots = driver.find_el

.NET爬取美图官网首页数据实战

## 前言: 在当今信息化社会,网络数据分析越来越受到重视。而作为开发人员,掌握一门能够抓取网页内容的语言显得尤为重要。在此篇文章中,将分享如何使用 .NET构建网络抓取工具。详细了解如何执行 HTTP 请求来下载要抓取的网页,然后从其 DOM 树中选择 HTML 元素,进行匹配需要的字段信息,从中

Java爬虫-爬取疫苗批次信息

今年3月份开始,就接到通知, 根据《关于开展有关人群第二剂次脊髓灰质炎灭活疫苗补种工作的通知》国疾控卫免发〔2024〕1号文件要求,在2016年3月1日至2019年9月30日之间出生的儿童,凡无接种禁忌者,需补齐2剂次脊髓灰质炎灭活疫苗。由于我家一直是异地打针【在外漂打工,懂的都懂】,疫苗本上信息又

python+requests爬取B站视频保存到本地

import os import datetime from django.test import TestCase # Create your tests here. import requests import re import json import subprocess from conc

Python爬虫-王者荣耀英雄图片爬取

王者荣耀英雄图片爬取 pyquery库 https://pyquery.readthedocs.io/en/latest/ 官方文档 https://github.com/gawel/pyquery github pyquery实际上是python中的jquery 安装 pip install py

Python爬虫-爬取小说

Python爬虫-爬取小说 代码 import os from pyquery import PyQuery as pq # 1. 配置爬取信息: 待爬取网站、小说的url、小说名字 website = 'https://www.bbiquge.net' novel_url = '/book/133

关于文章《爬取知网文献信息》中代码的一些优化

哈喽大家好,我是咸鱼 之前写了一篇关于文献爬虫的文章Python爬虫实战(5) | 爬取知网文献信息 文章发布之后有很多小伙伴给出了一些反馈和指正,在认真看了小伙伴们的留言之后,咸鱼对代码进行了一些优化 优化的代码在文末,欢迎各位小伙伴给出意见和指正 问题 pycharm 设置 Edge 驱动器的环

微博-指定话题当日数据爬取

该文章详细描述了如何通过分析和抓包技术,绕过微博网页端和手机端的数据访问限制,使用Python脚本爬取与特定关键词(如"巴以冲突")相关的微博数据。文章首先探讨了网页端微博数据爬取的局限性,如需要登录账号和数据量限制,然后转向手机端,发现其对爬虫更为友好。接着,文章详细介绍了使用Python进行数据...

Python爬虫(二):写一个爬取壁纸网站图片的爬虫(图片下载,词频统计,思路)

好家伙,写爬虫 代码: import requests import re import os from collections import Counter import xlwt # 创建Excel文件 workbook = xlwt.Workbook(encoding='utf-8') wor

[转帖]CentOS8安装MySQL8详细教程,爬坑必备

https://www.ab62.cn/article/23022.html 安装环境 CentOS:8.5.2111MySQL:8.0.30 MySQL Community Server 安装过程 下载MySQL Yum Repository 官网查看MySQL的yum仓库列表,地址https:/