定向爬虫:动态加载网页的爬取 VIP

成为vip会员,免费看所有精品课程
  • 目录

    目录 收起>

    当前大部分网页使用了 AJAX 异步加载技术,很多内容都是通过 JavaScript 动态加载的,于是在网页源代码里面找不到需要的内容。本课程着重讲解如何爬取这种类型的网站。

    1.AJAX 介绍与网页展示 00:04:21

    本课时介绍 AJAX 技术,并展示使用 AJAX 技术开发的网页,演示直接通过源代码爬取内容的困难性。

    2.从 JavaScript 文件读取内容 00:06:57

    本课时介绍在 JavaScript 文件中寻找需要爬取的内容的方法。

    3.构造目标地址 00:13:41

    本课时介绍通过分析 JavaScript 文件地址来构造目标文件地址。

    4.实战——腾讯视频评论爬虫 00:10:08

    本课时介绍爬取腾讯视频评论的爬虫。
  • 提问

    提交问题
  • 下载

  • 线路

    视频太卡?试试切换线路 √ 线路1 √ 线路2
  • 收藏

    收藏课程
  • 分享

连播

连续播放

关灯

关灯模式
视频加载太慢?

我们有两条线路可以选择,试试切换线路吧

定向爬虫:动态加载网页的爬取

4课时,35分钟2015-07-29
kingname
kingname

极客学院签约布道师

课程背景:
对于当前大量采用动态加载技术的网站,由于源代码中不含有需要加载的内容,于是就不能通过从源代码里面读取文件的方式进行抓取。对于这种网站需要分析 JavaScript 文件从而找到加载的内容。

核心内容:
1.动态加载介绍
2.分析 JavaScript 文件
3.爬取动态加载内容

软件环境:Pycharm

是否提供资料:

课程等级:高级

适合人群:
有 Python 基础的人群
  • 技术问答

相关课程

  • Python 操作数据库-SQLAlchemy 篇

    本课程首先会为大家介绍 SQLAlchemy 的软件构架,之后会详解 SQLAlchemy ORM API 的使用,最后会详解 SQLAlchemy Core API 的使用。

    3课时 33分钟
    中级
    8651人学习
  • 定向爬虫:Scrapy 与 Redis 入门

    本课程讲解 Redis 与 Scrapy 的组合应用,从而为后面讲解分布式爬虫做准备。

    3课时 23分钟
    中级
    16509人学习
  • Python 科学计算——scipy 篇

    本课程主要讲解 Python 中用于科学计算的常用库,包括 numpy、scipy、matplotlib、pandas 等。从 scipy 基础库开始了解科学计算,并进行简单的运算和操作。

    3课时 27分钟
    中级
    5283人学习
  • Python 科学计算——numpy 篇

    本课程主要讲解 Python 中用于科学计算的常用库,包括 numpy、scipy、matplotlib 和 pandas等。从 numpy 基础库开始了解科学计算,并进行简单的运算和操作。

    4课时 28分钟
    中级
    9723人学习