网络爬虫 VIP

成为vip会员,免费看所有精品课程
  • 目录

    目录 收起>

    本课程主要介绍网络爬虫的基本概念、如何利用正则表达式分析网页源代码以及如何利用HttpClient 来模拟浏览器行为。

    1.网络爬虫概述 00:05:35

    本课时介绍网络爬虫的基本概念、搜索策略以及如何利用浏览器来分析网络资源,为网络爬虫做准备。

    2.正则表达式 00:15:12

    本课时主要介绍正则表达式并用 Java 实现正则匹配

    3.HttpClient 模拟浏览器 00:20:16

    本课时介绍如何基于 HttpClicent 来模拟浏览器行为,从而采集网络资源。

    4.采集过程中的工具类 00:22:22

    本课时主要介绍网络信息采集过程中可能会使用到的工具类,如流编码检测、JSON 格式数据转化、XML 格式数据转化等。
  • 提问

    提交问题
  • 下载

  • 线路

    视频太卡?试试切换线路 √ 线路1 √ 线路2
  • 收藏

    收藏课程
  • 分享

连播

连续播放

关灯

关灯模式
视频加载太慢?

我们有两条线路可以选择,试试切换线路吧

网络爬虫

4课时,63分钟2015-07-21
小鸡慢慢
小鸡慢慢

极客学院签约布道师

课程背景:
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战,本课程主要介绍如何利用 HttpClient 来实现网络信息的采集分析等。

核心内容:
1.网络爬虫概述
2.正则表达式
3.HttpClient 模拟浏览器
4.采集过程中的工具类

软件环境:MyEclipse

是否提供资料:

课程等级:高级

适合人群:
具有一定 Java 基础的开发人员
  • 技术问答
  • 1

    网络爬虫概述

    05:35

    本课时介绍网络爬虫的基本概念、搜索策略以及如何利用浏览器来分析网络资源,为网络爬虫做准备。

  • 2

    正则表达式

    15:12

    本课时主要介绍正则表达式并用 Java 实现正则匹配

  • 3

    HttpClient 模拟浏览器

    20:16

    本课时介绍如何基于 HttpClicent 来模拟浏览器行为,从而采集网络资源。

  • 4

    采集过程中的工具类

    22:22

    本课时主要介绍网络信息采集过程中可能会使用到的工具类,如流编码检测、JSON 格式数据转化、XML 格式数据转化等。

相关课程

  • 设计模式之状态模式

    本课程先做一个糖果机项目,然后项目收到新功能需求,遇到扩展性困难,通过分析问题最后提出通过状态模式来解决这个问题。

    3课时 52分钟
    中级
    4220人学习
  • Java 的日期与时间处理

    本课程讲解如何通过 JavaAPI 文档来学习 Java 的时间日期类 Date 和 Calendar,并展开讲解如何获得日期,如何对日期进行格式化显示,以及如何对日期进行转换,最后通过一个小示例来巩固所学的知识。

    3课时 23分钟
    初级
    10028人学习
  • 使用Groovy语言编程

    本课对Groovy编程语言进行讲解,内容包括 01配置集成开发环境 02Groovy与Java语言的区别 03使用Groovy开发窗体程序 04使用Groovy开发Web服务

    4课时 29分钟
    中级
    4325人学习
  • 设计模式之组合模式

    本课程先从餐厅菜单项目要添加子菜单这个需求出发,分析遇到的困难,然后提出通过组合模式来解决这个问题。

    3课时 47分钟
    中级
    4443人学习