使用ruby来抓取小说 - 真的勇士，敢于直面这扯淡的人生 - ITeye博客

`

kaka2008

浏览: 91853 次
性别:
来自: 北京

最近访客更多访客>>

_open

coreycool

路过的阳光

likfJE

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

满手都是炸：写的真好学习了
「向副经理学习」之一
zjuttsw： Map.Entry不是接口吗？
内部类详解
tanjianna：在linux 怎么办？求大神！
flying saucer 使用中的一些问题 (java导出pdf)
linweibin：真是佩服死了~~
Java 7 新特性 -- 实战篇
yanbin0830：中文问题，如果系统装在D盘呢？如果lunux 没有这个字体呢 ...
flying saucer 使用中的一些问题 (java导出pdf)

使用ruby来抓取小说

博客分类：

ruby

阅读更多

   好久没有写ruby代码了，手有点生，今年准备多练练～

   话说MM都喜欢看小说，网上连载的一直下一页下一页的点也不方便，于是就想到用代码把小说都抓取下来。html分析工具用的是hpricot。

require 'rubygems'
require 'hpricot'
require 'open-uri'
require 'fileutils'

def wri
   url = "http://www.yqxs.com/data/book2/ZfUAt35561/book35561_"
   (1..22).each do |page|
     sub_url = url+page.to_s+".html"
     get_novel(sub_url)
   end
end

def get_novel(target_url)
	puts target_url
	doc = Hpricot(open(target_url))
	ele = doc.search("div[@id=content]")
	write_file(ele.inner_html,"test")
end

def write_file(file_content,title)
  path = "E:\\"
  file_name = path+title+".html"
  file = File.open(file_name,"a")
  file.puts file_content
  file.close
end

wri

Hpricot挺好用，可以根据css的class来找，还可以根据id来找。

  ele = doc.search("div[@id=content]")

就是找到id是content的div

就这样吧，简单记录下。

分享到：

设计模式0——引言 | Happy New Year-2012

2012-02-25 11:16
浏览 1797
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

网页抓取脚本(by ruby): 用ruby写的网页抓取脚本，可用于在线文档下载以及整站下载。

使用ruby解析awdb离线库: 使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库...

Ruby-kitabu一个框架使用Ruby来从Markdown创建电子书籍: kitabu：一个框架使用Ruby来从Markdown创建电子书籍。使用Prince PDF生成器，你可以得到高质量的pdf文档。还支持生成EPUB，Mobi，Text 和HTML格式

ruby代码ruby代码ruby代码ruby代码ruby代码ruby代码: ruby代码ruby代码ruby代码ruby代码ruby代码ruby代码ruby代码ruby代码

Ruby-使用Ruby和GitHubAPI构建Action的快速入门配方: 使用Ruby和GitHub API构建Action的快速入门配方

Ruby-AppleID使用Ruby登录Apple后端库: AppleID - 使用Ruby登录Apple后端库，具有小型自定义功能的OpenID Connect实现

Ruby-Kimura用Ruby编写的现代Web抓取框架: Kimura - 用Ruby编写的现代Web抓取框架，与Headless Chromium / Firefox，PhantomJS或简单的HTTP请求一起开箱即用，并允许抓取用交互JavaScript呈现的网站

ruby打包文件ruby入门通: ruby打包文件ruby打包文件ruby打包文件ruby打包文件ruby打包文件ruby打包文件ruby打包文件ruby打包文件ruby打包文件

ruby-getting-started, 在Heroku上，使用 ruby 入门.zip: ruby-getting-started, 在Heroku上，使用 ruby 入门 ruby-getting-started一个易于部署的Rails 应用程序，可以轻松部署到 Heroku 。这个应用程序支持在Heroku上开始使用 ruby 文章- check查看。在本地运行确保已经...

Ruby-qtbindings允许你在Ruby中使用QTGui工具包: qtbindings - 允许你在Ruby中使用QT Gui工具包

ruby trap 初学者使用: 大家使用ruby的时候，可以参考参考，这是ruby陷阱电子书

ruby DBI ruby DBI ruby DBI: ruby DBI ruby DBI ruby DBIruby DBI ruby DBI ruby DBIruby DBI ruby DBI ruby DBIruby DBI ruby DBI ruby DBIruby DBI ruby DBI ruby DBIruby DBI ruby DBI ruby DBIruby DBI ruby DBI ruby DBIruby DBI ruby DBI ...

redis集群，使用ruby脚本搭建集群: 搭建redis集群，使用ruby脚本搭建集群。 redis-3.0.0.gem

Ruby_向ruby之父学程序设计（第二版）（经典入门）: 　第五部分：介绍比较复杂一点的程序范例，试着使用Ruby来写出比较实用的程序。　附录：使用Ruby时所需的知识、相关的资讯等，Ruby的mailing-list、网络上的各种资源与其用法，以及安装Ruby的方法。　希望本书的...

ruby开发的基本流程.doc: Ruby开发流程涉及多个关键步骤，从环境搭建到项目部署，下面是一个大致的流程...Ruby提供了多种调试方式，如使用puts或p语句输出变量的值，或者使用Ruby的内置调试器pry进行交互式调试。此外，还可以使用集成开发环境

Ruby完全自学手册下: 《Ruby完全自学手册》是一本完全...同时也希望能够与各位读者分享多年来积累的Ruby程序和网站开发的经验。《Ruby完全自学手册》适合准备学习或了解Ruby语言和IRails框架的各类读者阅读，并可作为开发人员的参考手册。

ruby2ruby.zip: ruby2ruby 提供一些用来根据 RubyParser 兼容的 Sexps 轻松生成纯 Ruby 代码的方法。可在 Ruby 中轻松实现动态语言处理。标签：ruby2ruby

Ruby实现网页图片抓取: 本文给大家分享的是个人使用ruby编写的抓取网页图片的代码，十分的简单实用，有需要的小伙伴可以参考下。

使用Python Lua和Ruby语言进行游戏编程: 使用Python Lua和Ruby语言进行游戏编程

nagiosharder, 用于抓取Nagios的ruby API.zip: nagiosharder, 用于抓取Nagios的ruby API nagiosharder查询和命令使用 ruby ( 还有很多屏幕 scaping )的电源来安装 Nagios ！执行常见的gem 安装夹具：gem install nagiosharder现在你既可以访问 r

Global site tag (gtag.js) - Google Analytics