好久没有写ruby代码了,手有点生,今年准备多练练~
话说MM都喜欢看小说,网上连载的一直下一页下一页的点也不方便,于是就想到用代码把小说都抓取下来。html分析工具用的是hpricot。
require 'rubygems'
require 'hpricot'
require 'open-uri'
require 'fileutils'
def wri
url = "http://www.yqxs.com/data/book2/ZfUAt35561/book35561_"
(1..22).each do |page|
sub_url = url+page.to_s+".html"
get_novel(sub_url)
end
end
def get_novel(target_url)
puts target_url
doc = Hpricot(open(target_url))
ele = doc.search("div[@id=content]")
write_file(ele.inner_html,"test")
end
def write_file(file_content,title)
path = "E:\\"
file_name = path+title+".html"
file = File.open(file_name,"a")
file.puts file_content
file.close
end
wri
Hpricot挺好用,可以根据css的class来找,还可以根据id来找。
ele = doc.search("div[@id=content]")
就是找到id是content的div
就这样吧,简单记录下。
分享到:
相关推荐
用ruby写的网页抓取脚本,可用于在线文档下载以及整站下载。
使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库使用ruby解析awdb离线库...
kitabu:一个框架使用Ruby来从Markdown创建电子书籍。使用Prince PDF生成器,你可以得到高质量的pdf文档。还支持生成EPUB,Mobi,Text 和HTML格式
ruby代码ruby代码ruby代码ruby代码ruby代码ruby代码ruby代码ruby代码
使用Ruby和GitHub API构建Action的快速入门配方
AppleID - 使用Ruby登录Apple后端库,具有小型自定义功能的OpenID Connect实现
Kimura - 用Ruby编写的现代Web抓取框架,与Headless Chromium / Firefox,PhantomJS或简单的HTTP请求一起开箱即用,并允许抓取用交互JavaScript呈现的网站
ruby打包文件ruby打包文件ruby打包文件ruby打包文件ruby打包文件ruby打包文件ruby打包文件ruby打包文件ruby打包文件
ruby-getting-started, 在Heroku上,使用 ruby 入门 ruby-getting-started一个易于部署的Rails 应用程序,可以轻松部署到 Heroku 。这个应用程序支持在Heroku上开始使用 ruby 文章- check查看。在本地运行确保已经...
qtbindings - 允许你在Ruby中使用QT Gui工具包
大家使用ruby的时候,可以参考参考,这是ruby陷阱电子书
ruby DBI ruby DBI ruby DBIruby DBI ruby DBI ruby DBIruby DBI ruby DBI ruby DBIruby DBI ruby DBI ruby DBIruby DBI ruby DBI ruby DBIruby DBI ruby DBI ruby DBIruby DBI ruby DBI ruby DBIruby DBI ruby DBI ...
搭建redis集群,使用ruby脚本搭建集群。 redis-3.0.0.gem
第五部分:介绍比较复杂一点的程序范例,试着使用Ruby来写出比较实用的程序。 附录:使用Ruby时所需的知识、相关的资讯等,Ruby的mailing-list、网络上的各种资源与其用法,以及安装Ruby的方法。 希望本书的...
Ruby开发流程涉及多个关键步骤,从环境搭建到项目部署,下面是一个大致的流程...Ruby提供了多种调试方式,如使用puts或p语句输出变量的值,或者使用Ruby的内置调试器pry进行交互式调试。此外,还可以使用集成开发环境
《Ruby完全自学手册》是一本完全...同时也希望能够与各位读者分享多年来积累的Ruby程序和网站开发的经验。 《Ruby完全自学手册》适合准备学习或了解Ruby语言和IRails框架的各类读者阅读,并可作为开发人员的参考手册。
ruby2ruby 提供一些用来根据 RubyParser 兼容的 Sexps 轻松生成纯 Ruby 代码的方法。可在 Ruby 中轻松实现动态语言处理。 标签:ruby2ruby
本文给大家分享的是个人使用ruby编写的抓取网页图片的代码,十分的简单实用,有需要的小伙伴可以参考下。
使用Python Lua和Ruby语言进行游戏编程
nagiosharder, 用于抓取Nagios的ruby API nagiosharder查询和命令使用 ruby ( 还有很多屏幕 scaping )的电源来安装 Nagios ! 执行常见的gem 安装夹具:gem install nagiosharder现在你既可以访问 r