scrapy抓取网站 - - ITeye博客

`

josephgao

浏览: 14720 次
性别:
来自: 北京

最近访客更多访客>>

来自原野

ericxt

iamnotterminator

waldo.wy

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

scrapy抓取网站

阅读更多

1. 安装
easy install pip
pip install scrapy

2. Items, spider, itempipline 基本概念
scrapy startproject tutorial

vim items.py

 
class DmozItem(Item):
       
  #  define the fields for your item here like:
    name = Field()
    title = Field()
    link = Field()
    desc = Field()
class TorrentItem(Item):
    url = Field()
    name = Field()
    description = Field()
    size = Field()

vim spiders/dmoz_spider.py

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector 
from tutorial.items import DmozItem
class DmozSpider(BaseSpider):
    name = 'dmoz'
    allowed_domains = ['dmoz.org']
    start_urls = ["http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
        ]   
    def parse(self, response):
        sel = HtmlXPathSelector(response)
        sites = sel.select('//ul/li')
        items = []
        for site in sites:
            item = DmozItem()
            item['title'] = site.select('a/text()').extract()
            item['link'] = site.select('a/@href').extract()
            item['desc'] = site.select('text()').extract()
            items.append(item)
        return items

scrapy crawl dmoz -o items.json -t json

3常见问题
a. spider的name不能与项目名字相同

分享到：

hbase 问题及解决 | vim 快捷键

2013-11-04 15:09
浏览 756
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Python使用scrapy抓取网站sitemap信息的方法: 主要介绍了Python使用scrapy抓取网站sitemap信息的方法,涉及Python框架scrapy的使用技巧,具有一定参考借鉴价值,需要的朋友可以参考下

Python-Scrapy练习项目利用Scrapy抓取古诗: Scrapy练习项目，利用Scrapy抓取古诗（唐诗三百首，宋词三百首等），并保存为json格式

Python-scrapy抓取糗事百科热门: scrapy抓取糗事百科热门

Python-使用pythonscrapy抓取拉钩java招聘信息并制作成词云: 使用python scrapy抓取拉钩java招聘信息并制作成词云

scrapy 抓取多级页面的某子二手车: 练习使用scrapy 框架爬取数据，爬取，解析，持久化，日志

Scrapy抓取资源Mysql异步存储: 利用Scrapy抓取读书网资源，并通过PipeLines异步存储到Mysql数据库中，附件中有建表语句，下载立刻就能运行

使用Scrapy抓取职位招聘数据-爬虫python代码: 基于Python和Echarts职位画像系统，使用Scrapy抓取职位招聘数据，使用Django+echarts完成数据可视化。环境安装配置建议直接安装anconda，然后git clone后进入项目目录，执行pip install -r requirements.txt ...

Scrapy 抓取网易严选、小米有品产品数据.zip: Scrapy 抓取网易严选、小米有品产品数据.zip

Python-scrapy抓取链家网二手房成交数据: scrapy抓取链家网二手房成交数据

通过django创建搜网网站，通过elasticsearch实现动态搜索scrapy抓取的数据.zip: 通过django创建搜网网站，通过elasticsearch实现动态搜索scrapy抓取的数据.zip

基于Python和Echarts职位画像系统，用Scrapy抓取招聘数据，使用Django+echarts完成数据可视化.zip: 基于Python和Echarts职位画像系统，用Scrapy抓取招聘数据，使用Django+echarts完成数据可视化

基于Python和Echarts职位画像系统，使用Scrapy抓取职位招聘数据，使用Django+echarts完成数据可视化: 基于Python和Echarts职位画像系统，使用Scrapy抓取职位招聘数据，使用Django+echarts完成数据可视化。环境安装配置建议直接安装anconda，然后git clone后进入项目目录，执行pip install -r requirements.txt 项目...

使用scrapy抓取google app store 信息写入mysql - 2018.6: 使用scrapy 抓取 google app store中的app信息写入mysql 代码可直接运行

毕设项目-基于python的爬虫框架scrapy抓取招聘网站的招聘信息，基于Hadoop处理数据+源码+文档说明: 使用python的爬虫框架scrapy抓取51job网站的招聘信息并存入文件 (DataSpider) 二、大数据存储编写java脚本使用HDFS API把数据上传到HDFS文件系统三、大数据处理使用Hadoop处理大数据 (BigDataHandler) - 不懂运行...

Scrapy抓取美女图片并且保存: 通过Scrapy框架下载保存美女图片，进而学习下Spider中间件（Spider Middlewares）相关知识

通过Scrapy抓取和讯论坛关键字搜索的结果: 通过Scrapy框架构建工程来实现关键字搜索和讯论坛正文后结果中所有的的帖子内容，发帖人，以及发帖的时间。

scrapy抓取数据存储至本地mysql数据库-大众点评爬虫.zip: 爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

毕设项目：scrapy抓取数据存储至本地mysql数据库-大众点评爬虫后面制作数据分析，难度中等: scrapy抓取数据存储至本地mysql数据库基于python开发，采用scrapy，数据存储至本地数据库（或excel表格）程序的主要目的是完成抓取和分析的任务同时学习爬虫相关知识，所以在细节处理上略有不足，但考虑到最终的...

scrapy 循环抓取url实例: 自己亲自测试保证可以用，需要安装python2.7 还有scrapy，测试是在centos7下完成的

Global site tag (gtag.js) - Google Analytics