芝麻HTTP： Scrapy小技巧-MySQL存储

栏目: Python · 发布时间: 8年前

内容简介：芝麻HTTP： Scrapy小技巧-MySQL存储

这两天上班接手，别人留下来的爬虫发现一个很好玩的 SQL 脚本拼接。

只要你的Scrapy Field字段名字和数据库字段的名字一样。那么恭喜你你就可以拷贝这段SQL拼接脚本。进行 MySQL 入库处理。

具体拼接代码如下：


    def process_item(self, item, spider):
        if isinstance(item, WhoscoredNewItem):
            table_name = item.pop('table_name')
            col_str = ''
            row_str = ''
            for key in item.keys():
                col_str = col_str + " " + key + ","
                row_str = "{}'{}',".format(row_str, item[key] if "'" not in item[key] else item[key].replace("'", "\\'"))
                sql = "insert INTO {} ({}) VALUES ({}) ON DUPLICATE KEY UPDATE ".format(table_name, col_str[1:-1], row_str[:-1])
            for (key, value) in six.iteritems(item):
                sql += "{} = '{}', ".format(key, value if "'" not in value else value.replace("'", "\\'"))
            sql = sql[:-2]
            self.cursor.execute(sql) #执行SQL
            self.cnx.commit()# 写入操作

这个SQL拼接实现了，如果数据库存在相同数据则更新，不存在则插入的SQL语句

具体实现就是第一个for循环，获取key作为MySQL字段名字、VALUES做为SQL的VALUES（拼接成一个插入的SQL语句）

第二个for循环，实现了字段名 = VALUES的拼接。

和第一个for循环的中的sql就组成了 insert into XXXXX on duplicate key update 这个。存在则更新不存在则插入的SQL语句。

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

高扩展性网站的50条原则

[美] Martin L. Abbott、[美]Michael T. Fisher / 张欣、杨海玲 / 人民邮电出版社 / 2012-6-3 / 35.00元

《高扩展性网站的50条原则》给出了设计高扩展网站的50条原则，如不要过度设计、设计时就考虑扩展性、把方案简化3倍以上、减少DNS查找、尽可能减少对象等，每个原则都与不同的主题绑定在一起。大部分原则是面向技术的，只有少量原则解决的是与关键习惯和方法有关的问题，当然，每个原则都对构建可扩展的产品至关重要。主要内容包括：通过克隆、复制、分离功能和拆分数据集提高网站扩展性；采用横向......一起来看看《高扩展性网站的50条原则》这本书的介绍吧!

码农工具

芝麻HTTP： Scrapy小技巧-MySQL存储

高扩展性网站的50条原则

JSON 在线解析

Base64 编码/解码

MD5 加密