golang爬取豆瓣电影TOP250(下载图片)

栏目: Go · 发布时间: 5年前

内容简介:打开豆瓣电影TOP250,打算爬取电影的四个信息,豆瓣排名,图片,评分,电影名。所以先定义个结构体

打开豆瓣电影TOP250,打算爬取电影的四个信息,豆瓣排名,图片,评分,电影名。

golang爬取豆瓣电影TOP250(下载图片)

所以先定义个结构体

type Movie struct {
    Num     string
    Url      string
    Star     string
    Name     string

}

注意豆瓣电影的网址,是有规律的:

golang爬取豆瓣电影TOP250(下载图片)

每一页 start 分别为0,25,50.....

所以在主函数里面加个循环:

func main(){
    t1 := time.Now()
    for i := 0; i < 11; i++ {
        url := fmt.Sprintf("https://movie.douban.com/top250?start=%v&filter=", i*25)
        fmt.Printf("整在爬取第%v页",i+1)
        res := getResponse(url)//定义的获取html的函数
        DownloadImg(res)// 下载图片的函数
    }
    elapsed := time.Since(t1)
    fmt.Println("总共用时: ", elapsed)
}

爬虫第一步,获取html网页进行解析,安装 goquery

gopm -g -v github.com/PuerkitoBio/goquery

func getResponse(url string)  []Movie{ 
    content,err:= goquery.NewDocument(url)
    if err != nil{
        panic(err)
    }
    return ParseResponse(content)//
}

func ParseResponse(doc *goquery.Document) (pages []Movie) {
    doc.Find("div.item").Each(func(i int, s *goquery.Selection) {
        img,_ :=s.Find("img").Attr("src")
        num:=s.Find("em").Text()
        star:=s.Find("span.rating_num").Text()
        name,_:=s.Find("img").Attr("alt")
        pages = append(pages, Movie{
            Num: num,
            Url:  img,
            Star: star,
            Name: name,
        })
    })
    return pages
}

这里把 ParseResponse 函数作为返回值,把处理后的 Movie 切片返回。处理网页用到 goquery 的Find匹配网页元素。

golang爬取豆瓣电影TOP250(下载图片)

查看网页的元素代码,看到这几个需要获取的信息都在 <div class="item> 中,所以先循环获取 item :

doc.Find("div.item").Each(func(i int, s *goquery.Selection)

打印出来大概就是这样的:

[.....{26 https://img3.doubanio.com/vie... 9.2 乱世佳人} {27 https://img3.doubanio.com/vie... 9.1 蝙蝠侠:黑暗骑士}....]

最后一步下载图片,把图片url和图片名称传给 GetImg 方法。

func GetImg(url string , name string) {
    res, _ := http.Get(url)
    file_name := imgpath + "\\" + name + ".jpg" //拼接图片路径
    file, _ := os.Create(file_name)
    io.Copy(file, res.Body)
}

golang爬取豆瓣电影TOP250(下载图片)

网速比较慢,测了几次都是10s多一点。

golang爬取豆瓣电影TOP250(下载图片)

完整代码 点这里


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

编程的修炼(中英双语)

编程的修炼(中英双语)

[荷]Edsger W. Dijkstra / 裘宗燕 / 电子工业出版社 / 2013-7 / 79.00元

本书是图灵奖获得者Edsger W. Dijkstra在编程领域里的经典著作中的经典。作者基于其敏锐的洞察力和长期的实际编程经验,对基本顺序程序的描述和开发中的许多关键问题做了独到的总结和开发。书中讨论了顺序程序的本质特征、程序描述和对程序行为(正确性)的推理,并通过一系列从简单到复杂的程序的思考和开发范例,阐释了基于严格的逻辑推理开发正确可靠程序的过程。 本书写于20世纪70年代中后期,但......一起来看看 《编程的修炼(中英双语)》 这本书的介绍吧!

URL 编码/解码
URL 编码/解码

URL 编码/解码

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具