Python抓取福州新闻内容并下载到本地路径

接触python有一段时间了,断断续续的,django也看了部分,还是需要多动手敲代码才更有效果的,也复习下之前看的内容,昨天写了抓取福州新闻网第一页新闻的例子,仅供参考。

1.分析页面代码结构,从哪一部分内容开始获取新闻链接.

2.把第一页的新闻url保存在列表,在网站上可以知道分每页的新闻数量,每5条新闻为一组,每页共6组

url = ['']*30#每页30篇新闻
con = urllib2.urlopen('http://news.fznews.com.cn/dsxw/list.shtml').read()
#print con
title = con.find(r'

3.把列表中的每条url去获取对应的新闻页面,并下载到本地的目录
#2.逐条去下载新闻保存到c:\\fznews

j = 0
while j < 30:
    downloadnews(url[j])
    j = j+1
    time.sleep(5)
else:
    print 'download news finished!'

下载新闻的方法独立出来,这里本地的路径是写死的,如果要对应不同的内容,页面的结构可能不一样,保存的路径也要灵活的配置才更合理

#下载url对应的新闻内容,保存在c:\\fznews路径下
def downloadnews(url):
    print 'downloading news ',url
    filename = url[-19:]
    newcon = urllib2.urlopen(url).read()
    f = open('C:\\fznews\\%s'%filename,'w')
    f.write(newcon)
    f.close()

4.运行后截图:

下载的新闻文件:

后续继续学习django,以及用django搭建微信公众平台。




    分享到:









点赞

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注


*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>