博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
极客学院Python文本爬虫
阅读量:5771 次
发布时间:2019-06-18

本文共 798 字,大约阅读时间需要 2 分钟。

hot3.png

# -*- coding: utf-8 -*-import reold_url = 'http://www.jikexueyuan.com/course/android/?pageNum=2'total_page = 20f = open('1.wenben.txt','r+')html = f.read()f.close()# re.S 包括换行# 抓取标题 search 找到内容后自动停止查找 findall则是遍历title = re.search('(.*?)',html,re.S).group(1)print title# sub的使用s = '123adsg123'output = re.sub('123(.*?)123','houzhong%d'%88,s)print output

不要使用compile。

#匹配数字

a = 'asdfsf12313dfadfad'b = re.findall('\d',a)print b

结果:['1', '2', '3', '1', '3']

a = 'asdfsf12313dfadfad2131'b = re.findall('\d+',a)print b

结果:['12313', '2131']

 

翻页功能 re.sub

import reold_url = 'http://www.jikexueyuan.com/course/android/?pageNum=2'total_page = 20for i in range(total_page):    i += 1    new_url = re.sub('pageNum=\d+','pageNum=%d'%i, old_url)    print new_url

转载于:https://my.oschina.net/houzhong/blog/625356

你可能感兴趣的文章
软件开发学习的5大技巧,你知道吗?
查看>>
java入门第二季--封装--什么是java中的封装
查看>>
【人物志】美团前端通道主席洪磊:一位产品出身、爱焊电路板的工程师
查看>>
一份关于数据科学家应该具备的技能清单
查看>>
机器学习实战_一个完整的程序(一)
查看>>
Web框架的常用架构模式(JavaScript语言)
查看>>
如何用UPA优化性能?先读懂这份报告!
查看>>
这些Java面试题必须会-----鲁迅
查看>>
Linux 常用命令
查看>>
NodeJS 工程师必备的 8 个工具
查看>>
CSS盒模型
查看>>
ng2路由延时加载模块
查看>>
使用GitHub的十个最佳实践
查看>>
Elasticsearch 7.0中引入的新集群协调子系统如何使用?
查看>>
全面了解大数据“三驾马车”的开源实现
查看>>
使用nginx capture的注意事项
查看>>
PHPStorm.WebStrom等系列官方开发工具配置本地项目与运程服务器同步
查看>>
Node.js 8.9 LTS版本发布
查看>>
脱离“体验”和“安全”谈盈利的游戏运营 都是耍流氓
查看>>
慎用!BLEU评价NLP文本输出质量存在严重问题
查看>>