最近老婆大人的公司给老婆大人安排了一个根据关键词查询google网站排名的差事。老婆大人的公司是做seo的,查询的关键词及网站特别的多,看着老婆大人这么辛苦的重复着查询工作,心疼啊。所以花点时间用python写了一个根据关键词搜索网站排名的py脚本。
在写这个脚本之前,我也曾在网站搜索过关于在google查排名的脚本。很多是利用google的api。但是我测试了一下,不准。所以,自己写一个吧。
脚本内容如下:(关键词我在网站随便找了几个。以做测试使用)
#vim keyword.py
import urllib,urllib2,cookielib,re,sys,os,time,random
cj = cookielib.CookieJar()
vibramkey=['cheap+five+fingers','vibram+five+fingers']
beatskey=['beats+by+dre','beats+by+dre+cheap']
vibramweb=['vibramforshoes.com','vibramfivetoeshoes.net','vibramfivefingersshoesx.com ']
beatsweb=['beatsbydre.com','justlovebeats.com']
allweb=['vibramweb','beatsweb']
def serchkey(key,start):
url="http://www.google.com/search?hl=en&q;=%s&revid;=33815775&sa;=X&ei;=X6CbT4GrIoOeiQfth43GAw&ved;=0CIgBENUCKAY&start;=%s" %(key,start)
try:
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [('User-agent', 'Opera/9.23')]
urllib2.install_opener(opener)
req=urllib2.Request(url)
response =urllib2.urlopen(req)
content = response.read()
f=open('google','w')
f.write(content)
tiqu=os.popen("grep -ioP '(?<=<cite>).*?(?=</cite>)' google|sed -r 's/(<*\/*cite>|<\/*b>)//g'").readlines()
except:
changeip()
else:
for yuming in pinpai:
a=1
for shouyuming in tiqu:
real=shouyuming.find(yuming)
if real>0:
if start==0:
page=1
elif start==10:
page=2
elif start==20:
page=3
elif start==30:
page=4
else:
page=5
lastkey=key.replace("+"," ")
xinxi="%s\t\t %s\t\t page%s,%s<br>\n" %(yuming,lastkey,page,a)
xinxifile=open('index.html','a')
xinxifile.write(xinxi)
xinxifile.close()
a=a+1
def changeip():
ip=random.randint(0,2)
de="route del -host google.com"
add="route add -host google.com eth1:%s" %ip
os.system(de)
os.system(add)
print "changip to %s" %ip
pinpaiid=0
for x in vibramkey,beatskey:
if pinpaiid == 0:
pinpai=vibramweb
elif pinpaiid == 1:
pinpai=beatsweb
pinpaiid=pinpaiid+1
for key in x:
for start in 0,10,20,30,40:
serchkey(key,start)
changeip()
os.system("sh paiban.sh")
#vim paiban.sh
#! /bin/bash
sort index.html -o index.html
line=`wc -l index.html|awk '{print $1}'`
yuming2=`sed -n 1p index.html|awk '{print $1}'`
for i in `seq 2 $line`
do
yuming=`sed -n "$i"p index.html|awk '{print $1}'`
if [ $yuming == $yuming2 ];then
sed -i ""$i"s/"$yuming"/\t\t/g" index.html
else
yuming2=$yuming
fi
done
这段脚本分两部分,第一部分是python利用关键词搜索google的页面。老婆大人说只要每一个关键词的前5页就可以。所以只查询了前5页。
第二部分是将查询出来的结果进行排版。也就是最下面调用paiban.sh 所做的事情,让最终出来的结果为如下格式:
网站1 关键词1 第几页 第几名
关键词2 第几页 第几名
关键词3 第几页 第几名
网站2 关键词1 第几页 第几名
关键词2 第几页 第几名
关键词3 第几页 第几名
下面就来对程序进行讲解。
import urllib,urllib2,cookielib,re,sys,os,time,random #加载模块
cj = cookielib.CookieJar()
vibramkey=['cheap+five+fingers','vibram+five+fingers'] #定义要查询的关键词组1,里面的单引号里面就是要查询的关键词。
beatskey=['beats+by+dre','beats+by+dre+cheap'] #同上,定义关键词组2,这个是另一组关键词。
vibramweb=['vibramforshoes.com','vibramfivetoeshoes.net','vibramfivefingersshoesx.com ']
#定义关健词组1要查询的网站
beatsweb=[' beatsbydre.com',' justlovebeats.com'] #定义关健词组2要查询的网站
allweb=['vibramweb','beatsweb'] #这里定义了一个所有网站的组,下面好调用。
def serchkey(key,start): #这里定义一个函数,key为查询的关健词,start为页面,通过google查询页面可以看出来每个页面除ads外只有十条记录,start=0时显示为第一个页面第一至第十条记录,start=10时,显示第二页的第一至十条记录,以些类推。
url="http://www.google.com/search?hl=en&q;=%s&revid;=33815775&sa;=X&ei;=X6CbT4GrIoOeiQfth43GAw&ved;=0CIgBENUCKAY&start;=%s" %(key,start) #这个定义了查询的URL
try:
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [('User-agent', 'Opera/9.23')] #模拟浏览器访问
urllib2.install_opener(opener)
req=urllib2.Request(url) #用urllib2访问
response =urllib2.urlopen(req)
content = response.read()#这块是模拟浏览器进行访问url的页面并读取源代码
f=open('google','w')
f.write(content) #将读取出来的内容保存到google的一个页面里。
tiqu=os.popen("grep -ioP '(?<=<cite>).*?(?=</cite>)' google|sed -r 's/(<*\/*cite>|<\/*b>)//g'").readlines() #这里利用了系统命令了。利用正则的零宽断言提直接取出第一到第十位的网站域名。
except:
changeip() #这边是怕访问过多被google封了。所以这里有一个换ip的函数,下面有定义。上面如果try失败了,就执行换ip的动作。
else:
for yuming in pinpai: #循环读取要查找的网站
a=1
for shouyuming in tiqu: #循环读取查找出来的网站
real=shouyuming.find(yuming) #将查找出来的网站与需要查找的网站进行比对
if real>0:
if start==0:
page=1
elif start==10:
page=2
elif start==20:
page=3
elif start==30:
page=4
else:
page=5
#这里的查看域名在google搜索后的哪一页。
lastkey=key.replace("+"," ") #将定义的关键词中间的加号去掉。
print yuming,lastkey,page,a
xinxi="%s\t\t %s\t\t 第%s页,排名%s\n" %(yuming,lastkey,page,a)
xinxifile=open('index.html','a')
xinxifile.write(xinxi)
xinxifile.close() #将查找出来的信息写入到index.html文件里
aa=a+1
def changeip(): #这里是定义查询时换ip的函数。如果机器只有一个ip那就不用这段了。
ip=random.randint(0,10) #随机生成0-10的数
del="route del -host google.com" #删除路由命令
add="route add -host google.com eth1:%s" %ip #添加路由命令
os.system(del) #执行删除路由命令
os.system(add) #执行添加路由命令
print "changip to %s" %ip #打印更改路由信息
pinpaiid=0
for x in vibramkey,beatskey: #循环所有的关键词组
if pinpaiid == 0: # 对应关键词组与要查询的网站组
pinpai=vibramweb
elif pinpaiid == 1:
pinpai=beatsweb
pinpaiidpinpaiid=pinpaiid+1
for key in x: #循环关键词组里的关键词
for start in 0,10,20,30,40: #定义所要查找的google的页面
serchkey(key,start)
changeip() #更改ip函数。在每一组关键词查询完毕后更改ip.
以上命令执行后,我们看一下index.html文件内容。如下:
复制代码 代码如下:
vibramforshoes.com cheap five fingers page 1,rank 3
vibramfivetoeshoes.net cheap five fingers page 5,rank 5
vibramforshoes.com vibram five fingers page 1,rank 6
vibramfivetoeshoes.net vibram five fingers page 5,rank 10
beatsbydre.com beats by dre page 1,rank 1
justlovebeats.com beats by dre page 5,rank 7
beatsbydre.com beats by dre cheap page 2,rank 2
beatsbydre.com beats by dre cheap page 2,rank 3
beatsbydre.com beats by dre cheap page 5,rank 10
如图:
这样看很乱,那么我们如何才能达到上面所讲 一个站后面对应多个关键词的格式呢,这里我们就要用到 paiban.sh 这个小脚本了。我们把paiban.sh放在py程序的最后,当执行py程序执行完毕后,执行paiban.sh 这个paiban.sh已经加在py程序里面了,所有不需要另外执行。我这里主要看一下区别。所有在py程序里注释了。
#sh paiban.sh
#cat index.html
beatsbydre.com beats by dre cheap page 2,rank 2
beats by dre cheap page 2,rank 3
beats by dre cheap page 5,rank 10
beats by dre page 1,rank 1
justlovebeats.com beats by dre page 5,rank 7
vibramfivetoeshoes.net cheap five fingers page 5,rank 5
vibram five fingers page 5,rank 10
vibramforshoes.com cheap five fingers page 1,rank 3
vibram five fingers page 1,rank 6
如图:
这样就能达到上面的效果了。排版也很清楚,哪个站对应哪个关键词。在第几页,第几位,一目了然。
我们也对paiban.sh这个脚本做一下解释。
#vim paiban.sh
#! /bin/bash
sort index.html -o index.html #先把index.html文件排下序,再写入index.html
line=`wc -l index.html|awk '{print $1}'` #统计行
yuming2=`sed -n 1p index.html|awk '{print $1}'` #取第一行的域名 给yuming2
for i in `seq 2 $line` #从第二行开始了取域名
do
yuming=`sed -n "$i"p index.html|awk '{print $1}'`
if [ $yuming == $yuming2 ];then
sed -i ""$i"s/"$yuming"/\t\t/g" index.html #如果下一行域名与yuming2域名相同,就把下一行域名替换成空
else
yuming2=$yuming #如果不相等,就把下一行的域名给yuming2变量
fi
done
好了。这个小脚本挺好用的,老婆大人天天在用。为她减轻了不少工作量。直夸我能干。。。,哈哈。。如果有看不明白的,欢迎加QQ讨论。QQ:410018348
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。