De acordo com o Alexa, os sítios portugueses mais populares do Top 100 Lusófono são os seguintes:
nº 06: www.sapo.pt
nº 12: www.iol.pt
nº 13: www.google.pt
nº 16: www.clix.pt
nº 24: www.abola.pt
nº 28: www.terravista.pt
nº 32: www.record.pt
nº 34: www.publico.pt
nº 40: www.ojogo.pt
nº 48: www.e-financas.gov.pt
nº 49: www.millenniumbcp.pt
nº 50: www.telepac.pt
nº 53: www.aeiou.pt
nº 64: www.mytmn.pt
nº 70: www.correiomanha.pt
nº 78: www.xl.pt
nº 79: www.paginasamarelas.pt
nº 81: www.min-edu.pt
nº 84: www.rtp.pt
nº 85: www.co.pt
nº 87: www.oninet.pt
nº 88: www.portugalmail.pt
nº 91: www.mediacapital.pt
nº 94: www.mail.pt
nº 95: www.tvcabo.pt
Uma em cada quatro páginas do top 100 tem a extensão .pt, o que é surpreendente se pensarmos que para cada português existem cerca de 18 brasileiros.
Para extrair esta informação da páginas do Top 100 Lusófono, usei umas poucas linhas de Python. Primeiro usei o módulo urllib2
para ler a página para dentro da string page
:
Em seguida usei o módulo BeautifulSoup do Leonard Richardson para procurar no código HTML da página todas as tags do tipoimport urllib2 url="http://www.alexa.com/site/ds/top_sites?" \ + "ts_mode=lang&lang=pt" page=urllib2.urlopen(url).read()
span
e com o atributo class
igual a smallG
:
O resultado é este dicionário de 25 domínios .pt:from BeautifulSoup import BeautifulSoup as BS bs=BS() bs.feed(page) tags=bs('span', {'class': 'smallG'}) links=[tag.contents[0].string for tag in tags] pt_links={} for i in range(len(links)): link=links[i] if link.endswith('.pt'): pt_links[i]=link import pprint pprint.pprint(pt_links)
{6: 'www.sapo.pt', 12: 'www.iol.pt', 13: 'www.google.pt', 16: 'www.clix.pt', 24: 'www.abola.pt', 28: 'www.terravista.pt', 32: 'www.record.pt', 34: 'www.publico.pt', 40: 'www.ojogo.pt', 48: 'www.e-financas.gov.pt', 49: 'www.millenniumbcp.pt', 50: 'www.telepac.pt', 53: 'www.aeiou.pt', 64: 'www.mytmn.pt', 70: 'www.correiomanha.pt', 78: 'www.xl.pt', 79: 'www.paginasamarelas.pt', 81: 'www.min-edu.pt', 84: 'www.rtp.pt', 85: 'www.co.pt', 87: 'www.oninet.pt', 88: 'www.portugalmail.pt', 91: 'www.mediacapital.pt', 94: 'www.mail.pt', 95: 'www.tvcabo.pt'}
A lista de top 10 está sensível a informação que seu browser passa para o site. Fiz a mesma pesquisa com browser configurado em pt-br e obtive um resultado diferente, com a maioria de domínios brasileiros.
[]s
Senra
Posted by: Rod Senra | 2005.01.02 at 15:55
http://storiediincesto01.caffeblog.com/ storie di incesto
http://sessoconanimaligratis07.caffeblog.com/ sesso con animali gratis
http://amatoriali70.caffeblog.com/ amatoriali
http://puttanenegre28.caffeblog.com/ puttane negre
http://rosannalambertucci49.caffeblog.com/ rosannalambertucci
http://videonuda46.caffeblog.com/ video nuda
http://maturechescopano11.caffeblog.com/ mature che scopano
http://floraenchantixwinx31.caffeblog.com/ flora enchantix winx
http://sottolagonna82.caffeblog.com/ sotto la gonna
http://giovanitroie44.caffeblog.com/ giovani troie
Posted by: Hero | 2007.06.03 at 10:42