Парсер Google

Вообщем продолжение моей античатовской темы двухлетней давности :) На днях решил переписать это на Python и сделать в виде отдельного модуля, чтобы было можно легко использовать в каких-то других скриптах (эксплойты, сканеры и т.д.) Да и самому удобнее.

Парсит поисковые системы:

search.myway.com
search.aol.ru
websearch.cs.com
search.virginmedia.com

Класс: GoogleParser

Метод __init__(self, keywords = [], del_dublicats = 1, threads_count = 20, verbose = 1)
keywords - массив слов для подстановки к каждому запросу, увеличивают выдачу
del_dublicats - надо ли удалять дубликаты
threads_count - количество потоков
verbose - писать ли лог работы в консоль
Метод Parse(self,dorks):
dorks - массив поисковых запросов
Метод SortByPR(self, mode = 0, pause = 3)
mode - сортировка по возрастанию/убыванию (0/1) соответственно
pause - время задержки после каждого запроса. Чтобы не было бана.
Метод GetPR(self, query)
query - сайт, для которого надо узнать PR. Возвращает число.

Настройки поисковых систем:
self.EngineList = [
...
]
Закомментировать те, которые не нужны.

Пример работы с модулем:

#!/usr/bin/python
# -*- coding: utf-8 -*-
import se_parser
arr = []
IN = open("dorks.txt","r")
for s in IN:
 arr.append(s.strip())
IN.close()
obj = se_parser.GoogleParser()
obj.Parse(arr)
obj.SortByPR()
OUT = open("sites.txt","w")
for s in obj.Result:
 print>>OUT,s
OUT.close()

Скачать

унылый блог

суббота, 4 августа 2012 г.

Парсер Google

1 комментарий:

суббота, 4 августа 2012 г.

Парсер Google

1 комментарий:

суббота, 4 августа 2012 г.