суббота, 4 августа 2012 г.

Парсер Google

Вообщем продолжение моей античатовской темы двухлетней давности :)  На днях решил переписать это на Python и сделать в виде отдельного модуля, чтобы было можно легко использовать в каких-то других скриптах (эксплойты, сканеры и т.д.) Да и самому удобнее.

Парсит поисковые системы:
  • search.myway.com
  • search.aol.ru
  • websearch.cs.com
  • search.virginmedia.com

Класс: GoogleParser
  • Метод __init__(self, keywords = [], del_dublicats = 1, threads_count = 20, verbose = 1)
    keywords - массив слов для подстановки к каждому запросу, увеличивают выдачу
    del_dublicats - надо ли удалять дубликаты
    threads_count - количество потоков
    verbose - писать ли лог работы в консоль
  • Метод Parse(self,dorks):
    dorks - массив поисковых запросов
  • Метод SortByPR(self, mode = 0, pause = 3)
    mode - сортировка по возрастанию/убыванию (0/1) соответственно
    pause - время задержки после каждого запроса. Чтобы не было бана.
  • Метод GetPR(self, query)
    query - сайт, для которого надо узнать PR. Возвращает число.
Настройки поисковых систем:
self.EngineList = [
        ...
]
Закомментировать те, которые не нужны.
Пример работы с модулем:
#!/usr/bin/python
# -*- coding: utf-8 -*-
import se_parser
arr = []
IN = open("dorks.txt","r")
for s in IN:
 arr.append(s.strip())
IN.close()
obj = se_parser.GoogleParser()
obj.Parse(arr)
obj.SortByPR()
OUT = open("sites.txt","w")
for s in obj.Result:
 print>>OUT,s
OUT.close()

Скачать

1 комментарий: