Instalação

Básico:

GCC, G++, make... (buildessentials), python, python-dev (python-all-dev, parece servir) e python-pycurl

LIBS:

-----LIBSVM-----

http://www.csie.ntu.edu.tw/~cjlin/libsvm/ (http://www.csie.ntu.edu.tw/~cjlin/cgi-bin/libsvm.cgi?+http://www.csie.ntu.edu.tw/~cjlin/libsvm+zip)

Descompacta libsvm+zip
Ir na pasta /python
make
python setup.py install

-----Tornado Web Server-----

http://www.tornadoweb.org/ (http://www.tornadoweb.org/static/tornado-0.2.tar.gz)

tar xvzf tornado-0.2.tar.gz
cd tornado-0.2
python setup.py build
sudo python setup.py install

-----Beautiful Soup-----

http://www.crummy.com/software/BeautifulSoup/ Versão 3.0.7a - não é a mais recente (http://www.crummy.com/software/BeautifulSoup/download/3.x/BeautifulSoup-3.0.7a.tar.gz) A versão mais recente deu problemas por isso estamos usando uma mais antiga (dica no próprio site)

Descompactar
sudo python setup.py install

-----NLTK-----

http://www.nltk.org/download (http://nltk.googlecode.com/files/nltk-2.0b6.zip) Tem também via .deb (http://nltk.googlecode.com/files/nltk_2.0b5-1_all.deb). Mas não testei

Descompactar
sudo python setup.py install

Rodando o coletor:

Preparacão:

O coletor espera 2 arquivos: layer0.txt e seeds.txt, coloque-os na mesma pasta do resto das classes. É possível passar o path dos arquivos como parâmetro para o HTTPServer.py na ordem layer0.txt seeds.txt, não precisando ser esses nomes.

Rodando:

python HTTPServer.py #inicia o servidor 1. Ele vai construir o grafo de contexto com base nas urls dadas no arquivo layer0.txt 2. Vai demorar (a coleta de páginas é feita por um único coletor =(, temos que mudar isso) 3. Quando terminar ele vai mostrar uma mensagem, nessa hora inicia-se os coletores. Os coletores vão começar pelas páginas no arquivo seeds.txt
python Fetcher.py #inicia 1 coletor, pode-se iniciar N coletores

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
.gitignore		.gitignore
Bing.py		Bing.py
ContextGraph.py		ContextGraph.py
Evaluation.py		Evaluation.py
Fetcher.py		Fetcher.py
HTTPServer.py		HTTPServer.py
HeapQueue.py		HeapQueue.py
README		README
README.md		README.md
RobotsFetcher.py		RobotsFetcher.py
StripTags.py		StripTags.py
Yahoo.py		Yahoo.py
layer0.txt		layer0.txt
robotexclusionrulesparser.py		robotexclusionrulesparser.py
seeds.txt		seeds.txt
svmBD.py		svmBD.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Instalação

Básico:

LIBS:

Rodando o coletor:

Preparacão:

Rodando:

About

Releases

Packages

Languages

felipehummel/ContextGraphCrawler

Folders and files

Latest commit

History

Repository files navigation

Instalação

Básico:

LIBS:

Rodando o coletor:

Preparacão:

Rodando:

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages