-
Notifications
You must be signed in to change notification settings - Fork 2
Home
JanMeritus edited this page Jul 31, 2017
·
5 revisions
1. zistenie sklizní, ktoré treba odpáliť.
Vleze sa do dovnútra k seeds, rozložené po rokoch. Vytvoriť vo formáte a názve seeds-2017-02-a pripona sklizne, V - je výberova, V1M .txt Spolu so seederom sa vygenerujú príslušné semienka a zavedú sa do príslušných súborov.
Deje sa cez zložku jobs v koreni všetkých heritrixov a via jobs do crawler config.
Semienka si treba vysortiť na unique a vizuálne ešte raz skontrolovať. Ak by bolo niečo divné, poslať hneď podnet kurátorom, že čo ako to majú u seba.
- 1. Choď do "semínkovače"
- 2. ctrl+a -označ všetko
screen -r
cd /opt/heritrix/jobs/Crawler-config/Monthly-crawls/2017
Vleze sa do dovnútra k seeds, rozložené po rokoch. Vytvoriť vo formáte a názve seeds-2017-02-a pripona sklizne, V - je výberova, V1M .txt Spolu so seederom sa vygenerujú príslušné semienka a zavedú sa do príslušných súborov.
ŠPECIALITKA: Plus semienka pre cuni a no contracts>> http://intranet.webarchiv.cz/seeds/no_contracts.php, su s príponou NoContracts (je to V-NC) Cuni su vo vonkajšom adresári a vedľa - crawler beans. Pevne zadefinovaný odkaz na nich v beans.cxml
Alebo seedy hod hore od seba:
scp seeds-2017-07* [email protected]:/opt/heritrix/jobs/Crawler-config/Monthly-crawls/2017
Deje sa cez zložku jobs v koreni všetkých heritrixov a via jobs do crawler config.
Semienka si treba vysortiť na unique a vizuálne ešte raz skontrolovať. Ak by bolo niečo divné, poslať hneď podnet kurátorom, že čo ako to majú u seba.
$ sort 2017/seeds-2017-03-* seeds-CUNI.txt seeds-oneshot.cz > seeds.txt
$ -u -nique sa dela vo vimu : sort u a idealne skontrolovat data, veci co zacinaju na http, a rozne slashe na zaciatku upravit, a poznamenta kuratorkam
ak je problem s windowsovskymi znakmi treba nato substitute regexom vo vim-e:
:%s//\r/g
pricom dolezite je robit speci znak cez ctrl-m/v
$ git status
Values changing with each crawl:
-metadata.jobName=Serials 2017-02-1M_2M_CUNI_ArchiveIt
-metadata.description=Pravidelná sklizeň semínek s měsíční frekvencí, pravidelná sklizeň semínek s dvojměsíční frekvencí, sklizeň webů Karlovy univerzity, archivace semínek s nízkou frekvencí přidaných za minulý měsíc.
-warcWriter.prefix=Serials-2017-02-1M_2M_CUNI_ArchiveIt
-warcWriter.storePaths=/mnt/archives/archive14/2017/serials/Serials-2017-02-1M_2M_CUNI_ArchiveIt
+metadata.jobName=Serials[medzera]2017-03-1M_6M_NoContract_CUNI_ArchiveIt
+metadata.description=Pravidelná sklizeň semínek s měsíční frekvencí, pravidelná sklizeň semínek s půlroční frekvencí, sklizeň semínek bez smlouvy, sklizeň webů Karlovy univerzity, archivace semínek s nízkou frek vencí přidaných za minulý měsíc.
+warcWriter.prefix=Serials-2017-03-1M_6M_NoContract_CUNI_ArchiveIt
+warcWriter.storePaths=/mnt/archives/archive14/2017/serials/Serials-2017-03-1M_6M_NoContract_CUNI_ArchiveIt
pridanie súborov do gitu:
$ git add crawler-beans.cxml seeds.txt 2017/seeds-2017-02-*
skontrolovať, čo je vybrané:
$ git status
a pak to tam odpálkovať s príslušným označením DOBEHLEJ sklizne - tá súčasná [3] sa zálohuje až dobehne
$ git commit -m 'Serials 2017[medzera]02[medzera]1M_6M_NoContract_CUNI_ArchiveIt'
Skontrolovať o kolko komitov sme dozadu, overiť, či je všetko správne, lebo hrozí nebezpečie inkonzistencie
$ git push
- Pustiť si lokál GUI inštanciu Heritrixu na https://10.10.0.200:7778/ .
- Ocheckovat sklizeň a zrušiť ju ak ešte si frčí: PAUSE, TEARDOWN.
Tip: ak si to frčí beztak ďalej, nezostáva, než zhodiť Heritrix komplet. Skontrolovať ale najprv, či idealne warcy su uzavrete - žiadan status open, invalid apod.
Následne znova nahodenie: zájsť do koreňa všetkých heritrixov a pustiť si skripta: ./start3.sh
- Kým dobehne, ocheckovat git, či semienka boli z dobehnutej sklizne commitnute, potom git staus - čo sa v lokálnom zmenili. odpáliť cestou: cd 2017, aby bola priama cesta k seeds a pak pridať vybrané súbory.