diff --git a/.nojekyll b/.nojekyll new file mode 100644 index 0000000..e69de29 diff --git a/404.html b/404.html new file mode 100644 index 0000000..93753c7 --- /dev/null +++ b/404.html @@ -0,0 +1,528 @@ + + + +
+ + + + + + + + + + + + + + +Automatizační nástroj je uchován na Githubu v repozitáři pywb, vlastněným organizací WebarchivCZ.
+Služba pywb je provozovaná z docker image vytvořeném tvůrcem pywb Ilya Kreymer. Všechny dostupné tagy obrazu jsou zveřejněné na Dockerhub. V okamžiku psaního tohoto dokumentu byla nejnovější verze pywb 2.7.4.
+Material for MkDocs je framework nad MkDocs který z Markdown dokumentace vytváří statickou stránku. Dokumentace je uchována ve složce
+./docs
.
Příkaz ./mkdocs.sh
spustí lokální dokumentaci na adrese http://0.0.0.0:8000/
Github Pages umožňuje hostování statickým webů z githubu. Včetně právě čtené Dokumentace.
+mkdocs.yml # The configuration file.
+docs/
+ index.md # The documentation homepage.
+ ... # Other markdown pages, images and other files.
+
+Traefik směřuje požadavky vůči serveru na konkrétní služby jako je např. pywb.
+Jenkins file instruuje https://jenkins.webarchiv.cz běžící na wa-dev-docker00.
+/home/ansible/pywb/run-test.sh
/home/ansible/pywb/run-prod.sh
pywb: http://10.3.0.21:443 +traefik dashboard: http://10.3.0.21
+pywb: https://pywb.webarchiv.cz - veřejný +Traefik dashboard: https://pywb.webarchiv.cz/traefik/ - z knihovny nebo VPN, může být i veřejný
+ + + + + + + + + + + + + +Sklizně jsou rozdělené do let a jsou v režimu read-only. Vyjímkou je vždy aktuální rok.
++++
+- +
05
- Read-only sklizně z roku 2005, navíc obsahuje všechny sklizně před rokem 2005.- +
06
- Read-only sklizně z roku 2006- +
23
- Read-only sklizně z roku 2023- +
24
- Read/Write sklizně z roku 2024 (aktuální rok).
S postupem času přibývali nové typy sklizní a strategie sklízení. Změnil se archviní formát z ARC do WARC s přechodem na Heritrix 3. Nyní je na zvážení používání archivního formátu WACZ.
+Typy sklizní jsou popsány na stránkách českého webového archivu. Obecně se dá říci, že výběrové sklizně jsou sklizně, u kterých je vyjednáno zpřístupnění archivovaného obsahu veřejnosti a webový archiv je sklízí periodicky. Tématické a celoplošné sklizně obsahují převážně data, k nímž v čase archivace nebylo vyjednáno zpřístupnění veřejnosti, ale mohou se okrajově překývat se zdroji, ke kterým bylo vyjednáno zpřístupnění veřejnosti. V referenčním centru Národní knihovny je dostupný i archivní obsah, který nebyl vyjednán k zveřejnění a který není omezen z jiných důvodů. Takto popsaný režim přístup vychází z české legislativy.
+V současné době se archiv obvykle skládá z následujících strategií sklizní. Výběrové sklizně jsou v drtivém případě realizované v rámci sklizní ve složce serials
, Celoplošné sklizně v rámci složky totals
. Ostatní sklizně plní primárně Tématické sklině. Koncový uživatel webového archivu neví, v rámci jaké sklízecí strategie a v rámci kterého typu sklizně byla data získána. To je technický údaj, který není dostupný pomocí OpenWayback. V rámci Pywb je určitá šance, tuto informaci zpřístupnit.
serials
- Výběrové sklizně.tests
- testovací, technické sklizně na zvážení zda je možné webovou stránku archivovat v dostačující kvalitě.topics
- Tématické sklizněcontinuous
- průběžné sklizně NewsDigest - Tématické sklizněcontinuous-cov19
- průběžné sklizně k tématu Covid 2019 - Tématické sklizněcontinuous-ukrainewar
- průběžné sklizně k tématu válka na Ukrajině - Tématické skliznětotals
- Celoplošné sklizněmanuals
- ruční sklizně - Tématické sklizně & z malé části výběrové sklizně/index/
- SSD disk připojený pro rychlou práci s indexem/mnt/archive/
- Obsahuje sklizené archivy pro každý rok. Každý rok je připojený přes NFSv4./webarchive/config.yaml
- konfigurační soubor/webarchive/collections/
- adresář se všemi namapovaný kolekcemi z /mnt/archive
Oficiální Pywb dokumentace: Dynamic Collections and Automatic Indexing
+ + + + + + + + + + + + + + +Tématická sklizeň je sada sklizní, která vytváří jednu kolekci.
+- /mnt/archive
+ - /topics
+ # Tématická sklizeň 2024-CUNI
+ - /mnt/archive/24/topics/Topics-2024-01-T-CUNI-MagistratHlMPrahy-NarArchiv-MilanKundera-UtokNaFilozofickeFakulteUK
+ - /mnt/archive/24/topics/Topics-2024-02-T-CUNI-MagistratHlMPrahy-NarArchiv-UtokNaFilozofickeFakulteUK-DezinfoWeby-10WebuProVecnost
+ - /mnt/archive/24/topics/Topics-2024-03-T-CUNI-MagistratHlMPrahy-NarArchiv
+ - /mnt/archive/24/topics/Topics-2024-04-T-CUNI-MagistratHlMPrahy-NarArchiv-BedrichSmetana-VolbyDoEU2024
+ - /mnt/archive/24/topics/Topics-2024-04-T-CUNI-MagistratHlMPrahy-NarArchiv-BedrichSmetana-VolbyDoEU2024-2
+ - /mnt/archive/24/topics/Topics-2024-04-T-CUNI-MagistratHlMPrahy-NarArchiv-BedrichSmetana-VolbyDoEU2024-3
+ - /mnt/archive/24/topics/Topics-2024-05-CUNI-MagistratHlMPrahy-NarArchiv-ErotAPorno-Rajce-SlevyLetaky
+ - /mnt/archive/24/topics/Topics-2024-05-CUNI-MagistratHlMPrahy-NarArchiv-ErotAPorno-Rajce-SlevyLetaky-2
+ - /mnt/archive/24/topics/Topics-2024-06-CUNI-MagistratHlMPrahy-NarArchiv-Webzdarma-RizikoveWeby
+ - /mnt/archive/24/topics/Topics-2024-06-CUNI-MagistratHlMPrahy-NarArchiv-Webzdarma-RizikoveWeby-2
+
+ # Tématická sklizeň 2024-WikiSources
+ - /mnt/archive/24/topics/Topics-2024-01-T-WikiSources
+ - /mnt/archive/24/topics/Topics-2024-01-T-WikiSources-- 2
+
+ # Tématická sklizeň Covid19-ValkaNaUkrajine
+ - /mnt/archive/24/topics/Topics-2024-02-T-Covid19-ValkaNaUkrajine
+ - /mnt/archive/24/topics/Topics-2024-03-T-Covid19-ValkaNaUkrajine
+ - /mnt/archive/24/topics/Topics-2024-04-T-Covid19-ValkaNaUkrajine
+ - /mnt/archive/24/topics/Topics-2024-05-T-Covid19-ValkaNaUkrajine
+ - /mnt/archive/24/topics/Topics-2024-06-T-Covid19-ValkaNaUkrajine
+
+
+/mnt/index/collections:
+ - "2024-06-VolbyDoEU"
+ - "archive/archive-paths.txt"
+ - "index/index.cdxj"
+ - 2024-Covid19-ValkaNaUkrajine
+ - "archive/archive-paths.txt"
+ - "index/index.cdxj"
+ - 2024-CUNI
+ - "archive/archive-paths.txt"
+ - "index/index.cdxj"
+ - 2024-WikiSources
+ - "archive/archive-paths.txt"
+ - "index/index.cdxj"
+
+volumes:
+ - /mnt/index/collections:/webarchive/collections
+ - /mnt/archive:/mnt/archive:ro
+
+/webarchive/collections:
+ - "2024-06-VolbyDoEU"
+ - "archive/archive-paths.txt"
+ - "index/index.cdxj"
+ - 2024-Covid19-ValkaNaUkrajine
+ - "archive/archive-paths.txt"
+ - "index/index.cdxj"
+ - 2024-CUNI
+ - "archive/archive-paths.txt"
+ - "index/index.cdxj"
+ - 2024-WikiSources
+ - "archive/archive-paths.txt"
+ - "index/index.cdxj"
+
+/mnt/archive:
+ - "05"
+ - "06"
+ - "07"
+ - "..."
+ - "24"
+
+
+
+- /mnt/archive
+ - /topics
+ - /CUNI
+ - /mnt/archive/24/topics/Topics-2024-01-T-CUNI-MagistratHlMPrahy-NarArchiv-MilanKundera-UtokNaFilozofickeFakulteUK
+ - /mnt/archive/24/topics/Topics-2024-02-T-CUNI-MagistratHlMPrahy-NarArchiv-UtokNaFilozofickeFakulteUK-DezinfoWeby-10WebuProVecnost
+ - /mnt/archive/24/topics/Topics-2024-03-T-CUNI-MagistratHlMPrahy-NarArchiv
+ - /mnt/archive/24/topics/Topics-2024-04-T-CUNI-MagistratHlMPrahy-NarArchiv-BedrichSmetana-VolbyDoEU2024
+ - /mnt/archive/24/topics/Topics-2024-04-T-CUNI-MagistratHlMPrahy-NarArchiv-BedrichSmetana-VolbyDoEU2024-2
+ - /mnt/archive/24/topics/Topics-2024-04-T-CUNI-MagistratHlMPrahy-NarArchiv-BedrichSmetana-VolbyDoEU2024-3
+ - /mnt/archive/24/topics/Topics-2024-05-CUNI-MagistratHlMPrahy-NarArchiv-ErotAPorno-Rajce-SlevyLetaky
+ - /mnt/archive/24/topics/Topics-2024-05-CUNI-MagistratHlMPrahy-NarArchiv-ErotAPorno-Rajce-SlevyLetaky-2
+ - /mnt/archive/24/topics/Topics-2024-06-CUNI-MagistratHlMPrahy-NarArchiv-Webzdarma-RizikoveWeby
+ - /mnt/archive/24/topics/Topics-2024-06-CUNI-MagistratHlMPrahy-NarArchiv-Webzdarma-RizikoveWeby-2
+ - /WikiSources
+ - /mnt/archive/24/topics/Topics-2024-01-T-WikiSources
+ - /mnt/archive/24/topics/Topics-2024-01-T-WikiSources-- 2
+
+ - /Covid19-ValkaNaUkrajine
+ - /mnt/archive/24/topics/Topics-2024-02-T-Covid19-ValkaNaUkrajine
+ - /mnt/archive/24/topics/Topics-2024-03-T-Covid19-ValkaNaUkrajine
+ - /mnt/archive/24/topics/Topics-2024-04-T-Covid19-ValkaNaUkrajine
+ - /mnt/archive/24/topics/Topics-2024-05-T-Covid19-ValkaNaUkrajine
+ - /mnt/archive/24/topics/Topics-2024-06-T-Covid19-ValkaNaUkrajine
+
+
+V současném nastavení je potřeba mapovat tématické sklizně takto:
+volume_to_collection_mapping:
+ # Collections of Topics
+ ## 2024-WikiSources
+ ### Index
+ - /mnt/index/topics/2024-WikiSources/:/webarchive/collections/2024-WikiSources/indexes/
+ ### Archives
+ - /mnt/archive/24/topics/Topics-2024-01-T-WikiSources:/webarchive/collections/2024-WikiSources/archive/Topics-2024-01-T-WikiSources
+ - /mnt/archive/24/topics/Topics-2024-01-T-WikiSources-2:/webarchive/collections/2024-WikiSources/archive/Topics-2024-01-T-WikiSources-2
+ - /mnt/archive/23/topics/Topics-2023-12-T-WikiSources:/webarchive/collections/2023-WikiSources/archive/Topics-2023-12-T-WikiSources // tuhle sklizeň jsme si vymyslel pro ilustraci kolekce napříč roky
+
+Po změně bude možné mapovat tématické sklizně takto:
+volume_to_collection_mapping:
+ # Collections of Topics
+ ## WikiSources
+ ### Index
+ - /mnt/index/topics/2024-WikiSources/:/webarchive/collections/2024-WikiSources/indexes/
+ ### Archives
+ - /mnt/archive/24/topics/WikiSources:/webarchive/collections/WikiSources/archive/
+ - /mnt/archive/23/topics/WikiSources:/webarchive/collections/WikiSources/archive/ // tuhle sklizeň jsme si vymyslel pro ilustraci kolekce napříč roky
+
+
+Výhody:
+/mnt/archive/23/topics/Topics-2023-07-T-APVVM
/mnt/prase
pywb:
+ image: webrecorder/pywb:2.7.4
+ volumes:
+ # INDEX
+ - "/mnt/prase:/webarchive/collections/topics/indexes/"
+ # ARCHIV
+ - /mnt/archive/23/topics/Topics-2023-07-T-APVVM:/webarchive/collections/topics/archive/23/Topics-2023-07-T-APVVM
+ - /mnt/archive/23/topics/Topics-2023-08-T-MilanKundera:/webarchive/collections/topics/archive/23/Topics-2023-08-T-MilanKundera
+ # KONFIGURACE
+ - "{{ pywb_dir }}/config.yaml:/webarchive/config.yaml"
+
+++Otázka jestli do téhle struktury zapadají i historická data. Je potřeba projít strukturu archivu od roku 2005.
+
Collections
+
+- Topic 1 // Tématická sklizeň
+ - Archive
+ - Sklizeň 1
+ - Sklizeň 2
+ - Sklizeň 3
+ - Indexes
+ - Sklizeň 1
+ - Sklizeň 2
+ - Sklizeň 3
+
+- Topic 2 // Tématická sklizeň
+
+Index fyzický struktura
+- /mnt/index
+ - /topics
+ - /Topics-2023-07-T-APVVM
+ - /Topics-2023-08-T-MilanKundera
+ - /totals
+ - /2023
+ - /2024
+
+
+Mapování v Docker-compose
+"fyzická casta na serveru":"cesta z pohledu pywb"
+ - /mnt/archive/22/serials:/webarchive/collections/serials/archive/
+ - /mnt/archive/22/totals:/webarchive/collections/totals/archive/
+ - /mnt/archive/23/serials:/webarchive/collections/serials/archive/
+ - /mnt/archive/23/totals:/webarchive/collections/totals/archive/
+
+Ruční sklizeň - Facebook podmínky služby
+docker-compose konfigurace
+ pywb:
+ image: webrecorder/pywb:2.7.4
+ volumes:
+
+ - "{{ pywb_dir }}/config.yaml:/webarchive/config.yaml"
+ - "/mnt/archive/23/manuals/crawls/collections/:/webarchive/collections/"
+
+
+API Call curl -s '10.3.0.21:443/all/cdx?url=www.facebook.com/legal/terms&output=json'
vrací
{
+ "urlkey": "com,facebook)/legal/terms",
+ "timestamp": "20221209191852",
+ "url": "https://www.facebook.com/legal/terms",
+ "mime": "text/html",
+ "status": "200",
+ "digest": "GRUWGB5ZAMAPKEAC2DOOD2AEY7M6P2EZ",
+ "length": "290673",
+ "offset": "496164353",
+ "filename": "rec-20221209182111914788-65f062a0d7a3.warc.gz",
+ "source": "1222_prezident23/indexes/index.cdxj",
+ "source-coll": "1222_prezident23",
+ "access": "allow"
+}
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+