Skip to content

Popis souborů

Rudolf edited this page Feb 6, 2017 · 3 revisions

Každý ARC/WARC by měl mít jeden CDX. CDX obsahuje URL a odkaz na ARC/WARC kde se data pro dané URL nachází.

[root@war 13]# head serials/Serials-2013-07-1M_ArchiveIt/logs/index/Serials-2013-07-1M_ArchiveIt-20130722150002470-00000-5644~crawler00.webarchiv.cz~7778.warc.gz.cdx
dns:botany.cz 20130722150001 dns:botany.cz text/dns - 5Y2B6OFG7QSZRAL32JOOLZMXSMHCAJTY - 640 Serials-2013-07-1M_ArchiveIt-20130722150002470-00000-5644~crawler00.webarchiv.cz~7778.warc.gz
dns:apatykar.info 20130722150001 dns:apatykar.info text/dns - SOS477VWLODFJ5GSUS6OUH323TZVPJTD - 878 Serials-2013-07-1M_ArchiveIt-20130722150002470-00000-5644~crawler00.webarchiv.cz~7778.warc.gz
Clone this wiki locally