-
Notifications
You must be signed in to change notification settings - Fork 0
Popis souborů
Rudolf edited this page Feb 6, 2017
·
3 revisions
Každý ARC/WARC by měl mít jeden CDX. CDX obsahuje URL a odkaz na ARC/WARC kde se data pro dané URL nachází.
[root@war 13]# head serials/Serials-2013-07-1M_ArchiveIt/logs/index/Serials-2013-07-1M_ArchiveIt-20130722150002470-00000-5644~crawler00.webarchiv.cz~7778.warc.gz.cdx
dns:botany.cz 20130722150001 dns:botany.cz text/dns - 5Y2B6OFG7QSZRAL32JOOLZMXSMHCAJTY - 640 Serials-2013-07-1M_ArchiveIt-20130722150002470-00000-5644~crawler00.webarchiv.cz~7778.warc.gz
dns:apatykar.info 20130722150001 dns:apatykar.info text/dns - SOS477VWLODFJ5GSUS6OUH323TZVPJTD - 878 Serials-2013-07-1M_ArchiveIt-20130722150002470-00000-5644~crawler00.webarchiv.cz~7778.warc.gz
Postup extrakce provozních metadat
Grainery frontend