根据《国务院办公厅关于印发政府网站发展指引的通知》国办发〔2017〕47号及《政府网站网页归档指南》DA/T80-2019,网站网页归档势在必行!今天笔者带你走进北京冠群信息技术股份有限公司(简称冠群信息),了解更加专业的网站网页归档技术。
何为网页归档 webpagearchiving
网页归档是对政府网站历史网页进行整理、存储和利用的过程。政府网站遇整合迁移、改版等情况,要对有价值的原网页进行归档处理。归档后的页面要能正常访问,并在显著位置清晰注明“已归档”和归档时间。
网站网页归档的意义
在互联网时代,各级政务网站作为政府部门的官方网络媒体,其网页是政府机构业务活动的记录和凭证,是对政务公开等业务信息进行回顾、分析和证明的重要资源,具有凭证价值、情报价值和档案价值。长期妥善保存网站网页,对于记录政府机构的职能活动及保存社会记忆有着重要的意义。
发达国家网站网页归档工作
鉴于大部分网站网页存活期不到一年,联合国教科文组织已经将网站网页列为重要的数字遗产来源。国际上发达国家早已经进行网站网页归档工作。
1996年,美国成立了世界上第一个因特网档案馆,其任务就是将公开的网页和数字形式的文化产品尽可能完整地归档,到2005年6月,已保存了400亿页网页。
1996年,澳大利亚档案馆的网上档案馆正式运行,目标是长期保存有关澳大利亚的网上出版物和澳大利亚的网站,并为公众提供检索入口。
2004年,英国正式启动第一个公众网络信息保存计划UKWAC,对英国网站信息进行选择性保存。
中国政府网站网页归档工作
中国政府已认识到网站网页数字遗产的保存工作的重要性,正在紧锣密鼓推行该项工作。
2016年11月3日,中共中央办公厅印发《国家电子文件“十三五”规划》,明确提出推进政府网页电子文件归档。
2017年5月,国务院办公厅印发《政府网站发展指引》,指出网页归档是对政府网站历史网页进行整理、存储和利用的过程。
2019年12月27日,国家档案局正式发布DA/T 80—2019《政府网站网页归档指南》,标志档案行业正式启动政府网站网页归档工作。
网站网页归档,中国核心技术企业在行动
冠群信息网站网页归档管理系统,面向政府网站,进行网页采集、生成、归档、管理、利用,实现标准格式的网页电子文件集中存储、统一管理和应用,从而达到对网页电子文件长久保存利用的目的。满足党政部门对本单位网站归档的需求,可对网站网页进行采集,并形成符合国家标准和档案行业标准的电子文件,同时可保存原有网页中的文字、图形、图像和链接逻辑等重要内容,归档后的内容可供用户查询利用。
——冠群信息网站网页归档系统分为三个子系统:
1.网页采集系统。使用优化的网络爬虫技术,将指定网站的网页采集下来,直接存储为WARC文件。
2.网页电子文件管理系统。将采集到的网页经版式转换服务转换成OFD版式文件,然后存储到网页电子文件管理系统中,并依据电子文件管理系统通用功能建设要求,对网页电子文件提供自动分类、设定保管周期、鉴定处置、查询利用等管理功能。
3.网页电子文件展示利用系统。用于重现不同历史时间点上采集下来的网站网页信息,利用时间轴方式提供网站展示、专题展示、关键词检索和下载等功能。
【关于冠群信息】
冠群信息是参与制订网站网页归档管理系统的核心技术—网页转换格式国家标准GB/T 33190《电子文件存储与交换格式版式文档》和DA/T 80—2019《政府网站网页归档指南》)的厂家之一;是该系统另一核心技术WARC网页存储格式(国家标准GB/T33994《信息和文献-WARC文件格式》)在中国的最佳实践者,拥有自然资源部和国家信息中心等部委级成功案例;是中国网站网页归档管理系统最有经验的实施者,可以为政府快速构建基于SaaS模式或独立模式的网站网页归档管理系统。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。