近日,Amazon与Mark Logic公司开展合作,在AWS云服务中加入XML格式数据的搜索与处理功能,以针对特殊用户的需求增强云服务的适用性。Mark Logic为Amazon的用户提供运行在AMI服务器映像上的XML服务器资源,以及虚拟化的XML数据存储服务。
对大多数国内数据库使用者来说,Mark Logic的知名度与主流数据库厂商相去较远,用户并不算多。但在业界,Mark Logic却是非结构化数据管理技术的领导者,其主要用户覆盖新闻出版部门、政府机构、财经信息服务等不同的专业领域。
Mark Logic公司的拳头产品MarkLogic Server是以文档为中心的领域专用数据库,专门针对半结构化和非结构化数据进行设计和优化,能够实现TB级非结构化数据资源的全文检索。MarkLogic Server支持针对Web内容、XML文档和JSON内容的RESTFul和HTTP请求。在数据模型组织方面,MarkLogic Server采用XML树状结构组织,数据查询和检索使用的DML和DDL语言为XQuery,此外,Mark Logic 还是XQuery标准发展和应用的推动者。
较之同类数据库,MarkLogic在技术上有着独特的优势。MarkLogic始终保持着远超同类数据库(如IBM DB2 Viper 2)的XML文档处理速度,并且能够保证数据在事务处理过程中的原子性、一致性、独立性和持久性要求。此外,MarkLogic对XML文档提供多种形式的索引,索引包含文档实体、父子关系以及要素取值等内容。由于MarkLogic可以在不预先建立文档Schema的基础上自动索引XML包含的所有要素,所以MarkLogic对文档的管理几乎不需借助DDL数据库模式定义。
MarkLogic已广泛应用在信息服务领域,用户包含世界领先的科技及医学期刊数据库Elsevier;为法律和学术领域提供专业信息服务的LexisNexis数据集团;提供金融财经领域高质量信息及工作流程解决方案的威科集团(Wolters Kluwer)及摩根大通银行;帮助全球性出版、财经、传媒服务集团McGraw-Hill对外提供信息服务,并辅助其旗下的标准普尔为全球资本市场提供信用评级、指数服务、风险评估和数据服务。此外,MarkLogic还被美国陆军、美国国防部等不少政府机构采用来建立信息管理业务。
如今,随着大型跨国企业数据量的逐步增加,越来越多传统的数据库应用已不能满足企业的需求。在存储和服务器成本的不断降低的趋势下,不少企业开始寻找在云端存储以XML形式存在的媒体文件、文档、网页等信息的有效途径。
MarkLogic已在帮助拥有海量非结构化数据的大型企业摆脱传统数据库组织数据并建立索引的束缚,快速搭建数据搜索和查询应用。这样的趋势正快步走向云端,为那些希望使用云服务来增强非结构化信息索引能力的中小型企业带来新的机遇。
本文曾发表于《程序员》杂志-2011年06期“工具点评”栏目。