DITA和DocBook是数字出版领域的两种标准,通过定义规范化的文档描述规则,来解决文档交付过程中遇到的问题。面向不同类型的交付出版物,DITA和DocBook各有见长,但在实际应用中也有自身的限制因素。结合近期我参与的项目实践,对两个标准的对比分析总结如下。
DITA解决了出版物的结构化描述和内容重组问题,且支持多语言版本制作,适用于对格式有严格限定的技术手册类出版物。但DITA不能实现很完美的样式渲染,且对于内容与格式一体化的复杂出版物,DITA很难进行主题和界定与划分。所以使用DITA进行书籍出版的成本和难度较高。
相比较来说,DocBook适用于通用出版物,文档易于组织和排版。但DocBook内容以Section段落组织,不具备DITA的内容映射机制,无法做到类似Topic这样粒度的内容划分与重组。且对于内容需要频繁修改的文档排版,Docbook略显力不从心。
DITA和DocBook专注于交付技术信息,但DITA侧重于交付主题,而DocBook侧重于交付书籍。DITA提供基于主题级粒度的信息分类,允许作者组织并描述特定信息领域。在生成多种文档格式的信息重用过程中,能够保持内容的高度一致性。在最终交付物的输出格式方面,DITA能够生成PDF、CHM、HTML等大部分的出版交付类型。DocBook常用的交付格式为PDF和HTML,其他输出格式需要借助相关的功能插件。
LaTeX也是出版常用的格式,但我感觉LaTeX与DITA或DocBook侧重解决的技术层面有较大的不同。LaTeX是富格式文本集,尽管对科技论文撰写很合适,LaTeX适用于作者个人创作,但LaTeX文档内容和标签的耦合度非常紧密,并不适合于出版社的排版工作,以及文档内容的抽取重用,还有多种交付文档的组合生成。
在学习应用方面,DITA包含众多语法和标签定义,在应用过程中的学习曲线较陡,在文档生成过程中一般需要使用Ant命令进行编译。而DocBook相对容易理解和使用,一般使用者从了解到上手使用DocBook制作文档仅用一天时间即可。希望了解更多DITA与DocBook的对比分析的朋友,可以进一步阅读DCL数据转换实验室包含更为详尽内容的文章。
DITA 是使用 Toc 的方式对文档整体进行排版组织的。
DocBook 是使用Section 的方式对文档进行组织的。
个人觉得, DITA 对技术文档白皮书之类的可交付格式更加适应一些。这种技术文档修改频率相当高。按照 DocBook 的弱点,这种频率的修改,显然是有点力不从心了。
DITA 的学习难度确实相当高,不但需要有一些 XML 知识,同时对编译命令也需要有一些简单的了解。使用 Ant 的门槛本身就比较高。
DITA 的配置难度也很大,稍微一点配置不正确都会导致编译失败。
DocBook 门槛要低很多,只要了解一些基本的知识就可以使用了。
这是发生在我自己身上的真实情况:
编译成功一个 DITA 的示例程序,我用了 3 天。
如果愿意花钱,可以购买些可视化编辑程序,如果 Adobe 专注于出版的 FW 软件。当然这个软件的使用本身也是困难多多。
编译成功一个 DocBook 的示例程序,我用了30 分钟。
DITA的学习成本的确偏高,仅下载翻阅的语言规范白皮书就有500页之多,DocBook相对来说门槛更为大众化。就目前来看,国内真正使用DITA进行内容组织的出版社很少,大多数还处在了解研究阶段。
另外,XML内容服务厂商MarkLogic公司也值得关注,其MarkLogic服务器可应用于定制出版、内容分析、元数据编目等不同层面。我准备最近关注一下国内开始使用MarkLogic产品的组织和公司,看看是否能够有效为复合出版流程服务。
MarkLogic 已经开始为各大出版机构进行服务了。
电子化的出版方式只能是越来越普遍。
国内在这部分的处理进度上还落后于发达国家,别说采用 XML 的出版方式,就是国内现在能 Word 做一本比较正规的文档都比较少。
Word 这样的集成工具,格式是保密的,不适合进行二次扩展。
也关注XML技术在出版行业的应用,不知道楼主是否有MarkLogic在国内的应用情况。我没发现Marklogic在国内没有分支。
另外,PTC和EMC各有产品用于管理XML内容的存储。
我们的合作单位有组织开发者进行MarkLogic的实验和测试,但Marklogic本身在国内还没有代理和技术支持机构。另外,可能高教和人教这种适合于内容拆分与重组的科教出版机构可能对XML内容管理更熟悉,可以了解一下他们的应用情况。
谢谢你的信息!