用HTML Workshop 从中文UTF-8的HTML生成可见的HtmlHelp(CHM)

这个主题比较长，前几天做ICU4J的Investigation发现的，实在比较麻烦。
我们有几个包含中文的UTF-8的文档，还有HHC(就是Table of Contents), HHK(Index), HHP(Project)几个文件，用微软官方的Html Workshop(HHC)生成HtmlHelp 。假定所有的都是UTF-8格式的。
事实上，如果我们直接生成的话，文章里面的中文是可以看得见的。但是有一个问题：文档的内容不能被搜索。因为我们搜索输入的文档是ASCII的，而内容却是UTF-8的，所有搜不到。另外，索引和TOC也是乱码。
所以我们需要转换编码，从UTF-8->ASCII。如果你只转换HHK,HHC的话，代价比较小，而且可见的部分都不会出现乱码，但是你的搜索功能就不能用了~~另外，HHP里有一项Language，换成中文（可以手动改成0x804，这是微软官方的代码，就是zh-cn，也可以在HTML workshop里的图形界面里选，更方便）。要是转换了所有的文档的话，搜索也可以用了，记得要把HTML里的那些meta header里有关UTF-8的信息都去掉，不然浏览器会把这个文档当成UTF-8的解析，所有的东东也都是乱码了。
1.3的Help里说开始支持Unicode了，完全是在扯蛋。所谓的支持仅仅是可以显示了。事实上显示也不是workshop的功劳，而是IE的解析起了作用。听说HTML workshop下一个版本会全面支持Unicode，不知道会是怎么样。

Leave a Reply Cancel reply