生成mdx词库的工具,mdx转换软件MdxBuilder,含stardict辞典转换工具,在使用MdxBuilder制作词库时,将Data路径指向上面存放数据的目录,该目录中的所有文件都会被压缩到后缀名为.mdd文件中,使用时该.mdd文件应当与.mdx文件在同一目录下。
MdxBuilder使用方法教程
转换程序支持格式:
1)扩展的SugarDict格式:
每个项目(词条)一行,缺省最大为32K.格式为:关键字
解释(就是关键字和解释之间用空格分开)
关键字:可以是大小写的组合,每个单词的最大长度是255个字符。
关键字和解释中的'_','^'在转换后会被替换成空格和回车
例子:
break_through/'bri:k_MQru:/^v.突破^n.突破
good^adj.好^adj.贼好^adj.好得不得了
2)KDict解码后的tab格式
每个条目一行,关键字和解释之间用"tab"分隔.其中的" "会被转换成换行
例如:
goodadj.好 adj.贼好 adj.好得不得了
3)MDict的html格式
每个项目两行
第一行是关键字
第二行开始是正文,这里的正文应该包括关键字。可以使用html的标记(不要包含<html>
<body></body></html>,这个程序会自动加上,另注意在转换时要指明源数据为html).
如果需要显示音标的话,可以利用html指定字体就可以显示了。(参见下面的例子)
正文结束后必须用一行</>表示结束
例子:
Whole
<fontsize=5>whole</font>
<br>
<fontface="KingsoftPhoneticPlain,Tahoma">(hol,hJl;houl)</font>
</>
在html中连接到其它关键字的方法:
<ahref="entry://key#section">key</a>
其中key是关键字,section是对应关键字页面中的section名称.
4)MDict的紧凑型html格式(CompatHtml)
这个格式由两个文件组成,正文文件格式基本和2)一样,但在正文里可以使用记号。另外
一个是记号文件。
记号文件的格式:
由多个记号定义组成,每个记号定义有3行
第一行:记号的名称(只能用数字,必须大于0,最大不超过255)
第二行:开始字符串(可以为空)
第三行:结束字符串(可以为空)
使用时在正文里使用`记号`(键盘左上角的那个符号)就会将后续的文字直到下一个记号前的文
字用记号定义的开始字符串和结束字符串括起来。正文里如果需要显示`则用"`"表示。内
码应该和正文的一样(例如正文如果是用Unicode的话,记号文件也应该用Unicode)
例如:
记号文件:
1
<fontsize=5>
</font>
2
<br>
3
<fontface="KingsoftPhoneticPlain,Tahoma">
</font>
正文文件:
whole
`1`whole`s`2`<p>`3`(hol,hJl;houl)
</>
最后在显示的时候就会被替换成
<fontsize=5>whole&#%96;s</font><br><p><fontface="KingsoftPhoneticPlain,Tahoma">(hol,hJl;houl)</font>
备注:
如果你的数据里含有国际音标,建议使用Unicode格式
(请参考http://www.phon.ucl.ac.uk/home/wells/ipa-unicode.htm)
将音标用对应的Unicode进行表示。这样只要用户装有支持IPA的字体文件就能够显示音标。
(Windows里的LucidaConsole就包含有IPA对应的字体)
MdxBuilder关于选项的说明:
a)Keycasesensitive
关键字(标题)是否大小写敏感。多数情况下词典是大小写不敏感的,所以不要选。
b)Allowexporttotext
是否允许导出为文本。如果选了,就可以用MdxExport这个工具吧词典导出为文本格式。
c)Righttolefttext
文字的阅读顺序。中文是从左到右,阿拉伯文之类的是从右到左。
d)Stripkey
是否去掉关键字中的特殊符号。例如21世纪词典里的关键字是显示成"lis.ten"这个样子的,如果不去掉".",则用户需要输入"lis.ten"而不是”listen"来查询单词。
e)Title
这个是用来标示词典的名字,计划将来在需要显示词典名称的地方进行显示用的。但目前暂时没有用处。
f)Description
词典的详细介绍。第一次打开词典时看到的欢迎页面。
g)BuildDataarchive
仅进行数据文件制作。主要是用来制作图库,声音库时用。勾选后就不用填写Source路径。
h)Indexblocksize,Recordblocksize.这两个是调整性能用的,用缺省值就好了。
i)EncryptionKey
词典加密的密匙,用于词典授权用的。可以参见MdxBuilder.zip里的LibKeygen.txt的说明
注意事项:
1、图片链接最好使用<imgsrc=file:///1/1.jpg>这样的格式
2、转换出错一般是标题位置有多余的空行
如:
词条1标题
词条1内容
</>
词条2内容
</>
3、mdxbuilder处理转换后的mdx文档大小应在4G以下