ParaAlign:中日双语合并工具
本帖最后由 三角高台 于 2026-2-18 09:51 编辑前言
由于本人实力不佳,该工具可能还存在许多不善之处,或使用条件苛刻,发布出来主要是为了集思广益、交流学习
此工具为AI辅助制作
简单介绍
用于将日文原版和中文译版,合并为双语对照的文本
适用场景
你拥有分别为日文原版和其对应中文译版的超大量文本
希望将它们合并,以便在阅读时逐段对照学习语言
两个版本的段落划分可能不完全一致,需要智能对齐
基本逻辑
以段落的形式划分文本
对提取出的中文段落列表和日文段落列表,计算两两之间的文本相似度。
相似度计算使用Python标准库 difflib.SequenceMatcher,通过比较字符序列的匹配程度,返回一个0~1之间的浮点数。
设定一个相似度阈值(默认0.03),只有相似度高于该值的段落对才被视为潜在的正确匹配;低于阈值的配对在动态规划中会被给予负分,从而鼓励算法寻找更合理的对齐方式。
之后就基于顺序进行相似度匹配,但允许跳过多余的日文段落。也就是对于每个中文段落,在剩余的日文段落中寻找最佳匹配,但要求该日文段落的索引必须大于上一次匹配的索引。如果最佳匹配的相似度低于阈值,则认为该中文无对应日文(插入中文),并继续处理下一个中文,日文指针不变。
效果展示
日文原版和中文译版:
得到结果:
使用方法
每个环节都有提示,很简单且简短
弹出的第一个对话框选择中文译版,第二个对话框选择日文原版
效果说明
使用时可能会有以下情况
1.段落不匹配,出现在日文/中文匹配不到对应段落时;大多数情况下只是程序认为匹配度不高,
此时文字会标红,但可以看到日文和中文只是顺序颠倒,实际对应关系正常
2.中文文本段落分隔过多时,会出现两段中文对应一段日文,不影响后续段落对应及实际效果,蓝框为后期标注
3.含有中文注释时,注释会标红,不影响后续段落对应及实际效果
4.中文文本出现漏译时,日文因为找不到对应段落而标红,不影响后续段落对应
注意事项
脚本中有一个 SIMILARITY_THRESHOLD = 0.03 参数,用于控制多少相似度以上的段落才被视为有效匹配;如果发现错误匹配太多,可以提高数字;红字太多则减少数字
依赖说明
Python 3.6+
需安装:pip install ebooklib beautifulsoup4
其他
目前只支持EPUB电子书格式,但要改其他格式也很简单(可直接丢给AI),毕竟核心是文本比较
轻小说之外,之后如字幕文件也可研究一下
后续还可引入外部词典,进一步提升匹配准确度
工具下载
演示及结果文件
页:
[1]