ParaAlign：中日双语合并工具

三角高台 发表于 2026-2-17 20:07:17

本帖最后由三角高台于 2026-2-18 09:51 编辑

前言
由于本人实力不佳，该工具可能还存在许多不善之处，或使用条件苛刻，发布出来主要是为了集思广益、交流学习
此工具为AI辅助制作

简单介绍
用于将日文原版和中文译版，合并为双语对照的文本

适用场景
你拥有分别为日文原版和其对应中文译版的超大量文本
希望将它们合并，以便在阅读时逐段对照学习语言
两个版本的段落划分可能不完全一致，需要智能对齐

基本逻辑
以段落的形式划分文本
对提取出的中文段落列表和日文段落列表，计算两两之间的文本相似度。

相似度计算使用Python标准库 difflib.SequenceMatcher，通过比较字符序列的匹配程度，返回一个0~1之间的浮点数。
设定一个相似度阈值（默认0.03），只有相似度高于该值的段落对才被视为潜在的正确匹配；低于阈值的配对在动态规划中会被给予负分，从而鼓励算法寻找更合理的对齐方式。

之后就基于顺序进行相似度匹配，但允许跳过多余的日文段落。也就是对于每个中文段落，在剩余的日文段落中寻找最佳匹配，但要求该日文段落的索引必须大于上一次匹配的索引。如果最佳匹配的相似度低于阈值，则认为该中文无对应日文（插入中文），并继续处理下一个中文，日文指针不变。

效果展示
日文原版和中文译版：

得到结果：

使用方法
每个环节都有提示，很简单且简短
弹出的第一个对话框选择中文译版，第二个对话框选择日文原版

效果说明
使用时可能会有以下情况
1.段落不匹配，出现在日文/中文匹配不到对应段落时；大多数情况下只是程序认为匹配度不高，
此时文字会标红，但可以看到日文和中文只是顺序颠倒，实际对应关系正常

2.中文文本段落分隔过多时，会出现两段中文对应一段日文，不影响后续段落对应及实际效果，蓝框为后期标注

3.含有中文注释时，注释会标红，不影响后续段落对应及实际效果

4.中文文本出现漏译时，日文因为找不到对应段落而标红，不影响后续段落对应

注意事项
脚本中有一个 SIMILARITY_THRESHOLD = 0.03 参数，用于控制多少相似度以上的段落才被视为有效匹配；如果发现错误匹配太多，可以提高数字；红字太多则减少数字

依赖说明
Python 3.6+
需安装：pip install ebooklib beautifulsoup4

其他
目前只支持EPUB电子书格式，但要改其他格式也很简单（可直接丢给AI），毕竟核心是文本比较
轻小说之外，之后如字幕文件也可研究一下
后续还可引入外部词典，进一步提升匹配准确度

工具下载

演示及结果文件

页: [1]

苏伯泰特论坛（2026.04.01）'s Archiver

ParaAlign：中日双语合并工具