翻译技术课程的语料库模块,除了讲解语料库语言学和语料库翻译学的相关知识和工具外,选取合适的材料进行语料库加工和研究实践也是非常重要的。
目前,有不少教师从以下几个方面组织学生开展语料库实践,可供参考借鉴。
1.时政材料的双语语料整理
政府工作报告、国家领导人的重要发言、国际国内新闻大事等材料的中英双语素材,可以用来进行语料对齐和加工。这些材料的双语版,通常是段落对齐的。在语料加工实践中,可以进一步细分为句子级别的语料对齐。
完成双语语料对齐之后,还可以在此基础上进行术语抽取,形成这个领域的核心术语表。
双语语料可以转换为翻译记忆库,术语表可以转换为CAT工具的术语库,以后再翻译该领域材料时,就可以派上用场。
2.学术论文摘要的双语语料整理
学术论文通常都有中英双语摘要,且是公开的。可以通过网络工具和技术手段收集某个专业领域的期刊论文双语摘要,作为原始语料。
然后,对中英论文摘要进行语料对齐。摘要的篇幅通常较短,每篇论文摘要的对齐也不复杂,可以充分利用对齐工具并结合人工审核的方式提高效率。
中英论文摘要还可以用于提取双语术语。考虑学术论文的性质,所提取的术语通常具有较好的专业性和新颖性。
从成果应用的角度看,学术论文摘要的语料库可以用于关键词检索、例句检索、主题量化分析等。
3.专业领域文献的双语语料整理
各行各业都有自己的行业组织、标准、规范及相关专业文献。可以通过公开渠道借助网络工具收集整理本专业的双语行业资料。
这些资料收集来的初始状态通常是篇章。可以在篇章对应的基础上,进行句子级别的双语对齐。还可以在双语句子对齐的基础上提取双语术语。
这类实践的成果,可以用于构建专业领域文献库、语料库、术语库,开展多种角度的实践应用和研究。
4.基于研究用途的语料深度标注
无论是前面哪种方面的材料,均可以在单语语料或双语对齐语料基础上进行基础标注和深度标注。像词性标注这类的基础标注,目前已有较好的工具或脚本可进行批量处理。更复杂的深度标注,或者基于研究目的而开展的个性化标注,通常需要借助标注工具或技术平台,自定义标注维度和指标,开展半自动化或纯人工标注。
标注好的语料,可用于双语对比研究、话语分析、文体分析、专业知识提取、知识图谱、机器翻译训练、AI训练等各种目的。
交
流
关于语料库的实践,您还有哪些建议和心得?欢迎在下方留言分享。
如果您单位正在规划语料库方面的建设和科研工作,欢迎联系洽谈合作。试译宝在语料库建设方面的技术积累和高校合作经验,
【翻译备课系列推文回顾】
翻译备课 | 借助试译宝构建翻译课程思政教学案例库
翻译备课 | 翻译技术课程内容与授课形式设计
翻译备课 | 如何化解CAT教学中的迷宫之困
翻译备课 | 翻译专业学生应该“熟练操作办公软件”到什么程度?
翻译备课 | 从项目视角厘清Trados教学中的几个重点和难点
翻译备课 | 在翻译技术课程引入GPT相关知识
翻译备课 | 译后编辑MTPE课程的内容设计与相关工具
翻译备课 | memoQ学习中的几个重点和隐蔽点
翻译备课 | 翻译术语管理的知识、工具和资源
翻译备课 | 翻译语料库课程的知识、工具和资源
点击“阅读原文”,了解试译宝在语料库方面的技术应用经验