规则 1
我们都知道PDF不同于Word是不便于用来做翻译的。规则1是务必向客户索取源文件,使用源文件进行翻译。如果您的客户只有PDF文件,那么您自己需要进行处理下。
您的翻译工具(CAT)能处理PDF文件吗?
首先可以尝试直接使用CAT打开PDF文件。不同的CAT使用的转换方式不一样。SDL Studio、Déjà Vu X3、Alchemy Publisher、MateCat和Wordfast Pro 都集成了第三方PDF转DOC工具。
虽然这些CAT可以直接处理PDF文件,但是输出文件可能会存在很多问题,例如,完整的句子从中断开、句末的词汇会加上硬连字号等等。还有一个关键性问题,转换后由于存在大量格式信息,导致在CAT中产生大量标记,而处理标记是很耗费时间的。
仅当PDF是通过XSL-FO生成的时候,在CAT中文本抽取过程才会比较顺利。
DIY:将PDF转为DOCX
如果您的CAT不能打开PDF,您可以自己将PDF转为DOCX。
您可以使用Google Docs转换PDF文件,Google Docs转换效果不错。您还可以使用CloudConvert。CloudConvert基本上可以用于所有文件的转换。
如果PDF包含图片,可以尝试使用ABBYY Fine Reader和Nuance OmniPage。ABBYY Fine Reader和Nuance OmniPage 的价格没有过去那么昂贵,它们支持的语言非常多。
您自己转换PDF可能需要花很多时间。因此确保在向客户报价时,将此部分的费用包含进去。如果您不将这部分费用包含进去,也许做了也是吃力不讨好。至少,您可以将这部分的成本摆出来。
前面谈到,将PDF转为Word后,使用CAT翻译会多出很多无用的标记,标记越多,所需花费的时间越多,并且还会降低匹配率。您可以使用Translator Tools或我们的CAT Pet 清除标记。
加密和受限制的PDF
收到加密的PDF文件,您需要先将密码去掉,否则上述工具也无法处理该PDF文件。我使用的工具是VeryPDF PDF Password Remover。我喜欢使用这一工具,因为它可以去掉用户密码(加密和防止他方擅自打开文件的人)和所有人密码(限制打印、拷贝、抽取文本的人,即使文件已解密)
我们从不使用在线的免费转换工具,因为PDF所有人不希望他方知道密码,要是利用在线服务解密文件,会将文件密码泄露出去,这样会有损自己的信誉。
如果客户要求我解密文件,我会要求客户提供书面指示,因为客户自己都不知道密码,这个令人奇怪。不过,有时候,原因是很明了的,例如,公司被收购了、员工离职了、原始文件丢失了等等。
最后如果上述转换方法不奏效,还可以直接对着PDF或将PDF打印成纸质文件,然后用Word翻译。
本文编译自Hacking PDF for translators。