立即注册 登录
返回首页

嘀嘀咕咕的个人空间 http://www.zasq.net/?34671 [收藏] [复制] [分享] [RSS]

日志

校对入门(三)

热度 8已有 1748 次阅读2016-7-24 11:01

今天来谈谈文本的预处理,呵呵。
文本的预处理包括几个方面:
1、选材,这个很重要,直接关系到后续的工作是否好处理!
2、章节处理;
3、通用处理。
首先来看选材,比较合适的一种做法是,多看看,再来决定。例如,我们要校对某书,先百度一下,看看有多少网站能够提供原始素材的。
可以先去原站(首发站)弄一些免费章节下来,用于基础性的比对工作,因为免费章节通常会有数十章或是100多章,一般来说,整体故事会在前面的章节预先做好铺垫,那么很多后面出现的屏蔽字可能在前面章节都能够找到!
另外,建议用百度百科查看一下该书的信息,有些书百科会比较相近的进行介绍(什么秘境啊、装备啊、女主啊之类的),这里面也可能会包含有后面章节出现的屏蔽字!
下载的网站前面已经介绍过了,就不重复了,请注意,再次强调,没有哪个网站是绝对OK的,更多时候是因书而定的,这本书在这个站可能非常不错(章节齐全、错漏较少),在另一个站可能就很稀烂,而换一本书,可能情况就截然相反了!所以建议多看几个站,然后下载2-3个(视情况而定,或许需要更多)版本备用。
选好了版本之后就可以开始来处理后续的步骤了。上述中2、3部分可以交换使用,这个要看具体情况而定。例如,如果原文中广告信息里面带有第XX章的信息,那么就优先处理3,再来处理2!
章节处理可以用两种工具来完成:TXTFORMAT、早安E书大师(天空E书,以下简称E书)。
首先将文本放在某个指定目录(任意指定,最好是固定放在某个位置,因为TXTFORMAT具有记忆功能,后面校对的时候会很方便,呵呵),然后打开TXTFORMAT

选定目录后单击“确定”按钮。

然后在TXTFORMAT窗口上方的工具栏里面,选择文件分割/章节处理

单击“重新获取章节名”按钮,这个过程根据文本的大小会花费不同的时间,请耐心等候……

然后再单击“导出章节标题列表”按钮

TXTFORMAT会给出相应提示,单击“确定”按钮即可。当然也可以直接用“文件分割/章节整理”的小窗口来进行比对,呵呵。

TXTFORMAT会自动打开生成的目录文件(默认路径是放在TXTFORMAT所在的目录,文件名默认为:ChapterList.txt)

凡是出现了问号的章节(例如上图中第二章、第三章、第十六章等)都是有问题的,上图第二栏是章节文中的字数,第三栏是章节的正序号!

根据这个章节文件,可以比较方便的定位有问题的章节!直接打开原文,定位到有问题的章节,进行相应处理即可。

对比章节一般去原站进行对比即可。

这里面有几个地方需要注意一下:

1、有的章节名不规范,例如这样:第二十二 XXX,缺少“章”字,这个直接在原文中补上“章”字即可;

2、缺章(经与原站对比后),先记录下来,然后去百度、贴吧或是其他站点下载该章;

3、重复章节,这里分为两种情况:原站原本就是重复章节名(内容不同),可以注明一下;再一种就是文本本身重复了(内容相同),直接删掉即可;

4、章节名没有第章关键字,例如这样:212.  213.  214.  ,这时候需要先处理一下,用EMEDITOR打开原文,按住CTRL+F键,出现如下窗口

单击“替换”按钮,如下图所示:

在查找的输入框中输入:[0-9]{1,4}[.]{1}   在替换为输入框中输入:第\0章 (注意章字后面带有一个空格!),然后勾选“使用正则表达式”,单击“替换全部”按钮。

注意:这样替换会导致出现  第212章章 XXX的情况,再来将“章章 ”替换为“章 ”就行了。

这里有个问题要注意一下,就是这种替换可能会导致正文中的数字也被替换了,所以在替换之前先检查一下。在上面的查找窗口中,点击“全部提取”按钮(注意需要先填写好正则表达式,参见替换窗口),EMEDITOR会将所有满足条件的文本全部提取出来,这样就便于检查了,呵呵。

此文篇幅较长,关于通用处理部分就放在下一次再来说吧,呵呵。



路过

雷人
7

握手

鲜花
1

鸡蛋

刚表态过的朋友 (8 人)

评论 (0 个评论)

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 立即注册

QQ|Archiver|手机版|小黑屋| ( Q群816270601 )

GMT+8, 2024-4-26 15:22 , Processed in 0.643791 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

返回顶部