【明慧网2005年6月12日】技术交流:邪党为阻真象传播动用OCR过滤
微软中文的自动升级SP2补丁包是否含有臭名昭著的3721?
技术交流:邪党为阻真象传播动用OCR过滤
最近,大陆的宣传工具在传邪党政府要用图象识别技术拦截“黄色”图象,把它和网址劫持、IP拦截、关键词过滤并列。事实上,邪党自身腐烂不堪,不会真正的去打击色情活动。
OCR (Optical Character Recognition)视觉化字符识别,查一下资料可以知道,到目前为止,在理想状态下,汉字印刷体识别可以达95%以上(还经常9和g不分,1和l不分)。在办公自动化上多有应用。而手写体识别分:联机手写体识别(通常的手写板),脱机手写体。按难易成度来看,手写体识别的难度高于印刷体识别,而在手写体识别中,脱机手写体的难度又远远超过了联机手写体识别。除了脱机手写体数字(0~9)的识别已有实际应用外,汉字等文字的脱机手写体识别还处在实验室阶段。
一份清晰的印刷体文件稿,在合适的亮度、对比度时扫描仪在300dpi分辨率可以有满意的识别结果。低于300dpi的分辨率,OCR软件不容易识别了,高于300dpi的分辨率对提高OCR软件识别率不明显。
有资料提到,有些OCR软件也可以从屏幕抓取软件抓取的图像中识别文字。笔者认为,过滤、截屏等功能很可能被整合与OCR在一起用。
让机器分辨一个现成的手写体汉字图象那么难,何况让机器去识图分辨人的行为根本不可能的。
邪党如此不计代价的应用OCR技术只有一个目地,就是阻挡真象传播。我们就有同修通过网络在用图片传真象,让OCR过滤失效很简单的----加扰。让机器无法把图象简单化成“白纸黑字”或“黑纸白字”来识读,就印刷体而言,笔画粗细有别的宋体比粗细一致的黑体难分辨,细字体比粗字体难分辨。加上色彩缤纷的“纸张”背景,我们可以宣告OCR过滤失效了。
微软中文的自动升级SP2补丁包是否含有臭名昭著的3721?
据我的一位做网管的朋友介绍,最近臭名昭著的3721收买了微软中国,将这一间谍程序整合到微软中文的自动升级SP2补丁包里去了(其它语种的不这样),因为带在主板上,所以从表面上根本看不出来。请具有这种技能的同修核实。
答: 我们是没有听说过,应该不太可能有这样的情形。