本报记者 田野 发自北京
在科幻故事中经常会遇到这样的情景,人们通过“思考”即可将所要表达的内容在大屏幕显示设备上显示出来,从而与其他人自由交流。借助图像文字识别软件,这样的情景将不会只在科幻故事里存在。
据报道,日前,谷歌就一项针对图片和视频中所含文字内容的识别技术提交了专利申请。据悉,该软件可识别图像、视频中内置的文本内容。谷歌所提交的图像和视频文本识别技术属于“光学字符识别(Optical Character Recognition,OCR)”范围。所谓图像文字识别软件,就是利用科技让电脑认字,是高科技智能行为的一种,将这种想法付诸实现的就是OCR软件。据了解,OCR主要应用于办公室自动化中的文本输人、邮件自动处理等领域。
世界搜索引擎巨头谷歌在2007年就已进入了OCR研究领域,将OCR与传统的搜索技术结合在一起,获得了双赢的效果。通过OCR技术,谷歌可提供更准确、更人性化的搜索服务。只需输入文字,即可准确地搜索到视频、图片等资料里嵌入的文字信息,这项应用不仅仅方便了网民,更会为谷歌带来丰厚利润。而我国自主研发的TH-OCR技术目前也处于世界一流水平,已经可以实现英文、日文、韩文、中文、我国少数民族文字的电子化录入。记者了解到,TH-OCR是“863计划”重点项目,由清华大学电子工程系智能图文实验室研发。北京文通信息技术有限公司早在1992年就进入OCR领域,经过15年不断发展,已经将TH-OCR技术进行产品化推广,针对用户实际需求推出了多种中文录入软件和整体方案,在金融、通信、电力、OA等众多领域广泛应用。2007年,还实现了我国少数民族语言识别,这是世界首个蒙藏维哈朝多民族语言识别技术。