做人工智能的“眼睛”
2018-12-24张配豪
张配豪
只需一扫,便可将书本、路牌上的字转化到手机上任意编辑;出国旅行,手机扫描一下,便可将看不懂的外文翻译成汉语……不但免费,而且简单、好用的特性,使其在没有推广的情况下,赢得了万千用户交口称赞。日前,由曹天明创立的猫起来科技将这一“拍照取字”的梦想变成现实。其App也迅速成为OCR市场的新宠。
“拍照取字”是一款用手机扫描书上、菜单的文字,然后进行电子化排版、翻译的软件。这款App的特点是页面简洁,功能简单,没有广告,用完即走。该项目通过所有的渠道,汇总每一个用户的反馈信息,平均每周更新一次版本。
灵感来源于一次度假
曹天明是一个“不安分”的人,从“360”出来后一直在找寻创业方向。曹天明又是一个“爱猫”之人,去年3月注册“猫起来科技有限公司”,他每月在猫身上要花一两千块,心里想着不平衡,一定要把这个钱从猫那里挣回来。正因为如此,公司的标志是一只红眼、披披风、背着两把剑、杀气腾腾的黑猫,称之为“剑客靴猫”。
起初,曹天明并未想清楚创业方向。“猫起来”最初的计划是做猫粮,调研发现频次太低不是刚需,决定改换方向。后来,打算做一款车前出行类APP,提供天气、车压监测等出行前信息,结果做了两三个月,创业止于PPT。
2017年5月,曹天明去日本、泰国、印度尼西亚旅游了一个月散心,在国外他发现因为语言不通,特别不方便,看到文字就想拍下来搞清楚。于是,他灵机一动,想到要做一款扫描翻译的软件“拍照取字”。
说干就干,从6月17日开始讨论这一“拍照取字”的想法到iOS上线了第一个版本,只用了一个星期。“拍照取字”这款产品页面简洁,用户通过App或者小程序扫描文字即可生成文档,自动进行归类。“不做广告,不给用户浪费时间,用完即走”这是该产品给自己的定位。到了10月,该产品已有3万多用户,海外用户占比33.4%,4个月总共发布22个版本。
资金对一个创业初始团队来说无疑是一个至关重要的影响因素。由于用于数据流编程的开源软件库越来越多,如Microsoft CNTK和Accord.Net,机器学习爱好者能够以极低的成本进行研究和学习。然而,并非所有问题都能得到解决,因为并非一切都是已知的。为了实现产品创意,要平衡预算,公司仍有很长的路要走。起初,曹天明的整个团队就只有一个半人,全职的曹天明,以及兼职的“阿甘”,办公地点在曹天明的家里。但是很快,投资人的电话就纷至沓来地打了过来。新进创投洪奕领投,史玉柱巨人网络跟投,120万天使轮融资到位,这无疑给曹天明和他的团队吃了一剂“定心丸”。
聚焦学生人群和商务人士
OCR技术是光学字符识别的缩写(OpticalCharacterRecognition),是通过扫描、拍照等光学输入方式将各种书籍、报刊、票据、卡证及其他载体上的文字转化为图像信息,再利用文字识别技术将图像中的文字转化为可以编辑的结构化数据的过程。简单来说,就是让文字信息快速从非结构化图像转化为可以在电子媒介上直接使用的数据的技术。
比起英文为主体的OCR识别技术,汉字的OCR识别明显面临着更大的难关。英文字母加数字识别字符集只有62类,但中文识别字符集达到20000类之多。加上影响OCR识别效果的因素众多,包括复杂背景、低分辨率、多种字体、非均匀光照、图像退化、字符变形、透视变形、多种排列方式等等,OCR识别技术研究困难重重,这直接导致了国内目前具有OCR识别技术自主知识产权的团队少之又少,只有不到十家,其中就包括易道博识。
相对于传统的手工录入方式来说,OCR智能录入具有强大的优势,OCR识别的速度远快于手工录入,提升用户体验度,减少手工输入时间,OCR技术可以为用户提供高效率、低成本的数据采集方案,从而为业务快速发展提供有力的支撑。
OCR技术可广泛应用于大量文字资料、档案卷宗、银行票据、文案的录入和处理领域,非常适合用于银行、证券、保险等需要对大量票据表格进行数字化的行业。实际上,这一技术很早就已经被应用了,但是应用行业比较小众因此没有机会在互联网圈子露脸,比如安防监控,车牌识别(没错,你开车被拍违规那就是这个技术)等。今年大家觉得技术和市场都成熟了,因此开始在互联网圈频频露脸,再加上Deep Learning概念兴起,渐渐水涨船高。
“猫起来”现有团队成员7人,主要都是技术、产品设计,团队有北邮、北大等名校毕业的成员,用曹天明的话说是:“钱少,加班多,事多,但是因为产品大家都忍了”。当前,该公司正在和票据公司合作,希望能够训练人工智能,开发出一款专门针对票据识别的产品来。
产品主要针对的用户群体是学生人群和商务人士。学生的作业、笔记、错题本,经扫描后可转化为线上文本,方便后续的归纳整理;商务人士在扫描、传输文件时,只需使用该款APP转录到线上再开展后续操作即可。
此外,某用户若想把书中内容分享给朋友,也可使用此款应用扫描并录入相应文本信息,并标注出重点信息再做相应分享。当数据量足够大时,“拍照取字”也会添加相应的人工智能属性。
将“走心主义”作为口号
在曹天明看来,好的产品在战略上要分为“两步走”。首先要让用户“用爽”,获取足够的黏性。第二部,以OCR作为起点后,拍照取字要给人工智能提供足够的数据供其练习,并从B端企业收费。
“由于OCR所使用的都是开源代码,底层技术其实都是一样的。真正拉开差距的,是CEO后续对产品用户人群的定位及商业战略的思考,大家拼的是产品而非技术。”曹天明如是说道。
目前OCR扫描方面做的比较大的企业有汉王和扫描全能王,前者是上市公司而后者则已积攒了一批可观的用户数量。汉王主要是跟政府、企业合作来盈利。而拍照取字后续也在思考通过平台上积攒的用户数据变现,比如切向幼教市场。
而目前OCR扫描技术所碰到的最大难题绝非技术,就是用户的市场教育,“很多人并不知道有这样的产品存在。”所以如何推广是团队要解决的问题。而目前拍照取字还是专注于产品的研发,并没有将资金投入推广,“就是将这款产品放到App Store 上,让用户自行下载。”
猫起来将“走心主义”作为口号,“拍照取字”這款App处处可见其用心之处。不管是书本、路牌还是纸质文件上的文字,用户只要通过App或者小程序扫描文字即可生成文档,将“非计算机语言文字”转化为“计算机语言文字”,方便用户自动进行归类、管理,从而省去了大量文字录入和文件管理工作。
同时,“拍照取字”免费版还支持PDF文件扫描功能,无论是身份证等证件,还是各种卡,需要扫描时都能通过App一键搞定,不但可以自动识别、裁剪边缘,还可以一键导出PDF,第一时间分享给需求方。
在公司墙上贴着用户对“拍照取字”的流言,好评差评都有。对用户反馈信息的重视,是曹天明觉得自己产品能够走下去的根本原因。“未来,猫起来还将基于AI技术,推出一款聚焦财经数据的新产品。相信不久的将来,这款新产品将给用户带来更多惊喜。”曹天明说。