科大讯飞：探寻人工智能的实现路径

2018-09-02梅新蕾李伟

清华管理评论 2018年12期

梅新蕾李伟

在A股市场的人工智能板块，科大讯飞（深交所：002230）可能是公认的执牛耳者。自1999年走出中国科技大学“人机语音通信实验室”起，科大讯飞以自主研发的中文语音合成技术为突破口切入智能语音产业，成长为国内唯一一家以语音识别为核心优势技术，并基于“深度学习”算法进行人工智能底层技术研究的“产学研”企业。

1992年，科大讯飞创始人、董事长刘庆峰加入中国科技大学电子工程系“人机语音通讯实验室”，在博导王仁华教授的鼓励下，开始牵头自主研发语音合成系统。1998年，刘庆峰负责的语音合成系统获得“863计划”成果比赛获得第一，并获得“863”专家组“语音合成技术初步达到实用化水平”的评定。彼时，正值90年代末大学生创业潮，刘庆峰萌生了将这项技术产业化的想法。1999年6月，26岁的刘庆峰带领同实验室的十几位同学，在中科大校园租下了一间三室一厅的民房开始创业，科大讯飞的雏形由此诞生。

2000年，科大讯飞在关键战略会议——巢湖“半汤会议”上定下《讯飞产业规划》，坚定将语音交互技术的自主研发和产业化落地作为讯飞核心战略方向。此后，讯飞的核心语音业务从语音合成、口语测评起步，向语音识别、语义识别、自然语言处理方向演进，通过语音芯片、语音引擎和语音云平台，向各行业B端企业用户、行业应用开发商提供语音技术开发及服务能力，截至2017年已经占有中文语音技术市场60%以上市场份额，其中语音合成产品在电信、金融、电力、社保等行业的份额超过80%。

2014年起，科大讯飞基于深度学习算法，启动了针对人工智能的重大攻关项目“讯飞超脑计划”，旨在研发具有深层语言理解、逻辑联想推理、自主学习等能力的人工智能系统，并依托讯飞人工智能开放平台“AIUI”构建以讯飞为核心的人工智能生态系统，主要面向B端用户，以“技术赋能者”的角色探索人工智能技术在教育、医疗、司法、智慧城市等行业赛道的商业化落地；此外，面向C端用户，科大讯飞亦集成其智能语音、人工智能技术能力，推出移动端讯飞输入法、AI助手應用“咪咕灵犀”等软件产品，以及讯飞“晓译”翻译机、智能音箱“叮咚音箱”等硬件产品，试图拓宽业务范围和潜在市场空间。

在财务数据上，一方面，科大讯飞在营收规模和市值上实现了跨越式的发展：2008年科大讯飞成功赴深交所上市，在上市后十年的时间，其营业收入年均复合增长率达40%， 10年累计增长了21倍，市值累计增长了约25倍。在人工智能风口下，鉴于其行业领先的技术水平、商业模式的逐渐完善、主营规模的迅速增长，市场有观点认为科大讯飞是 “智能语音技术行业的龙头企业”、“A股市场人工智能第一股”。

然而，仅从客观数据上看，科大讯飞作为一家上市公司，近年来在业务范围快速扩张、持续加码人工智能前瞻性布局的同时，也面临着增收不增利、投资回报率走低等压力。业内亦有声音质疑其究竟“是否撑得起千亿市值梦”？

应该如何理解科大讯飞？对科大讯飞这样一家不断挑战前沿技术浪潮的“科研型”企业进行价值评断，不仅应着眼于传统的企业财务指标，同时应关注企业所在的行业环境和产业前景，以及企业能否正确“卡位”并占据一定的行业优势地位——前者体现了蛋糕可以做多大，往往是由宏观环境和行业特点决定的；后者决定了企业可以分走多少蛋糕，需要由企业通过筑建“护城河”来争取。为此，本文试图从以下四个维度呈现更多细节：

首先，在智能语音技术和人工智能产业，科大讯飞面临怎样的大环境？

其次，“科研型”企业的成长往往是由“源头创新”和“创新应用”双轮推动的，讯飞如何在源头技术层面构建竞争壁垒？

再次，科大讯飞如何探寻技术产业化落地的路径，其在2B和2C领域各有何尝试？

最后，在国内外科技巨头和互联网企业纷纷布局AI赛道的竞争环境下，科大讯飞的挑战和机会可能在哪里？

构建源头技术壁垒

刘庆峰认为：“微软把图形做到了极致，苹果把触摸做到了极致”，“作为最自然的交互方式，下一轮变革就在语音领域”。“人类80%的信息输入依靠视觉，90%的信息输出依靠声音和语言”。相比于触觉交互，语音交互更加符合人类向外界输出信息的自然方式，且可以有效满足“人机分离”场景下的远场交互需求。随着移动互联网、大数据、云计算技术的进步，语音交互技术有望成为物联网时代的入口级技术，从而具有良好的增长前景；此外，语音交互技术（语音合成、语音识别、自然语言处理）与人工智能技术深度结合的领域，亦有着有着广阔的市场空间。

相比于国际科技巨头，科大讯飞作为在智能语音乃至人工智能领域拥有源头创新能力的本土企业，刘庆峰团队认为，智能语音乃至人工智能产业均是典型的技术先导型产业，具有较为显著的“马太效应”——技术领先型企业可以通过创新性产品引导市场需求，在占据市场先机后，将会通过行业实践经验、数据资源、人才资源的积累，在后继技术竞争中表现出更大优势，从而树立起后来者短期内较难赶超的“护城河”。为此，科大讯飞把研发放在战略高度，坚持以市场为导向进行核心技术的创新和迭代。

科大讯飞构建源头技术壁垒，首先的表现形式是持续、高强度的研发投入。自2010年以来，科大讯飞年度研发投入强度（也即R&D投入占当年营业收入比例）始终保持在20%以上，2018年上半年高达25%，远超国家标准界定的高新技术企业3%的水平；相比BAT以及国际主流科技巨头，讯飞受制于体量规模，在R&D投入绝对值上不占优势，但研发投入强度仍处于前列。从研发投入转化效率上看，科大讯飞每年研发投入达到可资本化标准的比例维持在30%以上，在语音合成、语音识别、认知智能技术领域均达到国际领先水平。

智能语音和人工智能技术研发难度大、进入壁垒高，高额的研发投入只是企业取得源头技术突破的“必要不充分条件”，企业致胜的关键在于能否构建并维持一支专家型团队进行长期攻关，并配套以高效的研究成果转化机制。为此，科大讯飞一方面围绕其三大研究院构建企业自身的核心研发平台，另一方面从源头整合外部行业研发资源，通过与高校及科研机构、政府机构及企事业单位、行业企业、独立科研团队以共建联合实验室等形式展开合作，构建出了一套特殊的“卫星型”研发体系。

核心研发平台是科大讯飞研发体系的内核，重点针对与讯飞业务发展紧密相连的核心能力进行底层研发。核心研发平台下属三大研究院，分别是人工智能研究院（AI）、大数据研究院（Big Data）和云计算研究院（Cloud Computing），这三个研究院均是基于语音交互技术这一重点领域发展出来的。

技术中心是连接后台研究院的底层研究成果与前台各产品部门需求的中间层。相对于研究院：技术中心的研发更靠近应用层面，目标是将底层科研成果转化为可以产业化落地的应用技术；技术中心的人员也更靠近前端客户，针对客户需求做定制化开发，为前台各事业部、事业群服务客户提供技术支持。从团队规模上看，在讯飞当前8000多人的总体员工团队中，研发团队占比66.28%——其中，讯飞三大研究院约1000人，技术与开发人员人数超过5000人。

值得指出的是，讯飞从战略稳定性、机制和文化设计上，为其研发人员提供了良好的科研环境——这既是激励、孵化源头技术创新的温床，也是留住优秀科研人才的重要条件。

首先，科大讯飞的创始团队（也即当下的核心高层团队）是基于中科大组建的、成建制的核心研究团队，这一团队均是科研背景出身，对源头技术研发工作本身的特点、规律及人才所需的环境有着切身理解，在核心语音技术、人工智能技术领域有专业积累和行业洞察能力，且自企业创立以来高度稳定——这保证了科大讯飞在研发层面的战略稳定性。

此外，科大讯飞在企业文化层面，强调研究院科学家和研发人员在企业内部的核心地位，并再配合以多期股权激励等经济激励手段；在机制设计上，对研发项目“允许试错”，不对专注基础研究的科学家设定与销售或者成果转化挂钩的硬性KPI，但要求其對“失败”项目及时复盘、找到原因。

“科大讯飞的基因是做研究的基因，研究人员在这里很容易找到归属感和成就感。从价值观上看，我们是登山型的公司，相信远处有一个喜马拉雅山，而我们要用很多年不断的逼近；而多数互联网公司是冲浪型公司，（行业）今天有一个什么热点，就立刻组织一拨“部队”、高薪挖一拨人就开始做，干得好给奖金，干不好这个部门就砍掉了，就非常狼性的，对研究来说是不利的。”

——科大讯飞高级副总裁，江涛

“在科大讯飞工作群，如果有人说，‘哇，我今天拿下一个亿的单子，没人吱声；但如果有人说，‘嗨，我把语音输入的准确率提高了1%，那群里顿时就炸开了。”

——科大讯飞某员工

核心语音技术的产业化

“在做科研的时候，主要考验一个人研究的能力，但当要去真正创办一个企业的时候，技术的转变和能力的转变是解决从实验室到产业化的“最后一公里”最关键的问题。”

——胡郁，科大讯飞联合创始人、轮值总裁

源头技术壁垒只是“产学研”企业立足市场的根本要素之一，科大讯飞面临的更大的挑战在于如何找到适应企业不同发展阶段的产业化落地路径，实现从“技术高地”向“企业价值高地”的跨越。可以发现，基于技术成熟度、市场环境的不同，科大讯飞进行产业化落地的方式也在演进。

如何将自主语音技术推向市场？创业初期，刘庆峰对科大讯飞的定位是直接面向大众消费市场销售智能语音产品。2000年讯飞推出一款针对PC的智能语音软件“畅言2000”，试图在PC端将语音输入与传统键盘文本输入结合起来，软件定价在2000元人民币/套，同时在全国十余个省份推进广告投放和对外招商。然而，由于彼时国内软件市场盗版猖獗，且PC普及率较低、C端用户的教育和售后服务成本高，讯飞直接切入2C市场的尝试失败了，讯飞资金链也因此承受了极大压力。

科大讯飞最初成型的商业模式——“iFLY-inside”。类似于“Intel-inside”，是2B模式的一种，科大讯飞并不直接面向终端应用市场，而是基于其掌握的核心技术，向开发商提供语音支持软件服务。

在此背景下，刘庆峰尝试转战2B市场，第一步的尝试是寻求与中国电信合作，将讯飞的自主语音合成技术应用在168声讯系统。但问题是，大型企业客户十分强调产品的技术成熟度以及与之相关的用户使用体验，且一旦选定系统开发商则后期转换成本极高，故而中国电信并不愿意将这笔价值上亿的订单交给讯飞十几人的创业团队，而是希望寻找具备成熟的系统集成能力和企业综合实力的大型行业系统开发商。

转机发生在2000年的深圳高交会，科大讯飞的语音合成系统引起了华为公司的注意，彼时华为正在开发智能网、呼叫中心这一类电信级产品，刘庆峰有机会将讯飞的语音技术“嵌入”到华为的产品系统中，再借由华为推向市场。2000年前后，任正非对语音技术高度重视，对科大讯飞的语音合成系统进行了极为严格的技术测试。为此，科大讯飞最核心、最骨干的研发团队直接入驻华为现场，通过不断的测试、修改，将讯飞仍处于实验室状态的产品，在稳定性、工程化方面，优化至可以满足真正大规模商用的标准，从而赢得了华为的长期订单。

经历了创业前期的试错以及华为合作模式的成功，刘庆峰意识到，讯飞的技术没有问题，出问题的是商业模式：“科大讯飞这个初创的团队不知道怎么做市场、怎么做产品，我们（暂时）只有技术”，因而无论是直接做消费市场，还是面向大企业客户直接销售产品，“都有些理想化”，需要重新调整思路——“我们可以把核心技术和别人去‘拼盘，让有渠道、有市场、有技术的大公司去把产品做好、卖向应用市场，从而实现讯飞技术的初步价值。”

由此，科大讯飞发展出最初成型的商业模式——“iFLY-inside”。具体而言，“iFLY-inside”类似于“Intel-inside”，是2B模式的一种，也即科大讯飞并不直接面向终端应用市场，而是基于其掌握的核心技术，向开发商提供语音支持软件服务。与华为的成功案例帮助科大讯飞迅速推动上述商业模式落地：其一，面向华为、中兴、东软等行业应用系统开发商，提供电信级语音软件；其二，面向联想、方正、日立等数码终端产品开发商，提供嵌入式语音软件。

然而，科大讯飞高级副总裁江涛表示，“iFLY-inside”模式限定了科大讯飞仅仅是出售核心技术的“赋能者”，从而带来两方面“短板”：第一，科大讯飞只能在行业价值链中占据很小的一个环节，利润空间有限——例如，“华为的一套应用系统售价大几千万，但科大讯飞从中收取的License费用可能只有二三十万”；第二，科大讯飞在将核心技术交付给开发商后，在终端用户环节面临“黑匣子”——也即科大讯飞既不能根据终端用户的使用反馈对其技术进行优化和迭代，也无法积累终端用户数据。

2004年扭亏为盈后，随着公司在产品能力、市场能力、团队规模上的成长，科大讯飞开始直接面向行业终端用户，尝试开发应用系统。在行业选择上，科大讯飞瞄准的均是集中度、壟断性较高行业，包括：在教育行业承接国家语委“计算机口语测评”需求，推出普通话、英语口语测评产品；向中国联通、中国移动等电信运营商提供语音搜索增值业务，代表产品为基于语音搜索的电话彩铃/炫铃系统；向政府、电信、公安、烟草等行业客户销售具有语音特色的信息服务与管理系统。

科大讯飞在上述行业应用领域的起步，往往得益于其在一个由政府机构或企事业单位主导的行业取得了先发优势，从而积累了基础数据资源和行业成功案例。

以教育业务为例：科大讯飞依靠其自主研发的语音测评技术切入教育业务板块。2006年，科大讯飞的计算机口语测评技术经国家语委鉴定达到实用化水平，并开始在国家语委和教育部语用司、语信司的指导下进行应用产品开发；同年10月，科大讯飞正式发布普通话口语测评产品，并在国家语委在上海主办的“普通话水平测试与规范创新论坛”上向全国各地语委专家开放试用，截至2008年讯飞IPO时已在安徽、上海、江苏、辽宁和重庆五省市完成落地。

在上述两种2B模式下，科大讯飞基本确定了在其核心语言技术的商业模式和产业链地位，并根据技术特点和商用环境不同形成了三类盈利模式：其一，电信级语音平台和嵌入式语音软件采用授权许可的模式，按用户的使用数量收费；其二，一般行业应用软件采用软件系统销售的模式，通常是一次性销售；其三，行业应用软件中的语音增值业务则采用合作运营收入分成的模式，从运营收益中获得分成收入。

科大讯飞的AI落地路径

在核心语音业务逐渐发展成型的同时，刘庆峰团队再次感知到了外界技术环境的变化。

在传统的模式识别框架下，语音识别技术需要人为地对数据进行特征提取和分类归纳，进化速度较慢，机器语音识别准确率在2000年后的10年内长期停留在70%-80%，限制了行业应用场景的拓展；然而，2006年AI领域巨擘杰弗里·欣顿（Geoffrey Hinton）在《科学》（Science）杂志发表了《利用神经网络刻画数据维度》（Reducing the dimensionality of data with neutral networks）一文，奠定了深度学习的理论框架；2009年，前微软人工智能首席科学家邓力与杰弗里·欣顿（Geoffrey Hinton）在上述文章基础上发表《语音识别的深度学习及其应用》（Deep Learning for Speech Recognition and Related Applications），成为深度学习在语音识别方面的经典研究。上述深度学习理论框架的出现免除了人为归纳、提炼特征的环节，从而明显加速了语音识别技术的进化速度——据江涛介绍，“基于深度学习理论框架，在美国由Google公司做出了一套英文语音识别技术，在中国则是科大讯飞做出了一套中文语音识别技术。”

而在研发上述语音识别技术的同时，科大讯飞研究院的科学家团队发现，深度学习理论框架不仅适用于语言识别、图像识别等感知智能领域，还可以扩展至自然语言处理、机器翻译、逻辑推理等认知智能领域，从而帮助机器从“能听会说”真正迈向“能理解、会思考”。

在此背景下，科大讯飞于2012年起开始酝酿从感知智能向认知智能的跨越，并于2014年正式启动“讯飞超脑”人工智能计划，目标在于“研发具有深层语言理解、全面知识表示、逻辑推理联想、自主学习进化等能力的人工智能系统”。然而，人工智能技术规模化落地的路径在何方？

在认知智能领域，人工智能技术在不同应用层面的成熟度不同：“在专才层面，利用人工智能学习行业专家知识和经验，进而解决有规律可循、有标准答案的问题，是目前AI业界内广泛认为已经可行的；在通才领域，利用人工智能解决一般性问题，例如回答高考试卷（特点是虽然问题有较为统一的答案，但学科覆盖面很广），目前全球没有团队解决这一问题；而上升到常识领域，让人工智能发展出适用于消费者日常生活场景的常识推理能力，目前技术还处在‘六龄童的水平。”

科大讯飞从单一的核心技术提供商模式向基于云端的开放型平台思维的转变，始于2007年逐渐兴起的互联网热潮。伴随着大数据和云计算的快速发展，百度、搜狗等互联网公司纷纷入局智能语音赛道，互联网思维下的技术免费模式对科大讯飞的传统2B模式形成潜在挑战。刘庆峰表示：“随着互联网应用逐渐兴起，我们陆续收到了来自中小企业和开发者的很多反馈，他们很想使用讯飞的技术，但我们的客户主要定位在大中型企业，因为讯飞提供的技术往往有较高门槛，企业需要先花费高额资金购买讯飞的技术，才能再去开发自己的应用，这对于中小企业和个人开发者来说，过于昂贵。”刘庆峰由此萌生了平台思路：“用户拧开水龙头，就可以接到水，但他不见得非要自己建个小型自来水厂。”