APP下载

达观数据的春天

2023-05-30杨松

21世纪商业评论 2023年3期
关键词:领域人工智能文本

杨松

“2023年,我觉得是人工智能进入新阶段的一个起点。”

提及当下大热的ChatGPT,达观数据董事长、CEO陈运文兴奋地告诉《21CBR》记者,其写出来的内容,相较之前的计算机写作有了质的飞跃,写作能力已经超过了普通人。

陈运文觉得,ChatGPT与自己的创业项目,有“非常强的相关性。”达观对文本进行智能化处理,与ChatGPT本质上是一致的,都使用到了自然语言处理技术。

人工智能技术主要应用在三个方面,语音识别、图像识别、自然语言处理。前两个领域进展迅速,已经上市的商汤、科大讯飞等公司,业务均集中在图像、语音方面。

2008年从复旦大学博士毕业后,陈运文的工作一直围绕着“人工智能”和“文本”,先后担任盛大文学首席数据官、腾讯文学高级总监、百度核心技术研发工程师等职务。

2015年,陈运文创办了专注于智能文本机器人公司达观数据。创业初期,他组建了一个算法团队,参加全球算法竞赛,两次获得世界冠军。

自然语言处理技术(NLP)因其复杂和高难度,被业内称为“人工智能皇冠上的明珠”。陈运文觉得团队的技术实力并不比海外同行差,一头扎进了自然语言处理技术这个颇具挑战的领域。

经过7年技术研发,达观首创了国内第一套文本智能处理IDP处理平台,行业无锚点OCR文字提取系统,以及独家开发RPA(机器人流程自动化)文字元素自适应穿透捕获算法。

产品应用方面,达观的业务已遍布金融、制造、政务等细分领域,陈运文透露,国内排名前30的券商公司,均是达观的客户。

天眼查数据显示,2022年3月,达观数据完成C轮5.8亿元融资,投资方包括中信证券、招商证券、广发证券、中信建投等券商,累计融资额超过10亿元。这4家券商,投资前均是达观多年的客户。

在陈运文看来,AI文本领域的市场规模,并不比视觉领域小。随着ChatGPT类似技术应用到各个领域,将是千亿甚至万亿级别的市场。

达观数据也迎来了文本AI的春天。陈运文透露,今年公司的营收有望超过历史上任何一年,预计会完成新一轮融资。

加速研发

ChatGPT 大火,其运用的技术原型,在2017年就诞生了,我们叫做Transformer模型,既可以用来做文档资料的阅读理解,也可以用来写作。

我印象中人工智能上一次这么热,还是2016年AlphaGo下围棋。6年之后又有一个非常巨大的技术突破,挺鼓舞人心的。

行业内有句话,自然语言理解,是人工智能皇冠上的明珠。我之前估计,人工智能的水平超过人类,需要5-10年,现在时间进程大大加快。2023年人工智能进入一个新的阶段,标志着新时代的开始。

ChatGPT背后的大模型技术,是通过海量文档资料进行深度学习,智能程度已经达到非常高的水平。不仅能直接给出选择题的答案,还可以帮用户写代码、找bug,写各种各样的文档资料。

大家对人工智能的未来前景也越来越乐观,以前觉得人工智能做不了的事情,接下来会一点一点实现,超过人类的相应能力。

达观所从事的研究领域,是文档资料的智能处理,与ChatGPT的工作原理类似。达观的产品则应用在企业级领域,面向更为垂直的行业。

不过,通用大语言模型与专用模型,有很大差异。如果用户问ChatGPT一些专业性问题,会发现它的回答可能东拉西扯,说不到重点或不够深刻。

我曾问过关于自然语言处理领域特别专业的技术知识,它的回复不太好。在垂直领域,还是需要类似达观所提供的专用语言模型。

在自然语言处理领域,OpenAI(ChatGPT背后的公司)的模式已经走通,我们可以跟随,并在垂直领域做得更好,未来会有非常优秀的国产语言大模型。

达观在2021年建立了一个专家工作站,与复旦大学计算机科学技术学院教授黄萱菁合作,她也是国内自然语言处理领域的知名专家。

今年,达观和复旦大学联合实验室的重点任务,在AIGC(AI Generated Content,利用人工智能技术生成内容)领域,争取推出优秀的成果。

ChatGPT的大热,也給我们研发团队更大的压力。以前觉得技术没那么快成熟,而美国同行做出了这么优秀的产品,我们需要加速研发进度。

我自己是研发出身,现在也是管研发更多一些。时不我待,近期研发同事都在加班。我对达观今年的研发期望很大,希望在专用语言模型和知识图谱方面均有所突破。

深入场景

过去几年,我们围绕文档资料处理,研发了很多相关技术和产品。

比如,针对文档扫描环节,我们开发了达观OCR(文字扫描)相关平台;推出模拟重复性操作文档资料的RPA功能模块,不管是纸质还是电子版的文档资料,达观平台都能处理。

针对不同行业,我们在研发产品时,需要行业内大量专有语料数据,对系统进行强化训练。达观招聘了很多垂直行业的业务专家,也跟行业领先的公司合作。

比如,和很多金融行业的头部银行、证券公司合作,将业务专家的专业知识引入语音模型中,让系统拥有专家能力。

在金融行业,达观产品实现大规模落地。金融行业的文书工作很多,比如各种信贷报告、招股书、研报等,需要大量的文档处理工作,且对准确率要求高,AI系统非常有优势。

这个领域的人才成本比较高,期望利用AI系统提高效率,达观产品内嵌到金融公司内部的作业系统中,几乎是员工日常工作的标配工具。

比如银行的流水核查,甚至更复杂的财报中数据出现矛盾,通过系统都能鉴别出来。

计算机处理文字资料的效率,大概是普通白领员工的100倍。在持续工作状态下,准确率保持一致,可以24小时工作,对很多行业来说是非常有价值的。

例如进出口企业,海外订单可能是半夜才到,需要系统立即处理,而不是等到第二天员工上班才去处理。

而在证券领域,目前,前30大券商都是达观的客户。其中4家头部企业在几年前已经使用产品,后来也成为了我们公司的股东。

行业类产品,从研发到成熟到大规模复制普及,整个过程需要一定周期性。所以,达观会对行业有所选择,看潜在客户在文档资料领域的需求,是否有行业普适性。

我们通常从市场容量高的行业优先切入,目前布局了金融、制造等板块。

在自然语音处理领域,国内外有很多大平台,比如百度、谷歌都有多年积淀。相较这些巨头,达观的优势在于垂直领域。

达观团队通过与行业客户合作,可以积累很多专用的语料大数据,即便是搜索引擎也是很难获得的。

就整个行业来看,互联网巨头未来可能会推出面向个人用户端的通用语言大模型,而类似达观这类TOB初创公司,则专注于垂直领域的专用大模型,会有一个差异化发展路径。

在文档资料領域,除了审核还有写作环节。智能化写作将是达观重要的技术突破点,完成之后就能形成产品闭环。

万亿市场

在去年的艰难环境中,我们是AI行业增长最快的公司,团队做了很多努力,挺不容易的。

今年整个经济形势及市场信心回暖得非常快,我觉得今年的收入和业务发展,应该超过公司历史上任何一年。

我今年更关注产品研发,有了优秀的产品,可以迅速带动业务。

年内我们会推出国产的语言大模型,并且会用于几个垂直领域,比如工业制造、零售供应链、金融等。

2030 年,AIGC 市场规模将超过万亿人民币

未来,人工智能并不是完全替代人力,而是变成“人机协同”。

写作也是很多客户的痛点之一,人写作的速度是非常慢的,我们做过测算,一个人平均写1000字左右的文档,A4纸大概一页半纸,差不多需要2到3个小时。

如果用AI系统去写作,这个时间可以缩短到一分钟之内,对效率的提升是非常巨大的。我相信未来AI工具和人结合,能够让各行各业的专业文书写作更为高质高效。

我们预估过,把所有文本文字资料处理的工作加起来,未来有AI渗透进去的话,将是一个万亿级市场。

目前,市场上有相关技术能力的创业公司并不多,行业门槛挺高的,需要很强的研发能力,并在行业中有很深的技术积淀,才敢啃自然语言处理这块“硬骨头”。

随着ChatGPT大热,近期想找达观投资的机构挺多的,我们考虑今年推进新一轮的融资。

科创板目前还没有自然语言处理或者文本语义处理的上市公司。图像、文字、语音是人工智能的三个大赛道,图像已经有几家公司上市了,语音有科大讯飞,文字则没有。

所以,我们有机会扛起这面大旗,做科创板文字AI“第一股”。

猜你喜欢

领域人工智能文本
在808DA上文本显示的改善
领域·对峙
2019:人工智能
基于doc2vec和TF-IDF的相似文本识别
人工智能与就业
数读人工智能
下一幕,人工智能!
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
新常态下推动多层次多领域依法治理初探
如何快速走进文本