近日,ChatGPT在全球范围内引发了人工智能(AI)热潮,ChatGPT成功破圈引起能普罗大众的广泛讨论,得益于它对比过去的AI模型表现出了更强的通用能力以及体现一定的生产力。后续学术界和工业界争相发布对话式AI和大模型,一场人工智能全球化竞争已然开始。而中国科研团队应该如何在技术上实现突围?汕头大学校长、DMIR实验室学术带头人郝志峰教授接受了中国知识产权报的采访了并发表了个人见解。
ChatGPT目前急需要解决的是事实性错误。ChatGPT让人印象深刻的就是每次回答问题,特别是开放域的问题,它都能用像模像样的人话来答问,同时也会对上下文有一定程度的理解。不看具体知识点的话,看上去好像回答得很专业。但是慢慢大家开始发现ChatGPT的答复经常存在事实性错误。这是因为ChatGPT是由大量的文本数据训练而成的,无法保证数据中的信息和知识是准确的或者符合事实。让ChatGPT能有效访问准确的知识源和信息源是必须的。
图 | ChatGPT事实性错误
有的,早在2013年DMIR实验室就提交了“一种基于产品信息结构化的Web问答检索系统”专利申请,研发目标是提出一项技术能从网络中准确找到特定产品各项数据用于用户回复。这项技术的落地应用效果是很好的,后续我们希望往确定性知识源的对话AI继续突破。
技术突破的核心方向有对话能力和知识源链接。在对话上我们做了些尝试,但由于当时一些客观条件的限制,比如算力问题、人力成本等,所以我们决定往知识源链接上去突破。知识源链接的核心技术是Text-to-SQL,就是如何将用户输入的自然语言问句转化为结构化查询语句。我们有大量高价值的、专业知识的数据库,但是使用门槛太高了,普通用户无法触及价值,这项技术就是为此诞生。我们持续地在Text-to-SQL上钻研,这一项技术储备在后续对话式AI的发展上应该是有价值的。
面对强大的ChatGPT,中国科研团队应该如何在技术上实现突围?DMIR实验室有何布局和规划?
临渊羡鱼不如退而结网,要在技术上突围不能只做一名跟随者,要提前布局下一个突破。我国在人工智能领域是有技术储备,是有一定产业规模的。布局思路可以结合自身的核心技术来思考。比如对于我们,结合Text-to-SQL是有利的,突破的是对话式AI事实性错误这一问题。我们也已经在做这项工作,希望很快能和大家见面。另外,我们团队在因果关系上也持续沉淀了多年。未来在对话式AI、大模型上结合因果关系提高其溯因推理能力、可解释性也是我们的重要突破思路。
http://epaper.iprchn.com/zscqb/html/2023-02/22/content_27590_7352815.htm