星火认知大模型测评,如何从“AI幻觉”到智能涌现

大模型能否进入生产环境,取决于是否能够从”AI幻觉“过渡到智能涌现。而在这其中,只需要四个核心能力的升级——理解、生成、逻辑和记忆。

自从大模型时代到来以后,大模型的智能涌现能力已产生很多现象级的事件,展现了LLM非常强大的语言理解、生成、逻辑、推理能力,从而造就了新的知识高原。

尽管大模型在文本生成、数据分析等领域设定了高标准的“基线”,但人类在创造、批判性思考和情感判断上的独特能力仍是不可或缺的。但是随着技术的不断迭代,现在都大模型在逐渐打破“AI幻觉”,同时也开始从“千人一面”的回答逐渐向“千人千面”过渡。

也使得大模型得以逐渐走入许许多多的应用场景中,不仅成为被“调戏”的“聊天机器人”,而是一个真正的生产力工具。

一、好应用的“本钱”:AI大模型的四大核心能力

大模型的四大核心能力——理解、生成、逻辑和记忆,是构成其能够完成智能涌现的基础,或者说是大模型能够成为应用的本钱。

就当前流行的大模型而言,基本上主要采用Transformer结构。相比于传统的循环神经网络(RNN)和长短时记忆网络(LSTM),Transformer具有独特的注意力机制,这一机制可以极大地增强模型的理解能力。

注意力机制允许模型在处理输入信息时,对不同的词汇给予不同程度的关注。这意味着模型能够更加精准地捕捉并解析文本中的关键信息,从而更准确地理解输入的含义。因此,基于Transformer结构的大模型在理解能力上表现出色。它们能够模拟人类大脑对语言的理解过程,识别词汇、短语、句子乃至整个文本的语义。基于此,大模型能够回答问题、提供解释,甚至进行复杂的对话交流,展现出与人类相似的语言处理能力。

比如这个例子中,大模型之所以能够理解不同的“意思”,都是基于强大的理解能力。

大模型要想能够真正地用在生产过程中,最重要的就是逻辑推理能力。举个例子,在医疗诊断过程中,医生需要面对大量的患者信息,包括病史、症状、检查结果等,而这一连串的信息就像一个排列组合的数学题,相互联系也有多种结果。比如一位患者出现了持续的高热、咳嗽两个症状,医生就需要考虑年龄、性别、地域、旅行史等多个因素,并进行一系列的逻辑推理。

大模型如果想应用在医疗行业中,也需要具有逻辑推理能力。基于此,医生输入患者的相关信息后,才能获得模型基于大量医学知识和经验进行的逻辑推理结果。

最后,记忆能力是指大模型能够存储并回忆大量信息的能力,得益于模型内部的参数结构和优化算法,使得模型能够在需要时快速检索和调用相关信息。

由于人类的记忆形成涵盖了感觉记忆、短期记忆和长期记忆等多个阶段。相比之下,AI的记忆则主要依赖于数据训练,显得更为有限和机械。一般情况下评估AI在多轮对话中的记忆能力,会从几个关键方面进行考量,包括“关键信息提取”、“指代准确性”、“最大记忆长度”以及“话题一致性”。如果以上四个方面表现皆令人满意,我们才能认为这个AI产品算是“记住了”。

包括讯飞星火认知大模型在内的许多AI大模型,在不同应用场景比如逻辑推理、语言理解、文本生成、数学答题、多模态等均有表现,就是基于上述四大核心能力。

二、五个维度实测讯飞星火认知大模型

·逻辑推理

上文提到,考察AI大模型是否能够被应用于产业的一大维度就是逻辑和推理能力。

讯飞星火认知大模型在逻辑推理部分涵盖三个类别:思维推理、科学推理和常识推理。思维推理指代通过分析问题的前提条件和假设来推理出答案或者解决方案,继而给出新的想法和见解;科学推理则是使用已有的数据和信息进行推断、预测和验证等科学研究中的基本任务,比如我们给出一道逻辑推理题(如下图),可以看到讯飞星火可以通过前面的假设条件进行可能性的总结。

而常识推理则是指在进行对话交流时,运用已有的常识知识来分析、解释和回应用户的提问或者需求。

·语言理解

语言理解这部分,讯飞星火大模型实际上跨越了不同语言种类、文本摘要、以及情感分析的多个维度。

首先是机器翻译部分,它可以支持翻译中英法德西等常用语种。说实话,对于常常需要阅读外文文献的人来说,这部分的确算是小福音了,大段的文字直接复制到对话框中就可以一键翻译。

再比如根据文本提取简洁而准确的摘要,可以快速理解文章的核心要点。就拿每天扑面而来的科技新闻来说,一篇关于手机发布的长篇报道,可以直接让讯飞星火生成摘要,或许未来5000字的文章总结下来一句话就够了——“某科技公司发布了一款新型智能手机,采用了最新的芯片技术,具备更强的处理能力和更长的电池寿命。该手机将在下周上市,并有望改变市场格局。”

我这里体验所用到的是一篇全英文的文档,讯飞星火基于自身的文档问答插件,完成了该篇文章的翻译工作并将文档主要内容总结整理了出来。

·文本生成

如果说大模型从生产力工具转为创造力工具,那么最直观的体验就是文本生成的能力。

说实话,在做创意方面,大模型相当于一个“缪斯女神”,它会辅助你给到许多创意灵感。比如,在制定营销方案时,大模型也能根据之前的销售数据和顾客反馈,给出一些实用的建议,比如“最近年轻人喜欢国潮风格,我们可以推出一系列国潮设计的产品。”通过这样的一些内容,我们才能够查漏补缺,生成更全面的策划案。

·数学答题

此外,作为一名互联网从业者,也经常需要和代码打交道,虽然不用达到高级工程师的代码能力,但是还是需要了解并掌握一些简单的代码,讯飞星火在代码生成和解释方面也有着极强的能力,对于像我这种时不时需要用到代码的人来说简直是一大福音,通过代码的注释可以让我快速了解代码的实现原理。

·多模态交互

同时,作为一名自媒体创作者,写文章也是我工作的一部分。一篇好的文章除了有深度的文字之外,更需要生动美观的图片来辅助配合读者去进行阅读,讯飞星火在文生图方面的表现同样出色。

在技术领域,大模型已经成为国内外科技大厂秀肌肉、掰手腕的重要力量。讯飞星火也不止步于此,即将发布的讯飞星火3.5据说是首个基于全国产化算力平台训练的。

如果真的如此,或许下次“掰手腕”时,无须再借助外界力量了。

作者:溪亭日暮

THE END