5月9日,中文通用大模型综合性评测基准 SuperCLUE 正式发布,GPT-4位列全球第一,国产大模型中讯飞科技研发的星火认知大模型则位列总榜第三、国内第一,表现极为惹眼。
该基准测试主要关注三大问题,包括中文大模型在不同任务上的表现、相较国际代表性模型中文大模型的表现达到的程度,以及中文大模型相较人类的表现。该模型可通过多个层面,考验市面上主流的中文 GPT 大模型的能力,涵盖基础能力、专业能力、中文特性能力。
具体而言,基础能力包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力;专业能力:包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力;中文特性能力针对有中文特点的任务,包括中文成语、诗歌、文学、字形等10项多种能力。
(相关资料图)
该机构利用SuperCLUE测试基准,对市面上主流的支持中文的通用大模型进行了评测与排名。从排名中可看出,GPT-4 一骑绝尘,已经非常接近人类的能力;国产大模型中讯飞科技研发的星火认知大模型则位列总榜第三、国内第一。
以下为该机构公布的各个子项目的具体得分。排行榜将定期更新,并于CLUEbenchmarks 官方网站进行公示。
三个关键升级节点
自去年11月30日ChatGPT发布以来,认知大模型技术阶跃持续进化,人工智能在全球引起了广泛关注,掀起了全新的热潮。在多个领域,认知智能都表现出了非常强大的能力。对于人工智能来说,认知大模型成为通用人工智能的“曙光”,它出现的历史意义不亚于PC或者互联网的诞生。
科大讯飞董事长刘庆峰表示,从ChatGPT关注的48个主要任务方向和讯飞开放平台上400多万开发者团队的需求分析,通用人工智能应当具备七大维度能力,包括文本生成、语言理解,知识问答、逻辑推理、数学能力、代码能力、多模态能力等。
基于对通用人工智能的深刻理解与长期以来在相关领域的深厚沉淀,科大讯飞于5月6日正式发布讯飞星火认知大模型,现场实测大模型七大核心能力,并发布了面向教育、办公、汽车、数字员工四大行业应用成果。
从实测结果来看,讯飞星火认知大模型当前已在文本生成、知识问答、数学能力上效果惊艳。
编故事是文本生成的重要能力之一,星火大模型在这方面的表现堪称精彩。“孙悟空和奥特曼也偷偷潜入了会场,他们都争着想做讯飞星火认知大模型的代言人,还为此吵了一架,请根据上述信息创作一个故事。”星火大模型随即脑洞大开,一段生动的故事就娓娓道来。此外,该模型还能写邮件、做方案、写新闻通稿、生成英文宣传,修改英语语法错误等,展现了作为AI助手的多才多艺。
在语言理解上,星火大模型的变现也很出彩。科大讯飞研究院院长刘聪现场问道,“俗话说男子汉大丈夫宁死不屈,但是俗话又说男子汉大丈夫要能屈能伸,请问这两句话怎么理解?如果一个小伙子跟女朋友吵架了,他应该宁死不屈还是能屈能伸呢?”大模型均很好地理解了特定的句子与场景含义,并随着问题的变化灵活调整自己的答案。精彩的回答也让现场观众报以热烈掌声。刘庆峰表示,星火大模型目前的语言理解能力相比ChatGPT还略有差距,但已超越国内同类产品。
在数学能力方面,讯飞星火大模型展现出了“学霸”的气质。除了常规计算、几何、情景应用等,刘聪现场也抛出了复杂的计算题:“花坛里有三种花,一共88朵,其中月季花的数量是菊花的4倍,牡丹花的数量是菊花的5倍少2朵,那么请问花坛里一共有多少朵牡丹花?”星火大模型很快给出了准确的答案,并给出了解题步骤。刘庆峰表示,数理能力一定程度代表了一个大模型的聪明程度,星火认知大模型已经国内显著领先,且相比ChatGPT也具有一定优势T。
此外,刘聪还展示了大模型面向泛领域的开放式知识问答能力。结果显示,该模型具备很好的通识知识,能够对生活常识、科学知识、工作技巧,以及医学知识等应对自如。
刘庆峰还公布了年内大模型技术持续升级的三个关键节点:6月9日,将突破开放式问答、多轮对话能力明显提升、数学能力再升级;8月15日,代码能力升级以及多模态交互能力提升,希望能帮助到更多的合作伙伴及开发者团队;10月24日,将实现通用模型对标ChatGPT,中文超越ChatGPT的当前版本,英文能做到相当水平,并在教育、医疗等领域做到业界领先。
落地四大行业应用
讯飞星火认知大模型技术正逐渐为更多行业赋能。据悉,科大讯飞已发布了大模型在教育、办公、汽车、数字员工等多个方向的行业应用成果。
在教育领域,科大讯飞推出了“大模型+AI学习机”,让AI像老师一样批改作文,像口语老师一样实景对话。在作文批改上,搭载认知大模型的科大讯飞AI学习机T20系列可实现中英文作文类人批改。相较传统学习机只能针对字词标点纠错、识别句式修辞错误这些基础批改,讯飞AI学习机实现了围绕写作要求、分析全篇结构和文采的深度高阶批改。
在办公领域,科大讯飞推出了“大模型+智能办公本”,根据手写要点自动生成会议纪要,助力办公效能进一步提升。面对口语稿阅读困难、纪要整理耗费精力、已有素材难成稿、长篇文章难抓要点等痛点,搭载大模型技术的讯飞智能办公本升级了会议纪要、语篇规整两大功能。在会议纪要方面,办公本将语音实时转写与墨水屏纸感书写相结合,并可对会议记录内容形成一份精简的会议纪要;在语篇规整方面,办公本可去除语音转写文稿中的口语化词汇、过滤冗余词汇,对文本进行润色等,轻松将一篇语音转写文稿规整成书面化内容,阅读效率提升50%。
在汽车领域,科大讯飞已为数千个车型提供业界领先的智能语音交互服务,提供多轮、多人、多区域、多模态的语音交互,累计服务用户超过4610万,在国内汽车智能语音应用市场保持占有率第一。本次认知大模型技术也将让车载人机交互再上一个新台阶,实现更自由、更拟人化的沟通,让汽车驾驶更智能、更安全、更有乐趣。
在数字员工领域,科大讯飞首创新一代基于大模型的生成式RPA,让数字员工更智能,帮助企业员工完成大量重复性工作。以公司招聘事项为例,操作者输入指令后,系统即可自动按照事先设计的RPA脚本,操作计算机中的相应软件,实现业务流程的自动化操作并输出结果,还能进行数据分析,大幅减轻一线工作人员的压力。
除了上述领域外,讯飞星火认知大模型还将赋能包括医疗、城市、政法、工业等在内的更多行业,满足更多专业领域的需求,向更广阔的产业领域延伸。
-
全球第三、国内第一,讯飞星火认知大模型获权威评测认可 天天即时看5月9日,中文通用大模型综合性评测基准SuperCLUE正式发布,GPT-4位列全球第一,国产大模型中讯飞科技研发的
-
葫芦岛市公安局圆满完成“五一”假期安保任务_当前简讯来源:葫芦岛日报“五一”期间,全市公安机关深入贯彻落实上级部署要求,聚焦主责主业,超前谋划,周密部署
-
【图解】明天在3290点附近稳住-环球快看点今天周三,又到了每周一三五写博时间了:上月大盘触碰5178点压力线附近后回落,考虑到前期整理多次止于3226
-
教科书级“兑现力”!最高验资21亿!万科瑧湾悦实名豪宅顶流!_世界即时全国第11座,万科瑧湾悦每一步,皆与高光同在。燃战五一兑现豪宅热销奇绩今年五一期间,万科瑧湾悦到访超30
-
观焦点:新凯家园一期_新凯家园1、我觉得挺好的,16年买的,这边教育资源不像市区,没有太大的学区差距。2、没有名校,不存在好生源扎堆,
-
【快播报】“大小姐”挡BNT风波延烧,郭正亮爆采购内幕,郑丽文告杀人渎职据华夏经纬网报道,鸿海创办人郭台铭近日重提民进党当局挡疫苗一事,更爆料蔡英文办公室前秘书长李大维曾打
-
减肥咖啡品牌排行榜前十名_减肥咖啡品牌排行榜-天天通讯1、雀巢 Nestle2、悠诗诗 UCC3、麦斯威尔 Maxwell4、Kopiko可比可5、咖啡小镇 cafetown
-
涨价也阻挡不了中国人对黄金的爱!一季度金条销售创2019年来新高中国的金条和金币投资需求大幅增加。
-
文胸尺码对照表 内衣正规尺码对照表 世界新要闻文胸尺码对照表:下胸围70CM=32;75CM=34;80CM=36;85CM=38;90CM=40;95CM=42;而罩杯换算:最小为AA罩杯
-
胜者为王 by蛇蝎点点小说-天天消息今天来聊聊关于胜者为王,by蛇蝎点点小说的文章,现在就为大家来简单介绍下胜者为王,by蛇蝎点点小说,希望
-
蛾蚋是怎么出现在房间里的_蛾蚋为什么会出现在房间里的 全球播报欢迎观看本篇文章,小升来为大家解答以上问题。蛾蚋是怎么出现在房间里的,蛾蚋为什么会出现在房间里的很多
-
【山东】枣庄市2023年高素质农民培育拉开序幕_每日快看本网讯5月9日,新型农业经营主体带头人培训在枣庄职业学院举行开班仪式,拉开了枣庄市2023年高素质农民培育
-
当前视点!好美!90后姑娘拍视频宣传家乡走红,真实身份曝光好美!90后姑娘拍视频宣传家乡走红,真实身份曝光,5月8日,打开多个社交平台,关键字围绕“新疆旅游协会秘
-
当前关注:iOS 16.5推送更新 iOS 16最后的版本今天一早苹果推送了iOS16 5RC,也就是iOS16 5准正式版,这也是iOS16的最后一个版本,苹果提到修复了Spotlig
-
全球观点:最新!唐山限产!山西复产!风云突变,钢价再次陷入纠结行情?特别关注据了解,山西省内前期检修钢厂,基于目前市场大环境表现良好的情况下,部分钢厂已经在采购精粉备料
-
全球新资讯:绿色消费季 精彩夜生活随着天气转暖,北辰区近日在双街镇推出2023绿色消费季暨潮北辰夜精彩活动。尚河城双街市集集结60多个品牌、
-
5月10日生意社OX基准价为8300.00元/吨5月10日,生意社OX基准价为8300 00元 吨,与本月初(8800 00元 吨)相比,下降了-5 68%。OX年度统计(2022-05-10--2023
-
急促的铃声突然响起,正准备拍摄离别合影的水兵迅速进入战斗状态后甲板的水兵■陈国婷整理资料时,我意外发现了一组被命名为“后甲板的水兵”的照片。这些照片勾起了我的回
-
硬核解说员 | 时隔一年,试驾毫末智行城市NOH,向老司机的水平不断靠近通过此次试驾,我们可以看到,毫末智行的城市领航辅助驾驶已经是一套相对成熟、完整的系统。在重感知路线的
-
【焦点热闻】促消费燃旺烟火气|“五一”期间 东河接待游客创新高日前记者从东河区文化旅游广电局了解到,今年“五一”假期期间,东河区累计接待游客20 27万余人次,突破201
-
2022年平均工资出炉!IT业最高,房地产业下降|精彩看点从城镇非私营单位看,东部、中部、西部和东北地区年平均工资分别为13 3万元、9 0万元、10 1万元和9 0万元,
-
文胸尺码怎么选_计算罩杯的方法欢迎观看本篇文章,小升来为大家解答以上问题。文胸尺码怎么选,计算罩杯的方法很多人还不知道,现在让我们
-
全球球精选!用普通黑笔做一只枪_自制发射器1、需要激光头(LD),对应波长功率足的驱动板,透镜散热桶等杂件。2、拆光驱比较容易失败(如果不熟悉的话
-
肠镜检查前准备事项_肠镜检查前注意事项有哪些1、做肠镜检查前的注意事项: 检查的前一天中午和晚餐进易消化的半流质饮食;晚8~10时服医生给予的泻药,
-
40+女人夏季穿度假休闲风,不仅时尚舒适显年轻,还提升档次夏季来临,期待的度假季也不远了,在可以释放身心的度假胜地,想通过选择对皮肤温和的天然面料,和宽松廓
-
在wps中怎么调整表格的行高_wps文档调整表格行高1、wps文字里的表格不能调整行高可以通过以下步骤解决:鼠标全选需要调整的表格,右键弹出【表格属性】,或
-
美亚柏科:5月8日公司高管李国林减持公司股份合计1500股|全球微头条证券之星讯,根据5月9日市场公开信息、上市公司公告及交易所披露数据整理,美亚柏科(300188)最新董监高及
-
新城控股前4个月合同销售额近287亿元新京报讯(记者张建)5月9日,新城控股集团股份有限公司(简称“新城控股”)发布2023年4月份经营简报。1-4
-
焦点!走进乡村(社区),四川启动第三届民法典“三个一百”主题宣讲活动日前,省委依法治省办、省委宣传部、省委网信办、民政厅、司法厅、人力资源和社会保障厅、农业农村厅联合印
-
热消息:广州第二批住宅供地清单出炉!涉及花都这些片区→广州第二批住宅供地清单出炉!涉及花都这些片区→,广清,供地,花都区,广州市,番禺区,住宅用地