文心一言拿下国内大模型首位!
近日,全球增长咨询公司弗若斯特沙利文发布了《2024年中国大模型能力评测》,评测显示,百度文心一言稳居国产大模型首位,拿下数理科学、语言能力、道德责任、行业能力及综合能力等五大评测维度的四项第一。现正逢文心一言发布一周年之际,自去年3月文心一言首发至今的文心大模型4.0版本,用户们见证了它的快速发展。这种进步不仅体现在搜索平台和工具的更新迭代上,更标志着人们在信息获取、理解与应用方面的全面创新。在过去这一年,以文心一言为典型的大模型行业迅猛发展之际,通过最新的成就,我们看到了中国大模型产业增长的新活力。近期,沙利文发布的《2024年中国⼤模型能⼒评测》对国内主流的15个大模型进行了横评,从而将中国大模型分成了三个梯队。如下图所示,百度、腾讯、阿里等互联网大厂旗下大模型位于第一梯队,综合表现更为优异。其中,文心一言能力最为全面,五项评测维度均为优势能力,并取得四项第一。
评测主打一个全面综合,维度包括通用基础能力和专业应用能力两大方面。具体来说,通用基础能力重点评估⼤模型在语言理解、知识储备、道德风险控制等方面的表现,以揭示其在自然语言理解和交互水平上的能力。而专业应用能力则着重检验⼤模型在实际应用中的效能与价值,通过考察其在任务规划、超长文本处理、行业内容生成等方面的表现,以衡量⼤模型在不同应用场景下的实际价值产出能力。报告显示,文心一言在通⽤基础能⼒评测中超越部分国际大模型,能够精确解析⽂本、捕捉语义,并⽣成符合语法和语境规则的⽂本。但我们也能看到国际领先模型在通⽤基础能⼒和专业应⽤能⼒上略优于中国领先模型。整体测评中,文心一言拿下数理科学、语言能力、道德责任、行业能力及综合能力等五大评测维度的四项第一,在21个细化二级维度均表现突出。
沙利文预测,2024年,大模型的技术发展将趋向多功能与小型化,同时产业端将强调自主研发和行业标准化,而伦理责任和数据标准规范将成为持续发展的关键。根据国家数据局3月25日发布的最新工作报告,中国10亿参数规模以上的大模型数量已超100个,行业大模型深度赋能电子信息、医疗、交通等领域,形成上百种应用模式,赋能千行百业。千行百业的客户与应用正成为国产大模型的“新考场”,AI根技术的“试金石”。以“带头大哥”文心一言为例,过去一年,百度基于独有的四层AI技术架构,分别从芯片、框架、模型和应用层面出发,迭代技术。同时为了让更多人用起大模型,百度推出了两款MaaS产品,用于应用开发的千帆AppBuilder和用于专有模型开发精调的千帆ModelBuilder,累计帮助用户精调1.3万个大模型,服务8万企业用户,帮助用户开发出16万个大模型应用。截至目前,文心大模型的日调用量已超过5000万次,季度环比增长190%;去年12月,约有2.6万家企业调用文心大模型,季度环比增长150%。三星、荣耀、汽车之家等知名企业均与百度达成合作。总的来说,只有技术和客户应用两手抓,大模型发展才是抓住了“牛鼻子”。随着2024年的“大模型竞争”进入更为竞争激烈的阶段,我们预见到大模型行业的竞争格局将经历一次新的洗牌。一方面,模型技术的持续迭代和评估比赛将不断突破技术限制;另一方面,大模型技术与各行各业的融合将会加强,推动新的标杆性“灯塔案例”涌现,这些案例将助力行业筛选出更有能力的参与者。