首页 > 实时讯息 >

库帕思:专注AI语料,以“数据炼金术” 赋能大模型时代

0次浏览     发布时间:2025-03-05 14:35:00    

一台体积接近登机行李箱的语料终端,或许会在不久后给基层医院带来重要赋能。基于其内置的医疗语料库和模型,它有机会成为全科医生的“数字副手”,不仅能完成临床信息录入、病历自动生成,遇到疑难问题时还可以提供专科医生级别的辅助诊断能力。

这台设备背后的操盘者,是一家成立时间不足一年的企业——上海库帕思科技有限公司。可以说,当人们的关注点集中于算力和算法时,库帕思却打出另一张王牌——高质量的语料数据,希望以“数据炼金术”,完善人工智能(AI)行业的底层逻辑。

大模型时代的战略资源

所谓语料,某种意义上就是AI大模型的“教材”,是精心筛选、清洗和标注的高质量训练数据,包括文字、图片、声音等形态,专门用来教会AI大模型理解人的思想以及物理世界。缺乏语料,模型训练就会变成“无米之炊”;如果只有低质量数据,就可能让训练成本大幅飙升。

过去两年,AI大模型行业出现爆发式增长,其中,对模型训练过程中的语料要求也越来越高。但数据异构、质量参差的语料,就像是一锅“乱炖”被喂给AI,某种程度上,这制约了大模型行业的发展。同时,优质资源的稀缺、数据流通的壁垒,也使高质量语料价格居高不下。有统计显示,对大模型创业企业而言,目前花在语料上的成本超过企业运营开销,仅次于算力支出。

语料作为战略资源,其价值和短板都在大模型热潮中越来越清晰。作为行业领跑者,上海也一直在思考,如何通过完善产业生态、完善基础设施,为大模型赋能新质生产力发展加一把劲。由此,在市委、市政府支持下,上海以国资牵头、联合11家单位共同组建库帕思公司,它成为国内第一家专注AI语料的战略性功能性平台企业。

用AI的方法制造AI燃料

此前,关于如何将数据加工成语料,行业认知相当粗放。不仅如此,语料生产加工的过程也非常原始,高度依赖人工。对库帕思来说,用AI时代的技术和思维,将原始信息转化为工业级的“大模型燃料”,从而为行业降低语料成本,让大模型触手可及,是他们的梦想,也是使命。

自从去年3月运营以来,短短几个月,库帕思就在行业内首次完成语料战略平台“四梁八柱”的搭建。库帕思CEO黄海清告诉记者,这个体系的核心就是一个综合语料库和若干个行业语料库构成的语料基座,以及一个集成数十种技术功能模块的语料运营平台。此外,库帕思还形成自己的语料评测方法论,打造“价值对齐”体系,并积极发展生态合作伙伴。

每天,在库帕思平台上,数百个AI自动算子会按照工程师们对语料的设计,对数据进行多道加工,目前日生成语料已接近1TB,预计到今年年底,可望形成1000TB的语料数据集。

这样的高质量语料数据供应体系,正给行业带来积极改变。比如,在基础模型领域,一些创业公司因为库帕思的存在,开始精简自己的语料团队,从而将有限的精力和资金集中在算法层面。在模型应用方面,库帕思正围绕“模塑申城”行动所确定的“6+5”重点行业和领域,构建医疗、金融、制造、具身智能等垂类语料库。

正如本文开头提到的,其首创的医疗语料终端之所以能用远低于GPT-4o的算力消耗,展现出不亚于其的能力,关键就是因为内置了库帕思首批形成的医疗行业语料库。语料的这种能力和潜质,也初步印证了库帕思的判断:未来,高质量的语料数据集有可能成为提升大模型能力上限的决定性因素。

面向行业贡献“上海智慧”

在语料这个新兴行业,的确有太多需要“摸着石头过河”的地方。作为国资背景、市场化运营的功能性平台企业,库帕思要做的不仅是生产语料产品,更要构建和完善行业生态,要充分利用自身优势,代表行业先行先试。

不久前落幕的2025全球开发者先锋大会上,库帕思联合穹彻智能、智元机器人、国家地方共建人形机器人创新中心等具身智能领域的领军企业,共同开始探索具身语料,希望能为人形机器人的训练提供支撑。据透露,其工程一期将着力打造出“生产伴随”“物理场遥操作”“仿真合成”等语料数据采集模式,聚焦工厂、医疗、零售、办公、家居等12类场景,覆盖动作技能250余个,构建起规模达5000万条的具身智能语料数据,基本形成国际一流、国内领先的具身智能语料数据供给体系和标准规范体系。

同时,库帕思也与更多垂直行业专家合作,希望持续发掘语料的潜在应用方向和场景。比如,如何利用语料让AI客服的话语听起来更有人情味、让AI智能体的思维更缜密、让AI投资助手在面对多变的市场时反应更加敏锐。

当然,最大的场景还是要全面赋能大模型时代的创新。作为“模塑申城”行动的重要一环,库帕思不久前发布“模塑申城语料普惠计划”,将投入上亿元,面向广大中小AI企业,一方面为他们提供开源语料服务,另一方面,也希望从中找到生态合作伙伴,一起打造面向未来产业的稀缺数据集。

很多人认为,我国AI发展的最大优势在于丰富的场景和数据。从这个角度出发,年轻的库帕思非常需要更好发挥行业枢纽和生态催化的作用,进一步锻造“语料长板”,为全国大模型发展贡献“上海智慧”。

相关文章
“好品山东 优特农品”上海推广中心启动 百度智能云启动“大模型行业合伙人计划” 共享10亿大模型商机 上交所、深交所、北交所:5月1日-5月5日休市 全年累计减免1.82亿元,上海:离岸贸易印花税政策先行先试成效显著 闽清启动“四轮驱动”专项行动 重磅来袭!突然,涨停潮! 全球最大车展在上海启幕,解放日报头版头条:“看懂上海车展,就能预判未来” 华为乾崑智驾ADS 4 “高速L3”官宣 11主机厂“现场齐贺”

推荐文章

热门文章