${channel_name!""}
新闻热线 024-23187042 值班电话 024-23186204
东北新闻网
北斗融媒
您当前的位置 :东北新闻网>>辽宁频道>>中央媒体看辽宁
中国之声丨辽宁高质量数据集赋能“12345”热线

2025-10-06 17:44:43    来源:中国之声 分享到:

  AI竞赛的下半场,开打!国家队出手规范“高质量数据集”,将如何优化你我生活?

  “人工智能”无疑是当下最火爆的领域之一,它需要算力、算法和数据的“三角支撑”,其中,数据在推动“人工智能+”过程中发挥着关键作用,特别是高质量数据集的建设至关重要。

  我国作为第一个把数据作为生产要素的国家,2024年,我们已布局了成都、沈阳、合肥等7个数据标注基地,助力高质量数据集的建设。在国家数据局9月发布的104个高质量数据集典型案例名单中,唯一一个聚焦 “12345”热线的案例——辽宁《省域政务热线高质量数据集》受到社会关注。高质量数据集的建设如何让“12345”更聪明?又会如何深入改变我们的生活?

  辽宁高质量数据集赋能“12345”热线

  张时佳:以前12345热线是总客服,咨询解答为主。但是现在我们是什么?是国家治理能力体系现代化的一个重要组成部分,也就是治理中心。

  辽宁《省域政务热线高质量数据集》建设总负责人、中国通信工业协会人工智能工作坊导师张时佳向记者介绍高质量数据集赋能后的“12345”热线。

  近年来,辽宁以20多年社情民意数据库为基础,构建了覆盖全省15个城市、48个行业、222类问题的高质量数据集,推动政务热线从“被动应答”向“主动治理”跃升。那么,这个案例是如何推动热线从“总客服”到“治理中心”升级的呢?核心就是高质量数据集的建设。

  张时佳说,最终改变我们生活的是人工智能大模型,也就是AI,而真正影响AI是否准确、快捷的关键就是给AI投喂的数据集是否准确、专业。

  张时佳:我们全省是统建系统、统一标准,而且设立的地方标准覆盖了全省15个城市和各省直行业领域。是通过统一的数据标注标准、语义解析技术和人机协同审核机制,确保了数据的高质量和一致性。目前已经积累了四亿余条的数据,多模态数据包括语音、话务、图像数据的总量多达16个Tb。历史数据我们每月要进行更新,更新的比例大致上是5%到15%左右。这样就为我们大模型的训练学习提供了充足的数据资源和信息要素。

  那么,如何让AI听懂老百姓的“口语化提问”,并精准匹配政策法规的呢?张时佳打了个比方,他说,这就像学生上学,选科目、编教材、刷习题、期末考试,训练人工智能也需要这些步骤。

  张时佳:第一步我也是要定科目,我这个所谓定科目就是定场景。定场景在我们这个政务领域就相当于定行业,比如说公安的、住建的等等一系列。定完科目之后,我们要写教材。比如说我要分析公安的问题,那公安细分成什么呢?它可能有交通的、有治安的等等一系列,这样把它分类,这个过程就相当于编撰一个教材。它覆盖了我们48个行业和222项问题类型,形成了这么15类的典型行业和知识库。定完教材之后,刷卷子,做例题。我们要构建全生命周期的数据采集和预处理。我们要保证这个例题它的完整、它的准确、它的一致、它的及时、它的安全。再之后就是我们这个卷子做完了要判分。标注之后到底是对是错?特别是大模型时代,他很多东西都是靠推理出来的,推理就存在他这里存在幻想,不准确,你每次问他答得都不一样。这里我们就把模型验证和数据标准放在一个非常重要的位置。我们要保证它的准确率,特别是政务领域对准确率要求是非常高的。

  由业务专家与省级部门共同“编教材”,再通过人机协同标注海量案例,训练AI识别风险苗头、群体事件等关键问题……一整套流程走下来,一份高质量数据集就建设完成了。张时佳说,高质量数据集投入使用后,不仅会提高“12345”客服回答问题的准确性,还会在后端提高风险问题、共性问题预警的准确度。

  张时佳:比如说我需要剖析出哪些是风险问题,哪些是苗头问题,哪些是群体事件。这样的数据如果以前做都是需要人来看,但是人记不住。比如说一个场景,哪些是房屋质量问题,他会判定你家里这个墙纸破个皮儿都叫房屋质量。这显然不是我们12345领域想抓到的重点风险问题,这样我就需要把这些数据进行分类清洗治理之后,投喂到我们这个大模型机器人。它才能很好地鉴别我们哪些问题属于什么样类型,该怎么样去治理,这样会大大提升我们治理问题的效能。

  国家7个数据标注基地推动高质量数据集建设跑出“加速度”

  2024年4月1日,全国数据工作会议提出“探索建设数据标注基地”。 5月24日,国家数据局发布了7个承担数据标注基地建设任务的城市名单。自此,我国数据标注基地崛起。那么,目前,7个数据标注基地都有哪些进展?下一步又将如何为人工智能提供源源不断的高质量数据集呢?

  数据标注是AI时代的“基石工程”。在国家数据局发布的全国数据标注优秀案例中,沈阳市入选多个案例。辽宁省数据局副局长刘洋介绍,通过建设,基地的数据标注产业规模从2024年初的2亿元跃升至超24亿元。

  刘洋:目前,沈阳国家级数据标注基地已标注数据超7100TB,形成37个行业高质量数据集并应用于43个大模型,引育标注企业58家,带动从业人员超1.1万人。

  辽宁的实践是国家推动高质量数据集建设的一个缩影。国家数据局局长刘烈宏此前指出,截至2025年6月,我国已建设高质量数据集超3.5万个,总量超400PB,相当于国家图书馆数字资源总量的140倍。各地数据交易机构挂牌的高质量数据集规模达246PB,累计交易额近40亿元。

  刘烈宏:以北京数交所为例,高质量数据集占交易总量的比例从去年的10%跃升到目前的近80%。上海、天津、安徽等地正在试点“数据语料作价入股”等新模式,引导企业将高质量数据集折算为股权投入到相关企业。经过一段时间的努力,国内多数模型训练使用的中文数据占比已经超过了60%,有的模型已达到80%。

  目前,全国仅有7个城市探索高质量数据集的建设,该如何让这些高质量数据集能够跨区域复用并产生更大的价值呢?张时佳给出了肯定的答案:

  张时佳:我现在已经在外省做相应的赋能推广。大致上需要从建设到落地,它实际上大概需要两个月。我先把我形成的高质量数据集先赋能到外省,他已经可以用了,只不过这个时间点他的准确率不是特别高,大概准确率是85%左右。然后再结合当地的,比如说上海他讲这个控烟,它有它特定的场景。在海南他就讲这个台风。这样小的细分领域场景,我再做相关的优化迭代升级,它的准确率就可以提高到95%以上。

  随着中文数据在国内大模型训练中占比突破60%,以辽宁政务热线为代表的高质量数据集正持续为公共服务注入智慧动能。从一条热线的响应机制升级,到全国范围的数据要素市场培育,高质量数据集正在成为推动“人工智能+”落地、提升治理效能的核心支撑。

责任编辑:冯庆洋

东北新闻网微博

北斗融媒

*本网站有关内容转载自合法授权网站,如果您认为转载内容侵犯了您的权益,
请您来信来电(024-23187042)声明,本网站将在收到信息核实后24小时内删除相关内容。

${channel_name!""}