从数据到高质量数据集 数据标注合规是关键

业界
TIME
2025-05-06 11:55
通信信息报 杜峰
分享

  第八届数字中国建设峰会于4月29日至30日在福建福州举办。本届峰会聚焦突破数据领域堵点难点问题,围绕如何进一步实现数据要素市场化价值化,如何进一步丰富并用好已有工具箱为数据供得出、流得动、用得好、保安全架桥、铺路、筑基等展开。峰会期间,中国电信发布星海·多模态数据智能标注平台和星海·多方隐私计算工具服务,推进高质量数据集和数据安全流通利用,助力数据产业发展。

  数据产业规模扩展与生态完善并进

  国家数据局数据显示,2024年,全国数据市场交易规模超1600亿元,同比增长30%以上。数据标注产业发展也取得了阶段性成果。我国七个基地的数据标注规模达17282TB,形成医疗、工业、教育等行业的高质量数据集335个,带动数据标注相关产值83亿元。

  以中国电信为代表的通信运营商,依托云网数智安一体化优势,已建成覆盖全国的7大数据标注基地,形成算力+平台+场景的生态闭环。中国电信以星海·数据要素服务平台为着力点,支撑全国7省+30地市级公共数据要素运营,依托云网数智安一体化优势,助力打造国家级数据标注试点基地,例如在四川成都新津区,联合地方政府打造国家级数据标注基地。

  高质量数据集是技术创新燃料

  高质量数据集是人工智能发展的基石,其价值不仅在于技术突破,更在于推动社会经济的全面数字化转型。

  中国电信四川公司与成都市国家数据标注基地牧山园区合作,从地方应用痛点出发,利用已采集的19个地市方言语音大数据,成功构建了四川方言高质量数据集,并基于此训练出四川方言大模型,支撑落地政务服务热线、医疗问诊等场景,提升座席人员工作效率超20%。

  凭借海量数据资源和自主可控技术优势,中国电信形成了多模态数据智能标注能力,本次峰会,中国电信展出了星海·多模态数据智能标注平台,集成50余种数据标注工具,以大模型自动预标注技术提升标注效率17倍,复杂任务一致性突破95%。

  产业协同推进数据标注合规

  数据标注作为生成式AI的第一道安全阀,其合规性决定着数据要素流通的根基。中国电信通过融合量子加密、区块链技术,打造蓉数公园·新津节点,实现数据标注全流程可追溯。推出的大模型多方隐私计算训练平台创新性地融合弹性调度+隐私安全技术架构,支持至少3种分布式优化聚合算法,可灵活适配10余方参与的大规模隐私协同训练。

  同时中国电信加强生态合作,联合整数智能、路米科技等10余家中小企业,构建数据标注、人才培训、智能服务等生态合作圈,开放电信技术平台及工具链能力,扶持中小企业发展;联合上海库帕思、中文在线等10余家数商企业,打造语料共建共享生态联盟,促进跨领域跨行业数据集进一步开放;打造星海企业级可信数据空间,即星海数据开源社区,提供一体化数据治理、模型训练等供需,促进上下游企业共建共用。

THE END
免责声明:本文系转载,版权归原作者所有;刊载之目的为传播更多信息,如内容不适请及时通知我们。

相关推荐

1
3