烟台市大数据局发布《通知》 公开征集遴选一批高质量数据集

烟海e家 2025-09-18 07:09

  “什么样的数据集才算高质量?”“征集有难度吗?”“征集之后怎么用?”……近日,烟台市大数据局发布了《关于开展高质量数据集征集工作的通知》,面向全市企事业单位、社会组织等,公开征集遴选一批高质量数据集。针对此次征集工作,记者就如何开展、为什么要征集等,采访了烟台市大数据局相关科室。

  为什么要征集?

  ‌高质量数据集,‌是指具有规模性、多样性、准确性、规范性和可追溯性等特征的数据集合,能够为人工智能模型训练、行业应用创新提供可靠的数据支撑。

  “数据集一般具有数据质量高、多模态融合好、应用场景实、流通性强的特点。比如,数据更加完整、可追溯,涵盖了文本、图像、视频等多源数据融合,可以围绕具体场景例如肺癌诊断、低空巡检等方面构建起数据集,同时对部分项目还提出建设‘可信数据空间’‘开放平台’‘数据枢纽’等需求,为推动数据要素市场化奠定基础。”烟台市大数据局数据资源科工作人员陈昌昊介绍。

  “我们为什么要征集高质量数据集?”

  陈昌昊介绍,高质量数据集是构筑国家核心竞争力的关键要素和维护国家安全的重要屏障。尤其是对于金融、能源、交通、国防等关键领域,高质量数据集的建设与治理更是保障经济社会稳定运行、提升国家治理体系和治理能力现代化的内在要求。同时,高质量数据集是驱动产业深度转型和催生重大科技突破的根本前提。“海量、优质、多样的数据集是人工智能性能跃升的基础。”

  她举例:“从产业的角度来说,我们要落地一个产业项目,这个项目的上下游链条目前的供需情况如何,如何合理地规划这个项目,都需要大量该产业的数据集来分析。那落脚到我们身边,比如:一个商家要选址一个咖啡馆,选在哪里、研发哪些品类,都需要周边社区的人口、年龄等数据来做支撑,这样有利于选址更精准。”

  近年来,我市积极开展了高质量数据集征集工作,范围涵盖科学研究、工业制造、现代农业、智慧能源、交通运输、金融服务等18个重点领域,涌现出一批颇具特色的数据企业,打造了一批高质量数据集。

  例如,应辉环境科技“全国76个行业排污许可数字链组数据集”、蓝天云“全国138个城市全媒体广告数据集”、微程之家“全国2万家文旅企业产供销管数据集”、数图信息“全国连锁零售行业商品品类数据集”、海森大数据“全球高质量有机化合物数据集”、云都海鹰“面向智慧农业的低空多源数据高质量数据集”等数据集在国内都处于领先水平。另外,“东方慧眼星座农业遥感数据集”“烟台市交通动态要素高精度特性、行为和规律数据集”等10个高质量数据集还入选了2025年山东省“数据要素×”创新应用项目奖补对象名单,数量居全省第二。

  如何“查漏补缺”?

  尽管如此,但对标国内优秀高质量数据集建设情况,我市目前在数据规模、质量、价值等方面,还存在一定差距。

  据介绍,目前,北京、上海、广东、江苏、四川等地数据集建设数量相对领先,主要集中在医疗健康领域、工业制造、文旅、教育、金融等,以及能源与环保、交通与物流、农业与生态和新兴领域这些行业。从建设主体看,央企/国企占40%、科研院所占30%、高校和医院占20%、其他科技企业占10%。

  “我们有头部的大企业,但是仅仅靠头部企业来撑起来,还远远不够。”陈昌昊直言,“我们的垂类领域高质量数据集总量并不充足。”此外,各单位、企业对数据的价值意识,以及是否有意愿去增加“收集数据”这一个环节,都是影响数据集建设的因素。

  记者注意到,此次征集主要涵盖工业制造、现代农业、商贸流通、交通运输、金融服务、科技创新、文化旅游、医疗健康、应急管理、气象服务、城市治理、绿色低碳等12个行业领域和低空经济、具身智能、智能驾驶、智慧海洋、生物制造等5个创新领域及其他特色领域的高质量数据集。

  为“查漏补缺”,烟台也在为做好高质量数据集的相关工作谋实招。

  “比如在生物医药与健康医疗领域,我们会探索联合头部药企以及各大医院等企事业单位,整合药物研发、药物应用等方向,共同建设肿瘤早筛与诊疗数据集、放射性药物研发数据集、中医康养服务数据集等。”陈昌昊说。

  据悉,目前烟台正在探索设立烟台市高质量数据集专项扶持资金,对入选国家/省级试点项目的企业给予配套支持,并研究制定《烟台市高质量数据集建设指南》,明确数据标准、安全规范、评估体系,探索推动数据要素配套园区建设,提供算力、存储、标注、合规等数据集建设公共服务。

  在企业层面,鼓励行业龙头企业牵头建设行业级数据集,在智慧制造、智慧农业、智慧港口、智慧医疗等领域开展数据集试点应用,形成闭环。联合烟台大学、鲁东大学、中国科学院烟台海岸带研究所等高等院校和科研机构,依托智慧城市创新实验室,开展数据标注、隐私计算、AI建模等关键技术攻关,提供数据脱敏、质量评估、模型测试服务。

  “我们也在推动数据合规流通与价值释放。”烟台市大数据发展集团工作人员隋明琪介绍。

  今年5月,烟台市数据要素服务平台正式开通,集成“公共数据运营、企业数据开发流通、数据产业培育”服务,实现数据“供得出、流得动、用得好、保安全”,为政府、企业、社会提供全流程、一体化的服务解决方案。8月,“中国数港”在莱山区开港,它不仅是“数据交易所”,还是涵盖数字流通枢纽、产业孵化基地、招商服务载体、人才造血中心四大功能布局的复合型平台。

  征集了怎么用?

  那么,征集了这些数据集,到底要怎么用呢?

  陈昌昊提到了山东鼎立农牧科技股份有限公司,“鼎立农牧从2019年就开启了自己的大数据智能化养鸡探索。”

  据悉,该企业成功开发了基于肉种鸡无应激监测技术的综合数据处理、统计分析、预警及自动控制系统,构建成功基于生产环境与产蛋率相关性的生产性能评价模型及可视化程序,搭建成功基于肉种鸡多维度环境数据采集分析处理智能管控平台这三项绝对技术上的突破,实现了从“单栋鸡舍-整个鸡场-全公司产业链”的自动化、信息化、智能化高效精准管理。

  通过平台,种鸡生产性能较同行业提升3%以上,降低工人劳动强度30%以上。智能环控技术可使种鸡呼吸道疾病发生率降低30.71%;精准饲喂技术稳定每天每只鸡可节约饲料1.0~1.5g;使用绿色低碳恒温供暖技术,每饲养1万套肉种鸡可节约标准煤35吨;粪污资源化利用技术可年发电1100万KWH,生产有机肥万余吨。

  陈昌昊还提到了微程之家“全国2万家文旅企业产供销管数据集”。“该企业是一家给全国景点做数字化转型升级的企业,通过将景点旅客的信息清洗、分类等,训练文旅类大模型。这些数据可以用于景点的项目运营,比如哪个项目人流量高、需求大,就可以根据这一数据在这周围布局新的项目或产品周边。”

  此外,今年6月,山东烟台烟草有限公司申请的“烟台烟草消费域数据集”获得烟台市数据资产登记评价中心颁发的数据产权登记证书,成为全国首张具备司法效力的数据产权登记证书。这一数据集是烟台烟草在合法合规前提下,通过深度治理形成的高价值脱敏数据资源。依托该数据集,能够准确把握消费趋势,开启精准营销,创新多元消费场景,提供从重点品规分析,到消费行为研究,再到消费者营销活动保障的全链路数据支撑,有力推动数据要素赋能烟草行业高质量发展。

  还有位于烟台的国工智能科技有限公司,其瞄准AI+万亿级化工市场赛道,从400多万篇化学文献中抓取数据,结合自然语言大模型技术及化学、量子力学、分子动力学等进行训练,尝试“用数学的方法预测化学”。在此大模型下,化工企业可以进行“合成推演”“催化剂设计”“高分子配方与性能预测”等15种垂直领域模型的协同分析,真正实现对化工场景的“深度思考”。检测结果显示,该模型的定量准确率和定性准确率均超过90%。可以说,国工智能大模型让科研人员拥有了“预知实验结果的能力”,不仅节省了实验时间成本,还提高了实验结果的准确性,提升了研发效率。

  “这些场景的应用,全部都基于高质量的数据集。”陈昌昊说。

  记者 慕溯 通讯员 孙文杰

法律支持单位:山东助商律师事务所