21世纪经济报道记者 周潇枭 北京报道 政府工作报告指出,制定支持数字经济高质量发展政策,积极推进数字产业化、产业数字化,促进数字技术和实体经济深度融合。深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群。
全国政协委员、中国科学院院士、北京大学讲席教授陈松蹊今年两会带来的提案跟“数字中国”建设相关,他建议加强数据分析人才培养、推进公共数据开放,这样中国才能在全球数据赋能竞赛中成为“领跑者”,才能更好地推动实现科技自立自强。
近日,21世纪经济报道记者带着相关问题专访了陈松蹊。陈松蹊表示,中国发展人工智能要走自己的路,可以把深度学习和统计学结合起来,走一条更效能更绿色的发展之路。
(全国政协委员、中国科学院院士、北京大学讲席教授陈松蹊,采访者供图)
数据驱动经济腾飞有经典案例
《21世纪》:今年两会你带来的提案,有一份是关于加强数据分析人才培养。在推进人工智能发展过程中,数据起到什么作用?数据分析起到什么作用?
陈松蹊:人工智能的算法是基于数据,基于高质量数据。人工智能的基础,一个是计算机,一个是统计学。像人工智能大模型,就是基于大量的、无序的、有偏差的数据,应用统计思想、统计分析方法,构建的分析决策模型。
近些年,人力资源部发布的数据显示,我国数据分析人才非常欠缺。大量数据要真正实现“赋能”,需要经过数据分析,因为数据存在随机性、误差等特征。只有通过分析数据才知道其质量、价值、是否可以赋能;只有经过统计分析才能真正用于决策。
统计学是一门基础学科,各个学科的实证分析,都需要用到统计学。统计学科数据赋能的历史已有150年,在农业、工业、生物制药、医学、金融等领域都有广泛的应用。
像日本经济实现腾飞很关键的一环在于1950年代开始使用统计学的质量控制,在数据分析的基础上提升了工业产品质量,是数据驱动经济腾飞的经典案例。药物临床试验要做的实证分析,是通过实验组和对照组来对比验证药物是否有效,这里面数据的采集分析需要用到统计学方法。美国几个大的药厂都雇佣600名统计博士。另外一个数据赋能的成功案例是信用卡公司,信用卡个人信用风险评估,就是基于大量个人数据,应用统计学方法建模分析对不同客户进行风险打分。近年来,部分统计学毕业生进入互联网公司,跟算法工程师一起完善算法。
我们团队之前监测大气污染的治理效果,就在考虑统计团队可以贡献什么。因为此前评估空气污染治理效果,主要基于观测到的大气污染平均浓度,但是大气污染受到排放、气象条件等多因素影响。我们应用统计学方法剔除掉气象因素,排除掉“天帮忙”的情形,基于排放来监测大气状况,来评估地方大气治理的效果,这样的评估会更加公平有效。
加强统计分析来挖掘数据生产力
《21世纪》:我国大数据产业发展多年,但很多大数据公司似乎难以盈利,在你看来背后的原因是什么?
陈松蹊:我国大数据产业发展有十多年了,此前很多公司侧重在卖硬件,在显示、存储、算力等方面投入较多,但是在数据分析这块还比较欠缺。要真正实现数据赋能,不能只是配备硬件,需要在某个领域里深耕,真正利用数据分析实现科学决策,这样才能真正盈利。现在要补齐数据分析能力,基于行业特点通过数据分析,才能判断数据的质量和价值,才能摸索出数据赋能的路径,才能释放数据的生产力。
数据赋能现在有两条路,一条是自上而下,一条是自下而上。“自上而下”就是大模型的应用,使用通用模型来解决问题。但是,大模型耗电量很大,需要使用很多超算,训练模式也比较复杂,通用大模型下沉到具体企业还有很长的路要走。对于企业而言,其实更适合“自下而上”,就是企业把自己产生的数据先分析利用起来,在此基础上解决企业、行业现实的问题。数据赋能是一个长期事业,需要企业有自己的数据分析师,而不是只是找短期咨询师,咨询完后就走人。
数据是国家或企业的战略资源,但是数据本身不会自动赋能,要通过数据分析才能实现。通过数据分析挖掘数据生产力,是数字中国建设的一个关键。
统计分析让人工智能更高效更绿色
《21世纪》:去年美国的ChatGPT,今年开年的Sora,都让大家惊讶于人工智能的发展。中国的人工智能应该朝着什么方向努力?
陈松蹊:中国需要走出自己的路,不然总是跟在别人后面。现在大模型主要靠算力,也消耗很多能源,中国可以考虑是否能让人工智能变得更绿色,比如把深度学习和统计分析结合起来,在前端做更多聪明的事情,减少一些蛮力投入,这样对能源的消耗不会那么大,让人工智能的发展路径更加绿色高效。
公共数据开放需建立规范机制
《21世纪》:你今年还有一份提案,建议“加强公共数据共享,推动科技数据自立自强”。公共数据的开放,现在是否变得更迫切?在推动公共数据开放共享方面,有何建议?
陈松蹊:数据是最新的生产要素,新质生产力的发展往往需要数据驱动。要想数据赋能,要想弯道超车,需要有顶层设计,需要在数据标准、交易制度、数据开放等方面做更多工作。2023年专门成立国家数据局,就是为了更好推动相关基础工作。
科学家和企业对公共数据都有需求。比如,智慧农业对气象、地表、土壤等数据都有需求。科学家们需要稳定的数据来源,因为做科研发表时所用数据其他人也要可以获取,用于重复验证,因此公共数据对外公开的标准和格式都应该有规范,不要随意更改。
要推动实现高水平科技自立自强,首先需要提高公共数据的开放度。中国科学家可以基于中国海量数据,构建高质量的数据集,进而推动相关研究、人工智能往前发展。
因为国内公共数据获取存在困难,我国科学家大量使用国外的公共数据进行科学研究。比如英国生物银行基于30万大样本人群的遗传、生活环境和健康数据,是脑科学、生物统计、人口遗传等学科研究常用的数据来源。华为的盘古气象大模型,是基于欧洲气象中心的数据,构建了再分析数据集,进而训练成功的。世界卫生组织发布的各国流行病数据,也是开展相关研究的重要公共数据来源。
在公共数据开放方面,政府可以带个头。那些不涉及国家安全的数据,诸如经济、地球科学、交通、气象等数据,应该尽可能多地公开共享。建议建立一套公共数据公开透明的机制,明确哪些可以对外公开,哪些做了风险评估后公开,哪些需要签订保密协议等。当然,搜集采集数据是有成本,有些数据的获取可以收费。
国务院总理李强5日在政府工作报告中提出,今年发展主要预期目标是:国内生产总值增长5%左右;城镇新增就业1200万人以上,城镇调查失业率5.5%左右;居民消费价格涨幅3%左右;居民收入增长和经济增长同步;国际收支保持基本平衡;粮食 二月的北京,春寒料峭,然而在易车的年会现场,却是一片热闹喜庆的氛围,欢声笑语此起彼伏。易车“2023不可思易New年会”在北京星光影视基地盛大举行。易车CEO张序安在年会上发表演讲,不仅回顾了过去五 21世纪经济报道记者 孙燕 上海报道3月5日,国务院总理李强作政府工作报告时指出,坚持教育强国、科技强国、人才强国建设一体统筹推进,创新链产业链资金链人才链一体部署实施,深化教育科技 21世纪经济报道记者李莎 北京报道 “三农”是关系国计民生的根本性问题,在今年政府工作报告重点部署的十项工作任务中,第七项即坚持不懈抓好“三农”工作,扎实推进乡村全面振兴。政府工 21世纪经济报道记者 周潇枭 北京报道 3月5日,十四届全国人大二次会议在京开幕, 南方财经全媒体记者 翁榕涛 广州报道日前,“走访上市公司工作、推动上市公司高质量发展”全国视频会议在京召开。广东省认真落实会议部署,在前期走访调研温氏股份、融捷股份、亿纬锂能 。本文链接:专访全国政协委员陈松蹊:深度学习和统计分析相结合,推动人工智能的高效绿色发展http://www.sushuapos.com/show-1-7002-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。