高文：人工智能与智能编码AVS3标准 - 学人动向 - 科技动向

高文：人工智能与智能编码AVS3标准

2019/3/21 6:19:52 ｜浏览：2515 ｜评论：0

高文：人工智能与智能编码AVS3标准

各位专家上午好！刚才听了张部长的报告，确实非常精彩。讲到广电近期重要的任务，我觉得这四个任务说得都非常到位。特别是前面怎么样融合到整个国家的发展、社会的发展当中，不管是从智慧广电、从县级媒体融合中心，从大数据、从超高清这些的角度，这四方面都非常到位。

今天我总结的内容跟张部长有一点呼应，今天我要讲两个问题：第一个问题，关于人工智能的3144，第二个问题，关于超高清技术标准的进展。在讲第一个问题之前，先把两个概念跟大家重复一下。

今天所说的人工智能，人工智能它是指机器，在机器上面实现的人类的智能。包括认知智能、感知智能、决策智能等等。

我们通常所说的人工智能，实际上是比较泛在的或广义的人工智能。说到现在技术实现的智能，其实分成两类：一类叫做强人工智能也叫广义人工智能，这个就是几乎所有人类拥有智能的行为机器都能做，这叫通用人工智能；另外一类人工智能叫狭义人工智能或专用人工智能，它是指特定的智能。比如人脸识别系统，它对人脸识别这件事，它是特定人工智能系统或狭义人工智能系统。狭义的人工智能和广义人工智能并不等同，并不是用几个狭义人工智能堆起来就是广义的人工智能，没有这么简单。有了这个概念，我们可以讲人工智能的3144。

人工智能的3144，第一个“3”，是说人工智能到现在为止经历了三个历史阶段。第一个历史阶段，叫做基于符号逻辑的推理证明阶段，第二个历史阶段，叫做基于人工规则的专家系统阶段。我想在座的专家，如果你差不多是40岁、45岁以上都会有印象，当你念书时很多同学做专家系统，那是第二阶段；第三阶段，从2006年到今天这个阶段，叫做大数据驱动的深度神经网络阶段。

第一阶段从1956年开始的，因为1956年有一个人工智能数据研究所，把这个数据研究所定义成人工智能的元年。元年开始以后，当时大家都认为，所谓人工智能是在机器上实现人的智能，人和动物最大的差别是逻辑推理，如果能进行逻辑推理就有智能。所以用计算机实现逻辑推理是当时最核心的动机。

为了实现逻辑推理当时采用布尔代数、演绎推理、三段论，后来有专门去设计，可以把推理的过程用计算机语言输进去逻辑设计语言，当时有两种：Lisp、Prolog。

第一阶段数学的几何定理证明。1956年，卡内基梅隆大学就罗素所著《数学原理》的定理做了证明。到1959年，洛克菲勒的数学家王浩把所有350条都证明了，这是比较顶级的工作。

那些工作，由于开始时很顺畅大家很乐观，1958年有两位非常著名的人工智能专家，提出非常著名的四个寓言，十年内，计算机将战胜国际象棋冠军，十年内，计算机将证明数学定理，十年内，计算机能谱曲，十年内，计算机将能实现心理学理论。做了数理证明其他遥遥无期，再加上一个英国学者在1973年写了一篇文章，对人工智能狠狠地泼冷水，所有人工智能项目都停止了，人工智能第一次跌入低谷。

1976年以后人工智能慢慢回暖，两个原因：一个原因是，搞人工智能的人反思了一下，人工智能老做阳春白雪，做数学定理证明不行，必须接地气，要做专家系统，让老百姓真正接触到，能玩这些东西。当时有人做心理咨询专家系统、故障诊断专家系统、治病专家系统、医生专家系统，各种专家系统出来。国内80年代开始有各种各样的，农业专家系统，那是那个阶段主要的大的流向。

在那个时期，专家系统后面主要用两个工具在做，一个工具用逻辑推理的东西，基本基于规则的。另外一个技术基础用神经网络，那个时候神经网络已经有一点起色，但不能做得规模太大。这两个技术为主在慢慢往前推。

又做了十多年以后，又遇到瓶颈，瓶颈主要是，总是有压倒骆驼的最后一根稻草。第一根稻草是日本搞了第五代机器化，不成功草草收场；第二根稻草，美国科学家说不能输给日本，日本做硬的，我做软的。美国以斯坦福大学的专家为主做知识图谱，把百科全书所有知识装到计算机里，有什么问题有百科全书就有答案了，可以回答问题。要做这个系统，这个系统从80年代开始做，做了十多年，九几年，互联网起来后，很快被互联网超过去了。互联网企业做搜索引擎，他们做搜索的东西，他也是做知识问答，百科全书就是为了回答问题。突然发现互联网回答的速度，做的东西比百科全书回答的速度还快，所以这个项目也失败了。

这两个项目失败，导致大家又对人工智能，觉得好像不能起大用。

第三次，这一轮，刚才张部长也提是算法、算力加上大数据共同发力导致这次人工智能的浪潮。如果说前两次是制造出来的，通过人设计出来的，这次完全是从数据里面出来的。这是这次和前两次的区别。

这次人工智能导火索或里程碑有一篇文章，2006年有一个加拿大学者叫Geoffrey为在科学杂志上发表一篇论文，他说深度神经网络可以进行大规模的学习，可以训练、可以进行推理。这篇文章发了以后，后来他的学生拿着他的方法去参加一个非常有名的图像分类比赛，这个分类比赛也是一位华人，斯坦福大学的华人女教授李菲菲教授组织的比赛。开始比赛用不同图像分类，基于特殊图像分类方法来做。

2012年Geoffrey的学生拿着他的思路做了神经网络，来参加比赛。第一次比赛一鸣惊人，把第二名远远甩在后面，一下把图像分析领域科学家震惊，2012年清一色神经网络，全是深度神经网络，网络架构不一样。都是用数据训练进行分类。到2014年、2015年，一直比赛下来。

华人的贡献在2015年，当时在微软亚洲研究院工作的孙剑博士，领着他的团队提出“残差网络”。这个残差网络提出以后，第一次在比赛里，得了第一，而且他得这个第一，还是非常令人印象深刻的第一。大家可以看，最左边这个是他的成绩，他的错误率是3.57%，因为人的平均，图像库非常大，1000万幅图像，每个图像里有各种各样的类，所谓类有人、狗、太阳、草地、雪山，各种各样的类，让你说各类图像有什么。你说对了全弄对了，如果说错或说漏被扣2分，扣分肯定不好。人平均丢5分，人平均错误率是5%。孙剑这个错误率降到3.57%。排在第二名的谷歌的团队是6.7%。当时孙剑他们的成绩已经超过人的图像分类的能力，当然他用的网络也不一样，别人用的网络22层的、19层的，他是用152层的网络。这个网络现在非常有名，大家知道，AlphaGo后面是AlphaZero，AlphaZero用孙剑的网络，这个网络是非常有名的深度学习的工具。

后面发生的事大家都知道，AlphaGo，2014年4：1战胜韩国的当时世界围棋冠军李世石。4：1的1输那盘，回去以后团队进行了分析，为什么输了。分析的结果，李世石走了一步棋谱里没有的棋，机器不知道怎么下，随机走了一步就输掉了。后来他们说，分析一下，当时人类能够有记录的棋谱共3000副，所有可能的棋谱是1亿5000万副，当时用来训练AlphaGo的数据，占所有可能数据的20%多一点。还有70%几的数据是没有的，因为没有数据，当遇到你没有数据时可能会输。怎么办呢？最后AlphaGo重新设计了系统，设计了AlphaZero，设计完AlphaZero让自己互相下，走棋谱里没有的棋，最后通过一段时间，把所有棋谱可能的棋都有了，用1亿5000个棋谱训练了AlphaZreo，所以AlphaZreo是无敌的，除非你是先手不犯错。

我们做智慧广电，要用深度网络学习，深度网络学习要有最好的数据、好的算法、足够的算力，三个加在一起会做出非常好的智慧广电，数据、算力、算法是这一轮人工智能最基本的三个要素。这轮人工智能发展还有一个很特别的特点，所有顶级的人工智能的科学家，都是和企业在一起做。或者是做企业的兼职，或直接去了企业。为什么？因为企业的数据是最完整的。所以要想做一个好的智慧系统，没有大数据想都不要想。怎么样拥有最大、最全的数据？是能不能做好系统的基本前提。

这就是三个阶段。

“1”一个判断。现在就弱人工智能或专项人工智能，只要你的数据够，现在就可以做得不错。现在为什么会有那么好的人脸识别系统、那么好的语音识别系统、那么好的机器翻译系统。这个系统、那个系统，有很多系统都非常好。因为数据用它训练可以做得好。弱人工智能大规模应用已经“成势”，要乘势而上，顺势而为。人工智能是不是行了呢？强人工智能现在还不行，强人工智能还有非常长一段需要探索的路要走，可能是10年、20年、30年、40年都有可能，这个取决于现有的机器架构，做强人工智能是马太效应，拉不动那么大的车，大车要用更强的系统拉，那个系统是什么现在不知道。有可能类脑系统、可能是量子系统、可能是其他系统，现在的算力做强人工智能不够，弱人工智能没有问题，这是基本判断。

3144中的第一个“4”，我们国家发展人工智能四个优势条件。

首先有政策优势，我们国家党中央国务院对人工智能非常重视。

第二是数据资源的优势，我们国家拥有的海量数据，这是任何其他一个国家没有办法比的。既是人口，马上要过于印度，他的数据也没有我们多。海量的数据资源这是我们第二个优势。

丰富的应有场景是第三个优势。我们国家改革开放后快速发展，这个时候靠长期积累，慢慢把这些东西补齐需要花时间。现在有人工智能，可以让补齐的时间大大缩短，所以用人工智能可以做很多应用。我们有非常丰富的应用场景，不管是城镇化、老龄化、制造业转型升级、互联网市场等等。所有这些都给我们提供了非常好的应用场景。

第四个是我们国家的青年人才，储备非常充足。一说大家很容易明白，现在有全世界最大的高等教育体系，这个高等教育体系里面，工科学生占的比非常高，这是任何其他国家没法比的，这些学生都是将来进入人工智能领域非常潜在的青年才俊。这是我们的优势。

当然我们也有短板、薄弱环节。

有四个薄弱环节：基础研究、原创的理论和算法比较少，一是起步晚，再加上前些年科技领域评估短平快，逼着你快出成果，所以一个人很难一件事做冷板凳坐30年、40年。像刚才加拿大那位教授，那件事做了40年，最后发出一篇论文引爆这个领域，哪个教授能40年做一件事，没有经费没有什么，这是很难的事。由于这两个原因，我们在原创性的东西略微差一些，这个我们实事求是，必须要承认。所以真正原创的东西，它的来源大多数来自美国、加拿大和英国。

第二步弱势在高端芯片。不管GPU、ASIC、FPGA，这些东西主要掌握在美国企业的手里。不光是芯片，也包括传感器，也是主要掌握在美国公司的手里，对这块我们也是还有非常短的短板需要去补。

第三个我们的短板是没有有国际影响的人工智能开源开放平台。现在有影响的开源开放平台基本都是美国大企业做的，像谷歌、微软、亚马逊、Facebook、IBM，这几个公司是最主要的玩家。国内企业也在推，但影响力非常小，这是我们的一个短板。

第四个短板是高端人才的短板。我们高端人才不足，刚才说青年才俊很多，但高端人工智能人才和美国相比只是美国总数的差不多1/5，20%左右，这个是我们必须要补的四个短板。

3144我说完了，这是人工智能的3144。现在讲第二个问题关于AVS3标准。视频编码标准，开始是为了广电，为了电视服务而制定的一套标准，开始的时候在90年代初，当然那时也做VCD、DVD也有那个一段时间，主要面向国内在做，开始从标清开始做。第一代标准，现在有的还在运行，MPEG-2，传入标清需要5兆带宽，传入高清大概要20兆的带宽。到2003年到第二代编码标准，第二代编码标准，效率又提高了一倍。也就是说传输一部高清视频要10周就够了，传输一部标清是2.5兆。到了2013年升级到现在正在使用的标准，比如4K用AVS2国内，国外很多地方用的265，这个标准它在传高清的时候，大概需要5兆的带宽，传4K现在需要36兆的贷款。为什么4K+5G是绝配？因为5G带宽需求加上4K的带宽需求一点问题没有，马上在跑。我非常欣赏央视做4K+5G这样混合。

如果用这个标准，传8K会怎么样？5G不行了，为什么呢？因为8K，用这个标准的话，需要带宽是120兆，5G背不动，怎么办？要做下一轮。现在我们正在做的AVS3，国外做的266是面向8K做的，如果这个标准上来以后，8K需要多少带宽呢？大概50兆到60兆，起步在60兆，随着时间推移慢慢降下来，慢慢编码降下来，降到50兆。这时候和5G又是绝配了。所以要上5G+8K非得标准升级，不升级5G是背不动的。

当然，我们现在4K，刚才张部长提到的4K，去年有两个实验频道播出来，用的AVS2的国家标准，这个国家标准2016年首先广电成立，去年用国家标准。

这个标准用完我们准备下一代的东西，开始做AVS3。要做这个东西，开始没那么急，因为国外也没那么急，我们也没那么急。突然接到一个任务，2022冬奥会。因为2020日本东京夏季奥运会肯定用8K，肯定用265播，我们不考虑，他用265不考虑5G，日本5G不见得真行。如果我们用5G，加上8K必须要压下来，要么是图像质量很差，要么是弄一部新的标准。所以我们赶快，为了2022咱们冬奥会，要用咱们的5G加上自己的能够5G背得动的标准做它，所以我们启动了AVS3。

AVS3启动以后，技术上面现在动作非常快，集成的技术比国外正在做的266比它快还好，现在平均性能，目前现在比前一段提高30%，一般提高50%效率是下一代，我们现在已经提高30%，还有20%。怎么做呢？分成两个档次，基准档次、增强档次。基准档次的目标就是30%，增强档次的目标再提20%，加在一起50%。但是它俩的差别是什么呢？这是比较巧妙的设计，基准档次和芯片和硬件有关，增强档次是和芯片没有关系的。我基准档次定了以后，企业马上可以设计芯片，马上可以出来。这样设计出来以后，我们采用很多技术。

今天在这里特别要说的，这里用了人工智能，这是第一次编码的标准用到了人工智能技术，或者叫深度网络技术，我们叫神经网络技术。

这里面，因为用神经网络做识别做分类大家都知道，做人脸识别、语音识别、机器翻译大家都知道怎么做。用神经网络做编码怎么做？当然以前也有一些论文，真正工业用没那么简单。经过这段时间摸索我们找到一些路，首先神经网络可以做电焊、做预测、做滤波，关键是怎么用大数据训练这些东西。我们采了非常多的数据，用这些数据训练和电焊有关、和预测有关、和滤波有关的结构和参数，用这个使它优化。

如果不用神经网络行不行？也行，效果差一点，用和不用差在哪儿？基本性能差5%左右。用了神经网络以后，用智能办法以后，性能能提升5%。这只是在比较小的工具上用，全应用还会提高得更多。不管跟AVS2还是和265比，265提高的效果更高一点，而且这个东西从主观上，我们已经有非常清晰的数据，用了神经网络，主观上确实比不用要强。尽管有时提升5%的码率，但主观上感觉比5%还要高，看起来更舒服一点。大家远看不是很清楚，如果离得很近，屏幕的分辨率再高一点看得比较清楚一点。就是说AVS3+深度神经网络的东西看得很清楚，细节很细，在下面。

有一系列的数据不展开。现在用的最多的在决策模式上。因为要做编码时，到底哪个模式是最合适的，全都跑一遍，最后确定这个模式是最好的，跑一遍很耗时间。如果有神经网络，跑一遍这件事比较简单，可以通过一个网络并行下去，最后出来一个结果，他会建议你，哪个模式是最理想的模式，你用那个模式编，这是模式的选择。

他可以很多理解的东西放进去，现在编码不仅仅为了编码而编码，编码的时候有时想，比如在融合媒体时，要做搜索、做检索、做内容的识别，这时要有理解的环节在里面，用神经网络后捎带把理解的任务帮你完成，他的做法有“概念压缩”，通过神经网络，把原来比较粗的一套东西，和概念连接起来做了压缩，这个压缩对后面认知和搜索能提供直接的帮助。

时间关系细节不展开，这里告诉大家，神经网络在视频编码里面照样可以发挥非常好的作用。到现在为止，AVS编码的性能，AVS3和AVS2比，基准档次基本完成30%的效率的提升。然后今年三月份，前不久在青岛，我们把基准档次固定下来，基准档次叫AVS3CD2.0，这个基本完成了。这个完成实际上是有历史意义的，因为AVS从来是跟在264、265，一代一代往后，一般是他们公布半年到一年，或一年到两年我们才公布我们的标准，这次是他们没公布我们已经公布，他们里面技术没有做完我们已经做完。我们已经完成技术上面，视频编码从跟跑、并跑到领跑这样历史性的转换。这是非常重要的一点。

其实刚才部长也一直说，5G这是中国非常重要的技术领先的东西，我们现在除了5G以外还有视频编码的东西。5G+8K，这两个东西，当然也可以4K、8K。利用5G这个通道做融合媒体，这是有中国优势的。如果再加上中国的标准，不能说两个优势一点几个优势，我们有中国的优势。这个优势可能是第一次在广电设备领域我们跑在人家前面，以前中国多少年广电要采购别人的东西，采购日本的东西、采购欧洲的东西，如果我们把5G加上广电这些编码传输和内容制作，整合到一起，第一次我们跑到国外的前面。所以我想，除了我们觉得这是艺术形态里大的认定以外，其实产业也是一个大的认定，这个做好了，真正对广电、对国家是非常大的一件事。

总结一下，刚才说两个问题，一是人工智能的3144，三是人工智能经历三个阶段，逻辑推理，专家系统，深度学习。一个判断：弱人工智能已成大石，强人工智能仍需探索。四个优势：政策；数据；应用场景；青年人才。四个短板，技术研究短板、高端器件、开源平台、高端人才，需要尽快补上。

关于AVS3标准，今年3月份基准档次已经完成，我们已经为2022北京冬奥会8K的开播做好了视频、编码、技术方面的准备，AVS自己从2002年开始，前面经过一段探索，从2009年左右我们进入正轨，广电领域当时在王小节司长指导扶持下，AVS慢慢走向正轨，和标清、高清和4K，下一步和8K紧密的结合。我们技术上实现了跟跑、并跑到领跑的一个跨越。

所以在这里我再次代表做技术的专家们，向总局和业界的领导，长期以来对AVS的支持表示衷心的感谢。谢谢大家！

相关栏目：『学人动向』

包振山、卢东祥、刘波：激发八小时外经济活力打造扩内需促消费长效机制	2025-08-12	[172]
许倬云走了，他曾喊话中国青年：我劝你们振作	2025-08-05	[281]
瑞士商会名誉主席：职业教育如何作为国家竞争力引擎	2025-08-05	[307]
梁文道：励志书读多了，人会变傻的！	2025-08-05	[263]
《陈志武教授：思辨能力才是核心能力，多数中国学生不善表达》	2025-08-05	[271]
耶鲁大学教授给博士新生的真诚建议：博士之路，选择与坚持的艺术	2025-08-01	[386]
张维迎：经济自由会带来政治自由吗？	2025-08-01	[429]
66届IMO中国全员金牌荣获团体冠军，满分学霸曾在北大蹭课韦神	2025-07-25	[747]
张斌：宏观经济学的多重困境和反直觉真相	2025-07-23	[732]
余永定：解析美国“大而美”法案	2025-07-23	[1029]