计算机视觉，落地的技术与艺术

2020-09-15 10:40:06

从1956年的达特茅斯会议起，人工智能就深深地烙印在了IT技术的发展史上。60余年的发展、沉淀，已是"AI技术万口传，至今已觉不新鲜"。从概念到实践，从技术到产品，AI技术已经在智能客服、智能家居、医疗诊疗、工业机器人、无人驾驶等领域多点开花。

计算机视觉技术堪称AI皇冠上的一颗明珠，不论是在技术深度还是商业应用方面都走在了行业的前沿。9月5日，腾讯云TVP AI技术闭门会遍邀计算机视觉领域的技术大咖、专家学者、资深从业者们一起线上论道，层层深入解构计算机视觉技术，从个性化的商业化实践中探索共性化的发展方向，为行业进一步发展勾勒出潜在的蓝图。

面向规模化落地的视觉AI技术

"视觉AI技术严谨的叫法是计算机CV，在过去，AI是AI，CV是CV。最近几年伴随着深度学习的火爆，开始逐渐有了统一融合的趋势，所以有了现在的视觉AI。在To B领域，视觉AI技术已经渗透到了众多行业，开启了一轮规模化的落地之旅。"

优图实验室-昊天研究中心负责人 & 专家研究员郭晓威老师向与会者介绍了视觉AI技术的历史起源。他表示，视觉AI的基本任务就是读懂图像，目前为大众所熟知的商业化应用案例包括人脸核身、内容理解与广告推荐、泛娱乐、内容审核等方向。目前尤其是在教育、工业、支付、广电等行业有深度结合。

郭晓威表示，影响AI规模化、商业化落地的因素无非就三个：成本、安全和数据。

· 成本：数据、设备、人才、市场培育与开拓，这些都需要大量资金的投入，成本高昂。

· 安全：精度和可靠性，在某些领域比如医疗行业，AI能给的只是参考，对解决医生痛点的帮助不够大。

· 数据：AI需要的数据尤其是细分场景数据的获取难，标注难，此外数据隐私的问题也是一大掣肘。

细分之下，又有5大规模化落地挑战需要解决。

挑战一：标注成本过高，如何降本增效

业界曾有过一种自嘲的说法叫有多少人工，就有多少智能。这一句话道出了标注成本过高的痛点，如何用技术的手段实现降本增效？郭晓威表示主动学习是一个有效的解决方式。主动学习的好处是不需要进行全量标注，经验下只需要小于标注总量的一半即可，这个过程可以边学习，边筛选，直至收敛。为此，他举了一个优图实验室在智慧医疗场景下糖网分级识别的案例。在这个案例中，腾讯优图基于信息熵与特征空间密度的主动学习，做到了同等效果下，标注成本节省超过一半，标注量级达到数十万时，节省成本可达百万级。

挑战二：数据量太少，训练效果差，怎么办

第二个挑战在于数据量太少，影响到训练效果。在To C场景下，数据的获取方式相对容易，数据量也比较大，但在To B场景下却完全相反。这种情况下，样本增强，小样本学习（Few shot learning），GAN等技术就比较值得推荐。尤其是小样本学习，支持极少量样本训练，最大化利用存量的样本，以实现最大可能性的泛化效果。在货架商品识别与小样本学习技术方面，腾讯优图提出了样本构成、损失函数和后处理三个相对业界主流方案的创新点，实现了相对优化前提升10-30个百分点，与全量样本差距小于10%的显著效果。

挑战三：数据太少，伪造行不行？

第三个问题其实是对第二个的追问，能不能通过数据生成的手段，或者说伪造数据的方式来弥补数据的不足。GAN是最近几年比较火的对抗生成技术，它的本质其实就是通过生成器来学习符合目标分布的数据，也就是所谓的"无中生有"。郭晓威表示，如果GAN的结果符合目标的真实分布，还是能起到一些作用。但是这种作用可能还是分场景，不见得每个场景都一定会有很好的效果，所以需要小心的设计。

郭晓威提到一个车型识别的案例：白天场景下的车型识别对AI而言相对轻松，但在夜晚场景就难度陡增。一是因为这类数据量相对较少，另一个是光线昏暗也不利于人工标注。优图实验室的解决方案是利用CycleGAN的技术，通过大量使用白天数据自动生成、模拟夜晚数据，然后将模拟后的夜晚数据与真实夜晚数据混到一起训练，最终成功使夜晚识别效果大幅提升。

挑战四：商业场景多变，AI泛化能力差，调优又太慢

技术上而言，在一个特定场景下训练出的表现效果可以做到非常好，但换了场景以后效果就直线下降。解决方案上，技术手段要做场景迁移，常用的手段就是迁移学习，最简单的就是把目标数据标完之后再进行训练。但这种情况下需要大量的标注数据，从采集标注到训练，通常也需要较长周期。郭晓威推荐了领域自适应技术，可以快速适应新场景，具有成本低、效果好、普遍适用等优势。

优图实验室针对领域自适应技术，提出了一个创新的ReID技术，具体原理及效果如下图所示：

挑战五：AI需要海量数据，如何保护客户/用户隐私？

AI的成长需要海量的训练数据，从场景中来的数据能让效果最大最优化。但通常场景中的数据也涉及一个隐私问题，很多时候用户数据不能离开本地。有没有办法既能满足AI的训练，又能够保护用户的隐私呢？郭晓威分享了一个名为AceCV系统，它可以支持本地数据训练，模型自主进化与集成，实现方案基于领域自适应与模型集成等技术，完成端+云升级。

与联邦学习相比，AceCV系统不需要传数据和梯度，只需低频进行模型回传，同时具备自主进化模块和模型集成模块，保证场景模型持续低成本迭代、联合多场景优势升级云端模型。优图实验室去年创新地提出了滤波器嫁接技术（Filter Grafting），可支持多模型之间取长补短，互助升级。

分享结束后，郭晓威老师还针对留言区提出的问题作了精彩解答，篇幅所限，此处不再赘述。

腾讯云视觉AI的商业化产品实践探索

"顶天还是立地，改变世界还是努力赚钱？这是我本次分享的副标题，也是我们想与业界一起探讨的问题。"

腾讯云AI视觉产品中心总经理王磊向与会者完整地分享了腾讯云AI目前所处的位置与所做出的成果。他介绍到，腾讯云AI是腾讯AI的商业化出口，在底层的算法、云资源层面，有包括腾讯优图、微信AI、AI Lab、音视频实验室在内的一系列顶级实验室和海量的服务器、GPU/CPU等资源；在平台和产品层面，包含泛娱乐平台、工业AI平台、广电传媒AI中台、内容审核平台四大平台，提供文字识别、人脸识别、图像识别、知识图谱、AR/VR等一系列丰富产品；在生态层面，围绕开发者社区、培训、竞赛、AI加速器、众创空间、专项合作计划为行业提速。

腾讯云AI在商业化落地的探索中，不断踩坑填坑，一路成长，积累了可供业界参考的宝贵经验。王磊将其总结为四大阶段：确定方向、孵化产品、打造标杆、推广复制。

确定方向

确立方向是第一个环节的工作，简单来说就是选择做什么。道路千万条，胜利第一条。选择方向错，团队两行泪。腾讯云AI的做法是首先对行业的关键流程或重点问题进行深入的分析，推演应用方式和商业模式。比如在教育行业，可以从核心的教、考、管、育的教学流程中去寻找AI的应用场景，最后发现使用人脸识别可以帮助学生非常方便的完成网课的登录，不需要再去设置密码，而且天然地带有身份认证，避免了代打卡、替考等情况。

除了对行业的洞察之外，在确立方向的时候也可以参考业界主要玩家的情况，特别是已经存在的头部玩家。腾讯云在做AI的产品开发设计的时候会去调研市场主要玩家的情况，这直接影响该市场未来竞争的激烈程度。

孵化产品

这里主要考虑两个问题，一是技术是否可行；二是产品的价值是什么，特别是和竞品比，产品的差异化或者优势是什么。王磊以腾讯慧眼的案例拆解了孵化产品这一步的核心问题，可以看到，慧眼人脸核身的四层设计形成了这样一整套立体化丰富的安全的刷脸系统，具备较高的商业价值和广泛的应用场景。目前国内市场上，慧眼是份额第一的人脸核身产品。

打造标杆

标杆的打造也是检验产品的过程，产品是不是一个好的产品，关键要看产品是不是真正为客户创造了价值。只有好的价值才能获得客户的认同，才会有后续的、持续的、健康的使用和付费。

腾讯云AI的标杆客户不胜枚举，王磊表示微众银行是一个比较典型的客户案例。微众银行是国内首家互联网银行，微众的远程核身流程应用了腾讯云慧眼人脸核身技术，经过媒体报道以后慧眼有了更多的客户慕名而来。

王磊指出，标杆的打造不是一锤子买卖，所谓隔行如隔山，在某些重要的行业仍旧需要头部企业的背书以为产品带来更高的认可度。中国联通就是腾讯云AI在电信运营商领域拿下的首个头部标杆客户，腾讯云AI也为其提供了显著的降本效果。

除此以外，王磊还提到了深圳市的政务场景以及直播场景中的斗鱼公司等案例，揭示了腾讯云AI在增效、合规等方面提供的客户价值。

推广复制

推广复制环节背后的问题很复杂，但核心提炼下来其实就一个词：增长。它和市场的供需、产品的价值和产品的特点都密切相关。王磊表示，想要做好增长首先需要想清楚三个问题：

1. 目标客户：目标客户是谁？目标客户所在的行业是哪些？客户是什么类型？是谁在使用它？是谁在给它付费？

2. 定价策略：策略是利润最大化还是收入最大化，是要去抢占市场份额还是要去拉动活跃用户？

3. 复制效率：如何把产品快速地卖给新客户，并完成交付。

只有想清楚了这几个问题，并做好针对性的设计，才有可能在商业化产品的实践探索中找到可持续发展的方向。

王磊总结道，确定方向、孵化产品、打造标杆、推广复制背后有一条暗含的逻辑，企业在不同的阶段、不同的场景下所应采取的做法也不尽相同，要随着变化而变化。AI技术的商业化产品实践是一个循环演进的过程，要不断地理解行业、提供价值、优化价值、找寻新方向、孵化新产品，不断地向前探索。

"在AI生态建设上，腾讯云AI致力于连接产业和开发者，共建开放生态，共建共赢。我们希望有更多的合作伙伴能加入到腾讯云AI的生态里面来，一起加速人工智能行业应用的落地。"

分享结束后，王磊老师还对评论区提出的腾讯内部AI平台差异和落地等问题作了进一步解答。

计算机视觉技术在服装行业的落地实践

"从创业公司维度看AI在行业的落地，可能会有不一样的视角。在人工智能落地的所有行业里面，可能服装或者时尚这样的一些行业是相对来讲大家偏陌生的一个行业。为什么我们要选择在服装行业来落地人工智能，今天希望跟大家一起分享探讨。"

知衣科技联合创始人兼CEO郑泽宇老师作为AI领域的创业者，带来了一些不同于腾讯云AI落地的思考与视角。郑泽宇老师此前曾供职于Google，也是国内知名的TensorFlow专家。他提到，从2015年起人工智能概念开始火爆，大家都希望拿着技术的锤子去找场景的钉子，AI领域的初创企业也特别多，不同的技术方向会孵化出不同的AI企业。这个阶段被他称之为AI技术落地的第一阶段，技术寻找场景。

第一阶段经过一段时间的发展以后，AI领域的初创公司撞上了一堵"南墙"：巨头公司下场，竞争激烈；创业公司资金紧张，AI烧钱太快。这个时候，如何让AI技术在更多其他行业、场景下得到应用并产生商业价值，成了AI商业化落地的新主题，也就进入了人工智能落地的第二个阶段，场景结合技术。

以服装行业为例，其实在这个行业里面要用到的技术特别多，除了CV这样的技术之外，自然语言处理、关联推荐、以图搜图、数据分析、趋势预测等都是关联技术。郑泽宇表示，每个行业的数据非常多，不同的数据需要用到不同的整理方式方法和算法技术，基于这样的技术和应用场景深度融合、绑定以后，才发现技术对一个行业的影响是可以做到深远的。

郑泽宇提到，很多AI创业者们的初心和愿景就是要去颠覆自己选择的行业，反而忽视了对行业的理解。他认为只有真正地去理解了行业，才能在最关键的地方做出改变，才更有颠覆行业的可能，这也是知衣科技创业的实现路径和价值观。

很多人对服装行业的感知是时尚、艺术，而这很难被AI所理解。但在对服装行业做了深入理解以后，郑泽宇发现它是一个99%商品+1%艺术的场景。在这个行业做AI创业并不是要去取代设计师，而是要利用AI技术去做好服装的选款，这是一个偏理性同时也可以被AI理解的方向。传统的选款方式通常会遇到各种问题，而AI技术要解决的也恰恰就是这些无法被数据量化的主观问题。

在互联网场景下，海量数据的获取让基于数据的分析不再是难事，但也恰恰是因为数据量太大导致无法形成有效解读。特别是图像等非结构化数据，由于难以直接由计算机识别理解，需要经过人工智能图像分析后，得到结构化的数据标签，才能有效利用。如何让机器理解时尚，就成了知衣科技需要解决的核心痛点。

郑泽宇表示，计算机视觉最经典的三个问题，首要解决的就是读懂图，第二是要做好分类，第三要解决搜索问题。但理解时尚，并不属于以上三个类别。为了能够有效地让计算器理解商品图，知衣科技将商品图分为12个维度，超过500个标签，把人工能够归纳和整理的标签全部穷尽以后，让深度学习模型进行尝试。

在不断地调整模型、增加容错、优化标签和长期的人工智能算法打磨以后，最终实现了比较不错的准确率：

基于这些数据和特征，延展出了以图搜图、趋势预测、智能试衣等功能。郑泽宇表示，目前服装行业的知名线上/线下品牌基本都已成为知衣科技的客户，公司也实现了自负盈亏，在AI创业公司中属于现金流比较健康的一批。

分享最后，郑泽宇老师还针对计算机如何理解美的定义以及服装场景下3D建模等问题做了精彩回答。

圆桌论道：新基建背景下给人工智能带来的挑战和机遇

在本次技术闭门会的圆桌讨论环节，优图实验室-昊天研究中心负责人 & 专家研究员郭晓威、腾讯云AI视觉产品中心总经理王磊、知衣科技联合创始人兼CEO郑泽宇、海深科技CEO戴剑彬、香港科技大学助理教授陈启峰以及本场主持人腾讯优图实验室AI高级研究员彭湃针对新基建时代主题下给人工智能带来的挑战和机遇分享了各自的看法与思考。

王磊：2017年底到2018年初，当时还没有新基建的提法，腾讯云AI要往哪个方向走要做很多的探索和决策。一路走过来之后再反思过去的那些探索过程，其实核心就是几个方面：你对行业是否足够的理解，你对技术是否有合理的判断，你对自身的差异和优势是否有正确的认知。从这几个维度去剖析自身，基本都能得到一个明确的答案，这个答案未必自身愿意接受，却是对行业的深刻理解。从现在这个时间节点看，腾讯云AI做得还不错，这一路的探索和实践也积累了很多经验和方法论，在新基建时代下同样受用。

郑泽宇：服装行业本身就比较注重线下场景，从设计到生产到营销无不如此。现在很多技术也在试图打通线上线下，让数据充分流通，厂商提供的智能化设备也有非常广泛的应用。在这样的背景下，其实从后端的生产到品牌的运营再到前端的营销，其实都是新基建的组成部分。知衣科技在这个过程中希望沉淀的最核心的能力就是数据打通和收集的能力。通过新兴技术比如人工智能、5G、边缘计算所带来的新基建成果，让数据收集能力越来越强大，通过有效的处理最终形成更加科学的数据决策，这是新基建为行业提供的可能性，我们也在做积极的布局，去迎接这样的变化。

戴剑彬：智能安检是海深科技从2019年至今的重点发展方向，也符合现在的新基建时代背景。我们目前对智能安检的投入相当大，而且后续的衍生领域也挺多，比如安防方向等。新基建的大前提对我们的益处还是比较大的，三四年前找企业合作比较困难，但现在不管是To B场景还是To G场景，都能很好地触达客户，对新技术的开放能力和接受的心态都不可同日而语。海深科技后续的发展重点还是要专注在这个领域内做深、做出突破。

陈启峰：新基建背景可能促生的更多是线下AI能力的落地，我很多研究的项目也都会跟实际的应用会有结合。比如现在有一个研究的方向是怎么去设计新的下一代的深度的摄像头。然后我们在学校里做一个东西出来，证明它的可行性。我们在学校里面搭建了一个这样的模板，但是如果到线下要去落地，可能还需要工业界的配合，把相关的深度的摄像头用起来。这个技术主要是用在汽车上，尤其是无人车。除了室外场景，我们也有室内的研究项目。在学术界，我们的重点可能是要证明一些新技术的可行性，如果有一些学生感兴趣，他们会做自己的产品，然后我们去提供支持。

郭晓威：我们看到新基建这个词是今年新提出来的，它包含了5G、人工智能、交通、能源还有工业这些领域，势必会催生大量的线下AI需求。目前优图实验室在这几个方向都有研究投入，比如工业互联网、比如政务民生等方面。但是，其实我们也可以看到，在这个过程中对AI也提出了一个更高的挑战。优图实验室还是希望能够解决一些业界普遍存在的落地问题，希望能够解锁更多的限制。另外也需要政府去推动打通一些数据层面的分享，打破数据的孤岛，从政策层面去降低AI的准入门槛，这是我对新基建的一些观点。

最后，圆桌大咖们针对目前社会热议的限制出口技术目录与国外技术封锁等问题做了深入的思想碰撞。本场闭门会主持人腾讯优图实验室AI高级研究员彭湃也给风口和挑战面前的AI从业者们送出了寄语与自勉。