《计算机视觉：瓶颈之辩与未来之路》

一、计算机视觉的崛起

计算机视觉是使用计算机模仿人类视觉系统的科学，让计算机拥有类似人类提取、处理、理解和分析图像以及图像序列的能力。它是一个多学科交叉的领域，与机器视觉、图像处理、人工智能、机器学习等领域密切相关。

计算机视觉行业可分为基础层、技术层和应用层。基础层主要包括芯片、算法、数据集、传感器、镜头等；技术层主要包括生物特征识别技术、物体与场景识别技术、光学字符识别技术、视频对象提取与分析技术等；应用层主要包括智慧安防、智能家居、智慧金融、智慧医疗、无人驾驶、手机等产业。

计算机视觉发展经历了四个阶段。第一阶段是马尔计算视觉，主要讨论计算理论和表达与算法，认为视觉的主要功能是从视网膜成像的二维图像来恢复空间物体的可见三维表面形状；第二阶段是主动和目的视觉；第三阶段是多视几何与分层三维重建；第四阶段是当代计算机视觉阶段。

从技术路线发展来看，计算机视觉可分为计算成像学、图像理解、三维视觉、动态视觉和视频编解码五大类。

计算机视觉的核心技术主要包括视觉感知和视觉生成两大维度。视觉感知包含识别分类、目标检测、图像分割、表示学习等重要任务，视觉生成主要包括图像与视频的生成、视觉与文字结合等。

二、计算机视觉的发展现状

市场规模与政策支持

市场规模不断增长，2023 年中国计算机视觉行业市场规模约为 571.9 亿元，预计未来几年持续扩大。

近年来，我国计算机视觉行业市场规模呈现增长态势。数据显示，2023 年中国计算机视觉行业市场规模约为 571.9 亿元。随着人工智能市场需求的增长以及大数据、云计算等技术的进一步融合，计算机视觉市场规模有望持续扩大。

地方政府相继出台政策支持，如江苏省、吉林省推动计算机视觉在政务、数字地球等领域的应用。

2023 年 10 月，江苏省人民政府办公厅印发《江苏省政务 “一朵云” 建设总体方案》，提出人工智能服务提供自然语言处理、计算机视觉、自动程序设计、智能数据挖掘等服务，提升业务应用系统智能化水平。2024 年 2 月，吉林省科学技术厅印发《关于发布核心光电子器件和高端芯片等 3 个重大科技专项项目申报指南的通知》，提出要利用计算机视觉和机器学习技术，自动识别数字地球上的地物、地貌、水文等信息，并进行标注，提高数字地球中地物信息的自动化获取和处理效率，为数字地球的应用和发展提供更好的支持。

广泛的应用领域

自动驾驶，实现车道保持、自动刹车等功能。

计算机视觉在自动驾驶汽车中起着至关重要的作用。通过摄像头等设备进行图像采集，利用特征提取、目标检测等技术，识别道路上的物体、交通标志和行人等，实现车道检测、障碍物检测、交通信号识别和行为预测等功能，从而帮助车辆保持在正确的车道上，避免碰撞，遵守交通规则并提前做出反应。常用的目标检测算法包括 YOLO、Faster R-CNN 和 SSD 等，车道检测方法包括基于边缘检测和基于深度学习的方法。交通信号识别可采用基于模板匹配或基于深度学习的方法，行为预测则有基于规则和基于机器学习的方法。

安防监控，进行人脸识别、行为分析等。

在安防监控领域，计算机视觉技术凭借其高效、精准的特点展现出巨大的应用前景。可应用于人脸识别、行为分析、异常检测等多个关键功能。例如，通过对监控影像中的人员、车辆等目标进行检测、识别和跟踪，及时发现异常情况并进行处理。同时，随着 AI 人工智能技术的发展，安防监控系统正从传统安防时代转向注重数据采集、应用和管理的人工智能化安防时代。多特征识别技术可让电脑从大量监控影像中自动识别出嫌疑人，分析其个人特征并快速筛选。姿态识别技术作为一种非接触性、非侵入性的生物行为特征技术，可在远距离感知个体人物的走路姿势，用于门禁系统、安全监控等领域具有广泛的应用和经济价值。

医学图像分析，辅助诊断和治疗方案设计。

计算机视觉技术在医学影像分析领域取得了显著进展，为医疗诊断和治疗提供了强大的支持。在图像处理与分析方面，包括图像预处理（如噪声去除、对比度调整等）、图像增强（如直方图均衡化等）、图像分割（如阈值分割等）和图像分类（如基于特征的分类等）。在诊断支持方面，可通过病灶检测（如阈值检测等）和诊断预测（如支持向量机等）为医生提供诊断建议。在治疗监控方面，可通过目标跟踪实现心率监测、运动分析等功能。

零售、制造、农业、智能交通、智能制造等领域也有广泛应用。

在零售领域，计算机视觉可用于商品识别、库存管理等；在制造领域，可进行质量检测、产品分类等；在农业领域，可通过对农田图像的识别实现对植物生长状况、病虫害情况的监测；在智能交通领域，除了自动驾驶外，还可实现智能交通信号控制、车辆违规监测等功能；在智能制造领域，可与机器人等技术结合，提高生产效率和质量。

三、计算机视觉面临的挑战

技术层面的难题

复杂性，涉及大量图像数据和复杂算法。

计算机视觉任务通常涉及大量的图像数据和复杂的算法。一方面，大量的数据需要占用大量的存储空间，处理这些数据也耗费大量的计算资源，如计算机的 CPU 和 GPU 等，还会导致数据处理速度变慢，不利于实时处理。另一方面，复杂的算法需要不断优化和改进，以提高处理效率和准确性。

数据质量影响大，需解决采集、标注和清洗问题。

数据质量对计算机视觉的准确度和精度有很大影响。在实际应用中，图片数据可能会存在很多问题，如噪声、模糊、失真、曝光不足、图像遮挡等，这些问题会影响图片的质量，进而影响计算机视觉算法的准确性。提高数据集质量是一项持续的任务，常见的数据错误和质量问题包括标签不准确、图像标签错误、缺少标签以及数据和相应标签不平衡等。可以通过使用复杂的本体结构作为标签、人工智能辅助标签、识别标签错误的数据、改进注释者管理等方法提高标记数据质量。

对光照、角度等环境变化敏感。

计算机视觉技术对光照、角度等环境变化比较敏感。例如，多变和非均匀的光照场景，如逆光场景，会影响计算机视觉的效果；不同清晰度的相机拍出来的照片质量不同，成像质量差异也会对计算机视觉产生影响；复杂易混淆的背景，如雪地里的一只白猫，以及不同场景存在干扰和遮挡、失焦、透视变形等问题，都会给计算机视觉带来挑战。

存在一定误识别率，尤其在复杂情况下。

目标检测中误检率可能较高，在实际应用中，如果误检率太高，即系统错误地将背景区域或不相关的物体识别为目标，会严重影响系统的性能和可靠性。为降低误检率，可以尝试数据增强、使用更先进的深度学习模型、调整正负样本比重、优化网络结构、应用后处理过滤、采用集成学习、运用领域自适应技术等方法。

隐私和伦理问题

计算机视觉涉及大量个人和隐私数据，保护个人隐私和数据安全成为挑战。一些计算机视觉应用，如人脸识别、人体检测等，涉及到个人隐私的保护问题。如果这些技术被用于非法或不当用途，可能会侵犯个人隐私权。同时，计算机视觉技术的训练数据可能存在偏差，导致算法产生歧视性结果。例如，人脸识别算法可能无法正确识别不同肤色的人，从而导致不公平的结果。此外，人脸识别技术可以被用于欺诈、身份盗窃等犯罪活动中，存在安全问题。由于计算机视觉技术本身的局限性，对光线、姿态、遮挡等情况的敏感度较高，算法可能会对真实情况进行误判。因此，对于计算机视觉技术的应用，需要考虑伦理和安全问题，并采取相应的措施来减少潜在的风险和危害。

四、计算机视觉是否进入瓶颈期？

瓶颈期观点分析

以图像分类等基础技术精确度已达产业落地水平，但剩余问题难攻克，如细粒度分类、小目标检测等。

计算机视觉在图像分类、目标检测、图像分割等基础技术方面经过近几年的发展，精确度确实已经达到了产业落地的水平。然而，一些剩余的问题却较为棘手，难以攻克。例如细粒度分类，需要对非常相似的物体进行准确区分，这对算法的精度和鲁棒性提出了更高的要求。在小目标检测方面，由于目标尺寸小、特征不明显，很容易被背景干扰或漏检。此外，在复杂光照变化下，如何保证分割结果的稳定性也是一个难题。就像电子发烧友网报道中提到的，计算机视觉技术在试图攻克这些老难题上虽有一定进展，但不能算是有很大突破。

落地应用存在同质化问题，多数企业扎堆安防等少数场景。

计算机视觉在落地应用方面存在很大的同质化问题，很多公司扎堆在几个热门场景中，其中安防场景尤为突出。智能安防是计算机视觉最主要的应用场景，且已经持续很多年。众多知名的 AI 初创企业如商汤、旷视、依图、云从等都在这个领域有重要布局，同时安防企业和互联网企业如海康威视、大华、宇视、百度等也在这个领域投入巨大。此外，还有几百家中小计算机视觉企业也纷纷涌入安防领域。虽然除了安防，各企业也在其他领域进行探索并逐渐有所进展，如金融、手机、汽车、工业、医疗、零售等领域，但目前计算机视觉较为成熟的应用场景仍然是安防领域。

非瓶颈期观点分析

技术仍有新突破，如视觉语言模型、神经辐射场、扩散模型等。

计算机视觉领域不断涌现新的技术突破。例如视觉语言模型，如 LLaVA 和 Qwen-VL-Max 等，可以理解图像并生成描述或回答有关图像的问题，实现了计算机视觉和自然语言处理的交叉融合，为人工智能以更自然的方式与人类互动提供了可能。神经辐射场（NeRFs）仅使用一些 2D 图像，就可以生成照片般逼真的 3D 场景，为虚拟现实（VR）、增强现实（AR）、房地产解决方案以及文化保护等领域带来了重大突破。扩散模型受物理扩散过程启发，能够从看似随机的图案中生成生动的图像，在内容创作、医学成像等领域有广泛应用。

政策推动技术发展，未来发展趋势多方面，涵盖算法、应用、硬件等。

近年来，我国相继出台了一系列政策文件和规划纲要，支持人工智能中计算机视觉技术的发展，推动产业实现技术突破、应用落地和产业升级。计算机视觉技术的发展趋势是多方面的，涵盖了算法、应用、硬件等多个方面。随着技术的不断进步和应用需求的增加，计算机视觉将会在更多领域发挥重要作用。例如，在算法方面，深度学习、卷积神经网络等技术不断进步，图像理解技术为计算机视觉专利技术布局重点，申请热度和布局广度较高。在应用方面，计算机视觉技术已广泛应用于零售、医疗、安防、智能制造、自动驾驶等多个领域，未来还将在更多新兴领域拓展应用。在硬件方面，随着计算能力的提升和数据资源的丰富，计算机视觉工具的处理速度和处理能力也在不断提高。

五、计算机视觉的未来发展趋势

技术融合与创新

与深度学习等前沿技术加速融合，提升准确率和处理速度。

计算机视觉与深度学习的融合将持续深化。深度学习模型不断发展，其更加复杂和高效的模型结构以及优秀的训练算法和优化方法，将为计算机视觉带来更高的准确率。同时，随着计算硬件的提升，处理速度也将不断加快。例如，卷积神经网络在图像识别等任务中的应用，通过不断优化网络结构和参数，能够更准确地提取图像特征，从而提高计算机视觉系统的性能。

多模态计算需求增加，与自然语言处理结合形成更强大系统。

未来，多模态计算在计算机视觉中的需求将显著增加。正如腾讯优图指出，多模态融合是计算机视觉技术发展的重要趋势。计算机视觉将与自然语言处理等技术结合，实现从单模态智能向多模态融合发展。例如，视觉语言模型如 LLaVA 和 Qwen-VL-Max 等，可以理解图像并生成描述或回答有关图像的问题，为人工智能以更自然的方式与人类互动提供了可能。

应用领域拓展

在无人驾驶、智能家居、智能城市等领域进一步扩展和深化应用。

计算机视觉在无人驾驶领域的应用前景广阔。通过物体的识别与跟踪以及车辆本身的定位，无人车能够实现更高效、更安全的自主导航。例如，利用深度学习方法，无人车可以准确识别行人、道路标志、红绿灯等物体，实现对环境的感知和识别。同时，基于拓扑与地标的定位算法以及基于几何的视觉里程计算法，能够实时确定车辆位置。

在智能家居领域，计算机视觉技术也发挥着重要作用。通过场景理解与建模，智能家居系统可以实现人脸识别与认证、物体识别与跟踪、活动识别等功能。例如，通过对人脸图像进行预处理、分割、提取特征，得到的特征向量作为人脸的唯一标识，实现安全、便捷的家庭访问控制。

在智能城市领域，计算机视觉可以应用于交通管理、安防监控等方面。例如，在交通管理中，通过对道路图像的分析，可以实现智能交通信号控制、车辆违规监测等功能；在安防监控中，可应用于人脸识别、行为分析、异常检测等多个关键功能。

对数据隐私和安全的重视

成为技术发展重要方向，提出更完善可靠的数据保护机制。

随着计算机视觉应用的不断扩展，对数据隐私和安全的重视程度越来越高。在医疗诊断中，计算机视觉技术需要保护患者的敏感信息，如采取数据脱敏、加密技术、访问控制等措施。在图像识别领域，也需要考虑数据安全和隐私保护问题，如采用数据匿名化、聚合分析等方法。同时，法规监管也在加强，各国政府和监管机构制定法律法规，如欧盟的通用数据保护条例（GDPR），为个人信息

为进一步贯彻落实中共中央印发《关于深化人才发展体制机制改革的意见》和国务院印发《关于“十四五”数字经济发展规划》等有关工作的部署求，深入实施人才强国战略和创新驱动发展战略，加强全国数字化人才队伍建设，持续推进人工智能专业人员能力培养和评价，工业和信息化部电子工业标准化研究院牵头研制的SJ/T11805-2022《人工智能从业人员能力要求》已经于2022年7月1日发布实施。依据该标准，工业和信息化部电子工业标准化研究院联合业界企事业单位开发了人工智能专业人员培训项目，并将于昆明举办以下证书培训安排：

《计算机视觉设计开发工程师》证书，学习日期:2025年1月16日至20日昆明

考试时间：1月20日17：00-19:00

2.证书颁发单位：

工业与信息化部电子工业标准化研究院

3.培训对象：

计算机视觉设计工程师：从事计算机视觉应用场景的需求分析，模型构建及验证，实现相应的计算机视觉产品设计、交付及运维，并对人工智能系统进行设计、优化、运维、管理和应用的专业人员。

三、授课方式：理论学习+实操

培训结束后由专业部门组织结业考试。

四、培训老师：

北京理工大学老师，博士，教授，博士生导师。目前主要从事机器学习、数据挖掘及分布式系统方面的研究。

五、培训证书：

本次培训通过结业考试的学员将获得工业和信息化部电子工业标准化研究院颁发的“人工智能专业人员”(中级)认证证书，证书可在官方网站进行查询。