时间:2022年05月09日 分类:科学技术论文 次数:
摘要 随着新一轮信息技术的发展,基于环境智能的建筑智能终端必将作为工程建造领域高质量发展的重要方向。本文阐述了建筑智能终端的基本概念与重要性,面向构建健康、安全、绿色节能的建筑环境需求,从感知、传输、应用、对象四个层面构建了建筑智能终端技术体系。统计了建筑环境智能中常用的传感器设备与其生成的数据类型,并介绍了处理这些的智能算法与其对应用途,通过物联网、计算机视觉、深度学习等技术实现建筑智能终端在医疗、居家和公共建筑空间的关键场景。对实际应用过程中所面临的技术、管理、组织及伦理等问题,总结了现有建筑智能终端的发展方向与未来可能面临的挑战。
关键词 智能建筑;环境智能;物联网;计算机视觉;深度学习
随着人们对智能建筑的兴趣日益增长,以及该领域新技术的出现,已经引发了一些研究,目的是实现不同类型的应用,如能源优化、建筑管理简化、居民舒适度改善、健康监控等。传统的自动化系统受到日益复杂的建筑环境的挑战,建筑需要不断适应用户的需求与外部环境的改变。物联网是智能建筑的关键技术元素之一,它由所有连接的传感器和这些传感器产生的数据的存储环境组成,可以收集物联网中对象产生的大量数据。然而,现有的智能建筑研究中,重点在于构建智能设备的感知和传输网络,基于规则或专家系统进行设备控制,对于人的行为与需求方面的研究较少。环境智能是指对人的存在非常敏感和具有反应能力的电子环境。
这个词最初是由 Eli Zelkha 和他在 Palo Alto Ventures 公司的团队在 20 世纪 90 年代末发明的[1],后来扩展到没有人的环境中:“在一个环境智能世界中,各种设备协同工作,以一种简单、自然的方式,利用隐藏在连接这些设备的网络(例如物联网)中的信息和智能,支持人们进行日常生活活动、任务和仪式”。Juan Carlos Augusto 和 McCullagh给出了一个现代的定义[2]:“环境智能是一种多学科方法,旨在增强环境和人之间的互动方式。这个地区的最终目标是让我们生活和工作的地方对我们更有利”。环境智能对人的存在敏感,但是却忽略了人所处建筑空间这一信息,其可以作为用户需求分析的凭证之一。
手机智能终端、汽车智能终端,下一个改变人们生活的智能终端是什么?这是一个值得思考的问题。目前,智能建筑与环境智能在智能感知、智能交互、智能服务等研究领域产生了一定的重合,部分研究者同时关注了建筑和人的存在,但是这一领域却没有明确的定义。结合智能建筑与环境智能这两个概念,本文提出了建筑智能终端概念。在第一节中将会介绍建筑智能终端的定义与体系;第二节中讨论了建筑智能终端的关键技术;在第三节,本文会从不同的建筑空间介绍建筑智能终端的应用;第四节,讨论建筑智能终端的发展方向和可能的挑战。
1 建筑智能终端的定义与体系
1.1 建筑智能终端定义本文结合智能建筑与环境智能两者的定义,从用户和建筑本体两个方面出发,提出建筑智能终端。建筑智能终端是指利用环境智能技术构建的,对用户行为敏感的可控制的智能空间。建筑智能终端将物理空间和信息空间融合一体,各种传感器、计算设备、人工智能算法嵌入到建筑空间中,用户通过便捷的人机交互方式与建筑智能终端互动,传感设备与人工智能算法结合感知用户的状态、生理、心理、行为,根据这些状态、用户身份、用户行为习惯和建筑空间属性理解用户的需求,并提供相应的服务。
(1)物理空间。建筑智能终端中的物理空间包含智能感知传感器和建筑本体。智能感知传感器可以通过物联网技术组成传感器网络,主动收集用户的多种数据,比如用户的生理数据(心率,血糖,血氧,血压等)、活动数据(对各类智能设备的开关和设定等)以及视频数据(家庭或者公共空间的视频监控),并且能够根据系统的指示调节环境中的各种参数,比如温湿度、灯光或者设备用电情况等;不同的建筑有着不同的用途,用户在不同建筑中,其需求的倾向不同,比如在住宅中用户需要的是便捷舒适的居住体验,而在医院中,用户需要的是全面的治疗。对建筑进行建模,并且为模型中各个空间分配对于用户需求的偏好,从而形成了各种建筑空间,比如居家建筑空间、医疗建筑空间、公共建筑空间等。
(2)信息空间。建筑智能终端中传感器网络收集的用户生理数据、活动数据、视频数据以及建筑运行过程中产生的数据在信息空间中进行传输、分析和利用。建筑智能终端对用户身份和行为敏感,在同一建筑空间中,不同身份的用户需求可能千差万别。在医疗建筑空间中,患者身份的用户需要的是详尽的康复指导,而医护工作人员需要的是对患者健康数据的全面监控。用户信息在信息空间中的流动和更新是建筑智能终端理解用户需求的重要前提。结合用户当前行为、所处健康空间与行为习惯记录,建筑智能终端能够智能地理解用户此时的需求,并提供相应的服务。建筑智能终端与普适计算、上下文理解和以人为中心的计算机交互设计密切相关。建筑智能终端最重要的特性如下:
1) 嵌入式:各种传感器和计算设备集成到环境中,尽量让智能设备对用户不可见;(2) 上下文理解:建筑智能终端可以识别用户,也可能识别用户所处的建筑空间和情景上下文;3) 自适应:建筑智能终端根据用户身体或精神状态的变化改变其环境,并且能够适应用户生活习惯的变化;4) 透明:建筑智能终端不要求用户采取额外的行动,它采用被动的方式来满足用户的需求,而不需要用户主动进行操作或额外增加负担。
1.2 建筑智能终端体系
建筑智能终端是环境智能技术在建筑领域的进一步细化,其结合传统建筑领域、物联网技术、大数据技术、人工智能技术,在以物联网等智能建筑体系的基础上,增加了建筑空间和用户这两个对象,将现代信息技术与传统建筑领域深度融合,构建了聚焦用户行为与建筑空间的建筑智能终端体系。
建筑智能终端体系主要由以下四个部分组成:
1) 感知层:感知层是实现建筑智能终端的基础,以音视频传感器 摄像头、深度相机、麦克风、雷达等 、被动红外传感器 红外成像仪等 、无线射频传感器(RFID 标签等 以及一系列可穿戴设备 智能手环、智能鞋垫等 为主,检测各种与用户相关的信息。比如用户的音视频记录,建筑空间中各物体与用户距离,用户定位等。
2) 传输层:各类信息资源在此层中汇聚。主要包括三种核心的信息处理的资源和能力:网络(无线网络覆盖、IP 骨干网络、互联网及运营商网络的互联)、计算(云计算、大数据、机器学习)和存储(云存储、本地数据库)。该层包括各类信息互通的协议标准、流程规范、服务接口等等。在这一层,信息经过一定的处理,已经具有了语义化的特征,为下一层应用层调用做好了准备。在建筑智能终端中,产生的数据量较大,视频数据多,一般选择本地数据库存储,以避免数据传输延迟和隐私问题。
3) 应用层:应用层是数据分析的重点,也即输入输出控制终端。例如,手机、智能家居的控制器等等,主要通过数据处理及解决方案来提供人们所需的信息服务。但是在建筑智能终端中,应用层应用普遍遵循对用户透明的原则,结合预设对象信息、感知数据和上下文理解系统,预测用户的需求,提前为他提供相应服务。比如生活辅助系统、跌倒检测、建筑节能等应用都不需要用户动手操作。
4) 预设对象:在建筑智能终端体系中,会预设两个对象,建筑空间和用户。其中建筑空间包含建筑类型和建筑模型,用户对象包含身份、位置、行为习惯。建筑空间和用户进行匹配可以得到用户当前所处的具体位置,这些所有信息都会传输到网络层中作为上下文理解系统的输入,从而为用户提供个性化的服务。在整个体系架构中,数据传输过程为:首先感知层收集数据,传入网络层,并且更新预设对象的信息 建筑模型:设备位置;用户:位置 ,预设对象的所有信息传入网络层;然后网络层进行数据的存储与分析 行为检测、目标识别、上下文理解、需求分析 ,预测用户需要的服务,并将相应的数据传输到网络层,提供相应的服务。
2 建筑智能终端的关键技术
2.1 传感器网络传感器
网络在建筑智能终端中的作用是为更高层次的系统提供和用户有关的信息,为上下文理解和后续的环境控制做准备。由传感器提供的信息被用来驱动自动分析用户行为的系统。由于不可能对建筑智能终端中最常用的传感器进行全面的概述,因此我们将专注于最重要的类型。 概述了在建筑智能终端中部署的常见传感器与其收集的数据类型及用途。可以看到多数的研究集中在音视频数据的采集和分析上,因为这些方式几乎提供了用户在人际交往和与环境互动的过程中使用的所有信号。视觉数据最广泛的应用有表情识别[3]、目标检测[4–6]、动作识别[7–10]和机器人导航[11]等,主要用于识别用户和物体。音频被广泛用于语音识别[12–14],以及与智能交互相关的听觉特征估计。
被动红外传感器记录来自物体(尤其是人、动物和车辆)的红外信号,由于它们的光谱特征可能与视觉特征非常不同,它们为运动和物体分类提供了互补的特征。通过在建筑环境中部署被动式红外传感器设备网络,可以探测火灾和烟雾[15–18],还可以分析用户的运动模式[19,20]。射频识别(RFID)技术是物联网中广泛使用的定位技术,因为它可以感知物体的接近程度和身份信息。无源的 RFID 标签体积小,灵活,不需要复杂操作。因此,它们可以被放置在日常用品上,织成衣物,甚至注射到动物或人体内。RFID 读取器将能够识别经过其附近的物体或人。从不同的标签收集数据允许系统拼凑出建筑智能终端中用户的位置[21]。
使用 RFID 标记用户对于人脸、手势、身体姿势[22]和语音识别应用程序收集真实数据也非常有用。可穿戴传感器已经被视为实现智能健康的解决方案之一,常见的可穿戴设备包括手环、手表、腕带、眼镜、鞋垫等。其可以在非医疗场所便捷地检测用户的生理数据,比如血压[23,24]、血氧[25–27]、心率[28,29]等,从而对用户进行长期的健康监测,可以达到预防慢性病。同时还可以记录用户的运动数据,进行运动监督[30]等功能。目前,建筑智能终端中涉及到的传感器种类繁多、应用范围较广,但是其各有利弊,应该从具体的应用场景和用户需求进行选择。以目标检测任务为例,较常用来进行目标检测的传感器有摄像头、深度相机和雷达。
它们采集到的数据信息量递减,同时目标检测的精度也递减。摄像头拍摄的RGB 图像提供最丰富的视觉特征,也提供最准确的目标检测结果;深度相机提供深度数据与较少的视觉特征,同时检测范围有限,设备成本较高,目标检测的精度不如前者;雷达仅提供声波的反射数据,并不提供视觉方面的特征,目标检测精度最低,同时成本也是三者中最高的,但是雷达会暴露最少的用户隐私。如果是在图书馆等已有监控设备的建筑空间中应用目标检测技术,可以选择摄像头作为传感器,因为它提供最高的目标检测精度,并且成本低廉;如果是在医院等隐私要求较高的建筑空间,一般选择深度相机作为传感器,因为它的目标检测精度和成本都在可接受范围内,并且也在一定程度上缓解了隐私问题。以人员定位为例,可以选择使用计算机视觉技术或者 RFID 标签,前者需要详细记录用户的面部特征,有很高的隐私风险,但是使用较方便,成本较低;后者具有较低的隐私风险,但是成本较高,并且违反了建筑智能终端对用户透明的原则,相对于 RFID 标签,摄像头是更自然的交互方式。
2.2 基于计算机视觉的感知技术长期以来,人类行为一直是计算机视觉研究的重点,主要是在个人信号级别,即出于特定目的跟踪和分析人的面部和身体。人类行为的自动分类涉及对身体运动的理解、手势和标志、面部表情的分析和其他情感信号。在更高的层次上,这些信号与建筑空间属性和用户行为习惯的上下文属性相结合,以理解用户当前需求。
其中人脸检测与识别、目标检测追踪和人体姿态估计的重点在于视觉特征的提取,而目标追踪和行为识别还要涉及到时空特征的提取。视觉特征提取以人脸表情识别为例,其网络结构图 所示。对齐的人脸图像作为模型的输入,经过多次卷积和池化,提取出图像中较底层的通用视觉特征,并逐步提取特化的和表情有关的高层特征,最后经过全连接层进行表情的分类,给出每种表情的置信度。卷积和池化的过程如图 所示,经过不同卷积核与原始图像进行卷积操作,图像中边缘,拐角,圆弧等基础特征被提取出来,再经过最大池化层进行数据的降维,从而降低模型参数,保证模型收敛和训练速度。通过组合不同的卷积核结果,可以将各种基础特征进行组合,训练过程中调整这些参数,就达到了自动提取表情识别相关视觉特征的目的。行为识别 Action Recognition 是指对视频中人的行为动作进行识别,即读懂视频。比如判断一个人是在走路,跳跃还是挥手。在视频监督,视频推荐和人机交互中有重要的应用。
近几十年来,随着神经网络的兴起,发展出了很多处理行为识别问题的方法。不同于目标识别,行为识别除了需要分析目标的空间依赖关系,还需要分析目标变化的历史信息,也就是需要考虑到目标的时空线索。下面简单介绍基于深度学习的行为识别的主流方法:1)双流法(two stream)。双流法将行为识别中的特征提取为两个分支,一个是 RGB 分支提取空间特征,另一个是光流分支提取时间上的光流特征,最后 结 合 两种 特 征 进行 动 作 识别 , 代 表方 法 有TwoStreamCNN、TSN[9]、TRN[37]等;2)3D 卷积(C D)。
卷积就是在空间和时间维度上同时进行卷积运算,将上文中的二维卷积扩展到三维,添加了时间维度,直接提取时空特征,是研究成果较多的方向,代表方法有 和 [38]等;3)卷积循环神经网络(CNN LSTM)。LSTM[39]网络拥有记忆功能,擅长处理时序信号中的长时依赖关系,而视频正是在时间上变化的图像。所以很自然地有研究者将 CNN 与 LSTM 结合进行行为识别,CNN 提取出的空间特征可以作为 LSTM 编码器的输入,进一步学习时间特征。
2.3 上下文理解对用户行为和建筑空间敏感是将建筑智能终端与人工智能、物联网区分开来的关键问题之一。为了实现场景感知、个性化推荐、环境自适应和需求分析,建筑智能终端的应用需要大量关于环境中建筑空间和参与者的信息。研究重点现在转向在更自然的环境中进行分析,减少控制条件,增加了更严格的实时约束,最重要的是,交互动作的识别。用户与环境、用户之间在互动中的相对位置、他们的姿势、手势、非语言行为以及他们相互回应的方式都带有重要的线索,这些线索对于正确的上下文理解至关重要。前文中提到的传感器和关键技术可以提供了许多解决方案,为以下几个关键问题提供答案:
(1 )用户识别。在建筑智能终端中,不同用户有着不同的行为习惯和活动倾向,在同一建筑空间中,不同用户对光照、温湿度等环境因素的需求可能并不相同,建筑智能终端需要针对他们的习惯调整其所处空间的环境,以提供个性化的服务。基于人脸识别、面部和行为的视觉生物识别技术主要可以处理一般建筑空间中相对较少的用户。在公共建筑空间或隐私要求较高的建筑空间中,可以使用RFID 标签等设备进行用户的注册和识别。
( 2)用户定位。用户在生活和工作的过程中,其所处的建筑空间和位置坐标是对于上下文理解系统很重要的标识之一。用户在建筑空间中活动时,其位置信息的检测和跟踪可以通过计算机视觉或定位传感器解决。虽然使用校准相机对人类进行视觉跟踪已在很大程度上解决了用户定位的问题,但在复杂活动中跟踪多人仍然具有挑战性,并且这涉及到多摄像头阵列以及丢失用户后重识别等挑战。使用 RFID 标签等定位传感器可以较方便地记录用户的位置信息,但是违背了建筑智能终端对用户透明的原则;智能手环等可穿戴设备使用 GPS 定位技术,可用于室外运动定位,同时对用户透明,不会过多影响其生活工作,但是其精度不足以应用于室内定位。建筑智能终端将建筑数字化,建立建筑数字化模型,其中包含建筑的多个建筑空间与用户的位置信息,将用户与其当前所处的建筑空间进行匹配,可以提供在此建筑空间下用户可能需要的服务。
( 3)用户交互对象识别。识别用户互动的对象是建筑智能终端实现针对用户和建筑空间的个性化服务的基础。虽然建筑空间中的用户数量可能很少,但有许多潜在的交互对象,以通用的方式为每个这样的对象构建检测器成为一个挑战。对于交互对象识别,一般采用 RFID 标签或者基于深度学习的目标检测技术。前者通过将 RFID 标签佩戴在物品或用户身上,从而直接获取用户与周围物体之间的距离和物品类型,但是建筑空间内移除或添加设备时需要重新注册;后者能够自动识别建筑空间中的各类物品,但是测量用户与各物品之间距离需要多目相机进行 3D 计算,占用计算资源较多。
(4 )用户表情、手势和动作识别。在建筑智能终端中,建立一个有效的上下文理解系统往往依赖于对用户行为的正确检测和识别。目前常见的方法是基于深度学习的视觉方法,需要从视频中提取用户的时空视觉特征。虽然低层次的时空特征和词袋方法在识别某些动作方面似乎很好,但更复杂的动作和更强的泛化能力需要更高层次的表示。同时对用户的音频数据进行语音识别是实现无感人机交互的重要手段。建筑智能终端检测到的用户的特定行为或特定语音片段,可以作为基于规则的推荐系统的触发条件,从而提供特定的服务。
3 建筑智能终端实践应用建筑
智能终端的关键在于结合用户的行为与所处的建筑空间进行需求分析,在不同的建筑空间中用户想要进行的活动不同,不同的身份也会导致不同的需求。接下来介绍建筑智能终端在常见的三种建筑空间中的应用。
3.1 医疗建筑空间中的环境
智能在医疗建筑空间中,对于医护工作人员,建筑智能终端可以帮助实现更高效的临床工作流程,并改善重症监护室和手术室中的患者安全;对于患者来说,建筑智能终端能够提供详细的康复指导、更优的康复环境以及尽可能早的疾病诊断与预防。建筑智能终端在医疗健康空间中的应用如图所示,基于环境对人健康影响的机理,对室内物理环境进行建模仿真可以优化室内空间布局,为用户提供更优质的康复环境;手术室是医院的平台科室,地位重要,业务繁忙。在手术室物联网应用和业务类应用运转过程中,产生了大量数据,通过大数据平台的分析处理,建成了手术室综合态势感知平台,医护工作者在通道、门口、等待间、餐厅等区域经过人脸识别、掌静脉识别和手术衣 RFID 芯片识别技术进行识别与管理,实现了手术相关数据的统一建模和汇聚,在此基础上,构建生成管理指标数据。
据统计,临床医生花费多达 35%的时间在医疗记录任务上[40],每个病人每次就诊期间医生都要进行记录,这在很大程度上影响了临床工作的效率。然而,抄写员的培训代价大,并且有很高的流动性。建筑智能终端可以通过语音识别技术辅助医生完成这一工作。在一项研究中,研究人员从病人和医生之间的90000次对话中提取14000小时的门诊音频,训练了一个深度学习模型[41]。该模型显示了 80%的文字水平的转录准确性,比专业抄写员 76%的准确性高。使用语音识别技术代替手写,能够很大程度上减少重复性工作,并且增加医生与病人的相处时间,这有助于提高临床效率和诊疗质量。通过计算机视觉技术与环境摄像头,一项研究训练卷积神经网络来来跟踪前列腺切除手术中的针头驱动器,以作为外科技术评估的标准[42]。
这可以避免可穿戴设备对于外科医生手灵敏度的影响,同时也降低了感染风险。一项研究通过在洗手台上方安装深度传感器,利用深度学习算法检测手卫生活动[43],建筑智能终端可以通过手卫生的结果和目标用户的位置信息进行院内感染的控制与追踪。患者的早期运动恢复可以大幅度降低患 ICU 获得性虚弱的可能性[44]。常规的患者移动性评估是通过直接的、面对面的观察,正确的测量需要对病人的运动有细致入微的了解,而这在很大程度上占用了临床资源,成本很高。而建筑智能终端可以在 ICU病房中提供基于深度传感器的患者移动测量,不需要占用医生时间,并且隐私风险很低。同时在 ICU病房中,可以通过建筑智能终端监测患者的康复状态,检测其精神状态并统计其行为分布,为医生的后续治疗提供更深入的了解。
3.2 居住建筑空间中的环境
智能人的大部分时间都呆在家里,特别是老年人。在世界范围内,人口老龄化的趋势不断扩大。建筑智能终端能够提供更便捷的生活环境并辅助老人日常生活。在为辅助生活创建以人为中心的智能环境时,两个最基本的任务是:(a)对日常活动进行分类;(b)检测异常活动。建筑智能终端辅助老年人生活的例子包括探测异常情况,如家中跌倒、抢劫或火灾,识别日常生活模式,以及获取与各种日常活动相关的统计数据。在所有的活动中,检测跌倒是最受关注的话题之一,因为它有骨折、中风甚至死亡等相关风险。触发紧急援助往往是必要的,尤其是对那些独自生活的人。通过智能手表、声音传感器、可穿戴运动设备 陀螺仪、速度计、加速计 、视觉、深度和红外相机等不同类型的传感器,可以进行行为检测。但是每个传感器都有其优缺点,例如,可穿戴设备很简单,然而,它需要定期充电,并且老人也很容易忘记佩戴。基于视觉的技术对于老人是透明的,存在一些隐私问题,但是可以通过特征提取后去除原始数据仅保留人形或仅形状可见数据的方法来进行改善[45]。
4 结论
本文通过对智能建筑和环境智能的讨论提出了建筑智能终端的定义与体系,并讨论了其中的关键技术,最后介绍了在不同建筑空间下建筑智能终端的应用情况。建筑智能终端是人工智能在建筑空间下对用户行为进行反应的产物,在很大程度上依赖于信息社会和人工智能的进步。而人工智能目前正处于高速发展阶段,并且其发展速度要远超硬件,即使是在更好的硬件上,由于更先进的软件算法和系统,也会产生新的解决方案,所以每年都会出现几个重量级的人工智能应用。基于人工智能技术这样的发展前景,建筑智能终端会成为之后相关研究领域的重点。
但是建筑智能终端仍然存在以下待解决的问题:(1) 成本:基于深度学习的人工智能技术需要大量数据进行训练,并且对于算力要求很高,在部署建筑智能终端时,要同时考虑模型训练的时间和设备成本;(2) 隐私:基于视觉的方法能够在最大程度上满足建筑智能终端对用户透明的特性,但是对于用户来说有很大的隐私风险。可以从数据传输安全和仅保留视觉数据中的形状特征这两个方面解决;(3) 规模:基于视觉的解决方案需要考虑部署的规模,要考虑多相机、多用户、多交互对象、密集行为检测的技术难度。但是这个问题将会随着计算机视觉领域的发展而逐步解决。
参 考 文 献
[1] Arribas Ayllon M. Ambient Intelligence: An innovationnarrative[DB/OL]. [2022 04 22].
[2] Augusto J C, Mccullagh P. Ambient Intelligence: Conceptsand applications[J]. Computer Science and InformationSystems, 2007, 4(1): 1 27.
[3] Schroff F, Kalenichenko D, Philbin J. FaceNet: A unifiedembedding for face recognition and clustering[C]//2015 IEEEConference on Computer Vision and Pattern Recognition(CVPR). Boston, MA, USA: IEEE, 2015: 815 823.
[4] Ren S, He K, Girshick R, et al. Faster R CNN: TowardsReal Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis and MachineIntelligence, 2017, 39(6): 1137 1149.
[5] Liu W, Anguelov D, Erhan D, et al. SSD: Single ShotMultiBox Detector[C]//Computer Vision – ECCV 2016. Cham:Springer International Publishing, 2016: 21 37.
作者:周 迎2,* 徐亚寅1,2 丁烈云2