中国报告大厅网讯,在当今数字化时代,虚拟现实技术迅猛发展,已广泛渗透到生成式人工智能、增强现实以及元宇宙等多个领域。然而,由于投影带来的视觉差异,人们在虚拟现实行业系统中的空间认知往往与真实世界存在偏差,这一偏差不仅影响着虚拟现实系统的沉浸式体验,还制约着人工智能模型在复杂空间场景理解与重建等任务中的表现。而目前,国内外在这一领域缺乏系统性的实验数据,成为了相关研究和应用发展的阻碍。基于此,一套全面的虚拟现实系统空间认知实验数据集的构建显得尤为重要。
该数据集名为虚拟现实系统空间认知实验数据集,数据时间范围为2024年9月–12月,有效数据量达4212条,由国家自然科学基金支持。数据集包含两个数据文件,分别是 SpatialScene.xlsx 和SpatialCognition.csv。其中,SpatialScene.xlsx 存储 85 个空间场景的基本信息数据,每个场景包含15个基本信息字段;SpatialCognition.csv 存储被试空间认知数据,共4212条有效数据,每条样本包含11个字段。
虚拟现实系统空间认知实验的开展,涵盖了实验设计、系统搭建、数据收集与预处理等环节。在实验设计上,采用控制变量法,探究空间对象数量、距离和角度对虚拟场景中空间认知的影响。距离分为 (0, 200 m) 和 (200 m, 500 m) 两个区间;角度分为 (0, 60°)、(60°, 120°)、(120°, 180°) 三个区间;空间对象数量考虑两对象(A/B)与三对象(A/B/C)情况,其中三对象中 C 的位置有 6 种划分情况。根据这些影响因子,设计了相应的空间场景,从谷歌地图中筛选出 85 个符合要求的地图片段,基于谷歌地图 API 生成 85 个时长 30 秒的实验场景视频。实验包含观察与标注两阶段,被试先观看场景视频记忆空间对象分布及关系,随后绘制出对象分布情况。
数据采集系统架构包含观察页面、绘制页面、评分页面、浏览器、服务器和数据库等部分。绘制页面要求用户标注空间对象坐标信息,评分页面基于坐标信息计算认知分布与真实分布的对比得分,包括角度误差评分、距离误差评分和总评分,具体计算公式如下:
角度误差评分 Sa=1-|θtest-θtrue|/180°,其中 θtest 与 θtrue 分别代表测试角度与真实角度。
距离误差评分 Ed=|ln (Rtest/Rtrue)|,Sd=1-σ(Ed)=1-1/(1+e^(-k・Ed)),其中 Ed 表示距离对数误差,Rtest 表示测试角度对应的两边距离之比,Rtrue 表示真实角度对应的两边距离之比,σ 代表 Sigmod 函数,k 用于调节距离评分严格程度。
总评分 S=(Sa+Sd)/2×100。
数据收集采用线上线下相结合的方式,线上通过 “微信” 推广系统网址二维码,线下在人流密集区域发放二维码海报,共搜集4396条原始实验数据。经过筛选,剔除测试时间低于30秒以及未标注便提交导致坐标重合的明显错误数据,最终保留有效数据4212条。同时,将空间场景数据中的经纬度坐标转换为以 O 点为原点的平面直角坐标,构建成空间场景认知数据集。
从受试人群的人口统计学特征来看,性别分布上,男性占比 52.1%,女性占比 47.9%,比例相对均衡;年龄分布上,划分为 5 个年龄段,26–40 岁占比最高,为 32.7%,其次是 18–25 岁(28.4%)以及小于 18 岁(26.9%),41-60 岁和 > 60 岁占比相对较低。
SpatialScene.xlsx 的 15 个字段包括 VID(空间场景编号)、A_x(空间对象 A 的 X 轴坐标)、A_y(空间对象 A 的 Y 轴坐标)、B_x(空间对象 B 的 X 轴坐标)、B_y(空间对象 B 的 Y 轴坐标)、C_x(空间对象 C 的 X 轴坐标)、C_y(空间对象 C 的 Y 轴坐标)、O_x(空间对象 O 的 X 轴坐标)、O_y(空间对象 O 的 Y 轴坐标)、Vurl(空间场景视频对应的嵌入代码)、Flag(空间场景中对象数量)、O_ll(空间对象 O 的经纬度)、A_ll(空间对象 A 的经纬度)、B_ll(空间对象 B 的经纬度)、C_ll(空间对象 C 的经纬度)。
SpatialCognition.csv 的 11 个字段包括 ID(空间认知测试数据的编号)、A_x(用户绘制 A 的 X 轴坐标)、A_y(用户绘制 A 的 Y 轴坐标)、B_x(用户绘制 B 的 X 轴坐标)、B_y(用户绘制 B 的 Y 轴坐标)、C_x(用户绘制 C 的 X 轴坐标)、C_y(用户绘制 C 的 Y 轴坐标)、O_x(O 的 X 轴坐标)、O_y(O 的 Y 轴坐标)、Flag(空间场景中对象数量)、VID(被测场景编号)。
《2025-2030年全球及中国虚拟现实行业市场现状调研及发展前景分析报告》为确保数据的准确性、完整性及可靠性,从四个方面进行数据质量控制与评估。一是数据采集系统的优化与隐私保护,开发专门的数据采集系统并经多轮测试优化,保证其稳定性和可靠性,同时对受试者个人信息进行匿名化处理,遵守数据隐私保护法规。二是多重校验机制,系统实时监控并检测异常数据,实验后通过人工抽查进行二次校验,标记并剔除异常数据。三是防重复测试与异常过滤,采用基于场景 ID 的随机分配算法,防止同一受试者重复测试同一场景,利用多字段数据比对机制识别并过滤异常数据。四是数据质量评估体系,构建专门评分体系,通过对比用户标注的空间对象角度、距离参数与基于实际经纬度的基准值,评估受试者空间认知精度并生成认知得分。
该数据集在学术研究与应用实践中具有重要价值。在学术研究方面,它为空间认知科学提供了定量分析基础,有助于研究者探究三维环境感知中的认知机制及其影响因素,为空间认知理论模型的构建与验证提供关键数据支持。在应用实践方面,可为虚拟现实、增强现实及元宇宙等应用系统的优化提供指导,开发者可依据用户的认知偏差调整场景布局和视角设计,提升用户的空间感知精度和沉浸式体验;同时,还能为生成式人工智能领域中人工智能模型在空间场景生成、对象分布预测及三维重建等任务的性能提升提供数据支撑,使人工智能在模拟人类空间认知能力方面更精准。
综上所述,这套虚拟现实行业系统空间认知实验数据集的构建,填补了国内外在该领域系统性实验数据的空白。它不仅详细呈现了数据的基本信息、采集过程、样本特征、质量控制方式,还展现出在学术研究和实际应用中的重要价值,为虚拟现实、生成式人工智能等相关领域的研究与发展提供了坚实的数据基础,有助于推动这些领域在理论和实践上取得进一步突破。
更多虚拟现实行业研究分析,详见中国报告大厅《虚拟现实行业报告汇总》。这里汇聚海量专业资料,深度剖析各行业发展态势与趋势,为您的决策提供坚实依据。
更多详细的行业数据尽在【数据库】,涵盖了宏观数据、产量数据、进出口数据、价格数据及上市公司财务数据等各类型数据内容。