基于交互车辆数据分类提取问题数据的方法
行业分类: 信息传输、软件和信息技术服务业/ 软件和信息技术服务业/ 互联网数据服务
战略性新兴产业分类: 新一代信息技术产业/ 互联网与云计算、大数据服务/ 云计算与大数据服务
项目所处阶段:小试
项目来源(个人或单位名称):高校
获得资助情况(国家计划课题等):其他(请描述)
地址:安徽省合肥市

背景技术 在大数据时代,分类是最基础的数据分析技术和数据任务之一。虽然人们已经提出很多自动车辆数据分类方法,但没有哪种车辆分类方法能适用所有应用场景,而且以“黑盒系统”形式存在的自动车辆分类方法也影响其可解释性和可信性,对诸如图像、视频等高维复杂数据更是如此。影响可解释性和可信度的原因之一是:用户倾向于根据高层特征解读信息、度量相识度,而自动分类算法则依赖底层特征进行分类,从而形成语义鸿沟。多位学者认为允许用户参与分类过程,可以将用户的领域知识融入分类算法,进而有助于提高分类的可解释性和可信度。 基于机器学习的车辆分类算法,尤其是基于深度学习的车辆分类算法近年来在很多领域表现优异,已经成为主流车辆分类算法。基于机器学习的车辆分类算法从训练样本中学习构建车辆分类规则,因为车辆训练样本一般是用户依据自己的领域知识进行制作,所以可以认为车辆训练样本蕴含了用于分类的领域知识,这样领域知识就通过训练算法间接地融入了车辆分类算法,进而能部分克服语义鸿沟问题。但基于机器学习的车辆分类算法需要足够的高质量车辆训练样本,而大量高质量车辆训练样本并不易得,而且对于现有很多探索式车辆数据分析没有车辆训练样本,无法帮助用户获取高质量车辆训练样本,从而导致车辆分类效果不佳。另外,对于车辆分类类别间的边界点难以区分,对其分类比较困难。 发明内容 本发明为了解决现有技术存在的问题,提出一种在排序支持下的交互车辆数据分类方法,以期能解决车辆类别分类无高质量训练样本和车辆分类类别间的边界点难以区分的问题,从而优化车辆分类模型,实现对待分类车辆数据集的准确分类。与已有技术相比,本发明的有益效果体现在: 1、在某些车辆分类应用中,车辆类别之间存在顺序关系,且容易感知车辆数据之间的相对顺序关系。针对这种车辆分类应用场景,本发明方法借助用户对车辆数据间相对顺序关系的认知改进了交互车辆分类方法,从而提出了排序支持的交互车辆分类方法;利用该方法,用户可以尽可能少的标记车辆数据的类别,利用排序模型所提供的数据之间的顺序信息,从而减少了无效的车辆数据标记,极大的提升了车辆数据的标记效率。 2、本发明还进一步对车辆候选标注数据的推荐提出了一种基于车辆数据对的推荐方法。采用该方法,保证了那些出现问题的车辆数据一定会被推荐出来,且保证了车辆推荐数据的规模可控。 3、本发明还对车辆推荐数据的顺序有了进一步的优化;在推荐方法的初期,车辆推荐数据对会相对较多,每个车辆推荐数据都做出判断会对用户产生极大的负担;所以本发明采用基于候选点聚集度的方法,对每条车辆数据对进行评估,提升了那些聚集度较低的候选点的优先级,从而辅助用户作出相应的决策。 4、本发明还为车辆分类结果质量的评估提出了一套新的方案。为了降低用户的负担,辅助用户决定是否需要继续优化模型;本发明采用模型一致度的评估策略,使得用户对于当前车辆分类结果的好坏的判断有了相应的依据,这让用户可以更加方便的理解模型的结果,极大地提高了模型的可解释性和可信度,让训练出来的模型更容易被用户所接受。 附图说明

团队介绍
罗月童,工学博士,合肥工业大学教授,硕士生导师。中国计算机学会会员,计算机辅助设计与图形学专委会会员。主要从事数据可视化、可视分析、计算机辅助设计的理论与应用研究,尤其关注相关技术在核能领域的应用研究与开发,作为主要核心研发人员研发的辅助建模软件、中子学可视化软件在核聚变领域获得广泛应用。
技术优势
CN201910386811.2 一种在排序支持下的交互车辆数据分类方法
1、在某些车辆分类应用中,车辆类别之间存在顺序关系,且容易感知车辆数据之间的相对顺序关系。针对这种车辆分类应用场景,本发明方法借助用户对车辆数据间相对顺序关系的认知改进了交互车辆分类方法,从而提出了排序支持的交互车辆分类方法;利用该方法,用户可以尽可能少的标记车辆数据的类别,利用排序模型所提供的数据之间的顺序信息,从而减少了无效的车辆数据标记,极大的提升了车辆数据的标记效率。 2、本发明还进一步对车辆候选标注数据的推荐提出了一种基于车辆数据对的推荐方法。采用该方法,保证了那些出现问题的车辆数据一定会被推荐出来,且保证了车辆推荐数据的规模可控。 3、本发明还对车辆推荐数据的顺序有了进一步的优化;在推荐方法的初期,车辆推荐数据对会相对较多,每个车辆推荐数据都做出判断会对用户产生极大的负担;所以本发明采用基于候选点聚集度的方法,对每条车辆数据对进行评估,提升了那些聚集度较低的候选点的优先级,从而辅助用户作出相应的决策。 4、本发明还为车辆分类结果质量的评估提出了一套新的方案。为了降低用户的负担,辅助用户决定是否需要继续优化模型;本发明采用模型一致度的评估策略,使得用户对于当前车辆分类结果的好坏的判断有了相应的依据,这让用户可以更加方便的理解模型的结果,极大地提高了模型的可解释性和可信度,让训练出来的模型更容易被用户所接受。
在大数据时代,分类是最基础的数据分析技术和数据任务之一。虽然人们已经提出很多自动车辆数据分类方法,但没有哪种车辆分类方法能适用所有应用场景,而且以“黑盒系统”形式存在的自动车辆分类方法也影响其可解释性和可信性,对诸如图像、视频等高维复杂数据更是如此。影响可解释性和可信度的原因之一是:用户倾向于根据高层特征解读信息、度量相识度,而自动分类算法则依赖底层特征进行分类,从而形成语义鸿沟。多位学者认为允许用户参与分类过程,可以将用户的领域知识融入分类算法,进而有助于提高分类的可解释性和可信度。
商业计划
市场情况
基于机器学习的车辆分类算法,尤其是基于深度学习的车辆分类算法近年来在很多领域表现优异,已经成为主流车辆分类算法。基于机器学习的车辆分类算法从训练样本中学习构建车辆分类规则,因为车辆训练样本一般是用户依据自己的领域知识进行制作,所以可以认为车辆训练样本蕴含了用于分类的领域知识,这样领域知识就通过训练算法间接地融入了车辆分类算法,进而能部分克服语义鸿沟问题。但基于机器学习的车辆分类算法需要足够的高质量车辆训练样本,而大量高质量车辆训练样本并不易得,而且对于现有很多探索式车辆数据分析没有车辆训练样本,无法帮助用户获取高质量车辆训练样本,从而导致车辆分类效果不佳。另外,对于车辆分类类别间的边界点难以区分,对其分类比较困难。
合作意向
中试试验
市场推广、融资需求
联系方式
项目联系人
舒乐
工作单位
上海迈坦信息科技有限公司
手机
13818149539
邮箱
shule@metalab.cn