•   按检索    检索词:    高级检索
     排序:相关度 OA 时间 被引次数 点击次数 下载次数 共有10000条符合的查询结果,以下是第41-60项 搜索用时 130 毫秒
[首页] « 上一页 [1] [2] 3 [4] [5] [6] [7] [8] [9] [10] [11] 下一页 » 末  页»
41.
生成技术的飞速发展揭示了相关技术在实际应用中的潜力, 姿态控制人物生成技术(pose-guided person image and video generation)的核心目标是将输入信息的人物转换为指定姿态, 同时保持人物外观的高度一致性. 其技术可以广泛应用于虚拟试穿与时尚… …   相似文献
李玘芮  励雪巍  赵奇  李杰  李玺 《软件学报》2026,37(5):1982-2005
42.
通过专利推荐将科技创新成果转化为现实生活中的实际应用, 让科学技术实现经济价值, 对社会经济发展具有重大意义. 然而, 现有的专利推荐算法往往忽略了专利本身所包含的多模态信息, 导致推荐结果无法全面反映专利的真实价值与应用潜力, 进而影响专利与企业需求之间的匹配精度. 为此, 提… …   相似文献
43.
会议纪要、客服质检等应用对多说话人语音转写与归属判断的需求正日益增长. 随着近年来多模态大语言模型的迅速发展, 音频-语言模型因其能够同时理解音频信号与自然语言提示, 并在自回归解码框架中统一处理两种模态的能力, 天然契合这种“说话人日志”任务的需求, 为端到端多说话人音频转写提供了全新的思路. 提出一种基于音频-语言模型的端到端说话人日志系统, 通过两阶段训练策略实现语音识别能力与判断说话人归属能力的协同优化, 将音频-语言模型的能力泛化到具体的下游任务上. 训练的第1阶段采用监督微调(SFT), 在标准交叉熵损失中引入“说话人损失”, 以加权的方式强化对稀疏说话人标签token的学习信号; 第2阶段使用了基于组相对策略优化(GRPO)算法的强化学习策略, 以联合指标cpCERSA-CER设计奖励函数, 突破了监督学习的性能瓶颈. 在双说话人的场景下开展实验, 对比了热门开源工具3D-Speaker、Diar Sortformer和闭源的AssemblyAI、Microsoft Azure说话人日志API, 并通过消融实验证明了训练方法的合理性, 随后将实验拓宽至四说话人场景. 结果表明, 两阶段的训练方法在双说话人环境中显著提升了模型的语音识别能力与判断说话人归属的能力, 而在四说话人场景中, 常规的监督微调已取得较大收益. 进一步讨论了大模型资源消耗、输入时长限制、跨域适应等问题, 提出了引入流式音频编码器、课程学习、拒绝采样策略等未来优化方向. 研究表明音频-语言模型在多说话人日志任务中具备显著潜力, 但亦需在复杂声学场景下完成更多技术突破.… …   相似文献
44.
研究3类非平衡广义Feistel结构的中间相遇攻击, 并在Q1模型下对这3类结构进行量子中间相遇攻击. 首先, 采用多重集和差分枚举技术对3分支Type-III型广义Feistel结构构建4轮中间相遇区分器, 分别向前向后扩展1轮进行6轮中间相遇攻击, 并利用Grover算法和量子爪搜索算法对该结构进行6轮量子密钥恢复攻击, 该攻击所需的时间复杂度为O(23?/2·?)次量子查询, 其中?为广义Feistel结构的分支长度. 其次, 对3分支Type-I型广义Feistel结构的9轮区分器分别向前向后扩展1轮进行11轮中间相遇攻击及量子密钥恢复攻击, 相应的时间复杂度分别为O(22?)次11轮加密和O(23?/2·?)次量子查询. 最后, 以 3-cell型广义Feistel结构为例探讨了n-cell型广义Feistel结构的量子中间相遇过程, 对n-cell型广义Feistel结构构建2n轮中间相遇区分器, 并进行2(n+1)轮中间相遇攻击及量子密钥恢复攻击, 且时间复杂度分别为O(22?)次2(n+1)轮加密和O(23?/2·?)次量子查询. 结果表明, 相比于经典环境, Q1模型下消耗的时间复杂度更低.… …   相似文献
杜小妮  吴家辉  徐莹  孙瑞 《软件学报》2026,37(5):2257-2273
45.
现实世界中许多应用场景都可以用图数据表示, 图上的查询也具有广泛的应用, 如可达、最短路径、关键字、图匹配、PageRank、SimRank、k-core、k-truss和Clique等. 针对特定的查询问题, 目前的研究方法可概括为: 提出相应的查询处理算法, 并构建索引结构来加速查询. 然而, 现实应用中需求的多样化以及图数据规模爆炸式的增长为该研究方法带来了两方面挑战. 第一, 同一个图数据在应用中会涉及多种查询, 但针对不同查询问题的处理机制和索引结构均不相同, 因此在设计图数据库时需构建多个索引和相应的查询算法; 第二, 索引的规模通常比原图数据的规模大, 多个索引同时存在会占用大量的系统空间, 导致图数据库的性能急剧下降, 不能被真正的应用. 为解决上述挑战, 提出一种统一的查询处理机制, 即为大图数据构建统一且高效的索引结构, 并基于统一索引结构设计可达、最短路径、关键字和图匹配这4种查询处理算法. 为构建统一索引结构, 对大图数据进行划分, 并根据可达、最短路径、关键字和图匹配这4种查询的特点提取出图数据中的重要顶点, 该统一索引结构规模比图数据规模小, 并且能高效地支持上述4种查询. 最后, 通过在4组真实数据上的实验验证了统一索引结构和4种查询处理算法的高效性和扩展性.… …   相似文献
陈迪  袁野  潘雅妮  王国仁 《软件学报》2026,37(5):2235-2256
46.
移动对象的来源丰富、获取简单、运动频繁, 导致数据量呈现爆发式增长, 高效管理移动对象数据的需求日益增加, 使得移动对象数据的索引及查询成为亟待解决的热点问题. 传统的移动对象索引基于空间划分, 能够有效地处理对象的空间位置和时间变化, 但由于移动对象的动态特性需要频繁更新索引,… …   相似文献
王撷阳  巢成  金鑫  许建秋  高云君 《软件学报》2026,37(5):2202-2234
47.
48.
在大规模图像检索任务中, 图像哈希技术通常依赖大量人工标注数据来训练深度哈希模型, 但高昂的人工标注成本限制了其实际应用. 为缓解对人工标注的依赖, 现有研究尝试利用网络用户提供的文本作为弱监督信息, 引导模型从图像中挖掘和文本关联的语义信息. 然而, 用户标签中普遍存在噪声, … …   相似文献
49.
符号音乐理解(symbolic music understanding, SMU)是多媒体内容理解的重要任务之一, 旨在从符号化音乐表示中提取旋律、力度、作曲家风格、情感与流派等多维音乐属性. 现有方法在音乐序列依赖建模方面取得了显著进展, 但是仍然存在两方面关键问题: (1)表… …   相似文献
黄恒焱  邹逸  时乐轩  程皓楠  叶龙 《软件学报》2026,37(5):1887-1902
50.
在动态环境下的双边匹配问题中, 对于时间约束与多目标优化的处理机制是影响匹配效率的重要因素之一, 网络货运平台的运单分配即为此类问题的典型实例. 现有方法在处理时间约束的刚性建模和多目标冲突的权衡机制方面存在显著局限性, 难以准确刻画决策主体在约束边界附近的行为特征. 提出一种基… …   相似文献
廖家俊  董宜滔  毛嘉莉 《软件学报》2026,37(5):2024-2042
51.
随着计算机视觉技术的不断进步, 细粒度图像识别在众多应用领域中发挥着重要作用. 与传统的粗粒度图像识别不同, 细粒度图像识别着重于在同一大类别下对具有细微视觉差异的子类别进行精确划分, 因此该任务更具有挑战性. 近年来, 视觉Transformer以其在全局上下文信息建模方面的出… …   相似文献
唐昊  李泽超  蒋鑫  唐金辉 《软件学报》2026,37(5):2286-2308
52.
开放世界持续学习(OWCL)旨在模拟现实环境中任务不断演化、类别动态变化且遇到未经训练的未知样本的情景. 一个良好的开放世界持续学习模型不仅需要在学习新任务的同时保持对已学任务的记忆, 还需具备识别未知类别的能力, 进而实现持续且鲁棒的知识积累与泛化. 然而, 现有持续学习方法普… …   相似文献
李昱洁  吴晗  孟丹  李天瑞  杨新 《软件学报》2026,37(4):1531-1547
53.
大多数图异常检测方法依赖图神经网络(GNN)在相对高质量的图数据上进行学习. 然而, 在现实应用中, 这种理想场景极为罕见, 大多数数据存在标签缺失、动态变化和结构不完整等问题, 这些问题统称为动态不完整图. 针对GNN在极端条件下性能下降的挑战, 提出一种可解释的动态不完整图异常检测方法EXDIG (explainable dynamic incomplete graph anomaly detection), 其核心是一种结合强-弱互信息优化的图掩码自编码器框架. 该框架通过对图结构(节点/边)和节点特征进行掩码, 模拟现实中的动态不完整场景. 此外, 通过强-弱互信息损失, EXDIG捕捉结构与特征之间的关系, 同时保持结构完整性, 降低过拟合风险, 并提升泛化能力. 此外, 该方法通过在节点、边及特征上引入掩码扰动, 提高动态不完整图异常检测的可解释性, 使其能够识别关键组成部分, 并为异常检测结果提供透明且可信的解释. 在9个真实世界图数据集上进行了评估, 实验结果表明, EXDIG在不同程度的动态不完整场景下, 在多种下游任务和表示学习评估(包括有监督和无监督设定)中均优于现有最先进方法. 其中, 在异常检测数据集Amazon上, EXDIG的NMI和ARI指标分别提升了超过 13% 和 15%; 在动态不完整比率从25%到99%的设置下, 其F1分数波动被控制在5%以内. 此外, EXDIG还实现了在动态不完整图中对各节点的可解释性分析.… …   相似文献
骆祥峰  顾峻铨  余航 《软件学报》2026,37(4):1492-1510
54.
随着人工智能技术的蓬勃发展和广泛应用, 越来越多的恶意软件检测方法和工具利用深度学习的强大学习能力来检测安卓平台上新出现的恶意软件. 然而, 深度学习模型已经被证明容易受到对抗攻击的威胁. 与此同时, 攻击者已经开始提出多种针对安卓恶意软件检测方法的对抗攻击方法, 即生成对抗性安卓恶意软件, 从而达到绕过恶意软件检测的目的. 现有安卓恶意软件检测方法容易受到对抗攻击威胁的主要原因在于, 这些恶意软件检测方法都建立在单一模态特征之上, 而以单一模态存在的特征却很容易被攻击者恶意性地操控. 因此, 为了提高当前安卓恶意软件检测方法可以抵御对抗攻击的鲁棒性, 提出一种基于多模态融合学习的安卓恶意软件鲁棒检测方法RMDroid, 可以在不影响针对一般性安卓恶意软件检测准确性的基础上, 显著提高其抵御对抗攻击的鲁棒性. 具体而言, RMDroid首先会从待测安卓软件的多种模态中提取多种模态的特征信息, 然后分别利用相应的深度学习模型学习表征相应模态深层语义信息的特征向量, 最后利用异类识别网络降低甚至消除多模态特征中受到对抗攻击干扰的模态特征对最终恶意软件预测的影响, 从而提高其抵御对抗攻击的鲁棒性. 实验结果表明, 所提出的RMDroid在5项有效性指标和1项鲁棒性指标上均优于所有基线检测方法. 特别的, 在误报率FPR相同的情况下, RMDroid的检出率TPR比最好的基线检测方法的检出率TPR高出10%以上; 并且针对最先进的HRAT攻击, RMDroid的鲁棒性值高达96%以上, 显著高于MaMaDroid和MalScan基线检测方法的鲁棒性值.… …   相似文献
55.
GitHub是目前最流行的开源项目管理平台之一. 由于团队协作的需要, GitHub引入了问题报告跟踪功能方便项目使用者提交和追踪项目中出现的问题或新功能请求. 问题报告贡献者在解决问题报告时, 通常需要执行故障复现测试用例来复现问题报告中提到的问题并验证问题报告是否解决. 然而… …   相似文献
汪莹  字千成  彭鑫  娄一翎 《软件学报》2026,37(4):1690-1714
56.
随着深度学习技术和扩散模型的快速发展, 图像及视频生成模型展示了高质量、多样化的强大生成能力. 如何利用这些模型实现高效、精准的个性化生成成为当前研究的热点. 个性化图像生成方法能够通过结合文本描述和用户提供的特定概念或主体, 实现定制化图像的生成, 满足用户对个性化视觉内容的多… …   相似文献
何子健  李冠彬 《软件学报》2026,37(4):1854-1884
57.
(t, N)门限多方隐私集合交集协议(threshold multi-party private set intersection, TMP-PSI)允许当指定参与方的集合元素x在其余不少于t–1 (tN)个参与方的私有集合中出现时, 数据元素x作为交集结果输出, 在提案投票、金融交易威胁识别、安全评估等场景具有广泛应用. 现有的门限多方隐私集合交集协议运行效率低、通信轮数多且只能由某一个指定参与方获取交集. 针对这些问题, 设计一种基于弹性秘密共享的参与方门限测试方法, 结合不经意键值对存储(oblivious key-value store, OKVS)提出一种TMP-PSI方案, 能够有效减少计算开销和通信轮数. 为了满足多参与方获取私有集合中交集信息的需求, 提出第2种拓展门限多方隐私集合交集(extended threshold multi-party private set intersection, ETMP-PSI)协议对份额分发方式进行改变, 与第1种方案相比, 秘密分发者和秘密重构方没有额外增加通信轮数和计算复杂度, 实现了多参与方获取私有集合中的交集元素. 所设计的协议在数据集合大小为n = 216的三方场景下运行时间为6.4 s (TMP-PSI)和8.7 s (ETMP-PSI), 与现有的门限多方隐私集合交集协议相比, 重构方和分发方的通信复杂度由O(nNtlog)降为O(bNλ).… …   相似文献
张恩  黄昱晨  郑东  禹勇 《软件学报》2026,37(4):1819-1837
58.
聚焦于教学视频(instructional videos)中的操作规划(procedure planning)问题, 探讨如何根据给定的开始和结束视觉状态, 在教学视频提供的动作空间中规划出一条将开始状态转变为结束状态的动作序列. 教学视频以记录和展示各种事件的操作过程为特点, … …   相似文献
吴益露  王瀚霖  王利民 《软件学报》2026,37(4):1759-1776
59.
现实环境中,数据分布常因时间,空间或模态变化而发生偏移,严重影响机器学习模型在开放场景下的泛化能力与决策稳定性.测试时适应(Test-Time Adaptation,TTA)旨在实现对未知测试分布的动态自主快速适应,近年来受到广泛关注.作为TTA的重要拓展方向,多模态测试时适应(… …   相似文献
60.
区块链, 又称分布式账本, 作为新一代信息技术的典型代表, 在金融、医疗、能源和政务等领域得到广泛应用. 区块链中可监管的隐私保护技术既能保护用户隐私, 增强用户对区块链应用的信任, 又能防止区块链被用于非法活动, 确保应用的合规性. 现有可监管区块链隐私保护方案通常基于双线性配… …   相似文献
苏航  郭兆中  徐茂智 《软件学报》2026,37(4):1777-1800
[首页] « 上一页 [1] [2] 3 [4] [5] [6] [7] [8] [9] [10] [11] 下一页 » 末  页»