600ms

发表于 2025-08-22 600ms 1000ms 1200ms

inference 离线模型的推理时间是会受到在线推理生成的模型的影响吗？或者与云平台的拥挤程度有关系吗？在执行离线推理时最开始的推理时间只有70 ms ，但是没有修改过代码的情况下再次运行竟然变成了1000ms 我尝试过重新跑一遍cpu和mlu在线推理的模型，发现离线推理的时间变成了200多ms 但是多运行几次在线推理的模型后离线推理的时间竟然又增加变成600ms 甚至1200ms 请问究竟是什么原因导致这样的结果呢？代码部分应该是没有修改过的按理说离线模型的时间不应该出现这么大的波动……？