网站地图官方微信:
网站首页 bzzp bzscx yzyp yjs yjb ycj

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | 作为一个服务器,node.js 是性能最高的吗? |

    嘿,兄弟们!今天你焦虑了吗? 反正我朋友圈的 JS 开发者群...

    查看详情>>
  • | 蔡澜曾说「年轻人要存到 100 万以上,这是脱离牛马生活的第一步」,怎样看这一观点? |

  • | 为什么说 Node.js 有望超越J***a? |

  • | 突然觉得男朋友不值得托付,是我错了吗? |

  • | 为什么中国很少有人使用linux? |

  • | 开源商城系统有那些?哪个比较好用? |

  • | 特斯拉Model Y如何应对小米 YU7的冲击? |

  • | 发达国家放弃全电动车,我国电车一降再降,高举发展新能源汽车大旗,电车会变成中国车企自嗨吗? |

  • | 为什么负荷那么大的腰部力量训练的人不会受伤,长期无载荷久坐的人会出现腰肌劳损? |

  • | 普通人用得着4k分辨率的显示器吗? |

  • | 如何看待暴露但很还原的cos? |

  • 调教好的HDR显示器,在Windows开启HDR后默认也很好...

    2025-06-29
  • 嗨呀,作为一个日常上班的社畜这题包会的,上班就没必要区浪费那...

    2025-06-29
  • 有一个很新的东西,叫做tls指纹,服务器可以根据这个判断是否...

    2025-06-29
  • 他有一期天津人吃铜锅涮肉那个,我得提一嘴,天津人吃的蘸料里可...

    2025-06-29

关注我们

添加微信好友,关注最新动态