BrowseComp : le benchmark d’OpenAI qui évalue les agents IA de recherche “Deep Research”
Face à la saturation du web, les agents IA doivent apprendre à fouiller en profondeur, croiser les sources et réfléchir avant de répondre : BrowseComp, le nouveau Benchmark imaginé par les chercheurs d’OpenAI, les met à l’épreuve […]