EU 연구는 AI 벤치마킹의 단점에 대해 경고합니다

유럽

지난주위원회의 공동 연구 센터에서 발표 한 새로운 논문은 AI 벤치 마크가 너무 많은 것을 약속한다고 결론 지었다. 저자는 AI 모델을 비교하는 독점 도구가 쉽게 게임 가능하고 잘못된 것을 측정한다는 것을 발견했습니다.

AI 회사는 벤치 마크를 사용하여 특정 작업에서 모델이 얼마나 잘 수행되는지에 대한 숫자를 넣습니다. 예를 들어, Openai는 새로 발표 된 GPT-5가 대답 할 수없는 질문에 답하는 것을 얼마나 안정적으로 사용하는지에 대해 새로 출시 된 GPT-5를 테스트했습니다. 새로운 모델은 오래된 점수보다 높은 점수를 얻었습니다.

그러나 EU 연구원들은 규제 당국이 이러한 도구의 작동 방식을 신중하게 검토하는 데 집중할 것을 촉구하고 있습니다.

인공 지능에 대한 규칙은 여러 가지 상황에서 모델 기능을 평가하는 데 의존하기 때문에 AI 벤치마킹 AI는 EU의 문제입니다. 예를 들어, 대형 모델은 EU의 AI 법에 따라 “높은 영향 기능”을 가지고 있다는 벤치 마크를 기반으로 EU의 AI 법에 따라 특별한 위험을 제시하는 것으로 계산 될 수 있습니다.

이 법은위원회가 위임 된 법을 통해 정확히 무엇을 의미하는지 명시 할 수 있도록 허용합니다.

한편, 금요일 미국 정부는 자체 정부 기관이 AI 도구를 테스트하는 데 사용할 수있는 다양한 평가 도구를 시작했습니다. 이 나라의 AI 행동 계획은 또한이 지역에서 우리의 리더십을 추진하려는 분명한 야심을 설정합니다.

신뢰할 AI 벤치 마크는 무엇입니까?

EU 연구원들은 정책 입안자들은 벤치 마크가 좁은 작업보다는 실제 능력을 대상으로해야한다고 말합니다. 잘 문서화되고 투명합니다. 그들이 측정하는 것과 방법을 명확하게 정의하십시오. 다른 문화적 맥락을 포함합니다.

논문에 따르면 또 다른 문제는 기존 벤치 마크가 종종 영어에 중점을 둔다는 것입니다.

“우리는 특히 신뢰할 벤치 마크를 알리는 새로운 방법에 대한 필요성을 식별합니다.”

EU 연구원들은 정책 입안자들이 새로운 종류의“브뤼셀 효과”를위한 기회가 있다고 제안합니다.

“개선이 필요하지만 능력과 위험과 혜택의 기타 측면을 평가하는 것은 매우 중요하며 단순히 분위기와 일화에 의존하는 것만으로는 충분하지 않습니다.”

대변인은 또한 AI 모델 평가를위한 기술 지원을 위해 AI 사무소의 9 백만 유로의 입찰을 지적했습니다.

(NL)