Κατάταξη μοντέλων
Αυτό το έγγραφο μεταφράστηκε από τα Κινεζικά με AI και δεν έχει ακόμη ελεγχθεί.
Αυτή είναι μια λίστα κατάταξης βασισμένη σε δεδομένα από το Chatbot Arena (lmarena.ai), που δημιουργείται μέσω αυτοματοποιημένης διαδικασίας.
Χρονική σήμανση ενημέρωσης δεδομένων: 2025-07-12 11:41:46 UTC / 2025-07-12 19:41:46 CST (Ώρα Πεκίνου)
Λίστα Κατάταξης
Οι τρεις πρώτες κολύμβηση-ποιόνες συνεχίζουν μεταξύ των υπόλοιπων θέσεων με παρόμοια δομή
Επεξήγηση
Κατάταξη(UB): Κατάταξη με βάση το μοντέλο Bradley-Terry. Αυτή η κατάταξη αντικατοπτρίζει τη συνολική απόδοση των μοντέλων στην αρένα και παρέχει μια εκτίμηση του ανώτατου ορίου του σκορ Elo του μοντέλου, βοηθώντας στην κατανόηση της δυνητικής ανταγωνιστικότητάς του.
Κατάταξη(StyleCtrl): Κατάταξη μετά από έλεγχο του στυλ συνομιλίας. Στόχος είναι να ελαχιστοποιηθεί η μεροληψία προτίμησης λόγω στυλ απαντήσεων (π.χ. λίαν εκτενείς, σύντομες), αξιολογώντας καθαρότερα τη βασική ικανότητα του μοντέλου.
Όνομα Μοντέλου: Το όνομα του Μεγάλου Γλωσσικού Μοντέλου (LLM). Η στήλη περιλαμβάνει σύνδεσμους για σχετικές πληροφορίες.
Βαθμολογία: Η βαθμολογία Elo που κέρδισε το μοντέλο μέσω ψηφοφορίας χρηστών στην αρένα. Το Elo είναι ένα σχετικό σύστημα κατάταξης — υψηλότερες τιμές δείχνουν καλύτερη απόδοση. Είναι δυναμικό και αντικατοπτρίζει σχετική απόδοση.
Διάστημα Εμπιστοσύνης: Το 95% διάστημα εμπιστοσύνης για τη βαθμολογία Elo (π.χ.
+6/-6
). Μικρότερο διάστημα υποδηλώνει σταθερότητα/αξιοπιστία, ενώ μεγαλύτερο μπορεί να υποδηλώνει ανεπαρκή δείγματα ή διακυμάνσεις.Ψήφοι: Ο συνολικός αριθμός ψήφων που έλαβε το μοντέλο στην αρένα. Περισσότερες ψήφοι συνήθως σημαίνουν υψηλότερη στατιστική αξιοπιστία.
Πάροχος: Ο οργανισμός ή εταιρεία που παρέχει το μοντέλο.
Άδεια Χρήσης: Ο τύπος αδειοδότησης (π.χ. Ιδιόκτητο, Apache 2.0, MIT).
Ημερομηνία Τερματισμού Γνώσης: Ημερομηνία τερματισμού γνώσης για τα δεδομένα εκπαίδευσης. Δεν υπάρχουν δεδομένα σημαίνει πως οι πληροφορίες δεν είναι διαθέσιμες.
Πηγή Δεδομένων & Συχνότητα Ενημέρωσης
Τα δεδομένα προέρχονται από το έργο fboulnois/llm-leaderboard-csv και επεξεργάζονται από το lmarena.ai. Η λίστα ενημερώνεται αυτόματα καθημερινά μέσω GitHub Actions.
Αποποίηση Ευθυνών
Αυτή η έκθεση παρέχεται μόνο για ενημερωτικούς σκοπούς. Τα δεδομένα είναι δυναμικά και βασίζονται σε προτιμήσεις χρηστών στο Chatbot Arena για συγκεκριμένες χρονικές περιόδους Η πληρότητα και ακρίβεια εξαρτώνται από την πηγή δεδομένων και την επεξεργασία του έργου fboulnois/llm-leaderboard-csv
. Τα μοντέλα μπορεί να υπόκεινται σε διαφορετικές άδειες — ανατρέξτε στις επίσημες οδηγίες των παρόχων πριν τη χρήση.
最后更新于
这有帮助吗?