Structure du repository
pidr/
├── custom_providers/
├── schema/
├── llm_as_judge_dataset2/
├── histogram/
│ ├── first_experience/
│ ├── judge/
│ └── word_search/
│ ├── dataset1/
│ └── dataset2/
├── output_from_models/
│ ├── dataset1/
│ └── dataset2/
|
├── datasets_to_json.py
├── equitable_noms_tailles.py
├── utils.py
├── clean_inj_success.py
├── histogram_first_experience.py
├── histogram_from_llm_judgement.py
├── histogram_from_word_search.py
├── judgment_llm_as_judge.py
├── fair_subset.py
|
├── Rapport_PIDR.pdf
└── LLMs_dataset_2.cforge
Dossiers
-
custom_providers/
: Contient les scripts des custom providers utilisés dans ChainForge. -
schema/
: Contient les schémas utilisés dans le rapport. -
llm_as_judge_dataset2/
: Contient les données JSON du second dataset avec l’analyse « LLM as a judge ». -
histogram/
: Contient les histogrammes, organisés par expérience et dataset. -
output_from_models/
: Contient les prompts de sorties générées par les modèles, organisées par dataset, dans des fichiers JSON.
Scripts Python
-
datasets_to_json.py
: Script pour convertir des ensembles de données au format JSON. -
equitable_noms_tailles.py
: Contient des fonctions pour gérer les noms et tailles des modèles, ainsi que pour filtrer et évaluer les données. -
judgment_llm_as_judge.py
: Utilise l’API Together pour évaluer les résultats des modèles sur des données spécifiques. -
clean_inj_success.py
: Script qui épure les réponses du « LLM as a judge ». -
fair_subset.py
: Script qui produit un sous-ensemble "équitable" (avec les mêmes entrées pour chaque modèle) d'un lot de données pour pouvoir comparer les modèles entre eux sans biais. -
histogram_from_llm_judgement.py
: Collecte les données de sortie dejudgment_llm_as_judge.py
et génère un histogramme basé sur les jugements des modèles. -
histogram_from_word_search.py
: Analyse et évalue le contenu des prompts de sortie des modèles et génère des histogrammes basés sur ces jugements. -
histogram_first_experience.py
: Génère des histogrammes de la première expérience. -
fair_subset.py
: Script qui génère des sous-ensembles équitables (mêmes entrées pour chaque modèle) afin de comparer les modèles sans biais.
Fichiers
-
LLMs_dataset_2.cforge
: Fichier source de sauvegarde d'une chaîne de traitement utilisée dans ChainForge -
Rapport_PIDR
: Rapport final du projet (format PDF ou LaTeX, selon le contexte).