rapport corrigé
PLISSON Clement authored
8eb7f934

Structure du repository

pidr/
├── custom_providers/
├── schema/
├── llm_as_judge_dataset2/
├── histogram/
│   ├── first_experience/
│   ├── judge/
│   └── word_search/
│       ├── dataset1/
│       └── dataset2/
├── output_from_models/
│   ├── dataset1/
│   └── dataset2/
|
├── datasets_to_json.py
├── equitable_noms_tailles.py
├── utils.py
├── clean_inj_success.py
├── histogram_first_experience.py
├── histogram_from_llm_judgement.py
├── histogram_from_word_search.py
├── judgment_llm_as_judge.py
├── fair_subset.py
|
├── Rapport_PIDR.pdf
└── LLMs_dataset_2.cforge

Dossiers

  • custom_providers/ : Contient les scripts des custom providers utilisés dans ChainForge.

  • schema/ : Contient les schémas utilisés dans le rapport.

  • llm_as_judge_dataset2/ : Contient les données JSON du second dataset avec l’analyse « LLM as a judge ».

  • histogram/ : Contient les histogrammes, organisés par expérience et dataset.

  • output_from_models/ : Contient les prompts de sorties générées par les modèles, organisées par dataset, dans des fichiers JSON.

Scripts Python

  • datasets_to_json.py : Script pour convertir des ensembles de données au format JSON.

  • equitable_noms_tailles.py : Contient des fonctions pour gérer les noms et tailles des modèles, ainsi que pour filtrer et évaluer les données.

  • judgment_llm_as_judge.py : Utilise l’API Together pour évaluer les résultats des modèles sur des données spécifiques.

  • clean_inj_success.py : Script qui épure les réponses du « LLM as a judge ».

  • fair_subset.py : Script qui produit un sous-ensemble "équitable" (avec les mêmes entrées pour chaque modèle) d'un lot de données pour pouvoir comparer les modèles entre eux sans biais.

  • histogram_from_llm_judgement.py : Collecte les données de sortie de judgment_llm_as_judge.py et génère un histogramme basé sur les jugements des modèles.

  • histogram_from_word_search.py : Analyse et évalue le contenu des prompts de sortie des modèles et génère des histogrammes basés sur ces jugements.

  • histogram_first_experience.py : Génère des histogrammes de la première expérience.

  • fair_subset.py : Script qui génère des sous-ensembles équitables (mêmes entrées pour chaque modèle) afin de comparer les modèles sans biais.

Fichiers

  • LLMs_dataset_2.cforge : Fichier source de sauvegarde d'une chaîne de traitement utilisée dans ChainForge

  • Rapport_PIDR : Rapport final du projet (format PDF ou LaTeX, selon le contexte).