unsloth_compiled_cache/__pycache__/UnslothNashMDTrainer.cpython-310.pyc

o
:—°hDºã@s¾dZddlmZddlZddlmZddlmZddlmZm	Z	m
Z
mZmZm
Z
mZmZddlmZmZmZmZmZmZmZmZmZmZmZmZmZmZm
Z
mZmZmZmZm Z m!Z!mZm"Z"m#Z#m$Z$m%Z%m&Z&m'Z'm(Z(m)Z)m*Z*mZm+Z+m,Z,m-Z-mZm.Z.m/Z/ddl+Z+ddlTddl0m1Z1m2Z2dd	l3m4Z4ddlZddl5Z6dd
l7m8Z8ddlmZddl9m:Z:m;Z<dd
dd
d
dœZ=ej>dde=d�dd„ƒZ?e1Gdd„deƒƒZ@	Gdd„deƒZAGdd„deAƒZBdS)z9
2025.8.9
2025.8.10
4.55.4
0.21.0
__UNSLOTH_VERSIONING__
é)ÚTensorN)Ú
functional)ÚAnyÚListÚOptionalÚTupleÚUnionÚDictÚSetÚCallable)&rÚBaseImageProcessorÚBasePairwiseJudgerÚDatasetÚEvalPredictionÚFÚFeatureExtractionMixinÚGeometricMixtureWrapperÚIterableDatasetÚNashMDConfigÚ
NashMDTrainerÚOnlineDPOTrainerÚOptimizerNamesrÚ	PeftModelÚPreTrainedModelÚPreTrainedTokenizerBaseÚProcessorMixinÚSIMPLE_CHAT_TEMPLATEÚTrainerCallbackrÚempty_cacheÚgenerate_model_cardÚget_comet_experiment_urlÚ
get_rewardÚis_conversationalÚis_peft_availableÚis_wandb_availableÚjinja2Úmaybe_apply_chat_templateÚnnÚosÚselective_log_softmaxÚtextwrapÚtorchÚtruncate_rightÚunwrap_model_for_generation)Ú*)Ú	dataclassÚfield)ÚVersion)Únullcontext)ÚDataCollatorForSeq2SeqÚDataCollatorForLanguageModelingTF)Úepilogue_fusionÚmax_autotuneÚ
shape_paddingz
trace.enabledztriton.cudagraphs)ÚdynamicÚ	fullgraphÚoptionsc
Cs¾tj| d|jd¡ddd�}tj| d¡ddd�}g}t||ƒD](\}}| tj¡}tj|d| d¡d� 	d¡}tj
|dd�}||}	| |	¡q!	t |¡}| |jd|jdf¡}|S)Néÿÿÿÿér)ÚchunksÚdim)r>Úindex©r>é)
r+ÚchunkÚreshapeÚshapeÚzipÚtoÚfloat32ÚgatherÚ	unsqueezeÚsqueezeÚ	logsumexpÚappendÚconcat)
Úlogitsr?Úchunked_logitsÚ
chunked_indexÚall_per_token_logpsÚchunk_logitsÚchunk_indexÚselected_logitsÚlogsumexp_valuesÚper_token_logps©rWúT/workspace/DS-LLM-TEMPLATE-FINETUNING/unsloth_compiled_cache/UnslothNashMDTrainer.pyÚchunked_selective_log_softmax"s
rYcsšeZdZUdZedddid�Zeeed<edddid�Z	ee
ed	<eddd
id�Zee
ed<						
																														 									!	!					"	#								$														$						%	&				'												(									#				$				)	*																+	,			-				.	/					d2‡fd0d1„	Z‡Z
S)3ÚUnslothNashMDConfigaö
    
    Configuration class for the [`NashMDTrainer`].

    Subclass of [`OnlineDPOConfig`] we can use all its arguments and add the following:

    Parameters:
        mixture_coef (`float` or `list[float]`, *optional*, defaults to `0.5`):
            Logit mixture coefficient for the model and reference model. If a list of floats is provided then the
            mixture coefficient is selected for each new epoch and the last coefficient is used for the rest of the
            epochs.
    
    NÚhelpzvLLM SamplingParams)ÚdefaultÚmetadataÚvllm_sampling_paramsr;z8Chunk size to reduce memory usage. -1 is most efficient.Úunsloth_num_chunksz'Maximum sequence length to truncate to.Úmax_seq_lengthFÚnor<éréúç-Cëâ6
?ç{®Gáz„?çÍÌÌÌÌÌì?ç+‡ÙÎ÷ï?ç:Œ0âŽyE>çð?ç@Úlinearçš™™™™™¹?ÚpassiveÚwarningTÚstepsrAéôéO
ÚO1ÚautoÚçÚ
adamw_8bitÚlengthÚ
every_saveÚlastéé@éÚsigmoidÚvllmçš™™™™™á?c’”s|dkrtd|›d�ƒ‚|dkrtd|›d�ƒ‚|dur(|#dkr(|$dkr(d}d	}#|ˆdur:d
dlm}“t|“ƒdd
ƒ}ˆ|…d
krBtdƒ‚|…dkrJtdƒ‚tƒjdŸid|“d|“d|“d|“d|“d|“d|“d|“d|	“d|
“d|“d|“d|
“d|“d|“d |“d!|“d"|“d#|“d$|“d%|“d&|“d'|“d(|“d)|“d*|“d+|“d,|“d-|“d.|“d/|“d0| “d1|!“d2|"“d3|#“d4|$“d5|%“d6|&“d7|'“d8|(“d9|)“d:|*“d;|+“d<|,“d=|-“d>|.“d?|/“d@|0“dA|1“dB|2“dC|3“dD|4“dE|5“dF|6“dG|7“dH|8“dI|9“dJ|:“dK|;“dL|<“dM|=“dN|>“dO|?“dP|@“dQ|A“dR|B“dS|C“dT|D“dU|E“dV|F“dW|G“dX|H“dY|I“dZ|J“d[|K“d\|L“d]|M“d^|N“d_|O“d`|P“da|Q“db|R“dc|S“dd|T“de|U“df|V“dg|W“dh|X“di|Y“dj|Z“dk|[“dl|\“dm|]“dn|^“do|_“dp|`“dq|a“dr|b“ds|c“dt|d“du|e“dv|f“dw|g“dx|h“dy|i“dz|j“d{|k“d||l“d}|m“d~|n“d|o“d€|p“d�|q“d‚|r“dƒ|s“d„|t“d…|u“d†|v“d‡|w“dˆ|x“d‰|y“dŠ|z“d‹|{“dŒ||“d�|}“dŽ|~“d�|“d�|€“d‘|�“d’|‚“d“|ƒ“d”|„“d•|…“d–|†“d—|‡“d˜|ˆ“d™|‰“dš|Š“d›|‹“dœ|Œ“d�|�“dž|Ž“|’¤Ž|�|_|�|_	|‘|_
dS) NgH¯¼šò×z>z Unsloth: Your learning rate of `zi` is too small and less than 1e-7! Consider increasing it, otherwise gradient updates will be close to 0!rAza` is way too larger > 1! Consider decreasing it to 1e-1, otherwise gradient updates will explode!rorpÚunsloth_training_checkpointsrar)Ú	cpu_countr<rbzUUnsloth: Please set a positive non-zero temperature since your results will be wrong.é
zgUnsloth: Please set a positive non-zero temperature less than 10, since sampling will be quite erratic.Ú
output_dirÚoverwrite_output_dirÚdo_trainÚdo_evalÚ
do_predictÚ
eval_strategyÚprediction_loss_onlyÚper_device_train_batch_sizeÚper_device_eval_batch_sizeÚper_gpu_train_batch_sizeÚper_gpu_eval_batch_sizeÚgradient_accumulation_stepsÚeval_accumulation_stepsÚ
eval_delayÚtorch_empty_cache_stepsÚ
learning_rateÚweight_decayÚ
adam_beta1Ú
adam_beta2Úadam_epsilonÚ
max_grad_normÚnum_train_epochsÚ	max_stepsÚlr_scheduler_typeÚwarmup_ratioÚwarmup_stepsÚ	log_levelÚlog_level_replicaÚlog_on_each_nodeÚlogging_dirÚlogging_strategyÚlogging_first_stepÚ
logging_stepsÚlogging_nan_inf_filterÚ
save_strategyÚ
save_stepsÚsave_total_limitÚsave_safetensorsÚsave_on_each_nodeÚsave_only_modelÚ'restore_callback_states_from_checkpointÚno_cudaÚuse_cpuÚuse_mps_deviceÚseedÚ	data_seedÚ
jit_mode_evalÚuse_ipexÚbf16Úfp16Úfp16_opt_levelÚhalf_precision_backendÚbf16_full_evalÚfp16_full_evalÚtf32Ú
local_rankÚddp_backendÚ
tpu_num_coresÚtpu_metrics_debugÚdebugÚdataloader_drop_lastÚ
eval_stepsÚdataloader_num_workersÚdataloader_prefetch_factorÚ
past_indexÚrun_nameÚdisable_tqdmÚremove_unused_columnsÚlabel_namesÚload_best_model_at_endÚmetric_for_best_modelÚgreater_is_betterÚignore_data_skipÚfsdpÚfsdp_min_num_paramsÚfsdp_configÚ"fsdp_transformer_layer_cls_to_wrapÚaccelerator_configÚ	deepspeedÚlabel_smoothing_factorÚoptimÚ
optim_argsÚ	adafactorÚgroup_by_lengthÚlength_column_nameÚ	report_toÚddp_find_unused_parametersÚddp_bucket_cap_mbÚddp_broadcast_buffersÚdataloader_pin_memoryÚdataloader_persistent_workersÚskip_memory_metricsÚuse_legacy_prediction_loopÚpush_to_hubÚresume_from_checkpointÚhub_model_idÚhub_strategyÚ	hub_tokenÚhub_private_repoÚhub_always_pushÚhub_revisionÚgradient_checkpointingÚgradient_checkpointing_kwargsÚinclude_inputs_for_metricsÚeval_do_concat_batchesÚfp16_backendÚpush_to_hub_model_idÚpush_to_hub_organizationÚpush_to_hub_tokenÚ
mp_parametersÚauto_find_batch_sizeÚfull_determinismÚtorchdynamoÚ	ray_scopeÚddp_timeoutÚ
torch_compileÚtorch_compile_backendÚtorch_compile_modeÚinclude_tokens_per_secondÚinclude_num_input_tokens_seenÚneftune_noise_alphaÚoptim_target_modulesÚbatch_eval_metricsÚ
eval_on_startÚuse_liger_kernelÚliger_kernel_configÚeval_use_gather_objectÚaverage_tokens_across_devicesÚreward_model_pathÚjudgeÚmax_new_tokensÚ
max_lengthÚtemperatureÚmissing_eos_penaltyÚ	loss_typeÚdataset_num_procÚdisable_dropoutÚuse_vllmÚvllm_model_implÚgpu_memory_utilizationÚds3_gather_for_generationÚmodel_init_kwargsrW)ÚFloatingPointErrorÚ
OverflowErrorÚmultiprocessingr�ÚmaxÚ	MathErrorÚsuperÚ__init__r^r_r`)”Úselfrƒr„r…r†r‡rˆr‰rŠr‹rŒr�rŽr�r�r‘r’r“r”r•r–r—r˜r™ršr›rœr�ržrŸr r¡r¢r£r¤r¥r¦r§r¨r©rªr«r¬rr®r¯r°r±r²r³r´rµr¶r·r¸r¹rºr»r¼r½r¾r¿rÀrÁrÂrÃrÄrÅrÆrÇrÈrÉrÊrËrÌrÍrÎrÏrÐrÑrÒrÓrÔrÕrÖr×rØrÙrÚrÛrÜrÝrÞrßràrárârãrärårærçrèrérêrërìrírîrïrðrñròrórôrõrör÷rørùrúrûrürýrþrÿrrrrrrrrrr	r
rrr
rrrr^r_r`Úkwargsr�©Ú	__class__rWrXrNs˜ÿþýüûúùø	÷
öõô
óòñðïîíìëêéèçæåäãâá à!ß"Þ#Ý$Ü%Û&Ú'Ù(Ø)×*Ö+Õ,Ô-Ó.Ò/Ñ0Ð1Ï2Î3Í4Ì5Ë6Ê7É8È9Ç:Æ;Å<Ä=Ã>Â?Á@ÀA¿B¾C½D¼E»FºG¹H¸I·J¶KµL´M³N²O±P°Q¯R®ST¬U«VªW©X¨Y§Z¦[¥\¤]£^¢_¡` aŸbžc�dœe›fšg™h˜i—j–k•l”m“n’o‘p�q�rŽs�tŒu‹vŠw‰xˆy‡z†{…|„}ƒ~‚��ÿ�þ�ý�ü�û�ú�ù�ø	�÷
�ö�õ�ô
�ó�ò�ñ
zUnslothNashMDConfig.__init__)‘NNFFFraFr<r<NNrbrbrrcrdrerfrgrhrirjr;rkrlrrmrnTNroFrAFrorpNTFFFFFFrqrqFFFFrrrsFFNr;NNFrtFNrNr;NNTNFNNFrtrNNNNrurvNFFrwNNNNTFTFFNNrxNNFNFNFTrsNNNrtTFNryrzFNNFFNNFFFNFTNNr{r|rfNr}NTFr~rTNNr;N)Ú__name__Ú
__module__Ú__qualname__Ú__doc__r0r^rrÚ__annotations__r_Úintr`rÚ
__classcell__rWrWrrXrZ3sB

þþþ�írZc sØeZdZdZddgZ														d0deeejfdeeejfdeeejdfd	e	e
d
e	ede	ede	ee
efd
e	ee
eee
ffde	eeeeefde	ede	eegefde	eedeejjejjjfde	eejejgejfddf‡fdd„
Ze dd„ƒZ!dd„Z"dd„Z#dd„Z$dd „Z%d!d"„Z&d#d$„Z'		dd%d&„Z(	d1dejd'eeeeje)ffd(e	e*dejfd)d*„Z+			d2d+e	ed,e	ed-eeeedffd.d/„Z,‡Z-S)3Ú_UnslothNashMDTrainerrtÚtrlznash-mdN©NNÚmodelÚ	ref_modelÚreward_modelrÚargsÚ
data_collatorÚ
train_datasetÚeval_datasetÚprocessing_classÚpeft_configÚcompute_metricsÚ	callbacksÚ
optimizersÚpreprocess_logits_for_metricsÚreturncsztƒj|||||||||	|	|
|||
|d�|jj|_ggggggggggggdœ|_|jdur;g|jd<g|jd<dSdS)N)r&r'r(rr)r*r+r,r-Úreward_processing_classr.r/r0r1r2)úloss/klúobjective/entropyú
loss/scoreúrewards/probabilitiesúrewards/accuraciesúrewards/marginsúlogps/chosenúlogps/rejectedúval/model_contain_eos_tokenúval/ref_contain_eos_tokenÚbetaÚmixture_coefúrewards/chosenúrewards/rejected)rrr)r@Ú
_mixture_coefÚstatsr()rr&r'r(rr)r*r+r,r-r.r/r0r1r2rrWrXrŠsFñ
ò

þz_UnslothNashMDTrainer.__init__cCs<t|jtƒr|jj}|t|jƒkr|j|S|jdS|jS)Nr;)Ú
isinstancerCÚlistÚstateÚepochÚlen)rrHrWrWrXr@Æs"z"_UnslothNashMDTrainer.mixture_coefc	Csôt||jƒ�}|j|d|d|jd�}Wdƒn1swY|j |¡}|jdur>tƒr;t|tƒr;| 	¡}n
|}n|j |j¡}t
 ¡�%t|||j|j
|jjd�}|j|d|d|jd�}Wdƒ||fS1sqwY||fS)NÚ	input_idsÚattention_mask)rJrKÚgeneration_config)r&r'rLr@Údevice)r-ÚacceleratorÚgeneraterLÚunwrap_modelr'r#rErÚget_base_modelr+Úno_gradrr@rM)	rr&ÚpromptsÚunwrapped_policy_for_gen_ctxÚmodel_outputÚpolicy_model_for_gmwÚref_model_for_gmwÚ
mixture_modelÚmixture_outputrWrWrXÚ_generate_completionsÎs<ýÿ	


ûý
÷ñz+_UnslothNashMDTrainer._generate_completionscCsÖ|djd}|dd…|d…f}t||jj|jjƒ\}}tj|d|fdd�tj|d|fdd�|ddœ}|dd…|d…f}t||jj|jjƒ\}}	tj|d|fdd�tj|d|	fdd�|ddœ}
||
fS)NrJrAr@rKÚraw©rJrKr[)rDr,r-Úeos_token_idÚpad_token_idr+Úcat)rrUrYrSÚcontext_lengthÚmodel_completion_idsÚmodel_completion_maskÚ
model_dataÚmixture_completion_idsÚmixture_completion_maskÚmixture_datarWrWrXÚ_process_completionsþs$ÿýÿýz*_UnslothNashMDTrainer._process_completionsc	CsØt ¡�&t|j|d|jj|ƒ\}}}t|j|d|jj|ƒ\}}}Wdƒn1s-wY|jjdurhtj|d|jj	kdd�}tj|d|jj	kdd�}|||jj8<|||jj8<||fS)NrJr;r@)
r+rRr!r(r-r^r)rÚanyr])	rrcrfr`Ú_Úmodel_scoresÚmixture_scoresÚmodel_contain_eosÚmixture_contain_eosrWrWrXÚ_compute_rewardss

ÿÿü	z&_UnslothNashMDTrainer._compute_rewardsc	s|d}|jj|ddd…|d…fdd�}dd„|Dƒ}|jj|ddd…|d…fdd�}dd„|Dƒ}td|d	iƒrpd
d„|Dƒ}t ¡}| t¡‰‡fdd„|Dƒ}‡fdd„|Dƒ}d
d„|Dƒ}‡fdd„|Dƒ}|jj|tt	||ƒƒdd�}t
j||djd�S)Nr[rJT)Úskip_special_tokenscSóg|]}| ¡‘qSrW©Ústrip©Ú.0Ú
completionrWrWrXÚ
<listcomp>0óz8_UnslothNashMDTrainer._compute_judge.<locals>.<listcomp>cSrprWrqrsrWrWrXrv5rwÚpromptrcSóg|]}d|dœg‘qS©Ú	assistant)ÚroleÚcontentrWrsrWrWrXrv7óÿcóg|]}ˆj|d�‘qS©)Úmessages©Úrender)rtÚmessage©ÚtemplaterWrXrv<ócrr€r‚rsr…rWrXrv=r‡cSryrzrWrsrWrWrXrv?r~crr€r‚rsr…rWrXrvBr~)Ú
return_scores)rM)
r-Úbatch_decoder"r%ÚEnvironmentÚfrom_stringrrrFrEr+ÚtensorrM)	rrcrfr`rSÚmodel_data_completionsÚmixture_data_completionsÚenvironmentÚprobabilityrWr…rXÚ_compute_judge+s:ÿÿÿ
ÿ
ÿýz$_UnslothNashMDTrainer._compute_judgec	sÄ‡fdd„}|||ƒ}t ¡�-|jdur/| ¡�
|||ƒ}Wdƒn1s)wYn||j|ƒ}Wdƒn1s?wY|ddd…ˆd…fdk}| |d¡}| |d¡}||fS)NcsP||d|dd�}|jdd…ˆdd…f}t||ddd…ˆd…fƒ}|S)NrJrK)rKrAr;)rNr))ÚmÚdataÚoutputrNÚtoken_logprobs©r`rWrXÚcompute_logprobs_for_dataNszJ_UnslothNashMDTrainer._compute_logprobs.<locals>.compute_logprobs_for_datarKrru)r+rRr'Údisable_adapterÚmasked_fill)rr&rcr`r—Úmodel_logprobs_model_dataÚref_logprobs_model_dataÚmodel_padding_maskrWr–rXÚ_compute_logprobsMs


ÿ€€ûz'_UnslothNashMDTrainer._compute_logprobsc	Csv|d| d¡}t ¡�||}| d¡}Wdƒn1s!wY|| d¡}|j||}| ¡||fS)Ngà?rA)Úsumr+rRr?Úmean)	rršr›r�ÚscoreÚ	log_ratioÚ
kl_div_logÚkl_div_lossÚlossrWrWrXÚ_compute_lossesfs
þz%_UnslothNashMDTrainer._compute_lossescsº‡fdd„}ˆjd ||ƒ¡ˆjd ||ƒ¡| d¡}| d¡}
ˆjd ||ƒ¡ˆjd ||
ƒ¡ˆjdurQˆjd ||	ƒ¡ˆjd	 ||
ƒ¡ˆjd
 ||ƒ¡| d¡}ˆjd ||ƒ¡||
}ˆjd ||ƒ¡|d
k ¡}ˆjd ||ƒ¡|ddd…|d…fˆjjkjdd�}|ddd…|d…fˆjjkjdd�}ˆjd || ¡ƒ¡ˆjd || ¡ƒ¡ˆjd ˆj¡ˆjd ˆj	¡dS)Ncsˆj |¡ ¡ ¡S©N)rNÚgather_for_metricsrŸÚitem)rŒ©rrWrXÚgather_meanˆsz:_UnslothNashMDTrainer._log_statistics.<locals>.gather_meanr7r5rAr;r<rArBr8r6r:rr9rJr@r=r>r?r@)
rDrLržr(Úfloatr-r]rhr?r@)rrcrfršr›r�r Úkl_divr`rjrkrªÚmodel_logprobs_model_data_sumÚref_logprobs_model_data_sumÚentropy_model_dataÚmarginÚaccuracyÚ	model_eosÚmixture_eosrWr©rXÚ_log_statisticszs.


((z%_UnslothNashMDTrainer._log_statisticsÚinputsÚnum_items_in_batchcs| ¡tttˆ ¡ƒƒƒ}ˆd}‡fdd„t|ƒDƒ‰‡fdd„ˆDƒ‰‡fdd„ˆDƒ‰ˆ ˆ¡‰ˆ ˆ¡‰ˆdjd}ˆdˆd|d	œ}Šˆ 	||¡\}}ˆ 
|||¡\}	}
ˆjdurrˆ |	|
|¡\}}t
 ||¡}
nd
\}}ˆ |	|
|¡}
ˆ ||	|¡\}}ˆ |||
¡\}}}ˆ |	|
| ¡||
| ¡| ¡|||¡
ˆjjdur·ˆjjˆjjdkr·tƒi}ˆjjtjtjfvrÉˆ ¡|d<ˆjjdkrÓ| ¡}ˆj ròt! "|ˆj#¡�}| $¡Wdƒn1sìwYn
ˆj%j$|fi|¤Ž| ¡ˆjj&S)
Nrxcs"g|]
‰‡fdd„ˆ ¡Dƒ‘qS)csi|]	\}}||ˆ“qSrWrW)rtÚkÚv©ÚirWrXÚ
<dictcomp>½szB_UnslothNashMDTrainer.training_step.<locals>.<listcomp>.<dictcomp>)Úitems)rt)rµr¹rXrv½ó"z7_UnslothNashMDTrainer.training_step.<locals>.<listcomp>csg|]}t|ˆjƒ‘qSrW)r&r-©rtÚxr©rWrXrv¾r‡cs"g|]
}ˆ |ˆjjjˆj¡‘qSrW)Útokenize_rowr&ÚconfigÚis_encoder_decoderr-r¾r©rWrXrv¿r½Úprompt_input_idsrAÚprompt_attention_maskr\r%rr’)'ÚtrainrIÚnextÚiterÚvaluesÚranger*Ú_prepare_inputsrDrZrgr(rnrr}r‘r�r¥r´Údetachr)r‘rGÚglobal_steprrÓrÚLOMOÚADALOMOÚ_get_learning_rateÚn_gpurŸÚuse_apexÚampÚ
scale_lossÚ	optimizerÚbackwardrNrŽ)rr&rµr¶Ú
batch_sizerSr`rUrYrcrfrjrkr�ršr›r¤r r¬rÚscaled_lossrW)rµrrXÚ
training_stepµsd

ý
ö
ÿ€z#_UnslothNashMDTrainer.training_stepÚ
model_nameÚdataset_nameÚtagsc
Csê| ¡sdSt|jjdƒrtj |jjj¡s|jjj}nd}|dur&tƒ}n
t	|t
ƒr/|h}nt|ƒ}t|jjdƒr?| d¡| |j
¡t d¡}t|||j||tƒr]tjdur]tjjndtƒd|ddd	�}| tj |jjd
¡¡dS)aî
        Creates a draft of a model card using the information available to the `Trainer`.

        Args:
            model_name (`str` or `None`, *optional*, defaults to `None`):
                Name of the model.
            dataset_name (`str` or `None`, *optional*, defaults to `None`):
                Name of the dataset used for training.
            tags (`str`, `list[str]` or `None`, *optional*, defaults to `None`):
                Tags to be associated with the model card.
        NÚ
_name_or_pathÚunsloth_versionÚunslotha        @inproceedings{munos2024nash,
            title        = {{Nash Learning from Human Feedback}},
            author       = {R{'{e}}mi Munos and Michal Valko and Daniele Calandriello and Mohammad Gheshlaghi Azar and Mark Rowland and Zhaohan Daniel Guo and Yunhao Tang and Matthieu Geist and Thomas Mesnard and C{\^{o}}me Fiegel and Andrea Michi and Marco Selvi and Sertan Girgin and Nikola Momchev and Olivier Bachem and Daniel J. Mankowitz and Doina Precup and Bilal Piot},
            year         = 2024,
            booktitle    = {Forty-first International Conference on Machine Learning, {ICML} 2024, Vienna, Austria, July 21-27, 2024},
            publisher    = {OpenReview.net},
            url          = {https://openreview.net/forum?id=Y5AmNYiyCQ}
        }zNash-MDz!Nash Learning from Human Feedbackz
2312.00886)Ú
base_modelrÙrârÚrÛÚ	wandb_urlÚ	comet_urlÚtrainer_nameÚtrainer_citationÚpaper_titleÚpaper_idz	README.md)Úis_world_process_zeroÚhasattrr&rÁr(ÚpathÚisdirrÜÚsetrEÚstrÚaddÚupdateÚ
_tag_namesr*Údedentrrâr$ÚwandbÚrunÚurlr ÚsaveÚjoinr)rƒ)rrÙrÚrÛrßÚcitationÚ
model_cardrWrWrXÚcreate_model_cards8 


õz'_UnslothNashMDTrainer.create_model_card)NNNNNNNNNNNNr%Nr¦)NNN).rrrrrîrrr'ÚModulerr
rrrrÚdictrërrrrrrFrÚtupler+rÓÚ	OptimizerÚlr_schedulerÚLambdaLRrrÚpropertyr@rZrgrnr‘r�r¥r´rr!rØr÷r"rWrWrrXr#…s¢ïþýüûúùø	÷
ÿö