unsloth_compiled_cache/__pycache__/UnslothNashMDTrainer.cpython-311.pyc

§
4$�há¶ãó—dZddlmZddlZddlmZddlmZddlmZm	Z	m
Z
mZmZm
Z
mZmZddlmZmZmZmZmZmZmZmZmZmZmZmZmZmZm
Z
mZmZmZmZm Z m!Z!mZm"Z"m#Z#m$Z$m%Z%m&Z&m'Z'm(Z(m)Z)m*Z*mZm+Z+m,Z,m-Z-mZm.Z.m/Z/ddl+Z+ddlTddl0m1Z1m2Z2dd	l3m4Z4ddlZddl5Z6dd
l7m8Z8ddlmZddl9m:Z:m;Z<dd
dd
d
dœZ=ej>dde=¬¦«d„¦«Z?e1Gd„de¦«¦«Z@	Gd„de¦«ZAGd„deA¦«ZBdS)z8
2025.8.4
2025.8.5
4.55.1
0.21.0
__UNSLOTH_VERSIONING__
é)ÚTensorN)Ú
functional)ÚAnyÚListÚOptionalÚTupleÚUnionÚDictÚSetÚCallable)&rÚBaseImageProcessorÚBasePairwiseJudgerÚDatasetÚEvalPredictionÚFÚFeatureExtractionMixinÚGeometricMixtureWrapperÚIterableDatasetÚNashMDConfigÚ
NashMDTrainerÚOnlineDPOTrainerÚOptimizerNamesrÚ	PeftModelÚPreTrainedModelÚPreTrainedTokenizerBaseÚProcessorMixinÚSIMPLE_CHAT_TEMPLATEÚTrainerCallbackr	Úempty_cacheÚgenerate_model_cardÚget_comet_experiment_urlÚ
get_rewardÚis_conversationalÚis_peft_availableÚis_wandb_availableÚjinja2Úmaybe_apply_chat_templateÚnnÚosÚselective_log_softmaxÚtextwrapÚtorchÚtruncate_rightÚunwrap_model_for_generation)Ú*)Ú	dataclassÚfield)ÚVersion)Únullcontext)ÚDataCollatorForSeq2SeqÚDataCollatorForLanguageModelingTF)Úepilogue_fusionÚmax_autotuneÚ
shape_paddingz
trace.enabledztriton.cudagraphs)ÚdynamicÚ	fullgraphÚoptionscó’—tj| d|jd¦«dd¬¦«}tj| d¦«dd¬¦«}g}t	||¦«D]‘\}}| tj¦«}tj|d| d¦«¬¦« 	d¦«}tj
|d¬¦«}||z
}	| |	¦«Œ’	tj|¦«}| |jd|jdf¦«}|S)Néÿÿÿÿér)ÚchunksÚdim)r@Úindex©r@é)
r,ÚchunkÚreshapeÚshapeÚzipÚtoÚfloat32ÚgatherÚ	unsqueezeÚsqueezeÚ	logsumexpÚappendÚconcat)
ÚlogitsrAÚchunked_logitsÚ
chunked_indexÚall_per_token_logpsÚchunk_logitsÚchunk_indexÚselected_logitsÚlogsumexp_valuesÚper_token_logpss
          ú`/workspace/Fine-tuning/DS-LLM-TEMPLATE-FINETUNING/unsloth_compiled_cache/UnslothNashMDTrainer.pyÚchunked_selective_log_softmaxrZ"s5€õ”[ §¢°°F´LÀÔ4DÑ!EÔ!EÐPQÐYZÐ[Ñ[Ô[€NÝ”[ §¢¨rÑ!2Ô!2¸QÀaÐHÑHÔH€MØÐå%(¨¸Ñ%GÔ%Gð4ð4Ñ!ˆ�kØ#—’¥u¤}Ñ5Ô5ˆÝœ, |¸2À{×G\ÒG\Ð]_ÑG`ÔG`ÐaÑaÔa×iÒiÐjlÑmÔmˆÝ œ?¨<¸rÐBÑBÔBÐØ)Ð,<Ñ<ˆØ×"Ò" ?Ñ3Ô3Ð3Ð3ØÝœ,Ð':Ñ;Ô;ÐØ-×5Ò5°v´|ÀA´ÈÌÐUVÌÐ6XÑYÔYÐØÐócó®‡—eZdZUdZedddi¬¦«Zeeed<edddi¬¦«Z	ee
ed	<																																																																																																																																																d/ˆfd.„	ZˆxZS)0ÚUnslothNashMDConfigaö
    
    Configuration class for the [`NashMDTrainer`].

    Subclass of [`OnlineDPOConfig`] we can use all its arguments and add the following:

    Parameters:
        mixture_coef (`float` or `list[float]`, *optional*, defaults to `0.5`):
            Logit mixture coefficient for the model and reference model. If a list of floats is provided then the
            mixture coefficient is selected for each new epoch and the last coefficient is used for the rest of the
            epochs.
    
    NÚhelpzvLLM SamplingParams)ÚdefaultÚmetadataÚvllm_sampling_paramsr=z8Chunk size to reduce memory usage. -1 is most efficient.Úunsloth_num_chunksFÚnor>éréúç-Cëâ6
?ç{®Gáz„?çÍÌÌÌÌÌì?ç+‡ÙÎ÷ï?ç:Œ0âŽyE>çð?ç@Úlinearçš™™™™™¹?ÚpassiveÚwarningTÚstepsrCéôéO
ÚO1ÚautoÚçÚ
adamw_8bitÚlengthÚ
every_saveÚlastéé@éÚsigmoidÚvllmçš™™™™™á?c‘óÌ•—|dkrtd|›d�¦«‚|dkrtd|›d�¦«‚|€|#dkr
|$dkrd}d	}#|ˆ€!d
dlm}’t	|’¦«dzd¦«}ˆ|…d
krtd
¦«‚|…dkrtd¦«‚t
¦«jdžid|“d|“d|“d|“d|“d|“d|“d|“d|	“d|
“d|“d|“d|
“d|“d|“d|“d |“d!|“d"|“d#|“d$|“d%|“d&|“d'|“d(|“d)|“d*|“d+|“d,|“d-|“d.|“d/| “d0|!“d1|"“d2|#“d3|$“d4|%“d5|&“d6|'“d7|(“d8|)“d9|*“d:|+“d;|,“d<|-“d=|.“d>|/“d?|0“d@|1“dA|2“dB|3“dC|4“dD|5“dE|6“dF|7“dG|8“dH|9“dI|:“dJ|;“dK|<“dL|=“dM|>“dN|?“dO|@“dP|A“dQ|B“dR|C“dS|D“dT|E“dU|F“dV|G“dW|H“dX|I“dY|J“dZ|K“d[|L“d\|M“d]|N“d^|O“d_|P“d`|Q“da|R“db|S“dc|T“dd|U“de|V“df|W“dg|X“dh|Y“di|Z“dj|[“dk|\“dl|]“dm|^“dn|_“do|`“dp|a“dq|b“dr|c“ds|d“dt|e“du|f“dv|g“dw|h“dx|i“dy|j“dz|k“d{|l“d||m“d}|n“d~|o“d|p“d€|q“d�|r“d‚|s“dƒ|t“d„|u“d…|v“d†|w“d‡|x“dˆ|y“d‰|z“dŠ|{“d‹||“dŒ|}“d�|~“dŽ|“d�|€“d�|�“d‘|‚“d’|ƒ“d“|„“d”|…“d•|†“d–|‡“d—|ˆ“d˜|‰“d™|Š“dš|‹“d›|Œ“dœ|�“d�|Ž“|‘¤Ž|�|_|�|_	dS)ŸNgH¯¼šò×z>z Unsloth: Your learning rate of `zi` is too small and less than 1e-7! Consider increasing it, otherwise gradient updates will be close to 0!rCza` is way too larger > 1! Consider decreasing it to 1e-1, otherwise gradient updates will explode!rqrrÚunsloth_training_checkpointsrcr)Ú	cpu_countrdzUUnsloth: Please set a positive non-zero temperature since your results will be wrong.é
zgUnsloth: Please set a positive non-zero temperature less than 10, since sampling will be quite erratic.Ú
output_dirÚoverwrite_output_dirÚdo_trainÚdo_evalÚ
do_predictÚ
eval_strategyÚprediction_loss_onlyÚper_device_train_batch_sizeÚper_device_eval_batch_sizeÚper_gpu_train_batch_sizeÚper_gpu_eval_batch_sizeÚgradient_accumulation_stepsÚeval_accumulation_stepsÚ
eval_delayÚtorch_empty_cache_stepsÚ
learning_rateÚweight_decayÚ
adam_beta1Ú
adam_beta2Úadam_epsilonÚ
max_grad_normÚnum_train_epochsÚ	max_stepsÚlr_scheduler_typeÚwarmup_ratioÚwarmup_stepsÚ	log_levelÚlog_level_replicaÚlog_on_each_nodeÚlogging_dirÚlogging_strategyÚlogging_first_stepÚ
logging_stepsÚlogging_nan_inf_filterÚ
save_strategyÚ
save_stepsÚsave_total_limitÚsave_safetensorsÚsave_on_each_nodeÚsave_only_modelÚ'restore_callback_states_from_checkpointÚno_cudaÚuse_cpuÚuse_mps_deviceÚseedÚ	data_seedÚ
jit_mode_evalÚuse_ipexÚbf16Úfp16Úfp16_opt_levelÚhalf_precision_backendÚbf16_full_evalÚfp16_full_evalÚtf32Ú
local_rankÚddp_backendÚ
tpu_num_coresÚtpu_metrics_debugÚdebugÚdataloader_drop_lastÚ
eval_stepsÚdataloader_num_workersÚdataloader_prefetch_factorÚ
past_indexÚrun_nameÚdisable_tqdmÚremove_unused_columnsÚlabel_namesÚload_best_model_at_endÚmetric_for_best_modelÚgreater_is_betterÚignore_data_skipÚfsdpÚfsdp_min_num_paramsÚfsdp_configÚ"fsdp_transformer_layer_cls_to_wrapÚaccelerator_configÚ	deepspeedÚlabel_smoothing_factorÚoptimÚ
optim_argsÚ	adafactorÚgroup_by_lengthÚlength_column_nameÚ	report_toÚddp_find_unused_parametersÚddp_bucket_cap_mbÚddp_broadcast_buffersÚdataloader_pin_memoryÚdataloader_persistent_workersÚskip_memory_metricsÚuse_legacy_prediction_loopÚpush_to_hubÚresume_from_checkpointÚhub_model_idÚhub_strategyÚ	hub_tokenÚhub_private_repoÚhub_always_pushÚhub_revisionÚgradient_checkpointingÚgradient_checkpointing_kwargsÚinclude_inputs_for_metricsÚeval_do_concat_batchesÚfp16_backendÚpush_to_hub_model_idÚpush_to_hub_organizationÚpush_to_hub_tokenÚ
mp_parametersÚauto_find_batch_sizeÚfull_determinismÚtorchdynamoÚ	ray_scopeÚddp_timeoutÚ
torch_compileÚtorch_compile_backendÚtorch_compile_modeÚinclude_tokens_per_secondÚinclude_num_input_tokens_seenÚneftune_noise_alphaÚoptim_target_modulesÚbatch_eval_metricsÚ
eval_on_startÚuse_liger_kernelÚliger_kernel_configÚeval_use_gather_objectÚaverage_tokens_across_devicesÚreward_model_pathÚjudgeÚmax_new_tokensÚ
max_lengthÚtemperatureÚmissing_eos_penaltyÚ	loss_typeÚdataset_num_procÚdisable_dropoutÚuse_vllmÚvllm_model_implÚgpu_memory_utilizationÚds3_gather_for_generationÚmodel_init_kwargs©)
ÚFloatingPointErrorÚ
OverflowErrorÚmultiprocessingr„ÚminÚ	MathErrorÚsuperÚ__init__rarb)”Úselfr†r‡rˆr‰rŠr‹rŒr�rŽr�r�r‘r’r“r”r•r–r—r˜r™ršr›rœr�ržrŸr r¡r¢r£r¤r¥r¦r§r¨r©rªr«r¬rr®r¯r°r±r²r³r´rµr¶r·r¸r¹rºr»r¼r½r¾r¿rÀrÁrÂrÃrÄrÅrÆrÇrÈrÉrÊrËrÌrÍrÎrÏrÐrÑrÒrÓrÔrÕrÖr×rØrÙrÚrÛrÜrÝrÞrßràrárârãrärårærçrèrérêrërìrírîrïrðrñròrórôrõrör÷rørùrúrûrürýrþrÿrrrrrrrrrr	r
rrr
rrrrrrrarbÚkwargsr„Ú	__class__s”                                                                                                                                                   €rYrzUnslothNashMDConfig.__init__Js¿	ø€ðh˜4ÒÐÕ'9ð;VÐ]jð;Vð;Vð;Vñ(Wô(Wð"WØ˜1ÒÐ¥Mð3FÐUbð3Fð3Fð3Fñ%Gô%GðGØÐ -°7Ò":Ð":¸zÈSÒ?PÐ?PØ7ˆJØ ˆMØÐ#Ø1Ð1Ð1Ð1Ð1Ð1Ý" 9 9¡;¤;¨q¡=°!Ñ4Ô4ÐØ˜!ÒÐÝÐsÑtÔtÐtØ
˜BÒ
Ð
ÝðFñGôGð
Gð	�‰ŒÔðN	<ðN	<ðN	<Ø#˜ðN	<à#7Ð#7ðN	<ð �xðN	<ð�gð	N	<ð
$˜ðN	<ð*˜Mð
N	<ð$8Ð#7ðN	<ð+FÐ*EðN	<ð*DÐ)CðN	<ð(@Ð'?ðN	<ð'>Ð&=ðN	<ð+FÐ*EðN	<ð'>Ð&=ðN	<ð$˜ðN	<ð'>Ð&=ðN	<ð *˜Mð!N	<ð"(˜<ð#N	<ð$$˜ð%N	<ð&$˜ð'N	<ð((˜<ð)N	<ð**˜Mð+N	<ð, 0Ð/ð-N	<ð."˜	ð/N	<ð0!2Ð 1ð1N	<ð2(˜<ð3N	<ð4(˜<ð5N	<ð6"˜	ð7N	<ð8!2Ð 1ð9N	<ð: 0Ð/ð;N	<ð<&˜+ð=N	<ð> 0Ð/ð?N	<ð@"4Ð!3ðAN	<ðB*˜MðCN	<ðD&<Ð%;ðEN	<ðF*˜MðGN	<ðH$˜ðIN	<ðJ 0Ð/ðKN	<ðL 0Ð/ðMN	<ðN!2Ð 1ðON	<ðP.˜oðQN	<ðR7^Ð6]ðSN	<ðT�gðUN	<ðV�gðWN	<ðX,˜^ðYN	<ðZ�4ð[N	<ð\"˜	ð]N	<ð^*˜Mð_N	<ð` �xðaN	<ðb�4ðcN	<ðd�4ðeN	<ðf,˜^ðgN	<ðh&<Ð%;ðiN	<ðj,˜^ðkN	<ðl,˜^ðmN	<ðn�4ðoN	<ðp$˜ðqN	<ðr&˜+ðsN	<ðt*˜MðuN	<ðv!2Ð 1ðwN	<ðx�EðyN	<ðz$8Ð#7ð{N	<ð|$˜ð}N	<ð~&<Ð%;ðN	<ð@*DÐ)CðAN	<ðB$˜ðCN	<ðD �xðEN	<ðF(˜<ðGN	<ðH%:Ð$9ðIN	<ðJ&˜+ðKN	<ðL&<Ð%;ðMN	<ðN%:Ð$9ðON	<ðP!2Ð 1ðQN	<ðR 0Ð/ðSN	<ðT�4ðUN	<ðV#6Ð"5ðWN	<ðX&˜+ðYN	<ðZ2TÐ1Sð[N	<ð\"4Ð!3ð]N	<ð^"˜	ð_N	<ð`&<Ð%;ðaN	<ðb�EðcN	<ðd$˜ðeN	<ðf"˜	ðgN	<ðh.˜oðiN	<ðj"4Ð!3ðkN	<ðl"˜	ðmN	<ðn*DÐ)CðoN	<ðp!2Ð 1ðqN	<ðr%:Ð$9ðsN	<ðt%:Ð$9ðuN	<ðv-JÐ,IðwN	<ðx#6Ð"5ðyN	<ðz*DÐ)Cð{N	<ð|&˜+ð}N	<ð~&<Ð%;ðN	<ð@(˜<ðAN	<ðB(˜<ðCN	<ðD"˜	ðEN	<ðF 0Ð/ðGN	<ðH.˜oðIN	<ðJ(˜<ðKN	<ðL&<Ð%;ðMN	<ðN-JÐ,IðON	<ðP*DÐ)CðQN	<ðR&<Ð%;ðSN	<ðT(˜<ðUN	<ðV$8Ð#7ðWN	<ðX(@Ð'?ðYN	<ðZ!2Ð 1ð[N	<ð\*˜Mð]N	<ð^$8Ð#7ð_N	<ð` 0Ð/ðaN	<ðb&˜+ðcN	<ðd"˜	ðeN	<ðf&˜+ðgN	<ðh*˜MðiN	<ðj%:Ð$9ðkN	<ðl"4Ð!3ðmN	<ðn)BÐ(AðoN	<ðp-JÐ,IðqN	<ðr#6Ð"5ðsN	<ðt$8Ð#7ðuN	<ðv"4Ð!3ðwN	<ðx*˜MðyN	<ðz 0Ð/ð{N	<ð|#6Ð"5ð}N	<ð~&<Ð%;ðN	<ð@-JÐ,IðAN	<ðB!2Ð 1ðCN	<ðD�EðEN	<ðF,˜^ðGN	<ðH$˜ðIN	<ðJ&˜+ðKN	<ðL#6Ð"5ðMN	<ðN"˜	ðON	<ðP 0Ð/ðQN	<ðR.˜oðSN	<ðT �xðUN	<ðV.˜oðWN	<ðX&<Ð%;ðYN	<ðZ)BÐ(Að[N	<ð\!2Ð 1°Fð]N	<ðN	<ðN	<ð^%9ˆÔ!Ø"4ˆÔÐÐr[)�NNFFFrcFr>r>NNrdrdrrerfrgrhrirjrkrlr=rmrnrrorpTNrqFrCFrqrrNTFFFFFFrsrsFFFFrtruFFNr=NNFrvFNrNr=NNTNFNNFrvrNNNNrwrxNFFryNNNNTFTFFNNrzNNFNFNFTruNNNrvTFNr{r|FNNFFNNFFFNFTNNr}r~rhNrNTFr€r�TNNr=)
Ú__name__Ú
__module__Ú__qualname__Ú__doc__r1rarrÚ__annotations__rbÚintrÚ
__classcell__©rs@rYr]r]3szø€€€€€€ððð+0¨%ØØÐ1Ð2ð+ñ+ô+Ð˜( 3œ-ððñð*/¨ØØÐVÐWð*ñ*ô*Ð˜ #œððñðØ#ØØØØØ$Ø&'Ø%&Ø#'Ø"&Ø&'Ø"#ØØ"%ØØØØØØØØØ$ØØØØ%ØØØ"Ø"ØØ!&ØØØØØ!ØØ27ØØØØØØØØØØØ!'ØØØØØØØ!ØØ$ØØ!"Ø%)ØØØØ $ØØ!&Ø $Ø Ø ØØØØ-1Ø!ØØ!$ØØØØØ%ØØ%)Ø Ø $Ø $Ø(-Ø"Ø%*ØØ!%ØØ#ØØØØØ!&Ø(,Ø%*Ø!%ØØ#Ø#'Ø ØØ#Ø ØØØØØ $Ø!Ø$)Ø(-Ø"Ø#Ø"ØØ Ø"Ø!&Ø(,Ø ØØØØØ"ØØØØØ Ø!%Ø$(Ø Ø#Øðcr5ðr5ðr5ðr5ðr5ðr5ðr5ðr5ðr5ðr5r[r]c ó"‡—eZdZdZddgZ														d%deeejfdeeejfdeeejdfd	e	e
d
e	ede	ede	ee
efd
e	ee
eee
ffde	eeeeefde	ede	eegefde	eedeejjejjjfde	eejejgejfddfˆfd„
Ze d„¦«Z!d„Z"d„Z#d„Z$d„Z%d„Z&d„Z'		dd„Z(	d&dejdeeeeje)ffde	e*dejfd „Z+			d'd!e	ed"e	ed#eeeedffd$„Z,ˆxZ-S)(Ú_UnslothNashMDTrainerrvÚtrlznash-mdN©NNÚmodelÚ	ref_modelÚreward_modelrÚargsÚ
data_collatorÚ
train_datasetÚeval_datasetÚprocessing_classÚpeft_configÚcompute_metricsÚ	callbacksÚ
optimizersÚpreprocess_logits_for_metricsÚreturncóì•—t¦« |||||||||	|	|
|||
|¬¦«|jj|_ggggggggggggdœ|_|j�g|jd<g|jd<dSdS)N)r+r,r-rr.r/r0r1r2Úreward_processing_classr3r4r5r6r7)úloss/klúobjective/entropyú
loss/scoreúrewards/probabilitiesúrewards/accuraciesúrewards/marginsúlogps/chosenúlogps/rejectedúval/model_contain_eos_tokenúval/ref_contain_eos_tokenÚbetaÚmixture_coefúrewards/chosenúrewards/rejected)rrr.rFÚ
_mixture_coefÚstatsr-)rr+r,r-rr.r/r0r1r2r3r4r5r6r7rs               €rYrz_UnslothNashMDTrainer.__init__„sÉø€õ&	‰Œ×ÒØØØ%ØØØ'Ø'Ø%Ø-Ø$4Ø#Ø+ØØ!Ø*Gð	ñ	
ô	
ð	
ð$"œYÔ3ˆÔðØ!#ØØ%'Ø"$Ø!ØØ Ø+-Ø)+ØØð
ð
ˆŒ
ð ÔÐ(Ø+-ˆDŒJÐ'Ñ(Ø-/ˆDŒJÐ)Ñ*Ð*Ð*ð)Ð(r[cóÀ—t|jt¦«r>|jj}|t|j¦«kr
|j|n|jdS|jS)Nr=)Ú
isinstancerIÚlistÚstateÚepochÚlen)rrOs  rYrFz"_UnslothNashMDTrainer.mixture_coefÀs\€å�dÔ($Ñ/Ô/ð	&Ø”JÔ$ˆEØ05½¸DÔ<NÑ8OÔ8OÒ0OÐ0O�4Ô% eÔ,Ð,ÐUYÔUgÐhjÔUkÐkàÔ%Ð%r[có¤—t||j¦«5}| |d|d|j¬¦«}ddd¦«n#1swxYwY|j |¦«}|j€;t
¦«r*t|t¦«r| 	¦«}n"|}n|j |j¦«}tj¦«5t|||j|j
|jj¬¦«}| |d|d|j¬¦«}ddd¦«n#1swxYwY||fS)NÚ	input_idsÚattention_mask)rRrSÚgeneration_config)r+r,rTrFÚdevice)r.ÚacceleratorÚgeneraterTÚunwrap_modelr,r$rLrÚget_base_modelr,Úno_gradrrFrU)	rr+ÚpromptsÚunwrapped_policy_for_gen_ctxÚmodel_outputÚpolicy_model_for_gmwÚref_model_for_gmwÚ
mixture_modelÚmixture_outputs	         rYÚ_generate_completionsz+_UnslothNashMDTrainer._generate_completionsÈsì€å
(¨°Ô0@Ñ
AÔ
Að	ÐEaØ7×@Ò@Ø! +Ô.Ø&Ð'7Ô8Ø"&Ô"8ðAñôˆLð	ð	ð	ñ	ô	ð	ð	ð	ð	ð	ð	øøøð	ð	ð	ð	ð $Ô/×<Ò<¸UÑCÔCÐð
Œ>Ð!õ!Ñ"Ô"ð
9¥zÐ2FÍ	Ñ'RÔ'Rð
9Ø$8×$GÒ$GÑ$IÔ$IÐ!Ð!ð%9Ð!Ð!ð!%Ô 0× =Ò =¸d¼nÑ MÔ MÐõŒ]‰_Œ_ð
	ð
	Ý3Ø*Ø+Ø"&Ô"8Ø!Ô.ØÔ'Ô.ðñôˆMð+×3Ò3Ø! +Ô.Ø&Ð'7Ô8Ø"&Ô"8ð4ñôˆNð
	ð
	ð
	ñ
	ô
	ð
	ð
	ð
	ð
	ð
	ð
	øøøð
	ð
	ð
	ð
	ð˜^Ð+Ð+s$–*AÁAÁAÃ%AEÅEÅ
Ecó—|djd}|dd…|d…f}t||jj|jj¦«\}}tj|d|fd¬¦«tj|d|fd¬¦«|ddœ}|dd…|d…f}t||jj|jj¦«\}}	tj|d|fd¬¦«tj|d|	fd¬¦«|ddœ}
||
fS)NrRrCrBrSÚraw©rRrSrd)rFr-r2Úeos_token_idÚpad_token_idr,Úcat)rr]rar[Úcontext_lengthÚmodel_completion_idsÚmodel_completion_maskÚ
model_dataÚmixture_completion_idsÚmixture_completion_maskÚmixture_datas           rYÚ_process_completionsz*_UnslothNashMDTrainer._process_completionsøsK€Ø  Ô-Ô3°AÔ6ˆð ,¨A¨A¨A¨~¨¨Ð,>Ô?ÐÝ6DØ  $Ô"7Ô"DÀdÔF[ÔFhñ7
ô7
Ñ3ÐÐ3õœ G¨KÔ$8Ð:NÐ#OÐUVÐWÑWÔWÝ#œi¨Ð1AÔ)BÐDYÐ(ZÐ`aÐbÑbÔbØ˜5”>ð
ð
ˆ
ð"0°°°°>°?°?Ð0BÔ!CÐÝ:HØ" DÔ$9Ô$FÈÔH]ÔHjñ;
ô;
Ñ7ÐÐ 7õœ G¨KÔ$8Ð:PÐ#QÐWXÐYÑYÔYÝ#œi¨Ð1AÔ)BÐD[Ð(\ÐbcÐdÑdÔdØ˜5”>ð
ð
ˆð˜<Ð'Ð'r[có8—tj¦«5t|j|d|jj|¦«\}}}t|j|d|jj|¦«\}}}ddd¦«n#1swxYwY|jj�Štj|d|jj	kd¬¦«}tj|d|jj	kd¬¦«}||xx|jjzcc<||xx|jjzcc<||fS)NrRr=rB)
r,rZr"r-r2rgr.rÚanyrf)	rrlroriÚ_Úmodel_scoresÚmixture_scoresÚmodel_contain_eosÚmixture_contain_eoss	         rYÚ_compute_rewardsz&_UnslothNashMDTrainer._compute_rewardsso€Ý
Œ]‰_Œ_ð	ð	Ý!+ØÔ! :¨kÔ#:¸DÔ<QÔ<^Ð`nñ"ô"ÑˆAˆ|˜Qõ$.ØÔ! <°Ô#<¸dÔ>SÔ>`Ðbpñ$ô$Ñ ˆAˆ~˜qð		ð	ð	ñ	ô	ð	ð	ð	ð	ð	ð	øøøð	ð	ð	ð	ðŒ9Ô(Ð4Ý %¤	¨*°[Ô*AÀTÔEZÔEgÒ*gÐmoÐ pÑ pÔ pÐÝ"'¤)¨L¸Ô,EÈÔI^ÔIkÒ,kÐqsÐ"tÑ"tÔ"tÐØÐ+Ð+Ð,Ð,Ô,°´	Ô0MÑMÐ,Ð,Ñ,ØÐ/Ð/Ð0Ð0Ô0°D´IÔ4QÑQÐ0Ð0Ñ0à˜^Ð+Ð+s”AA7Á7A;Á>A;c	óº‡	—|d}|j |ddd…|d…fd¬¦«}d„|D¦«}|j |ddd…|d…fd¬¦«}d„|D¦«}td|di¦«rod	„|D¦«}tj¦«}| t¦«Š	ˆ	fd
„|D¦«}ˆ	fd„|D¦«}d„|D¦«}ˆ	fd
„|D¦«}|j |tt||¦«¦«d¬¦«}tj||dj¬¦«S)NrdrRT)Úskip_special_tokenscó6—g|]}| ¦«‘ŒSr©Ústrip©Ú.0Ú
completions  rYú
<listcomp>z8_UnslothNashMDTrainer._compute_judge.<locals>.<listcomp>*s$€Ð!^Ð!^Ð!^¸ *×"2Ò"2Ñ"4Ô"4Ð!^Ð!^Ð!^r[có6—g|]}| ¦«‘ŒSrr|r~s  rYr�z8_UnslothNashMDTrainer._compute_judge.<locals>.<listcomp>/s$€Ð#bÐ#bÐ#b¸: J×$4Ò$4Ñ$6Ô$6Ð#bÐ#bÐ#br[Úpromptrcó—g|]}d|dœg‘Œ	S©Ú	assistant)ÚroleÚcontentrr~s  rYr�z8_UnslothNashMDTrainer._compute_judge.<locals>.<listcomp>1s0€ð&ð&ð&ØCM˜+°*Ð=Ð=Ð>ð&ð&ð&r[có<•—g|]}‰ |¬¦«‘ŒS©)Úmessages©Úrender)rÚmessageÚtemplates  €rYr�z8_UnslothNashMDTrainer._compute_judge.<locals>.<listcomp>6s'ø€ÐPÐPÐP¸W�x—’°�Ñ8Ô8ÐPÐPÐPr[có<•—g|]}‰ |¬¦«‘ŒSrŠrŒ©rr€r�s  €rYr�z8_UnslothNashMDTrainer._compute_judge.<locals>.<listcomp>7s'ø€Ð%tÐ%tÐ%tÈz h§o¢o¸z oÑ&JÔ&JÐ%tÐ%tÐ%tr[có—g|]}d|dœg‘Œ	Sr…rr~s  rYr�z8_UnslothNashMDTrainer._compute_judge.<locals>.<listcomp>9s0€ð(ð(ð(ØCM˜+°*Ð=Ð=Ð>ð(ð(ð(r[có<•—g|]}‰ |¬¦«‘ŒSrŠrŒr‘s  €rYr�z8_UnslothNashMDTrainer._compute_judge.<locals>.<listcomp><s4ø€ð(ð(ð(Ø9C�—’¨�Ñ4Ô4ð(ð(ð(r[)Ú
return_scores)rU)
r2Úbatch_decoder#r&ÚEnvironmentÚfrom_stringrrrMrGr,ÚtensorrU)
rrlrorir[Úmodel_data_completionsÚmixture_data_completionsÚenvironmentÚprobabilityr�s
         @rYÚ_compute_judgez$_UnslothNashMDTrainer._compute_judge%såø€Ø˜UÔ#ˆØ!%Ô!6×!CÒ!CØ�{Ô# A A A ~  Ð$6Ô7ÈTð"Dñ"
ô"
Ðð"_Ð!^ÐG]Ð!^Ñ!^Ô!^Ðà#'Ô#8×#EÒ#EØ˜Ô% a a a¨¨¨Ð&8Ô9Ètð$Fñ$
ô$
Ð ð$cÐ#bÐIaÐ#bÑ#bÔ#bÐ Ý˜h¨°¬
Ð3Ñ4Ô4ð	ð&ð&ØQgð&ñ&ô&Ð"õ!Ô,Ñ.Ô.ˆKØ"×.Ò.Õ/CÑDÔDˆHØPÐPÐPÐPÈÐPÑPÔPˆGØ%tÐ%tÐ%tÐ%tÐ]sÐ%tÑ%tÔ%tÐ"ð(ð(ØQið(ñ(ô(Ð$ð(ð(ð(ð(ØG_ð(ñ(ô(Ð$ð”j×&Ò&ØÝ•Ð+Ð-EÑFÔFÑGÔGØð'ñ
ô
ˆõ
Œ|˜K°
¸;Ô0GÔ0NÐOÑOÔOÐOr[có®‡—ˆfd„}|||¦«}tj¦«5|j€9| ¦«5|||¦«}ddd¦«n#1swxYwYn||j|¦«}ddd¦«n#1swxYwY|ddd…‰d…fdk}| |d¦«}| |d¦«}||fS)Ncóª•—||d|d¬¦«}|jdd…‰dz
d…f}t||ddd…‰d…f¦«}|S)NrRrS)rSrCr=)rPr*)ÚmÚdataÚoutputrPÚtoken_logprobsris     €rYÚcompute_logprobs_for_datazJ_UnslothNashMDTrainer._compute_logprobs.<locals>.compute_logprobs_for_dataHspø€Ø�Q�t˜KÔ(¸Ð>NÔ9OÐPÑPÔPˆFØ”] 1 1 1 n°qÑ&8¸2Ð&=Ð#=Ô>ˆFÝ2°6¸4ÀÔ;LÈQÈQÈQÐP^ÐP_ÐP_ÐM_Ô;`ÑaÔaˆNØ!Ð!r[rSrrw)r,rZr,Údisable_adapterÚmasked_fill)rr+rlrir¤Úmodel_logprobs_model_dataÚref_logprobs_model_dataÚmodel_padding_masks   `    rYÚ_compute_logprobsz'_UnslothNashMDTrainer._compute_logprobsGs´ø€ð	"ð	"ð	"ð	"ð	"ð%>Ð$=¸eÀZÑ$PÔ$PÐ!õŒ]‰_Œ_ð	`ð	`ØŒ~Ð%Ø×*Ò*Ñ,Ô,ð[ð[Ø.GÐ.GÈÈzÑ.ZÔ.ZÐ+ð[ð[ð[ñ[ô[ð[ð[ð[ð[ð[ð[øøøð[ð[ð[ð[øð+DÐ*CÀDÄNÐT^Ñ*_Ô*_Ð'ð	`ð	`ð	`ñ	`ô	`ð	`ð	`ð	`ð	`ð	`ð	`øøøð	`ð	`ð	`ð	`ð(Ð(8Ô9¸!¸!¸!¸^¸_¸_Ð:LÔMÐQRÒRÐØ$=×$IÒ$IÐJ\Ð^aÑ$bÔ$bÐ!Ø"9×"EÒ"EÐFXÐZ]Ñ"^Ô"^Ðà)Ð+BÐCÐCs5¦BÁ
AÁBÁA	ÁBÁ"A	Á#BÂBÂBcó:—|dz
| d¦«z}tj¦«5||z
}| d¦«}ddd¦«n#1swxYwY||z d¦«}|j|z|z
}| ¦«||fS)Ngà?rC)Úsumr,rZrEÚmean)	rr§r¨rœÚscoreÚ	log_ratioÚ
kl_div_logÚkl_div_lossÚlosss	         rYÚ_compute_lossesz%_UnslothNashMDTrainer._compute_losses`sä€ð˜sÑ"Ð&?×&CÒ&CÀAÑ&FÔ&FÑFˆõŒ]‰_Œ_ð	*ð	*Ø1Ð4KÑKˆIØ"Ÿš qÑ)Ô)ˆJð	*ð	*ð	*ñ	*ô	*ð	*ð	*ð	*ð	*ð	*ð	*øøøð	*ð	*ð	*ð	*ð!Ð#<Ñ<×AÒAÀ!ÑDÔDˆðŒy˜;Ñ&¨Ñ.ˆà�yŠy‰{Œ{˜E :Ð-Ð-s¯AÁAÁAcóf‡—ˆfd„}‰jd ||¦«¦«‰jd ||¦«¦«| d¦«}| d¦«}
‰jd ||¦«¦«‰jd ||
¦«¦«‰j�R‰jd ||	¦«¦«‰jd ||
¦«¦«‰jd	 ||¦«¦«| d¦«}‰jd
 ||¦«¦«||
z
}‰jd ||¦«¦«|dk ¦«}‰jd
 ||¦«¦«|ddd…|d…f‰jjk d¬¦«}|ddd…|d…f‰jjk d¬¦«}‰jd || ¦«¦«¦«‰jd || ¦«¦«¦«‰jd ‰j¦«‰jd ‰j	¦«dS)Ncó€•—‰j |¦« ¦« ¦«S©N)rVÚgather_for_metricsrÚitem)r˜rs €rYÚgather_meanz:_UnslothNashMDTrainer._log_statistics.<locals>.gather_mean‚s2ø€ØÔ#×6Ò6°vÑ>Ô>×CÒCÑEÔE×JÒJÑLÔLÐLr[r=r;rCrArBrGrHr>r<r@rr?rRrBrCrDrErF)
rJrNr¬r-Úfloatr2rfrrrErF)rrlror§r¨rœr®Úkl_divrirtrur¹Úmodel_logprobs_model_data_sumÚref_logprobs_model_data_sumÚentropy_model_dataÚmarginÚaccuracyÚ	model_eosÚmixture_eoss`                  rYÚ_log_statisticsz%_UnslothNashMDTrainer._log_statisticsts-ø€ð	Mð	Mð	Mð	Mð	Mð	
Œ
�<Ô ×'Ò'¨¨°EÑ(:Ô(:Ñ;Ô;Ð;àŒ
�9Ô×$Ò$ [ [°Ñ%8Ô%8Ñ9Ô9Ð9ð)B×(EÒ(EÀaÑ(HÔ(HÐ%Ø&=×&AÒ&AÀ!Ñ&DÔ&DÐ#àŒ
�>Ô"×)Ò)¨+¨+Ð6SÑ*TÔ*TÑUÔUÐUØŒ
Ð#Ô$×+Ò+¨K¨KÐ8SÑ,TÔ,TÑUÔUÐUðÔÐ(ØŒJÐ'Ô(×/Ò/°°¸LÑ0IÔ0IÑJÔJÐJØŒJÐ)Ô*×1Ò1°+°+¸nÑ2MÔ2MÑNÔNÐNð	
Œ
Ð*Ô+×2Ò2°;°;¸{Ñ3KÔ3KÑLÔLÐLð8×;Ò;¸AÑ>Ô>Ð>ÐØŒ
Ð&Ô'×.Ò.¨{¨{Ð;MÑ/NÔ/NÑOÔOÐOð/Ð1LÑLˆØŒ
Ð$Ô%×,Ò,¨[¨[¸Ñ-@Ô-@ÑAÔAÐAð˜Q’J×%Ò%Ñ'Ô'ˆØŒ
Ð'Ô(×/Ò/°°¸HÑ0EÔ0EÑFÔFÐFð  Ô,¨Q¨Q¨Q°°°Ð-?Ô@ÀDÔDYÔDfÒf×kÒkÐpqÐkÑrÔrˆ	Ø# KÔ0°°°°N°O°OÐ1CÔDÈÔH]ÔHjÒj×oÒoÐtuÐoÑvÔvˆØŒ
Ð0Ô1×8Ò8¸¸ÀYÇ_Â_ÑEVÔEVÑ9WÔ9WÑXÔXÐXØŒ
Ð.Ô/×6Ò6°{°{À;×CTÒCTÑCVÔCVÑ7WÔ7WÑXÔXÐXð	
Œ
�6Ô×!Ò! $¤)Ñ,Ô,Ð,ØŒ
�>Ô"×)Ò)¨$Ô*;Ñ<Ô<Ð<Ð<Ð<r[ÚinputsÚnum_items_in_batchcó$‡‡—| ¦«ttt‰ ¦«¦«¦«¦«}‰d}ˆfd„t|¦«D¦«Šˆfd„‰D¦«Šˆfd„‰D¦«Š‰ ‰¦«Š‰ ‰¦«Š‰djd}‰d‰d|dœ}‹‰ 	||¦«\}}‰ 
|||¦«\}	}
‰j�2‰ |	|
|¦«\}}tj||z
¦«}
nd	\}}‰ |	|
|¦«}
‰ ||	|¦«\}}‰ |||
¦«\}}}‰ |	|
| ¦«||
| ¦«| ¦«|||¦
«
‰jj�+‰jj‰jjzd
krt1¦«i}‰jjt4jt4jfvr‰ ¦«|d<‰jjdkr| ¦«}‰j rMtB "|‰j#¦«5}| $¦«ddd¦«n#1swxYwYn‰j%j$|fi|¤Ž| ¦«‰jj&zS)NrƒcóR•‡—g|]"Šˆfd„‰ ¦«D¦«‘Œ#S)có(•—i|]\}}||‰“ŒSrr)rÚkÚvÚis   €rYú
<dictcomp>zB_UnslothNashMDTrainer.training_step.<locals>.<listcomp>.<dictcomp>·s#ø€Ð6Ð6Ð6™t˜q !�1�a˜”dÐ6Ð6Ð6r[)Úitems)rrËrÄs @€rYr�z7_UnslothNashMDTrainer.training_step.<locals>.<listcomp>·s7øø€ÐRÐRÐR¸1Ð6Ð6Ð6Ð6 v§|¢|¡~¤~Ð6Ñ6Ô6ÐRÐRÐRr[có:•—g|]}t|‰j¦«‘ŒSr)r'r2©rÚxrs  €rYr�z7_UnslothNashMDTrainer.training_step.<locals>.<listcomp>¸s'ø€ÐVÐVÐVÈ!Õ+¨A¨tÔ/DÑEÔEÐVÐVÐVr[cóf•—g|]-}‰ |‰jjj‰j¦«‘Œ.Sr)Útokenize_rowr+ÚconfigÚis_encoder_decoderr2rÏs  €rYr�z7_UnslothNashMDTrainer.training_step.<locals>.<listcomp>¹s7ø€ÐtÐtÐtÐhi�$×#Ò# A t¤zÔ'8Ô'KÈTÔMbÑcÔcÐtÐtÐtr[Úprompt_input_idsrCÚprompt_attention_maskrer*rr•)'ÚtrainrPÚnextÚiterÚvaluesÚranger/Ú_prepare_inputsrFrbrpr-rxrrr�rªr³rÃÚdetachr.r”rNÚglobal_steprrÖrÚLOMOÚADALOMOÚ_get_learning_rateÚn_gpurÚuse_apexÚampÚ
scale_lossÚ	optimizerÚbackwardrVr‘)rr+rÄrÅÚ
batch_sizer[rir]rarlrortrurœr§r¨r²r®r»rÚscaled_losss` `                  rYÚ
training_stepz#_UnslothNashMDTrainer.training_step¯sløø€ð	�Š‰
Œ
ˆ
õ��d 6§=¢=¡?¤?Ñ3Ô3Ñ4Ô4Ñ5Ô5ˆ
Ø˜Ô"ˆØRÐRÐRÐRÅÀjÑ@QÔ@QÐRÑRÔRˆØVÐVÐVÐVÈvÐVÑVÔVˆØtÐtÐtÐtÐmsÐtÑtÔtˆØ×#Ò# FÑ+Ô+ˆð×%Ò% fÑ-Ô-ˆØÐ 2Ô3Ô9¸!Ô<ˆàÐ 2Ô3Ø$Ð%<Ô=Øð
ð
ˆð

ð(,×'AÒ'AÀ%ÈÑ'QÔ'QÑ$ˆ�nð$(×#<Ò#<¸\È>Ð[bÑ#cÔ#cÑ ˆ
�LðÔÐ(Ø+/×+@Ò+@ÀÈ\Ð[iÑ+jÔ+jÑ(ˆL˜.åœ) L°>Ñ$AÑBÔBˆKˆKà+5Ñ(ˆL˜.Ø×-Ò-¨j¸,ÈÑWÔWˆKð>B×=SÒ=SÐTYÐ[eÐguÑ=vÔ=vÑ:Ð!Ð#:ð#×2Ò2Ð3LÐNeÐgrÑsÔsÑˆˆe�Vð	
×ÒØØØ%×,Ò,Ñ.Ô.Ø#ØØ�LŠL‰NŒNØ�MŠM‰OŒOØØØñ