unsloth_compiled_cache/__pycache__/UnslothBCOTrainer.cpython-311.pyc

§
3$�hÉWãó¤—dZddlmZddlZddlmZddlmZddlmZm	Z	m
Z
mZmZm
Z
mZmZddlmZmZmZmZmZmZmZmZmZmZmZmZmZmZmZmZm
Z
mZmZm Z m!Z!m"Z"m#Z#m$Z$m%Z%m&Z&m'Z'm(Z(m)Z)mZm*Z*m+Z+m,Z,m-Z-m.Z.m/Z/m0Z0m1Z1m2Z2m3Z3m4Z4m5Z5m6Z6m7Z7m8Z8m9Z9m:Z:m;Z;m<Z<m=Z=m>Z>mZm?Z?m@Z@mAZAmBZBmCZCmDZDmEZEmFZFmGZGmHZHmIZImZmJZJmKZKmZm
Z
m Z m!Z!m'Z'm7Z7m=Z=mAZAmZddlAZAddlTddlLmMZMmNZNdd	lOmPZPddlZddlQZ?dd
lRm@Z@ddlmZddlSmTZTmUZVdd
dd
d
dœZWejXddeW¬¦«d„¦«ZYeMGd„de¦«¦«ZZ	Gd„de'¦«Z[Gd„de[¦«Z\dS)z8
2025.8.4
2025.8.5
4.55.1
0.21.0
__UNSLOTH_VERSIONING__
é)ÚTensorN)Ú
functional)ÚAnyÚListÚOptionalÚTupleÚUnionÚDictÚSetÚCallable)KrÚAutoModelForCausalLMÚ	BCOConfigÚ
BCOTrainerÚBaseImageProcessorÚCLF_NAMErÚDPODataCollatorWithPaddingÚDataCollatorÚ
DataLoaderÚDatasetÚEvalLoopOutputÚFÚFeatureExtractionMixinÚLiteralÚLogisticRegressionrÚPartialStateÚPathÚ	PeftModelÚPreTrainedModelÚPreTrainedTokenizerBaseÚProcessorMixinÚRUNNING_NAMEÚRunningMomentsÚSequentialSamplerÚTrainerÚTrainerCallbackÚTrainingArgumentsr	Ú_process_tokensÚ	_tokenizeÚautocastÚcontextmanagerÚcreate_reference_modelÚdefaultdictÚdisable_dropout_in_modelÚgenerate_model_cardÚget_comet_experiment_urlÚ
has_lengthÚinspectÚis_comet_availableÚis_joblib_availableÚis_peft_availableÚis_sklearn_availableÚis_wandb_availableÚ
itemgetterÚjoblibÚlog_table_to_comet_experimentÚloggerÚmaybe_apply_chat_templateÚnnÚnpÚnullcontextÚosÚ
pad_to_lengthÚpdÚpeft_module_casting_to_bf16Úprepare_deepspeedÚprepare_model_for_kbit_trainingÚrandomÚselective_log_softmaxÚtextwrapÚtorchÚtqdmÚwarningsrrrrr$r4r:r?rH)Ú*)Ú	dataclassÚfield)ÚVersion)r>)ÚDataCollatorForSeq2SeqÚDataCollatorForLanguageModelingTF)Úepilogue_fusionÚmax_autotuneÚ
shape_paddingz
trace.enabledztriton.cudagraphs)ÚdynamicÚ	fullgraphÚoptionscó’—tj| d|jd¦«dd¬¦«}tj| d¦«dd¬¦«}g}t	||¦«D]‘\}}| tj¦«}tj|d| d¦«¬¦« 	d¦«}tj
|d¬¦«}||z
}	| |	¦«Œ’	tj|¦«}| |jd|jdf¦«}|S)Néÿÿÿÿér)ÚchunksÚdim)r[Úindex©r[é)
rHÚchunkÚreshapeÚshapeÚzipÚtoÚfloat32ÚgatherÚ	unsqueezeÚsqueezeÚ	logsumexpÚappendÚconcat)
Úlogitsr\Úchunked_logitsÚ
chunked_indexÚall_per_token_logpsÚchunk_logitsÚchunk_indexÚselected_logitsÚlogsumexp_valuesÚper_token_logpss
          ú]/workspace/Fine-tuning/DS-LLM-TEMPLATE-FINETUNING/unsloth_compiled_cache/UnslothBCOTrainer.pyÚchunked_selective_log_softmaxru"s5€õ”[ §¢°°F´LÀÔ4DÑ!EÔ!EÐPQÐYZÐ[Ñ[Ô[€NÝ”[ §¢¨rÑ!2Ô!2¸QÀaÐHÑHÔH€MØÐå%(¨¸Ñ%GÔ%Gð4ð4Ñ!ˆ�kØ#—’¥u¤}Ñ5Ô5ˆÝœ, |¸2À{×G\ÒG\Ð]_ÑG`ÔG`ÐaÑaÔa×iÒiÐjlÑmÔmˆÝ œ?¨<¸rÐBÑBÔBÐØ)Ð,<Ñ<ˆØ×"Ò" ?Ñ3Ô3Ð3Ð3ØÝœ,Ð':Ñ;Ô;ÐØ-×5Ò5°v´|ÀA´ÈÌÐUVÌÐ6XÑYÔYÐØÐócó´‡—eZdZUdZedddi¬¦«Zeeed<edddi¬¦«Z	ee
ed	<																																																																																																																																																			d0ˆfd/„	ZˆxZS)1ÚUnslothBCOConfiguù
    
    Configuration class for the [`BCOTrainer`].

    This class includes only the parameters that are specific to BCO training. For a full list of training arguments,
    please refer to the [`~transformers.TrainingArguments`] documentation. Note that default values in this class may
    differ from those in [`~transformers.TrainingArguments`].

    Using [`~transformers.HfArgumentParser`] we can turn this class into
    [argparse](https://docs.python.org/3/library/argparse#module-argparse) arguments that can be specified on the
    command line.

    Parameters:
        max_length (`int` or `None`, *optional*, defaults to `1024`):
            Maximum length of the sequences (prompt + completion) in the batch. This argument is required if you want
            to use the default data collator.
        max_prompt_length (`int` or `None`, *optional*, defaults to `512`):
            Maximum length of the prompt. This argument is required if you want to use the default data collator.
        max_completion_length (`int` or `None`, *optional*, defaults to `None`):
            Maximum length of the completion. This argument is required if you want to use the default data collator
            and your model is an encoder-decoder.
        beta (`float`, *optional*, defaults to `0.1`):
            Parameter controlling the deviation from the reference model. Higher Î² means less deviation from the
            reference model.
        label_pad_token_id (`int`,  *optional*, defaults to `-100`):
            Label pad token id. This argument is required if you want to use the default data collator.
        padding_value (`int` or `None`, *optional*, defaults to `None`):
            Padding value to use. If `None`, the padding value of the tokenizer is used.
        truncation_mode (`str`, *optional*, defaults to `"keep_end"`):
            Truncation mode to use when the prompt is too long. Possible values are `"keep_end"` or `"keep_start"`.
            This argument is required if you want to use the default data collator.
        disable_dropout (`bool`, *optional*, defaults to `True`):
            Whether to disable dropout in the model and reference model.
        generate_during_eval (`bool`, *optional*, defaults to `False`):
            If `True`, generates and logs completions from both the model and the reference model to W&B or Comet
            during evaluation.
        is_encoder_decoder (`bool` or `None`, *optional*, defaults to `None`):
            When using the `model_init` argument (callable) to instantiate the model instead of the `model` argument,
            you need to specify if the model returned by the callable is an encoder-decoder model.
        precompute_ref_log_probs (`bool`, *optional*, defaults to `False`):
            Whether to precompute reference model log probabilities for training and evaluation datasets. This is
            useful when training without the reference model to reduce the total GPU memory needed.
        model_init_kwargs (`dict[str, Any]` or `None`, *optional*, defaults to `None`):
            Keyword arguments to pass to `AutoModelForCausalLM.from_pretrained` when instantiating the model from a
            string.
        ref_model_init_kwargs (`dict[str, Any]` or `None`, *optional*, defaults to `None`):
            Keyword arguments to pass to `AutoModelForCausalLM.from_pretrained` when instantiating the reference model
            from a string.
        dataset_num_proc (`int` or `None`, *optional*, defaults to `None`):
            Number of processes to use for processing the dataset.
        prompt_sample_size (`int`, *optional*, defaults to `1024`):
            Number of prompts that are fed to density ratio classifier.
        min_density_ratio (`float`, *optional*, defaults to `0.5`):
            Minimum value of the density ratio. The estimated density ratio is clamped to this value.
        max_density_ratio (`float`, *optional*, defaults to `10.0`):
            Maximum value of the density ratio. The estimated density ratio is clamped to this value.
    
    NÚhelpzvLLM SamplingParams)ÚdefaultÚmetadataÚvllm_sampling_paramsrXz8Chunk size to reduce memory usage. -1 is most efficient.Úunsloth_num_chunksFÚnorYéréúç-Cëâ6
?ç{®Gáz„?çÍÌÌÌÌÌì?ç+‡ÙÎ÷ï?ç:Œ0âŽyE>çð?ç@Úlinearçš™™™™™¹?ÚpassiveÚwarningTÚstepsr^éôéO
ÚO1ÚautoÚçÚ
adamw_8bitÚlengthÚ
every_saveÚlastééééœÿÿÿÚkeep_endçà?ç$@c”óŠ•—|dkrtd|›d�¦«‚|dkrtd|›d�¦«‚|€|#dkr
|$dkrd}d	}#|Ž€!d
dlm}•t	|•¦«dzd¦«}Žt¦«jdžid
|“d|“d|“d|“d|“d|“d|“d|“d|	“d|
“d|“d|“d|
“d|“d|“d|“d|“d|“d|“d |“d!|“d"|“d#|“d$|“d%|“d&|“d'|“d(|“d)|“d*|“d+|“d,| “d-|!“d.|"“d/|#“d0|$“d1|%“d2|&“d3|'“d4|(“d5|)“d6|*“d7|+“d8|,“d9|-“d:|.“d;|/“d<|0“d=|1“d>|2“d?|3“d@|4“dA|5“dB|6“dC|7“dD|8“dE|9“dF|:“dG|;“dH|<“dI|=“dJ|>“dK|?“dL|@“dM|A“dN|B“dO|C“dP|D“dQ|E“dR|F“dS|G“dT|H“dU|I“dV|J“dW|K“dX|L“dY|M“dZ|N“d[|O“d\|P“d]|Q“d^|R“d_|S“d`|T“da|U“db|V“dc|W“dd|X“de|Y“df|Z“dg|[“dh|\“di|]“dj|^“dk|_“dl|`“dm|a“dn|b“do|c“dp|d“dq|e“dr|f“ds|g“dt|h“du|i“dv|j“dw|k“dx|l“dy|m“dz|n“d{|o“d||p“d}|q“d~|r“d|s“d€|t“d�|u“d‚|v“dƒ|w“d„|x“d…|y“d†|z“d‡|{“dˆ||“d‰|}“dŠ|~“d‹|“dŒ|€“d�|�“dŽ|‚“d�|ƒ“d�|„“d‘|…“d’|†“d“|‡“d”|ˆ“d•|‰“d–|Š“d—|‹“d˜|Œ“d™|�“dš|Ž“d›|�“dœ|�“d�|‘“|”¤Ž|’|_|“|_dS)ŸNgH¯¼šò×z>z Unsloth: Your learning rate of `zi` is too small and less than 1e-7! Consider increasing it, otherwise gradient updates will be close to 0!r^za` is way too larger > 1! Consider decreasing it to 1e-1, otherwise gradient updates will explode!rŒr�Úunsloth_training_checkpointsr~r)Ú	cpu_countrÚ
output_dirÚoverwrite_output_dirÚdo_trainÚdo_evalÚ
do_predictÚ
eval_strategyÚprediction_loss_onlyÚper_device_train_batch_sizeÚper_device_eval_batch_sizeÚper_gpu_train_batch_sizeÚper_gpu_eval_batch_sizeÚgradient_accumulation_stepsÚeval_accumulation_stepsÚ
eval_delayÚtorch_empty_cache_stepsÚ
learning_rateÚweight_decayÚ
adam_beta1Ú
adam_beta2Úadam_epsilonÚ
max_grad_normÚnum_train_epochsÚ	max_stepsÚlr_scheduler_typeÚwarmup_ratioÚwarmup_stepsÚ	log_levelÚlog_level_replicaÚlog_on_each_nodeÚlogging_dirÚlogging_strategyÚlogging_first_stepÚ
logging_stepsÚlogging_nan_inf_filterÚ
save_strategyÚ
save_stepsÚsave_total_limitÚsave_safetensorsÚsave_on_each_nodeÚsave_only_modelÚ'restore_callback_states_from_checkpointÚno_cudaÚuse_cpuÚuse_mps_deviceÚseedÚ	data_seedÚ
jit_mode_evalÚuse_ipexÚbf16Úfp16Úfp16_opt_levelÚhalf_precision_backendÚbf16_full_evalÚfp16_full_evalÚtf32Ú
local_rankÚddp_backendÚ
tpu_num_coresÚtpu_metrics_debugÚdebugÚdataloader_drop_lastÚ
eval_stepsÚdataloader_num_workersÚdataloader_prefetch_factorÚ
past_indexÚrun_nameÚdisable_tqdmÚremove_unused_columnsÚlabel_namesÚload_best_model_at_endÚmetric_for_best_modelÚgreater_is_betterÚignore_data_skipÚfsdpÚfsdp_min_num_paramsÚfsdp_configÚ"fsdp_transformer_layer_cls_to_wrapÚaccelerator_configÚ	deepspeedÚlabel_smoothing_factorÚoptimÚ
optim_argsÚ	adafactorÚgroup_by_lengthÚlength_column_nameÚ	report_toÚddp_find_unused_parametersÚddp_bucket_cap_mbÚddp_broadcast_buffersÚdataloader_pin_memoryÚdataloader_persistent_workersÚskip_memory_metricsÚuse_legacy_prediction_loopÚpush_to_hubÚresume_from_checkpointÚhub_model_idÚhub_strategyÚ	hub_tokenÚhub_private_repoÚhub_always_pushÚhub_revisionÚgradient_checkpointingÚgradient_checkpointing_kwargsÚinclude_inputs_for_metricsÚeval_do_concat_batchesÚfp16_backendÚpush_to_hub_model_idÚpush_to_hub_organizationÚpush_to_hub_tokenÚ
mp_parametersÚauto_find_batch_sizeÚfull_determinismÚtorchdynamoÚ	ray_scopeÚddp_timeoutÚ
torch_compileÚtorch_compile_backendÚtorch_compile_modeÚinclude_tokens_per_secondÚinclude_num_input_tokens_seenÚneftune_noise_alphaÚoptim_target_modulesÚbatch_eval_metricsÚ
eval_on_startÚuse_liger_kernelÚliger_kernel_configÚeval_use_gather_objectÚaverage_tokens_across_devicesÚ
max_lengthÚmax_prompt_lengthÚmax_completion_lengthÚbetaÚlabel_pad_token_idÚ
padding_valueÚtruncation_modeÚdisable_dropoutÚgenerate_during_evalÚis_encoder_decoderÚprecompute_ref_log_probsÚmodel_init_kwargsÚref_model_init_kwargsÚdataset_num_procÚprompt_sample_sizeÚmin_density_ratioÚmax_density_ratio©)	ÚFloatingPointErrorÚ
OverflowErrorÚmultiprocessingr ÚminÚsuperÚ__init__r|r})—Úselfr¡r¢r£r¤r¥r¦r§r¨r©rªr«r¬rr®r¯r°r±r²r³r´rµr¶r·r¸r¹rºr»r¼r½r¾r¿rÀrÁrÂrÃrÄrÅrÆrÇrÈrÉrÊrËrÌrÍrÎrÏrÐrÑrÒrÓrÔrÕrÖr×rØrÙrÚrÛrÜrÝrÞrßràrárârãrärårærçrèrérêrërìrírîrïrðrñròrórôrõrör÷rørùrúrûrürýrþrÿrrrrrrrrrr	r
rrr
rrrrrrrrrrrrrrrrrrr r!r"r#r$r%r&r'r(r)r*r+r,r-r.r/r0r1r|r}Úkwargsr Ú	__class__s—                                                                                                                                                      €rtr8zUnslothBCOConfig.__init__ws°	ø€ðn˜4ÒÐÕ'9ð;VÐ]jð;Vð;Vð;Vñ(Wô(Wð"WØ˜1ÒÐ¥Mð3FÐUbð3Fð3Fð3Fñ%Gô%GðGØÐ -°7Ò":Ð":¸zÈSÒ?PÐ?PØ7ˆJØ ˆMØÐ#Ø1Ð1Ð1Ð1Ð1Ð1Ý" 9 9¡;¤;¨q¡=°!Ñ4Ô4Ðà�‰ŒÔðQ	<ðQ	<ðQ	<Ø#˜ðQ	<à#7Ð#7ðQ	<ð �xðQ	<ð�gð	Q	<ð
$˜ðQ	<ð*˜Mð
Q	<ð$8Ð#7ðQ	<ð+FÐ*EðQ	<ð*DÐ)CðQ	<ð(@Ð'?ðQ	<ð'>Ð&=ðQ	<ð+FÐ*EðQ	<ð'>Ð&=ðQ	<ð$˜ðQ	<ð'>Ð&=ðQ	<ð *˜Mð!Q	<ð"(˜<ð#Q	<ð$$˜ð%Q	<ð&$˜ð'Q	<ð((˜<ð)Q	<ð**˜Mð+Q	<ð, 0Ð/ð-Q	<ð."˜	ð/Q	<ð0!2Ð 1ð1Q	<ð2(˜<ð3Q	<ð4(˜<ð5Q	<ð6"˜	ð7Q	<ð8!2Ð 1ð9Q	<ð: 0Ð/ð;Q	<ð<&˜+ð=Q	<ð> 0Ð/ð?Q	<ð@"4Ð!3ðAQ	<ðB*˜MðCQ	<ðD&<Ð%;ðEQ	<ðF*˜MðGQ	<ðH$˜ðIQ	<ðJ 0Ð/ðKQ	<ðL 0Ð/ðMQ	<ðN!2Ð 1ðOQ	<ðP.˜oðQQ	<ðR7^Ð6]ðSQ	<ðT�gðUQ	<ðV�gðWQ	<ðX,˜^ðYQ	<ðZ�4ð[Q	<ð\"˜	ð]Q	<ð^*˜Mð_Q	<ð` �xðaQ	<ðb�4ðcQ	<ðd�4ðeQ	<ðf,˜^ðgQ	<ðh&<Ð%;ðiQ	<ðj,˜^ðkQ	<ðl,˜^ðmQ	<ðn�4ðoQ	<ðp$˜ðqQ	<ðr&˜+ðsQ	<ðt*˜MðuQ	<ðv!2Ð 1ðwQ	<ðx�EðyQ	<ðz$8Ð#7ð{Q	<ð|$˜ð}Q	<ð~&<Ð%;ðQ	<ð@*DÐ)CðAQ	<ðB$˜ðCQ	<ðD �xðEQ	<ðF(˜<ðGQ	<ðH%:Ð$9ðIQ	<ðJ&˜+ðKQ	<ðL&<Ð%;ðMQ	<ðN%:Ð$9ðOQ	<ðP!2Ð 1ðQQ	<ðR 0Ð/ðSQ	<ðT�4ðUQ	<ðV#6Ð"5ðWQ	<ðX&˜+ðYQ	<ðZ2TÐ1Sð[Q	<ð\"4Ð!3ð]Q	<ð^"˜	ð_Q	<ð`&<Ð%;ðaQ	<ðb�EðcQ	<ðd$˜ðeQ	<ðf"˜	ðgQ	<ðh.˜oðiQ	<ðj"4Ð!3ðkQ	<ðl"˜	ðmQ	<ðn*DÐ)CðoQ	<ðp!2Ð 1ðqQ	<ðr%:Ð$9ðsQ	<ðt%:Ð$9ðuQ	<ðv-JÐ,IðwQ	<ðx#6Ð"5ðyQ	<ðz*DÐ)Cð{Q	<ð|&˜+ð}Q	<ð~&<Ð%;ðQ	<ð@(˜<ðAQ	<ðB(˜<ðCQ	<ðD"˜	ðEQ	<ðF 0Ð/ðGQ	<ðH.˜oðIQ	<ðJ(˜<ðKQ	<ðL&<Ð%;ðMQ	<ðN-JÐ,IðOQ	<ðP*DÐ)CðQQ	<ðR&<Ð%;ðSQ	<ðT(˜<ðUQ	<ðV$8Ð#7ðWQ	<ðX(@Ð'?ðYQ	<ðZ!2Ð 1ð[Q	<ð\*˜Mð]Q	<ð^$8Ð#7ð_Q	<ð` 0Ð/ðaQ	<ðb&˜+ðcQ	<ðd"˜	ðeQ	<ðf&˜+ðgQ	<ðh*˜MðiQ	<ðj%:Ð$9ðkQ	<ðl"4Ð!3ðmQ	<ðn)BÐ(AðoQ	<ðp-JÐ,IðqQ	<ðr#6Ð"5ðsQ	<ðt$8Ð#7ðuQ	<ðv"4Ð!3ðwQ	<ðx*˜MðyQ	<ðz 0Ð/ð{Q	<ð|#6Ð"5ð}Q	<ð~&<Ð%;ðQ	<ð@-JÐ,IðAQ	<ðB$˜ðCQ	<ðD!2Ð 1ðEQ	<ðF%:Ð$9ðGQ	<ðH�4ðIQ	<ðJ"4Ð!3ðKQ	<ðL*˜MðMQ	<ðN.˜oðOQ	<ðP.˜oðQQ	<ðR$8Ð#7ðSQ	<ðT"4Ð!3ðUQ	<ðV(@Ð'?ðWQ	<ðX!2Ð 1ðYQ	<ðZ%:Ð$9ð[Q	<ð\ 0Ð/ð]Q	<ð^"4Ð!3ð_Q	<ð`!2Ð 1ðaQ	<ðb!2Ð 1°FðcQ	<ðQ	<ðQ	<ðd%9ˆÔ!Ø"4ˆÔÐÐrv)“NNFFFr~FrYrYNNrrrr€r�r‚rƒr„r…r†r‡rXrˆr‰rrŠr‹TNrŒFr^FrŒr�NTFFFFFFrŽrŽFFFFr�r�FFNrXNNFr‘FNrNrXNNTNFNNFr‘rNNNNr’r“NFFr”NNNNTFTFFNNr•NNFNFNFTr�NNNr‘TFNr–r—FNNFFNNFFFNFTr˜r™Nr‰ršNr›TFNFNNNr˜rœr�NrX)
Ú__name__Ú
__module__Ú__qualname__Ú__doc__rMr|rrÚ__annotations__r}Úintr8Ú
__classcell__©r;s@rtrxrx3s„ø€€€€€€ð9ð9ðt+0¨%ØØÐ1Ð2ð+ñ+ô+Ð˜( 3œ-ððñð*/¨ØØÐVÐWð*ñ*ô*Ð˜ #œððñðØ#ØØØØØ$Ø&'Ø%&Ø#'Ø"&Ø&'Ø"#ØØ"%ØØØØØØØØØ$ØØØØ%ØØØ"Ø"ØØ!&ØØØØØ!ØØ27ØØØØØØØØØØØ!'ØØØØØØØ!ØØ$ØØ!"Ø%)ØØØØ $ØØ!&Ø $Ø Ø ØØØØ-1Ø!ØØ!$ØØØØØ%ØØ%)Ø Ø $Ø $Ø(-Ø"Ø%*ØØ!%ØØ#ØØØØØ!&Ø(,Ø%*Ø!%ØØ#Ø#'Ø ØØ#Ø ØØØØØ $Ø!Ø$)Ø(-Ø"Ø#Ø"ØØ Ø"Ø!&Ø(,ØØØ $ØØ!ØØ$ØØ$Ø!Ø#(Ø Ø $ØØ!ØØ Ø#Øðis5ðs5ðs5ðs5ðs5ðs5ðs5ðs5ðs5ðs5rvrxc$óR‡—eZdZdZddgZ																	dYdeeeje	fde
eeeje	fded	e
ed
e
eee
e	effde
eeeeefde
ed
e
egefde
eedeejjejjjfde
eejejgejfde
e
de
eege
fde
e	de
e	de
ede
ef"ˆfd„
Zed„¦«Z dej!dej!fd„Z"dej#dej#dej!fd„Z$de
e	eeej#ffdeej!ej!ffd „Z%dZd"ed#e&dej!fd$„Z'ˆfd%„Z(ˆfd&„Z)e*d'„¦«Z+de,fˆfd(„Z-d[d
e
ede,fˆfd)„
Z.d*e
de
fd+„Z/e0			d\d.ej!d/ej#d0e1d1e&d2e1dej!fd3„¦«Z2dejde
e	eeej#ffdeej!ej!ej!ej!ffd4„Z3d5ej!dej!fd6„Z4	d]d8ej!d9ej!d:ej!d;ej!d<e
ej!d5e
ej!d=e1deej!ej!ej!ej!ffd>„Z5	d]de
e	eeej#ffd=e1fd?„Z6		d^deeejfd@e
e	eeje7ffdeejeeje
e	ejffffdA„Z8d_dCe
e	e9fdDe:dEddfdF„Z;d[d"e
ede
ej<j=j>fdG„Z?de
e	ej#fdee	e	ffdH„Z@	d[deeejfd@e
e	eeje7ffdIe1dJe
ee	fdK„ZA			d`dMe,dNe	dIe
e1dJe
ee	dOe	defˆfdP„
ZBd[dQe
e	e9fdRe
e9ddfˆfdS„
ZCˆfdT„ZD			dadUe
e	dVe
e	dWee	ee	dffdX„ZEˆxZFS)bÚ_UnslothBCOTrainerr‘ÚtrlÚbcoN©NNÚmodelÚ	ref_modelÚargsÚ
train_datasetÚeval_datasetÚprocessing_classÚ
data_collatorÚ
model_initÚ	callbacksÚ
optimizersÚpreprocess_logits_for_metricsÚpeft_configÚcompute_metricsÚmodel_adapter_nameÚref_adapter_nameÚembedding_funcÚembedding_tokenizerc
ó•—|�+t¦«rt¦«std¦«‚t|¦«turtd¦«‚t
|t¦«s|�||urtd¦«‚|j€i}nªt
|t¦«std¦«‚|j}| 	d¦«}|�ht
|t¦«r|dkrtt|¦«}|dkr-t
|tj¦«std|›d�¦«‚||d<|j
€i}nªt
|t¦«std	¦«‚|j
}| 	d¦«}|�ht
|t¦«r|dkrtt|¦«}|dkr-t
|tj¦«std|›d�¦«‚||d<t
|t¦«rtj|fi|¤Ž}t
|t¦«rtj|fi|¤Ž}d
|_t#¦«s|�td¦«‚t#¦«�r5|��2t
|t$¦«r| ¦«}t|dd
¦«st|d
d
¦«r`t)|d¦«o,dt+t-jt0¦«j¦«v}d|ji}|r
|j|d<t1|fi|¤Ž}nV|jrOt)|d¦«r| ¦«n*d„}| ¦« |¦«|}|jr't|d
d
¦«rtA|¦«d|_nV|jrOt)|d¦«r| ¦«n*d„}| ¦« |¦«|j!r+tE¦«stG¦«std¦«‚|�|j$j%|_%n"|j%€td¦«‚|j%|_%t#¦«ot
|t$¦«|_&||_'||_(|r||_)n*|j&s|j*rd|_)ntW|¦«|_)|€td¦«‚|j,€t[j.dt^¦«d}|j,�|j,}|j0€t[j.dt^¦«d}|j0�|j0}d}|j1€#|j%rt[j.dt^¦«d}|j1�|j%r|j1}|€Qte|j3|j4|j%¬¦«}|j5r!d
|_5t[j.dt^¦«d|_6nd
|_6|j7r*tq|¦«|j)�tq|j)¦«||_,|j!|_!|j4|_4|j9�|j9n|j3|_9||_0|j:|_:||_1|j*|_*d
|_;d
|_<t{d„¦«|_>|j?|_?t|j$dd
¦«|_@t|j$d d!¦«|_A|j@r%|jAd!krt[j.d"t^¦«||_B||_Cd|jDd#<t‹¦« F¦«5| Gt�d$|i|jI¬%¦«}|�$| Gt�d$|i|jI¬%¦«}| Gt”d||jCd&œ|jId'¬(¦«}d)|j%||j,|j:|j4|j0|j1d*œ}| Gt–||jId+¬,¦«}|�x| Gt”||jCd&œd|jId-¬.¦«}d)|j%||j,|j:|j4|j0|j1d*œ}| Gt–||jId/¬,¦«}| Ld0„|jId1¬2¦«}| Ld3„|jId4¬2¦«}ddd¦«n#1swxYwYt›¦« N||||||||
|	|
|¬5¦«d
|_Ot)|jPd6¦«r|jP Q|jR¦«t)|d7¦«st§d8¦«‚|jTr0|jUjVjWjXd9kr|j*rtd:¦«‚|j)€|j&s|j*std;¦«‚nM|jTr t³|j)|jU¦«|_)n&|jU Z|j)d¬<¦«|_)t·|jU¬=¦«|_\|jB�|j]rdS| ^||j_j`¬>¦«}| ^||j_j`¬>¦«}tja||fd?¬@¦«} tjatjb|dd…d?f¦«tjc|dd…d?f¦«fd?¬@¦«}!tÉdA¬B¦« e|  f¦« g¦« h¦«|! f¦« h¦«¦«|_i|ji j| f¦« g¦« h¦«tjb|dd…d?f¦« f¦« h¦«¦«}"|ji j| f¦« g¦« h¦«tjc|dd…d?f¦« f¦« h¦«¦«}#t×jldC|"›dD|#›�¦«dS)ENz}BCOTrainer with UDM requires the scikit-learn and joblib libraries. Please install it with `pip install scikit-learn joblib`.z3Please use `BCOConfig` instead `TrainingArguments`.zœ`model` and `ref_model` cannot be the same object. If you want `ref_model` to be the same as `model`, you must mass a copy of it, or `None` if you use peft.zRYou passed model_kwargs to the BCOTrainer. But your model is already instantiated.Útorch_dtyper�znInvalid `torch_dtype` passed to the BCOConfig. Expected a string with either `torch.dtype` or 'auto', but got ú.zZYou passed ref_model_kwargs to the BCOTrainer. But your ref_model is already instantiated.FzŽPEFT is not installed and you passed a `peft_config` in the trainer's kwargs, please install it with `pip install peft` to use the PEFT modelsÚis_loaded_in_8bitÚis_loaded_in_4bitrÚuse_gradient_checkpointingÚenable_input_require_gradscó0—| d¦«dS©NT©Úrequires_grad_©ÚmoduleÚinputÚoutputs   rtÚmake_inputs_require_gradz=_UnslothBCOTrainer.__init__.<locals>.make_inputs_require_grad s€Ø×-Ò-¨dÑ3Ô3Ð3Ð3Ð3rvTcó0—| d¦«dSrbrcres   rtriz=_UnslothBCOTrainer.__init__.<locals>.make_inputs_require_grad5s€Ø×)Ò)¨$Ñ/Ô/Ð/Ð/Ð/rvz‚`generate_during_eval=True` requires Weights and Biases or Comet to be installed. Please install `wandb` or `comet-ml` to resolve.zMWhen no model is provided, you need to pass the parameter is_encoder_decoder.zdmax_length or a processing_class must be specified when using the default DPODataCollatorWithPaddingz§When using DPODataCollatorWithPadding, you should set `max_length` in the `BCOConfig`. It will be set to `512` by default, but you should do it yourself in the future.r™z®When using DPODataCollatorWithPadding, you should set `max_prompt_length` in the `BCOConfig`. It will be set to `128` by default, but you should do it yourself in the future.é€zÜWhen using DPODataCollatorWithPadding with an encoder decoder architecture, you should set `max_completion_length` in the BCOTrainer's init it will be set to `128` by default, but you should do it yourself in the fu
€˜!˜Gœ*€rvzFiltering desirable examples)rvrxcó—|dSr{r2r}s rtrpz-_UnslothBCOTrainer.__init__.<locals>.<lambda>s€˜a œj˜.€rvzFiltering undesirable examples)rIrKrOrLrMrNrPrUrQrRrSÚadd_model_tagsÚacceleratorzXYour `Trainer` does not have an `accelerator` object. Consider upgrading `transformers`.ézrYou cannot use `precompute_ref_log_probs=True` with Deepspeed ZeRO-3. Please set `precompute_ref_log_probs=False`.z]No reference model and model is not a Peft model. Try setting `precompute_ref_log_probs=True`)Úevaluation_mode)r�)Úsample_sizerr]Úbalanced)Úclass_weightz(UDM classifier training scores: chosen: z, rejected: )mr5r3ÚImportErrorÚtyper&Ú
ValueErrorÚ
isinstanceÚstrr,ÚgetÚgetattrrHÚdtyper-r
Úfrom_pretrainedÚ_peft_has_been_casted_to_bf16r4rÚmerge_and_unloadÚhasattrror1Ú	signaturerDÚ
parametersrrr`Úget_input_embeddingsÚregister_forward_hookrÑrBr)r6r2Úconfigr*Ú
is_peft_modelrVrWrJr+r+r!rJÚwarnÚUserWarningr"r#rrlr%räÚuse_dpo_data_collatorr(r-r&r'Ú _precomputed_train_ref_log_probsÚ_precomputed_eval_ref_log_probsr,Ú_stored_metricsr$Úaux_loss_enabledÚ
aux_loss_coefrXrYÚwarnings_issuedrÚmain_process_firstÚmapr;r.r(r'Úfilterr7r8Úmodel_accepts_loss_kwargsrIr€Ú
_tag_namesÚAttributeErrorÚis_deepspeed_enabledr�ÚstateÚdeepspeed_pluginÚ
zero_stagerCÚ
prepare_modelr"ÚrunningrÿÚ_get_sample_prompt_embeddingsrKr/ÚcatÚ	ones_likeÚ
zeros_likerÚfitÚcpuÚfloatÚnumpyÚclfÚscorer:Úinfo)%r9rIrJrKrLrMrNrOrPrQrRrSrTrUrVrWrXrYr,r[r-Ú_support_gc_kwargsÚprepare_model_kwargsrir!r"r#ruÚ	desirableÚundesirableÚchosen_embeddingsÚrejected_embeddingsÚ
embeddingsÚlabelsÚchosen_meanÚ
rejected_meanr;s%                                    €rtr8z_UnslothBCOTrainer.__init__²sŽø€ð,Ð%Õ/CÑ/EÔ/EÐ%ÕJ]ÑJ_ÔJ_Ð%ÝðPñôð
õ�‰:Œ:Õ*Ð*Ð*ÝÐRÑSÔSÐSå˜%¥Ñ%Ô%ð	¨%Ð*;À	ÈUÐ@RÐ@RÝðZñôð
ð
Ô!Ð)Ø "ÐÐÝ˜E¥3Ñ'Ô'ð
	?ÝÐqÑrÔrÐrà $Ô 6ÐØ+×/Ò/°
Ñ>Ô>ˆKØÐ&å˜k3Ñ/Ô/ð>°KÀ6Ò4IÐ4IÝ")%°Ñ"=Ô"=�KØ &Ò(Ð(µ¸KÍÌÑ1UÔ1UÐ(Ý$ðXðJUðXðXðXñôðð4?Ð! -Ñ0àÔ%Ð-Ø$&Ð!Ð!Ý˜I¥sÑ+Ô+ð	CÝØlñôð
ð%)Ô$>Ð!Ø/×3Ò3°MÑBÔBˆKØÐ&å˜k3Ñ/Ô/ð>°KÀ6Ò4IÐ4IÝ")%°Ñ"=Ô"=�KØ &Ò(Ð(µ¸KÍÌÑ1UÔ1UÐ(Ý$ðXðJUðXðXðXñôðð8CÐ% mÑ4å�e�SÑ!Ô!ð	UÝ(Ô8¸ÐTÐTÐBSÐTÐTˆEå�i¥Ñ%Ô%ð	aÝ,Ô<¸YÐ`Ð`ÐJ_Ð`Ð`ˆIð.3ˆÔ*å Ñ"Ô"ð4	] {Ð'>Ýðañôð
õÑ
 Ô
 ñ0	] [Ñ%<å˜%¥Ñ+Ô+ð
1Ø×.Ò.Ñ0Ô0�å�uÐ1°5Ñ9Ô9ð
a½WÀUÐL_ÐafÑ=gÔ=gð
aÝ%,ØÐ9ñ&ô&ð&à5½ÝÔ%Õ&EÑFÔFÔQñ:ô:ðð#ð)EÀdÔFaÐ'bÐ$à%ðoØLPÔLnÐ(Ð)HÑIå7¸ÐVÐVÐAUÐVÐV��ØÔ,ð	
aå˜5Ð">Ñ?Ô?ðaØ×4Ò4Ñ6Ô6Ð6Ð6ð4ð4ð4ð×.Ò.Ñ0Ô0×FÒFÐG_Ñ`Ô`Ð`ðˆEØŒyð
:�W UÐ,?ÀÑGÔGð
:Ý+¨EÑ2Ô2Ð2à59�Ô2øð
Ô
(ð		]å�uÐ:Ñ;Ô;ð
]Ø×0Ò0Ñ2Ô2Ð2Ð2ð0ð0ð0ð×*Ò*Ñ,Ô,×BÒBÐC[Ñ\Ô\Ð\àÔ$ð	Õ.@Ñ.BÔ.Bð	ÕFXÑFZÔFZð	ÝðDñôð
ð
ÐØ&+¤lÔ&EˆDÔ#Ð#Ø
Ô
$Ð
,ÝÐlÑmÔmÐmà&*Ô&=ˆDÔ#å.Ñ0Ô0ÐQµZÀÅyÑ5QÔ5QˆÔØ"4ˆÔØ 0ˆÔàð	;Ø&ˆDŒNˆNØ
Ô
ð	; 4Ô#@ð	;à!ˆDŒNˆNå3°EÑ:Ô:ˆDŒNàÐ#ÝØvñôð
ðŒ?Ð"ÝŒMðcåñ
ô
ð
ð
ˆJØŒ?Ð&ØœˆJàÔ!Ð)ÝŒMðcåñ
ô
ð
ð
!$ÐØÔ!Ð-Ø $Ô 6Ðà $ÐØÔ%Ð-°$Ô2IÐ-ÝŒMðdåñ
ô
ð
ð
%(Ð!ØÔ%Ð1°dÔ6MÐ1Ø$(Ô$>Ð!àÐ Ý6Ø-Ô:Ø#'Ô#:Ø#'Ô#:ðñôˆMðÔ)ð
Ø-2�Ô*å”
ð\åñôðð*.ˆDÔ&Ð&à).ˆDÔ&ðÔð	9Ý$ UÑ+Ô+Ð+ØŒ~Ð)Ý(¨¬Ñ8Ô8Ð8à$ˆŒØ$(Ô$=ˆÔ!Ø"&Ô"9ˆÔØ37Ô3EÐ3Q˜TÔ/Ð/ÐWgÔWtˆÔØ!2ˆÔØ#Ô3ˆÔØ%:ˆÔ"Ø(,Ô(EˆÔ%ð16ˆÔ-Ø/4ˆÔ,õ +Ð+DÐ+DÑEÔEˆÔð”IˆŒ	Ý '¨¬Ð6LÈeÑ TÔ TˆÔÝ$ U¤\Ð3IÈ3ÑOÔOˆÔØÔ ð	 TÔ%7¸3Ò%>Ð%>ÝŒMðõñ
ô
ð
ð-ˆÔØ#6ˆÔ ð48ˆÔÐ/Ñ0å
‰^Œ^×
.Ò
.Ñ
0Ô
0ðH	ðH	à)×-Ò-Ý)°kÐCSÐ5TÐ_cÔ_tð.ñôˆMðÐ'Ø+×/Ò/Ý-Ø*Ð,<Ð=Ø!Ô2ð 0ñ ô �ð*×-Ò-ÝØØ(8ÐQUÔQiÐjÐjØÔ.Ø/ð.ñôˆMðØ&*Ô&=Ø-Ø"œoØ#'Ô#7Ø&*Ô&=Ø%)Ô%;Ø)-Ô)Cð	ð	ˆIð*×-Ò-ÝØ#ØÔ.Ø9ð	.ñôˆMðÐ'à+×/Ò/ÝØ,<ÐUYÔUmÐnÐnØ Ø!Ô2Ø2ð 0ñ ô �ð!Ø*.Ô*AØ!1Ø"&¤/Ø'+Ô';Ø*.Ô*AØ)-Ô)?Ø-1Ô-Gð	ð	�	ð ,×/Ò/Ý#Ø'Ø!Ô2Ø<ð	 0ñ ô �ð&×,Ò,Ø$Ð$¨tÔ/DÐKið-ñôˆIð(×.Ò.Ø(Ð(°4Ô3HÐOoð/ñôˆKðMH	ðH	ðH	ñH	ôH	ðH	ðH	ðH	ðH	ðH	ðH	øøøðH	ðH	ðH	ðH	õT	‰Œ×ÒØØØ'Ø'Ø%Ø-Ø!Ø+ØØ!Ø*Gð	ñ	
ô	
ð	
ð"*/ˆÔ&õ�4”:Ð/Ñ0Ô0ð	7ØŒJ×%Ò% d¤oÑ6Ô6Ð6å�t˜]Ñ+Ô+ð	Ý Øjñôð
ð
Ô$ð	ØÔÔ%Ô6ÔAÀQÒFÐFÈ4ÔKhÐFÝ ðIñôððŒ>Ð!ØÔ&ð
¨$Ô*Gð
Ý ØsñôðøðÔ(ð
fÝ!2°4´>À4ÔCSÑ!TÔ!T�”�à!%Ô!1×!?Ò!?ÀÄÐ`dÐ!?Ñ!eÔ!e�”å%°$Ô2BÐCÑCÔCˆŒàÔÐ&¨$Ô*EÐ&ØˆFà ×>Ò>¸yÐVZÔV_ÔVrÐ>ÑsÔsÐØ"×@Ò@ÀÐZ^ÔZcÔZvÐ@ÑwÔwÐå”YÐ 1Ð3FÐGÈQÐOÑOÔOˆ
Ý”Ý
Œ_Ð.¨q¨q¨q°!¨tÔ4Ñ
5Ô
5µuÔ7GÐH[Ð\]Ð\]Ð\]Ð_`Ð\`ÔHaÑ7bÔ7bÐcÐijð
ñ
ô
ˆõ&°:Ð>Ñ>Ô>×BÒBØ�NŠNÑÔ×"Ò"Ñ$Ô$×*Ò*Ñ,Ô,¨f¯jªj©l¬l×.@Ò.@Ñ.BÔ.Bñ
ô
ˆŒð”h—n’nØ×!Ò!Ñ#Ô#×)Ò)Ñ+Ô+×1Ò1Ñ3Ô3µU´_ÐEVÐWXÐWXÐWXÐZ[ÐW[ÔE\Ñ5]Ô5]×5aÒ5aÑ5cÔ5c×5iÒ5iÑ5kÔ5kñ
ô
ˆðœŸšØ×#Ò#Ñ%Ô%×+Ò+Ñ-Ô-×3Ò3Ñ5Ô5µuÔ7GÐH[Ð\]Ð\]Ð\]Ð_`Ð\`ÔHaÑ7bÔ7b×7fÒ7fÑ7hÔ7h×7nÒ7nÑ7pÔ7pñ
ô
ˆ
õ	ŒÐg¸{ÐgÐgÐXeÐgÐgÑhÔhÐhÐhÐhsÜ-E9b2â2b6â9b6có&—|jduo|jduSrn)rXrY©r9s rtÚmatch_underlying_distributionz0_UnslothBCOTrainer.match_underlying_distributionKs€àÔ"¨$Ð.ÐW°4Ô3KÐSWÐ3WÐWrvÚprompt_embeddingsÚreturncó¼—|j}|j}|jj}|j ||jj¬¦«}|jd}| d¬¦«|jjk}|j 	|¦«}|jddkrtjg||¬¦«S|j 
| ¦« ¦« ¦«¦«dd…df}tj|||¬¦«}|j |d¬	¦«}|||z||dzz…}||}|S)
zÄ
        Calculates the probability if the given prompt embedding is from desirable dataset. This function calculates
        the probability in the process and ensemble across processes.
        )Ú	pad_indexrr^r])ÚdevicerŽN©rŽrÊÚmean)Ú	reduction)rŽrÊr�Ú
process_indexÚpad_across_processesrYrlrarÌrerHÚtensorr¶Ú
predict_probar³r´rµÚ	as_tensorÚreduce)	r9rÆrŽrÊÚrankÚpadded_prompt_embeddingsr„ÚnonzeroÚprobs	         rtÚ_get_chosen_probz#_UnslothBCOTrainer._get_chosen_probOsa€ð
"Ô'ˆØ"Ô)ˆØÔÔ-ˆà#'Ô#3×#HÒ#HØ¨Ô)AÔ)Nð$Iñ$
ô$
Ð ð/Ô4°QÔ7ˆØ*×/Ò/°AÐ/Ñ6Ô6¸$Ô:RÔ:_Ò_ˆØ Ô,×3Ò3Ð4LÑMÔMÐðÔ" 1Ô%¨Ò*Ð*Ý”< ¨6¸Ð?Ñ?Ô?Ð?àŒx×%Ò%Ð&7×&;Ò&;Ñ&=Ô&=×&CÒ&CÑ&EÔ&E×&KÒ&KÑ&MÔ&MÑNÔNÈqÈqÈqÐRSÈtÔTˆÝŒ˜t¨5¸Ð@Ñ@Ô@ˆØÔ×&Ò& t°vÐ&Ñ>Ô>ˆà�K $Ñ&¨¸¸q¹Ñ)AÐAÔBˆØ�GŒ}ˆàˆrvÚ	input_idsÚattention_maskcóæ—tj||jjk|jj|¦«}tj¦«5| ||¬¦«}ddd¦«n#1swxYwY|S)z|
        Replaces processing_class.pad_token_id to embedding_tokenizer.pad_token_id and applies self.embedding_func
        ©rÙrÚN)rHÚwhererNrlrYÚno_gradrX)r9rÙrÚr¿s    rtÚ_vectorize_promptz$_UnslothBCOTrainer._vectorize_promptlsº€õ”KØ˜Ô.Ô;Ò;ØÔ$Ô1Øñ
ô
ˆ	õŒ]‰_Œ_ð	ð	Ø×,Ò,Ø#Ø-ð-ñôˆJð	ð	ð	ñ	ô	ð	ð	ð	ð	ð	ð	øøøð	ð	ð	ð	ðÐsÁA&Á&A*Á-A*ÚbatchcóL—|jsdS| |d|d¬¦«}tj|dtj|j¬¦«}tj|¦«d}tj|¦«d}||df}||df}||fS)	z.Extract embeddings from frozen embedding modelrHÚembedding_input_idsÚembedding_attention_maskrÜr|rËr.)rÅrßrHrÐÚboolrÊrÝ)r9ràr¿rÀÚ
chosen_idxÚrejected_idxr½r¾s        rtÚ_get_prompt_embeddingsz)_UnslothBCOTrainer._get_prompt_embeddings~s¶€ð
Ô1ð	Ø�:à×+Ò+ØÐ1Ô2Ø Ð!;Ô<ð,ñ
ô
ˆ
õ
”˜e GœnµE´JÀzÔGXÐYÑYÔYˆÝ”[ Ñ(Ô(¨Ô+ˆ
Ý”{ F 7Ñ+Ô+¨AÔ.ˆà& z°3 Ô7ÐØ(¨°sÐ):Ô;Ðà!Ð#6Ð7Ð7rvr™Údatasetr„cóÚ—tt|¦«|¦«}tj t|¦«|f¬¦«}| |¦«}|jj|j|jj	|jj
ddœ}|j t|fi|¤Ž¦«}tj¦«5tjd¦«}t#|d¬¦«D]g}	| |	d|	d¬	¦«}
|j |
¦«}
tj||
 ¦«f¦«}Œh	d
d
d
¦«n#1swxYwY|S)zv
        Sample instances from dataset and get prompt embeddings. Used for density ratio classifier training.
        )ÚsizeF©Ú
batch_sizeÚ
collate_fnÚnum_workersÚ
pin_memoryÚshufflerz!Building sample prompt embeddings©ÚiterablerxrârãrÜN)r6Úlenr=rEÚchoiceÚselectrKr¨rOrßrúr�ÚpreparerrHrÞÚemptyrIrßÚgather_for_metricsr¯r³)r9rèr„Ú	n_samplesÚrand_indicesÚembedding_datasetÚdataloader_paramsÚdata_loaderÚall_embeddingsÚpadded_batchr¿s           rtr®z0_UnslothBCOTrainer._get_sample_prompt_embeddings”s·€õ�˜G™œ kÑ2Ô2ˆ	Ý”y×'Ò'¨G©¬¸I¸<Ð'ÑHÔHˆà#ŸNšN¨<Ñ8Ô8Ððœ)Ô?ØÔ,Øœ9Ô;Øœ)Ô9Øð
ð
ÐðÔ&×.Ò.zÐ:KÐ/aÐ/aÐO`Ð/aÐ/aÑbÔbˆå
Œ]‰_Œ_ð	Oð	OÝ"œ[¨™^œ^ˆNÝ $¨kÐ@cÐ dÑ dÔ dð
Oð
O�Ø!×3Ò3Ø*Ð+@ÔAØ#/Ð0JÔ#Kð4ñô�
ð"Ô-×@Ò@ÀÑLÔL�
Ý!&¤¨N¸J¿NºNÑ<LÔ<LÐ+MÑ!NÔ!N��ð

Oð	Oð	Oð	Oñ	Oô	Oð	Oð	Oð	Oð	Oð	Oð	Oøøøð	Oð	Oð	Oð	OðÐsÃBE Å E$Å'E$có�•—|�|n|jj}t¦« |¦«|jjr…|j tj	 
|t¦«¦«|jrCtj|jtj	 
|t ¦«d¬¦«dSdSdS)NT)Úcompress)rKr¡r7Ú_save_optimizer_and_schedulerr�Úis_main_processrÚsave_to_jsonr?ÚpathÚjoinr!rÅr8Údumpr¶r)r9r¡r;s  €rtrz0_UnslothBCOTrainer._save_optimizer_and_scheduler´s·ø€Ø#-Ð#9�Z�Z¸t¼yÔ?Sˆ
Ý
‰Œ×-Ò-¨jÑ9Ô9Ð9àÔÔ+ð	YàŒL×%Ò%¥b¤g§l¢l°:½|Ñ&LÔ&LÑMÔMÐMàÔ1ð
YÝ”˜DœH¥b¤g§l¢l°:½xÑ&HÔ&HÐSWÐXÑXÔXÐXÐXÐXð	Yð	Yð
Yð
Yrvcó•—|€tjd|›�¦«dSt¦« |¦«tj |t¦«}tj |¦«rtj
|j|¦«|_|j
r_tj |t¦«}tj |¦«rtj|¦«|_dSdSdS)NzMissing Checkpoint )r:Úwarning_oncer7Ú_load_optimizer_and_schedulerr?rrr!Úisfiler"Úload_from_jsonr�rrÅrr8Úloadr¶)r9Ú
checkpointÚrunning_fileÚclf_filer;s    €rtr
z0_UnslothBCOTrainer._load_optimizer_and_scheduler¿säø€ØÐÝÔÐ B°jÐ BÐ BÑCÔCÐCØˆFå
‰Œ×-Ò-¨jÑ9Ô9Ð9õ”w—|’| JµÑ=Ô=ˆÝ
Œ7�>Š>˜,Ñ'Ô'ð	YÝ)Ô8¸Ô9IÈ<ÑXÔXˆDŒLàÔ-ð	1Ý”w—|’| JµÑ9Ô9ˆHÝŒw�~Š~˜hÑ'Ô'ð
1Ý!œ; xÑ0Ô0�”��ð	1ð	1ð
1ð
1rvc#ózK—|jr8|js1|j |j¦« ¦«n
t
¦«5|jr|j |j¦«dV—|jr!|j |jpd¦«ddd¦«dS#1swxYwYdS)zWContext manager for handling null reference model (that is, peft adapter manipulation).Nrz)	r˜rWr�Úunwrap_modelrIÚdisable_adapterr>Úset_adapterrVrÄs rtÚnull_ref_contextz#_UnslothBCOTrainer.null_ref_contextÐsèè€ð
Ô!ð
Ø*.Ô*?ð
ˆDÔ×)Ò)¨$¬*Ñ5Ô5×EÒEÑGÔGÐGå‘”ð		Mð		Mð
Ô$ð
>Ø”
×&Ò& tÔ'<Ñ=Ô=Ð=ØˆEˆEˆEØÔ$ð
MØ”
×&Ò& tÔ'>Ð'KÀ)ÑLÔLÐLð		Mð		Mð		Mñ		Mô		Mð		Mð		Mð		Mð		Mð		Mð		Mð		Møøøð		Mð		Mð		Mð		Mð		Mð		MsÁAB0Â0B4Â7B4có¢•—|j�r'|j�s|jj|j|jj|jjddœ}|j t|j
fi|¤Ž¦«}g}t|d¬¦«D]X}| |¦«}|j 
|¦«}| | ¦«¦«ŒY|j
 dt#j|¦« ¦« ¦«¬¦«|_
d|_t+¦« ¦«S)z·
        Returns the training [`~torch.utils.data.DataLoader`].

        Subclass of transformers.src.transformers.trainer.get_train_dataloader to precompute `ref_log_probs`.
        Frëz!Train dataset reference log probsrñÚreference_logps©ÚnameÚcolumnT)r+rœrKr¨rOrßrúr�rörrLrIÚcompute_reference_log_probsrørir³Ú
add_columnrHr¯r´rµr7Úget_train_dataloader)r9rürýÚreference_completion_logpsrÿÚreference_completion_logpr;s      €rtrz'_UnslothBCOTrainer.get_train_dataloaderÞsQø€ðÔ(ñ	9°Ô1Vñ	9à"œiÔCØ"Ô0Ø#œyÔ?Ø"œiÔ=Ø ð!ð!ÐðÔ*×2Ò2µ:¸dÔ>PÐ3fÐ3fÐTeÐ3fÐ3fÑgÔgˆKØ)+Ð&å $¨kÐ@cÐ dÑ dÔ dð
Sð
S�Ø,0×,LÒ,LÈ\Ñ,ZÔ,ZÐ)à,0Ô,<×,OÒ,OÐPiÑ,jÔ,jÐ)Ø*×1Ò1Ð2K×2OÒ2OÑ2QÔ2QÑRÔRÐRÐRà!%Ô!3×!>Ò!>Ø&u¬yÐ9SÑ/TÔ/T×/ZÒ/ZÑ/\Ô/\×/bÒ/bÑ/dÔ/dð"?ñ"ô"ˆDÔð59ˆDÔ1å‰wŒw×+Ò+Ñ-Ô-Ð-rvcóê•—|€|j€td¦«‚|�|n|j}|j�r&|j�s|jj|j|jj|jjddœ}|j	 
t|fi|¤Ž¦«}g}t|d¬¦«D]X}| 
|¦«}|j	 |¦«}| | ¦«¦«ŒY| dt%j|¦« ¦« ¦«¬¦«}|j�||_d	|_t-¦« |¬
¦«S)aé
        Returns the evaluation [`~torch.utils.data.DataLoader`].

        Subclass of transformers.src.transformers.trainer.get_eval_dataloader to precompute `ref_log_probs`.

        Args:
            eval_dataset (`torch.utils.data.Dataset`, *optional*):
                If provided, will override `self.eval_dataset`. If it is a [`~datasets.Dataset`], columns not accepted
                by the `model.forward()` method are automatically removed. It must implement `__len__`.
        Nz-Trainer: evaluation requires an eval_dataset.Frëz Eval dataset reference log probsrñrrT)rM)rMr‰r+r�rKr©rOrßrúr�rörrIrrørir³rrHr¯r´rµr7Úget_eval_dataloader)r9rMrürýrrÿrr;s       €rtr!z&_UnslothBCOTrainer.get_eval_dataloadersŒø€ðÐ DÔ$5Ð$=ÝÐLÑMÔMÐMØ'3Ð'?�|�|ÀTÔEVˆàÔ(ñ	8°Ô1Uñ	8à"œiÔBØ"Ô0Ø#œyÔ?Ø"œiÔ=Ø ð!ð!ÐðÔ*×2Ò2µ:¸lÐ3`Ð3`ÐN_Ð3`Ð3`ÑaÔaˆKà)+Ð&å $¨kÐ@bÐ cÑ cÔ cð
Sð
S�Ø,0×,LÒ,LÈ\Ñ,ZÔ,ZÐ)à,0Ô,<×,OÒ,OÐPiÑ,jÔ,jÐ)Ø*×1Ò1Ð2K×2OÒ2OÑ2QÔ2QÑRÔRÐRÐRà'×2Ò2Ø&u¬yÐ9SÑ/TÔ/T×/ZÒ/ZÑ/\Ô/\×/bÒ/bÑ/dÔ/dð3ñôˆLð
Ô Ð,Ø$0�Ô!Ø37ˆDÔ0å‰wŒw×*Ò*¸Ð*ÑEÔEÐErvrÿc	óä—tj¦«5|j€ | ¦«5|jrD| |d|d| d¦«|d¬¦«j}n(| |d|d¬	¦«j}ddd¦«n#1swxYwYns|jrD| |d|d| d¦«|d¬¦«j}n(| |d|d¬	¦«j}ddd¦«n#1swxYwY| ||dd
|j|j	¬¦«}|S)zfComputes log probabilities of the reference model for a single padded batch of a BCO specific dataset.NÚprompt_input_idsÚprompt_attention_maskÚcompletion_decoder_input_idsÚcompletion_labels)rÚÚdecoder_input_idsrÀÚcompletion_input_idsÚcompletion_attention_mask)rÚF©Úaverage_log_probr*r%)
rHrÞrJrr*rIrŒrkÚget_batch_logpsr%)r9rÿÚcompletion_logitsÚcompletion_logpss    rtrz._UnslothBCOTrainer.compute_reference_log_probs.s0€å
Œ]‰_Œ_ð	ð	ØŒ~Ð%Ø×*Ò*Ñ,Ô,ð
!ð
!ØÔ.ð!Ø,0¯JªJØ(Ð);Ô<Ø+7Ð8OÔ+PØ.:×.>Ò.>Ð?]Ñ.^Ô.^Ø#/Ð0CÔ#Dð	-7ñ-ô-ô
!ð*Ð)ð-1¯JªJØ(Ð)?Ô@Ø+7Ð8SÔ+Tð-7ñ-ô-ô!ð*ð
!ð
!ð
!ñ
!ô
!ð
!ð
!ð
!ð
!ð
!ð
!øøøð
!ð
!ð
!ð
!øð Ô*ðØ(,¯ªØ$Ð%7Ô8Ø'3Ð4KÔ'LØ*6×*:Ò*:Ð;YÑ*ZÔ*ZØ+Ð,?Ô@ð	)7ñ)ô)ô
ð&Ð%ð)-¯ªØ$Ð%;Ô<È\ÐZuÔMvð)7ñ)ô)äð&ð7	ð	ð	ñ	ô	ð	ð	ð	ð	ð	ð	øøøð	ð	ð	ð	ð> ×/Ò/ØØÐ,Ô-Ø"Ø#Ô6Ø#Ô6ð0ñ
ô
Ðð Ðs6”D;°A4B0Â$D;Â0B4	Â4D;Â7B4	Â8A7D;Ä;D?ÅD?FršrkrÀr+r%r*có®—|jdd…|jkrtd¦«‚|s2|dd…dd…f ¦«}|dd…dd…dd…f}n| ¦«}||k}d|||k<t||¦«}|r.||z d¦«| d¦«zS||z d¦«S)aCompute the log probabilities of the given labels under the given logits.

        Args:
            logits: Logits of the model (unnormalized). Shape: (batch_size, sequence_length, vocab_size)
            labels:
                Labels for which to compute the log probabilities. Label tokens with a value of label_pad_token_id are
                ignored. Shape: (batch_size, sequence_length)
            average_log_prob:
                If True, return the average log probability per (non-masked) token. Otherwise, return the sum of the
                log probabilities of the (non-masked) tokens.

        Returns:
            A tensor of shape (batch_size,) containing the average/sum log probabilities of the given labels under the
            given logits.
        NrXzKLogits (batch and sequence length dim) and labels must have the same shape.r^r)rar‰ÚclonerFÚsum)rkrÀr+r%r*Ú	loss_maskrss       rtr,z"_UnslothBCOTrainer.get_batch_logpsYsø€ð.Œ<˜˜˜Ô ¤Ò,Ð,ÝÐjÑkÔkÐkà!ð	$Ø˜A˜A˜A˜q˜r˜r˜E”]×(Ò(Ñ*Ô*ˆFØ˜A˜A˜A˜s ˜s A A A˜IÔ&ˆFˆFð—\’\‘^”^ˆFàÐ0Ò0ˆ	ð01ˆˆvÐ+Ò+Ñ,å/°¸Ñ?Ô?ˆàð	9Ø# iÑ/×4Ò4°RÑ8Ô8¸9¿=º=ÈÑ;LÔ;LÑLÐLà# iÑ/×4Ò4°RÑ8Ô8Ð8rvcóz‡—|jr‰d‰ d¦«dœni}|jrd|d<|‰dfd‰di|¤Ž}|j}| |‰dd	|j|j¬
¦«}|jdt‰d¦«krtd
¦«‚ˆfd„t|jd¦«D¦«}ˆfd„t|jd¦«D¦«}||df}	||df}
||df}||df}|jr|	|
|||j
fS|	|
||fS)Nr&r%)rÀr'Trqr(rÚr)Fr*rr|z‡There is a mismatch between the number of examples in this batch and the number of examples for which an output sequence was predicted.có4•—g|]}‰d|du¯|‘ŒS©r|Tr2©Ú.0Úiràs  €rtú
<listcomp>z._UnslothBCOTrainer.forward.<locals>.<listcomp>©s.ø€Ð_Ð_Ð_˜AÀUÈ7Ä^ÐTUÔEVÐZ^ÐE^ÐE^�aÐE^ÐE^ÐE^rvcó4•—g|]}‰d|du¯|‘ŒS©r|Fr2r6s  €rtr9z._UnslothBCOTrainer.forward.<locals>.<listcomp>ªs.ø€ÐbÐbÐb˜aÀuÈWÄ~ÐVWÔGXÐ\aÐGaÐGa˜ÐGaÐGaÐGarv.)r*rŒrŸrkr,r%rarór‰ÚrangeÚaux_loss)
r9rIràÚmodel_kwargsÚoutputsr-r.råræÚchosen_logpsÚrejected_logpsÚ
chosen_logitsÚrejected_logitss
  `          rtÚforwardz_UnslothBCOTrainer.forward†sËø€ðÔ&ð	
ØÐ 3Ô4Ø%*§Y¢YÐ/MÑ%NÔ%Nð
ð
ð
ð
ð
	ðÔ ð	8Ø37ˆLÐ/Ñ0à�%ØÐ(Ô)ð
ð
à Ð!<Ô=ð
ðð
ð
ˆð