unsloth_compiled_cache/__pycache__/UnslothOnlineDPOTrainer.cpython-311.pyc

§
4$�h:ãó~—dZddlmZddlZddlmZddlmZddlmZm	Z	m
Z
mZmZm
Z
mZmZddlmZmZmZmZmZmZmZmZmZmZmZmZmZmZmZmZmZm
Z
mZm Z m!Z!m"Z"m#Z#m$Z$m%Z%m&Z&mZm'Z'm(Z(m)Z)m*Z*m+Z+m,Z,m-Z-m.Z.m/Z/m0Z0m1Z1m2Z2m3Z3m4Z4mZm5Z5m6Z6m7Z7m8Z8mZm9Z9m:Z:m;Z;m<Z<m=Z=mZm/Z/m5Z5mZmZm
Z
m Z m!Z!m%Z%m0Z0m5Z5mZddl5Z5ddlTddl>m?Z?m@Z@dd	lAmBZBddlZddlCZDdd
lEmFZFddlmZddlGmHZHmIZJdd
dd
d
dœZKejLddeK¬¦«d„¦«ZMd„ZNe?Gd„de¦«¦«ZO	Gd„de%¦«ZPGd„deP¦«ZQdS)z8
2025.8.4
2025.8.5
4.55.1
0.21.0
__UNSLOTH_VERSIONING__
é)ÚTensorN)Ú
functional)ÚAnyÚListÚOptionalÚTupleÚUnionÚDictÚSetÚCallable)@rÚAutoModelForCausalLMÚBaseImageProcessorÚBasePairwiseJudgerÚDPODataCollatorWithPaddingÚDataCollatorÚ
DataLoaderÚDatasetÚEvalPredictionÚFÚFeatureExtractionMixinÚGenerationConfigÚIterableDatasetÚOnlineDPOConfigÚOnlineDPOTrainerÚOptimizerNamesrÚPathÚ	PeftModelÚPreTrainedModelÚPreTrainedTokenizerBaseÚProcessorMixinÚSIMPLE_CHAT_TEMPLATEÚTrainerÚTrainerCallbackr	Úapply_chat_templateÚcreate_reference_modelÚdatasetsÚdisable_dropout_in_modelÚempty_cacheÚgenerate_model_cardÚget_comet_experiment_urlÚ
get_rewardÚis_conversationalÚis_peft_availableÚis_wandb_availableÚjinja2ÚloggingÚmaybe_apply_chat_templateÚnnÚosÚprepare_deepspeedÚseed_workerÚtextwrapÚtorchÚtruncate_rightÚunwrap_model_for_generationÚversionÚwarningsÚwrapsrr,r3r7rrrrr"r-r3r7)Ú*)Ú	dataclassÚfield)ÚVersion)Únullcontext)ÚDataCollatorForSeq2SeqÚDataCollatorForLanguageModelingTF)Úepilogue_fusionÚmax_autotuneÚ
shape_paddingz
trace.enabledztriton.cudagraphs)ÚdynamicÚ	fullgraphÚoptionscó’—tj| d|jd¦«dd¬¦«}tj| d¦«dd¬¦«}g}t	||¦«D]‘\}}| tj¦«}tj|d| d¦«¬¦« 	d¦«}tj
|d¬¦«}||z
}	| |	¦«Œ’	tj|¦«}| |jd|jdf¦«}|S)Néÿÿÿÿér)ÚchunksÚdim)rNÚindex©rNé)
r7ÚchunkÚreshapeÚshapeÚzipÚtoÚfloat32ÚgatherÚ	unsqueezeÚsqueezeÚ	logsumexpÚappendÚconcat)
ÚlogitsrOÚchunked_logitsÚ
chunked_indexÚall_per_token_logpsÚchunk_logitsÚchunk_indexÚselected_logitsÚlogsumexp_valuesÚper_token_logpss
          úc/workspace/Fine-tuning/DS-LLM-TEMPLATE-FINETUNING/unsloth_compiled_cache/UnslothOnlineDPOTrainer.pyÚchunked_selective_log_softmaxrh"s5€õ”[ §¢°°F´LÀÔ4DÑ!EÔ!EÐPQÐYZÐ[Ñ[Ô[€NÝ”[ §¢¨rÑ!2Ô!2¸QÀaÐHÑHÔH€MØÐå%(¨¸Ñ%GÔ%Gð4ð4Ñ!ˆ�kØ#—’¥u¤}Ñ5Ô5ˆÝœ, |¸2À{×G\ÒG\Ð]_ÑG`ÔG`ÐaÑaÔa×iÒiÐjlÑmÔmˆÝ œ?¨<¸rÐBÑBÔBÐØ)Ð,<Ñ<ˆØ×"Ò" ?Ñ3Ô3Ð3Ð3ØÝœ,Ð':Ñ;Ô;ÐØ-×5Ò5°v´|ÀA´ÈÌÐUVÌÐ6XÑYÔYÐØÐócó0—ddlm}|di|¤Ž}||_|S)Nr)ÚSamplingParams©)ÚvllmrkÚ_set_kwargs)ÚkwargsrkÚsampling_paramss   rgÚvLLMSamplingParamsrq3s7€Ø#Ð#Ð#Ð#Ð#Ð#Ø$�nÐ.Ð. vÐ.Ð.€OØ"(€OÔØÐricó®‡—eZdZUdZedddi¬¦«Zeeed<edddi¬¦«Z	ee
ed	<																																																																																																																																																d/ˆfd.„	ZˆxZS)0ÚUnslothOnlineDPOConfigu¥
    
    Configuration class for the [`OnlineDPOTrainer`].

    This class includes only the parameters that are specific to Online DPO training. For a full list of training
    arguments, please refer to the [`~transformers.TrainingArguments`] documentation. Note that default values in this
    class may differ from those in [`~transformers.TrainingArguments`].

    Using [`~transformers.HfArgumentParser`] we can turn this class into
    [argparse](https://docs.python.org/3/library/argparse#module-argparse) arguments that can be specified on the
    command line.

    Parameters:
        reward_model_path (`str` or `None`, *optional*, defaults to `None`):
            Path to the reward model. Either `judge` or `reward_model_path` must be set, but not both.
        judge (`str` or `None`, *optional*, defaults to `None`):
            Name of the judge to use. Either `judge` or `reward_model_path` must be set, but not both.
        max_new_tokens (`int`, *optional*, defaults to `64`):
            Maximum number of tokens to generate per completion.
        max_length (`int`, *optional*, defaults to `256`):
            Maximum total length of the sequence (prompt + completion) used to compute log probabilities. If the
            sequence exceeds this limit, the leftmost tokens will be truncated to preserve as much of the completion as
            possible.
        temperature (`float`, *optional*, defaults to `0.9`):
            Temperature for sampling. The higher the temperature, the more random the completions.
        missing_eos_penalty (`float` or `None`, *optional*, defaults to `None`):
            Penalty applied to the score when the model fails to generate an EOS token. This is useful to encourage to
            generate completions shorter than the maximum length (`max_new_tokens`). The penalty must be a positive
            value.
        beta (`float` or `list[float]`, *optional*, defaults to `0.1`):
            Parameter controlling the deviation from the reference model. Higher Î² means less deviation from the
            reference model. For the IPO loss (`loss_type="ipo"`), Î² is the regularization parameter denoted by Ï„ in
            the [paper](https://huggingface.co/papers/2310.12036). If a list of floats is provided then the Î² is
            selected for each new epoch and the last Î² is used for the rest of the epochs.
        loss_type (`str`, *optional*, defaults to `"sigmoid"`):
            Type of loss to use. Possible values are:

                - `"sigmoid"`: sigmoid loss from the original [DPO](https://huggingface.co/papers/2305.18290) paper.
                - `"ipo"`: IPO loss from the [IPO](https://huggingface.co/papers/2310.12036) paper.

        dataset_num_proc (`int` or `None`, *optional*, defaults to `None`):
            Number of processes to use for processing the dataset.
        disable_dropout (`bool`, *optional*, defaults to `True`):
            Whether to disable dropout in the model and reference model.
        use_vllm (`bool`, *optional*, defaults to `False`):
            Whether to use vLLM for generating completions. Requires vLLM to be installed (`pip install vllm`).
        vllm_model_impl (`str`, *optional*, defaults to `"vllm"`):
            Model implementation to use for vLLM. Must be one of `"transformers"` or `"vllm"`. `"transformers"`: Use
            the `transformers` backend for model implementation. `"vllm"`: Use the `vllm` library for model
            implementation.
        gpu_memory_utilization (`float`, *optional*, defaults to `0.55`):
            The vLLM memory utilization. The default value is 0.55.
        ds3_gather_for_generation (`bool`, *optional*, defaults to `True`):
            This setting applies to DeepSpeed ZeRO-3. If enabled, the policy model weights are gathered for generation,
            improving generation speed. However, disabling this option allows training models that exceed the VRAM
            capacity of a single GPU, albeit at the cost of slower generation.
        model_init_kwargs (`dict[str, Any]` or `None`, *optional*, defaults to `None`):
            Keyword arguments to pass to `AutoModelForCausalLM.from_pretrained` when instantiating the model from a
            string.
    
    NÚhelpzvLLM SamplingParams)ÚdefaultÚmetadataÚvllm_sampling_paramsrKz8Chunk size to reduce memory usage. -1 is most efficient.Úunsloth_num_chunksFÚnorLéréúç-Cëâ6
?ç{®Gáz„?çÍÌÌÌÌÌì?ç+‡ÙÎ÷ï?ç:Œ0âŽyE>çð?ç@Úlinearçš™™™™™¹?ÚpassiveÚwarningTÚstepsrQéôéO
ÚO1ÚautoÚçÚ
adamw_8bitÚlengthÚ
every_saveÚlastéé@éÚsigmoidrmçš™™™™™á?c‘óÌ•—|dkrtd|›d�¦«‚|dkrtd|›d�¦«‚|€|#dkr
|$dkrd}d	}#|ˆ€!d
dlm}’t	|’¦«dzd¦«}ˆ|…d
krtd
¦«‚|…dkrtd¦«‚t
¦«jdžid|“d|“d|“d|“d|“d|“d|“d|“d|	“d|
“d|“d|“d|
“d|“d|“d|“d |“d!|“d"|“d#|“d$|“d%|“d&|“d'|“d(|“d)|“d*|“d+|“d,|“d-|“d.|“d/| “d0|!“d1|"“d2|#“d3|$“d4|%“d5|&“d6|'“d7|(“d8|)“d9|*“d:|+“d;|,“d<|-“d=|.“d>|/“d?|0“d@|1“dA|2“dB|3“dC|4“dD|5“dE|6“dF|7“dG|8“dH|9“dI|:“dJ|;“dK|<“dL|=“dM|>“dN|?“dO|@“dP|A“dQ|B“dR|C“dS|D“dT|E“dU|F“dV|G“dW|H“dX|I“dY|J“dZ|K“d[|L“d\|M“d]|N“d^|O“d_|P“d`|Q“da|R“db|S“dc|T“dd|U“de|V“df|W“dg|X“dh|Y“di|Z“dj|[“dk|\“dl|]“dm|^“dn|_“do|`“dp|a“dq|b“dr|c“ds|d“dt|e“du|f“dv|g“dw|h“dx|i“dy|j“dz|k“d{|l“d||m“d}|n“d~|o“d|p“d€|q“d�|r“d‚|s“dƒ|t“d„|u“d…|v“d†|w“d‡|x“dˆ|y“d‰|z“dŠ|{“d‹||“dŒ|}“d�|~“dŽ|“d�|€“d�|�“d‘|‚“d’|ƒ“d“|„“d”|…“d•|†“d–|‡“d—|ˆ“d˜|‰“d™|Š“dš|‹“d›|Œ“dœ|�“d�|Ž“|‘¤Ž|�|_|�|_	dS)ŸNgH¯¼šò×z>z Unsloth: Your learning rate of `zi` is too small and less than 1e-7! Consider increasing it, otherwise gradient updates will be close to 0!rQza` is way too larger > 1! Consider decreasing it to 1e-1, otherwise gradient updates will explode!r‡rˆÚunsloth_training_checkpointsryr)Ú	cpu_countrzzUUnsloth: Please set a positive non-zero temperature since your results will be wrong.é
zgUnsloth: Please set a positive non-zero temperature less than 10, since sampling will be quite erratic.Ú
output_dirÚoverwrite_output_dirÚdo_trainÚdo_evalÚ
do_predictÚ
eval_strategyÚprediction_loss_onlyÚper_device_train_batch_sizeÚper_device_eval_batch_sizeÚper_gpu_train_batch_sizeÚper_gpu_eval_batch_sizeÚgradient_accumulation_stepsÚeval_accumulation_stepsÚ
eval_delayÚtorch_empty_cache_stepsÚ
learning_rateÚweight_decayÚ
adam_beta1Ú
adam_beta2Úadam_epsilonÚ
max_grad_normÚnum_train_epochsÚ	max_stepsÚlr_scheduler_typeÚwarmup_ratioÚwarmup_stepsÚ	log_levelÚlog_level_replicaÚlog_on_each_nodeÚlogging_dirÚlogging_strategyÚlogging_first_stepÚ
logging_stepsÚlogging_nan_inf_filterÚ
save_strategyÚ
save_stepsÚsave_total_limitÚsave_safetensorsÚsave_on_each_nodeÚsave_only_modelÚ'restore_callback_states_from_checkpointÚno_cudaÚuse_cpuÚuse_mps_deviceÚseedÚ	data_seedÚ
jit_mode_evalÚuse_ipexÚbf16Úfp16Úfp16_opt_levelÚhalf_precision_backendÚbf16_full_evalÚfp16_full_evalÚtf32Ú
local_rankÚddp_backendÚ
tpu_num_coresÚtpu_metrics_debugÚdebugÚdataloader_drop_lastÚ
eval_stepsÚdataloader_num_workersÚdataloader_prefetch_factorÚ
past_indexÚrun_nameÚdisable_tqdmÚremove_unused_columnsÚlabel_namesÚload_best_model_at_endÚmetric_for_best_modelÚgreater_is_betterÚignore_data_skipÚfsdpÚfsdp_min_num_paramsÚfsdp_configÚ"fsdp_transformer_layer_cls_to_wrapÚaccelerator_configÚ	deepspeedÚlabel_smoothing_factorÚoptimÚ
optim_argsÚ	adafactorÚgroup_by_lengthÚlength_column_nameÚ	report_toÚddp_find_unused_parametersÚddp_bucket_cap_mbÚddp_broadcast_buffersÚdataloader_pin_memoryÚdataloader_persistent_workersÚskip_memory_metricsÚuse_legacy_prediction_loopÚpush_to_hubÚresume_from_checkpointÚhub_model_idÚhub_strategyÚ	hub_tokenÚhub_private_repoÚhub_always_pushÚhub_revisionÚgradient_checkpointingÚgradient_checkpointing_kwargsÚinclude_inputs_for_metricsÚeval_do_concat_batchesÚfp16_backendÚpush_to_hub_model_idÚpush_to_hub_organizationÚpush_to_hub_tokenÚ
mp_parametersÚauto_find_batch_sizeÚfull_determinismÚtorchdynamoÚ	ray_scopeÚddp_timeoutÚ
torch_compileÚtorch_compile_backendÚtorch_compile_modeÚinclude_tokens_per_secondÚinclude_num_input_tokens_seenÚneftune_noise_alphaÚoptim_target_modulesÚbatch_eval_metricsÚ
eval_on_startÚuse_liger_kernelÚliger_kernel_configÚeval_use_gather_objectÚaverage_tokens_across_devicesÚreward_model_pathÚjudgeÚmax_new_tokensÚ
max_lengthÚtemperatureÚmissing_eos_penaltyÚ	loss_typeÚdataset_num_procÚdisable_dropoutÚuse_vllmÚvllm_model_implÚgpu_memory_utilizationÚds3_gather_for_generationÚmodel_init_kwargsrl)
ÚFloatingPointErrorÚ
OverflowErrorÚmultiprocessingr™ÚminÚ	MathErrorÚsuperÚ__init__rwrx)”Úselfr›rœr�ržrŸr r¡r¢r£r¤r¥r¦r§r¨r©rªr«r¬rr®r¯r°r±r²r³r´rµr¶r·r¸r¹rºr»r¼r½r¾r¿rÀrÁrÂrÃrÄrÅrÆrÇrÈrÉrÊrËrÌrÍrÎrÏrÐrÑrÒrÓrÔrÕrÖr×rØrÙrÚrÛrÜrÝrÞrßràrárârãrärårærçrèrérêrërìrírîrïrðrñròrórôrõrör÷rørùrúrûrürýrþrÿrrrrrrrrrr	r
rrr
rrrrrrrrrrrrrrrrrrr r!r"r#r$r%r&r'r(rwrxror™Ú	__class__s”                                                                                                                                                   €rgr/zUnslothOnlineDPOConfig.__init__s¿	ø€ðh˜4ÒÐÕ'9ð;VÐ]jð;Vð;Vð;Vñ(Wô(Wð"WØ˜1ÒÐ¥Mð3FÐUbð3Fð3Fð3Fñ%Gô%GðGØÐ -°7Ò":Ð":¸zÈSÒ?PÐ?PØ7ˆJØ ˆMØÐ#Ø1Ð1Ð1Ð1Ð1Ð1Ý" 9 9¡;¤;¨q¡=°!Ñ4Ô4ÐØ˜!ÒÐÝÐsÑtÔtÐtØ
˜BÒ
Ð
ÝðFñGôGð
Gð	�‰ŒÔðN	<ðN	<ðN	<Ø#˜ðN	<à#7Ð#7ðN	<ð �xðN	<ð�gð	N	<ð
$˜ðN	<ð*˜Mð
N	<ð$8Ð#7ðN	<ð+FÐ*EðN	<ð*DÐ)CðN	<ð(@Ð'?ðN	<ð'>Ð&=ðN	<ð+FÐ*EðN	<ð'>Ð&=ðN	<ð$˜ðN	<ð'>Ð&=ðN	<ð *˜Mð!N	<ð"(˜<ð#N	<ð$$˜ð%N	<ð&$˜ð'N	<ð((˜<ð)N	<ð**˜Mð+N	<ð, 0Ð/ð-N	<ð."˜	ð/N	<ð0!2Ð 1ð1N	<ð2(˜<ð3N	<ð4(˜<ð5N	<ð6"˜	ð7N	<ð8!2Ð 1ð9N	<ð: 0Ð/ð;N	<ð<&˜+ð=N	<ð> 0Ð/ð?N	<ð@"4Ð!3ðAN	<ðB*˜MðCN	<ðD&<Ð%;ðEN	<ðF*˜MðGN	<ðH$˜ðIN	<ðJ 0Ð/ðKN	<ðL 0Ð/ðMN	<ðN!2Ð 1ðON	<ðP.˜oðQN	<ðR7^Ð6]ðSN	<ðT�gðUN	<ðV�gðWN	<ðX,˜^ðYN	<ðZ�4ð[N	<ð\"˜	ð]N	<ð^*˜Mð_N	<ð` �xðaN	<ðb�4ðcN	<ðd�4ðeN	<ðf,˜^ðgN	<ðh&<Ð%;ðiN	<ðj,˜^ðkN	<ðl,˜^ðmN	<ðn�4ðoN	<ðp$˜ðqN	<ðr&˜+ðsN	<ðt*˜MðuN	<ðv!2Ð 1ðwN	<ðx�EðyN	<ðz$8Ð#7ð{N	<ð|$˜ð}N	<ð~&<Ð%;ðN	<ð@*DÐ)CðAN	<ðB$˜ðCN	<ðD �xðEN	<ðF(˜<ðGN	<ðH%:Ð$9ðIN	<ðJ&˜+ðKN	<ðL&<Ð%;ðMN	<ðN%:Ð$9ðON	<ðP!2Ð 1ðQN	<ðR 0Ð/ðSN	<ðT�4ðUN	<ðV#6Ð"5ðWN	<ðX&˜+ðYN	<ðZ2TÐ1Sð[N	<ð\"4Ð!3ð]N	<ð^"˜	ð_N	<ð`&<Ð%;ðaN	<ðb�EðcN	<ðd$˜ðeN	<ðf"˜	ðgN	<ðh.˜oðiN	<ðj"4Ð!3ðkN	<ðl"˜	ðmN	<ðn*DÐ)CðoN	<ðp!2Ð 1ðqN	<ðr%:Ð$9ðsN	<ðt%:Ð$9ðuN	<ðv-JÐ,IðwN	<ðx#6Ð"5ðyN	<ðz*DÐ)Cð{N	<ð|&˜+ð}N	<ð~&<Ð%;ðN	<ð@(˜<ðAN	<ðB(˜<ðCN	<ðD"˜	ðEN	<ðF 0Ð/ðGN	<ðH.˜oðIN	<ðJ(˜<ðKN	<ðL&<Ð%;ðMN	<ðN-JÐ,IðON	<ðP*DÐ)CðQN	<ðR&<Ð%;ðSN	<ðT(˜<ðUN	<ðV$8Ð#7ðWN	<ðX(@Ð'?ðYN	<ðZ!2Ð 1ð[N	<ð\*˜Mð]N	<ð^$8Ð#7ð_N	<ð` 0Ð/ðaN	<ðb&˜+ðcN	<ðd"˜	ðeN	<ðf&˜+ðgN	<ðh*˜MðiN	<ðj%:Ð$9ðkN	<ðl"4Ð!3ðmN	<ðn)BÐ(AðoN	<ðp-JÐ,IðqN	<ðr#6Ð"5ðsN	<ðt$8Ð#7ðuN	<ðv"4Ð!3ðwN	<ðx*˜MðyN	<ðz 0Ð/ð{N	<ð|#6Ð"5ð}N	<ð~&<Ð%;ðN	<ð@-JÐ,IðAN	<ðB!2Ð 1ðCN	<ðD�EðEN	<ðF,˜^ðGN	<ðH$˜ðIN	<ðJ&˜+ðKN	<ðL#6Ð"5ðMN	<ðN"˜	ðON	<ðP 0Ð/ðQN	<ðR.˜oðSN	<ðT �xðUN	<ðV.˜oðWN	<ðX&<Ð%;ðYN	<ðZ)BÐ(Að[N	<ð\!2Ð 1°Fð]N	<ðN	<ðN	<ð^%9ˆÔ!Ø"4ˆÔÐÐri)�NNFFFryFrLrLNNrzrzrr{r|r}r~rr€r�r‚rKrƒr„rr…r†TNr‡FrQFr‡rˆNTFFFFFFr‰r‰FFFFrŠr‹FFNrKNNFrŒFNrNrKNNTNFNNFrŒrNNNNr�rŽNFFr�NNNNTFTFFNNr�NNFNFNFTr‹NNNrŒTFNr‘r’FNNFFNNFFFNFTNNr“r”r~Nr•NTFrmr–TNNrK)
Ú__name__Ú
__module__Ú__qualname__Ú__doc__r?rwrrÚ__annotations__rxÚintr/Ú
__classcell__©r1s@rgrsrs8s{ø€€€€€€ð<ð<ðz+0¨%ØØÐ1Ð2ð+ñ+ô+Ð˜( 3œ-ððñð*/¨ØØÐVÐWð*ñ*ô*Ð˜ #œððñðØ#ØØØØØ$Ø&'Ø%&Ø#'Ø"&Ø&'Ø"#ØØ"%ØØØØØØØØØ$ØØØØ%ØØØ"Ø"ØØ!&ØØØØØ!ØØ27ØØØØØØØØØØØ!'ØØØØØØØ!ØØ$ØØ!"Ø%)ØØØØ $ØØ!&Ø $Ø Ø ØØØØ-1Ø!ØØ!$ØØØØØ%ØØ%)Ø Ø $Ø $Ø(-Ø"Ø%*ØØ!%ØØ#ØØØØØ!&Ø(,Ø%*Ø!%ØØ#Ø#'Ø ØØ#Ø ØØØØØ $Ø!Ø$)Ø(-Ø"Ø#Ø"ØØ Ø"Ø!&Ø(,Ø ØØØØØ"ØØØØØ Ø!%Ø$(Ø Ø#Øðcr5ðr5ðr5ðr5ðr5ðr5ðr5ðr5ðr5ðr5rirsc"óö‡—eZdZdZddgZ														d*deeeje	fdeeejdfdeeejdfd	e
ed
e
ede
e
de
eeed
fde
eeee	efd
fde
eeeeefde
ede
ede
eegefde
eedeejjejjjfde
eejejgejfddf ˆfd„
Z e!d„¦«Z"e#de$dedee	e%ffd„¦«Z&e'e(j)¦«de*fd„¦«Z)e'e(j+¦«d+de
ee	efde*fd„¦«Z+d„Z,d„Z-d „Z.	d+dejd!ee	eeje%ffd"e
e/dejfd#„Z0	d+d$„Z1ˆfd%„Z2			d,d&e
e	d'e
e	d(ee	ee	dffd)„Z3ˆxZ4S)-Ú_UnslothOnlineDPOTrainerrŒÚtrlz
online-dpoN©NNÚmodelÚ	ref_modelÚreward_modelrÚargsÚ
data_collatorÚ
train_datasetzdatasets.DatasetÚeval_datasetÚprocessing_classÚreward_processing_classÚpeft_configÚcompute_metricsÚ	callbacksÚ
optimizersÚpreprocess_logits_for_metricsÚreturncóÈ•—t|d¦«r,t|d¦«rt|dd¦«dkrd|_||urtd¦«‚||_|�|�tjdt¦«d}n|€|€td¦«‚||_|
|_	||_
|j�|�td¦«‚|€td	¦«‚|	€td
¦«‚|jpi}t|t¦«r�|}| d¦«}t|t j¦«s|dks|€nCt|t¦«rtt |¦«}||d<ntd
|›d�¦«‚t%j|fi|¤Ž}n|j�td¦«‚|jj|_	|jr*t7|¦«|j�t7|j¦«|€		d|_n ||_|j ¦«|j�|j ¦«|€t=|	j¬¦«}|j |_ gggggggggggdœ|_!|j�g|j!d<g|j!d<g|j!d<|jr`|j"|_#d|_$tKd!d|j&|j'ddddœtt|dtQ¦«¦«di¦«¤Ž|_)n-tU|j&|j'ddd|j+rdnd¬¦«|_)d|j,d<t[¦« .||||||	||
||¬¦
«
t|j/d ¦«r|j/ 0|j1¦«|j2|_3|j4rh|j�+tk|j|j6|j7|j8¦«|_|j�-tk|j|j6|j7|j8¦«|_dSdS|j�)|j 9|j:j;¦«|_|j�+|j 9|j:j;¦«|_dSdS)"NÚvllm_enginer$FTzš`model` and `ref_model` cannot be the same object. If you want `ref_model` to be the same as `model`, either omit the `ref_model` argument or pass `None`.z€Both `reward_model` and `judge` are provided. Please choose provide only one of them. Ignoring `judge` and using `reward_model`.z2Either `reward_model` or `judge` must be provided.z@`missing_eos_penalty` is not supported when `judge` is provided.z`args` must be provided.z$`processing_class` must be provided.Útorch_dtyper‹zŽInvalid `torch_dtype` passed to `OnlineDPOConfig`. Expected either 'auto' or a string representing a `torch.dtype` (e.g., 'float32'), but got ú.z¦You passed `model_init_kwargs` to the `OnlineDPOConfig`, but your model is already instantiated. This argument can only be used when the `model` argument is a string.zfPEFT is not available and passed `peft_config`. Please install PEFT with `pip install peft` to use it.)Úpad_token_id)úobjective/klúobjective/entropyúobjective/non_score_rewardúrewards/chosenúrewards/rejectedúrewards/accuraciesúrewards/marginsúlogps/chosenúlogps/rejectedúval/contain_eos_tokenÚbetaúobjective/rlhf_rewardúobjective/scores_marginúobjective/scoresrrzé2r�)ÚnÚ
max_tokensrÚtop_kÚtop_pÚ
detokenizerwrn)rrrcrdÚ	do_sampleÚ	use_cacheÚestimate_tokens)
r>rArBrCrDrErHrIrJrKÚadd_model_tagsrl)<ÚhasattrÚgetattrr$Ú
ValueErrorr?r;ÚwarnÚUserWarningr@rFrr r(Ú
isinstanceÚstrÚgetr7Údtyper
Úfrom_pretrainedÚconfigÚis_encoder_decoderr-ÚImportErrorrÚmerge_and_unloadr#r'r%ÚevalrrQrÚstatsrNÚllmÚ_last_loaded_steprkrrrqÚgeneration_configrrÚwarnings_issuedr.r/r>riÚ
_tag_namesr\Ú_betaÚis_deepspeed_enabledr4r¢rÌrËrVÚacceleratorÚdevice)r0r>r?r@rrArBrCrDrErFrGrHrIrJrKr(Úmodel_idrOr1s                   €rgr/z!_UnslothOnlineDPOTrainer.__init__¹sTø€õ*�5˜-Ñ(Ô(ð	%W°T¸:Ñ-FÔ-Fð	%Ý˜˜j¨%Ñ0Ô0°EÒ9Ð9Ø $�”
Ø˜ÐÐÝðXñôð
ð
#ˆŒàÐ#¨Ð(9ÝŒMð=åñ
ô
ð
ð
ˆEˆEØ
Ð
! e mÝÐQÑRÔRÐRà(ˆÔØ'>ˆÔ$ØˆŒ
àÔ#Ð/°EÐ4EÝÐ_Ñ`Ô`Ð`àˆ<ÝÐ7Ñ8Ô8Ð8ðÐ#ÝÐCÑDÔDÐDà Ô2Ð8°bÐÝ�e�SÑ!Ô!ð	ØˆHð,×/Ò/°
Ñ>Ô>ˆKÝ˜+¥u¤{Ñ3Ô3ð	
°{ÀfÒ7LÐ7LÐP[ÐPcØÝ˜KÑ-Ô-ð
Ý%¥e¨[Ñ9Ô9�Ø3>Ð! -Ñ0Ð0å ð^ØOZð^ð^ð^ñôðõ
)Ô8¸ÐWÐWÐEVÐWÐWˆEˆEàÔ%Ð1Ý ð\ñôðð#(¤,Ô"AˆÔð	ð"Ôð	9Ý$ UÑ+Ô+Ð+ØŒ~Ð)Ý(¨¬Ñ8Ô8Ð8ðÐð
&ð"&�”�à&ˆDŒNØŒN×ÒÑ!Ô!Ð!ðÔÐ(ØÔ×"Ò"Ñ$Ô$Ð$ðÐ Ý6ÐDTÔDaÐbÑbÔbˆMàœ/ˆŒðØ!#Ø*,Ø Ø "Ø"$Ø!ØØ Ø%'Øð
ð
ˆŒ
ðÔÐ(Ø24ˆDŒJÐ.Ñ/Ø46ˆDŒJÐ0Ñ1Ø-/ˆDŒJÐ)Ñ*àŒ=ð	ØÔ(ˆDŒHÀ1¨$Ô*@Õ_mð`ØØÔ.Ø Ô,ØØØ ð
`ð`õ�' $Ð(>Õ@RÑ@TÔ@TÑUÔUÐWdÐfhÑiÔið`ð`ÀdÔF\ÐF\õ&6Ø#Ô2Ø Ô,ØØØØ#'Ô#>ÐH˜%˜%ÀDð
&ñ&ô&ˆDÔ"ð48ˆÔÐ/Ñ0å
‰Œ×ÒØØØ'Ø'Ø%Ø-Ø+ØØ!Ø*Gð	ñ	
ô	
ð	
õ�4”:Ð/Ñ0Ô0ð	7ØŒJ×%Ò% d¤oÑ6Ô6Ð6à”YˆŒ
ðÔ$ð
	RØÔ Ð,Ý$5ØÔ% tÔ'GÈÌÐTXÔT]ñ%ô%�Ô!ðŒ~Ð)Ý!2Ø”N DÔ$DÀdÄiÐQUÔQZñ"ô"�”��ð*Ð)ð
Œ~Ð)Ø!%¤×!2Ò!2°4Ô3CÔ3JÑ!KÔ!K�”ØÔ Ð,Ø$(Ô$5×$8Ò$8¸Ô9IÔ9PÑ$QÔ$Q�Ô!Ð!Ð!ð-Ð,ricóÀ—t|jt¦«r>|jj}|t|j¦«kr
|j|n|jdS|jS)NrK)rorÚlistÚstateÚepochÚlen)r0r‡s  rgr\z_UnslothOnlineDPOTrainer.betaŠsS€å�d”j¥$Ñ'Ô'ð	Ø”JÔ$ˆEØ(-µ°D´J±´Ò(?Ð(?�4”:˜eÔ$Ð$ÀTÄZÐPRÄ^ÐSà”:ÐriruÚ	tokenizercóL—|sp||dd¬¦«}|j�Ut|d¦«}|dks|j|ddkr#|jg|dz|d<dg|dz|d<n||dd	¬¦«}d
„| ¦«D¦«}|S)z2Tokenize a single row from a DPO specific dataset.ÚpromptF)Úadd_special_tokensNÚ	input_idsrrQÚattention_maskTcó —i|]\}}d|›�|“ŒS)Úprompt_rl)Ú.0ÚkeyÚvalues   rgú
<dictcomp>z9_UnslothOnlineDPOTrainer.tokenize_row.<locals>.<dictcomp>Ÿs$€ÐHÐHÐH©J¨C°�˜3�� %ÐHÐHÐHri)Úbos_token_idrˆÚitems)Úfeaturerur‰ÚbatchÚprompt_len_input_idss     rgÚtokenize_rowz%_UnslothOnlineDPOTrainer.tokenize_row’sÒ€ð"ð		JØ�I˜g hÔ/ÀEÐJÑJÔJˆEàÔ%Ð1Ý'*¨5°Ô+=Ñ'>Ô'>Ð$Ø'¨1Ò,Ð,°	Ô0FÈ%ÐP[ÔJ\Ð]^ÔJ_Ò0_Ð0_Ø*3Ô*@Ð)AÀEÈ+ÔDVÑ)V�E˜+Ñ&Ø/0¨c°EÐ:JÔ4KÑ.K�EÐ*Ñ+øà�I˜g hÔ/ÀDÐIÑIÔIˆEØHÐH¸%¿+º+¹-¼-ÐHÑHÔHˆØˆricó°—|j€td¦«‚|j}|j}|j||jj|jj|jjdœ}t|tj
jj¦«s?| 
¦«|d<|jj|d<t|d<|jj|d<|j t'|fi|¤Ž¦«S)Nz+Trainer: training requires a train_dataset.©Ú
batch_sizeÚ
collate_fnÚnum_workersÚ
pin_memoryÚpersistent_workersÚsamplerÚ	drop_lastÚworker_init_fnÚprefetch_factor)rCrlrBÚ_train_batch_sizerArÙrôrõror7ÚutilsÚdatarÚ_get_train_samplerr×r5rÚr�Úpreparer)r0rCrBÚdataloader_paramss    rgÚget_train_dataloaderz-_UnslothOnlineDPOTrainer.get_train_dataloader£sá€àÔÐ%ÝÐJÑKÔKÐKàÔ*ˆ
ØÔ*ˆ
àÔ0Ø'Øœ9Ô;Øœ)Ô9Ø"&¤)Ô"Ið
ð
Ðõ˜-¬Ô)9Ô)IÑJÔJð	XØ+/×+BÒ+BÑ+DÔ+DÐ˜iÑ(Ø-1¬YÔ-KÐ˜kÑ*Ý2=ÐÐ.Ñ/Ø37´9Ô3WÐÐ/Ñ0àÔ×'Ò'
°=Ð(VÐ(VÐDUÐ(VÐ(VÑWÔWÐWricó"—|€|j€td¦«‚t|t¦«r|nd}t	|d¦«r:||jvr1|jjr%|j 	|j|¦«St|t¦«r
|j|n
|�|n|j}|j
}|jj||jj|jj
|jjdœ}t|tjjj¦«s6| |¦«|d<|jj|d<|jj|d<t+|fi|¤Ž}|jjr$t	|d¦«r||j|<n	||i|_|j 	|¦«S)Nz-Trainer: evaluation requires an eval_dataset.rxÚ_eval_dataloadersrœr¢r£r¥)rDrlrorprjr®rArõr�rªrBÚeval_batch_sizerÙrôr7r§r¨rÚ_get_eval_samplerr×rÚr)r0rDÚdataloader_keyrBr«Úeval_dataloaders      rgÚget_eval_dataloaderz,_UnslothOnlineDPOTrainer.get_eval_dataloader»sÅ€àÐ DÔ$5Ð$=ÝÐLÑMÔMÐMõ*4°LÅ#Ñ)FÔ)FÐR˜˜ÈFˆå�DÐ-Ñ.Ô.ð	Tà $Ô"8Ð8Ð8Ø”	Ô7ð9ðÔ#×+Ò+¨DÔ,BÀ>Ô,RÑSÔSÐSõ˜,Ñ,Ô,ð
#ˆDÔ˜lÔ+Ð+ðÐ'ð�àÔ"ð	ðÔ*ˆ
ðœ)Ô3Ø'Øœ9Ô;Øœ)Ô9Ø"&¤)Ô"Ið
ð
Ðõ˜,¬Ô(8Ô(HÑIÔIð	XØ+/×+AÒ+AÀ,Ñ+OÔ+OÐ˜iÑ(Ø-1¬YÔ-KÐ˜kÑ*Ø37´9Ô3WÐÐ/Ñ0õ% \ÐGÐGÐ5FÐGÐGˆØŒ9Ô2ð	KÝ�tÐ0Ñ1Ô1ð
KØ9H�Ô& ~Ñ6Ð6à*8¸/Ð)J�Ô&àÔ×'Ò'¨Ñ8Ô8Ð8ric	ó¸‡‡‡	‡
‡—|jjŠ|jjŠ		td|di¦«r>|j ||jd|j dd¬¦«¬¦«Š
n=|j 	||jd|j dd¬¦«¬¦«Š
ˆ
fd„td	¦«D¦«}ˆ
fd
„td	¦«D¦«}td„|D¦«¦«Šˆfd„|D¦«}ˆˆfd
„|D¦«}|jjŠ	ˆ	fd„|D¦«}ˆˆ	fd„|D¦«}ˆ	ˆfd„|D¦«}tj||jj¬¦«}tj||jj¬¦«}tj||jj¬¦«}tj||jj¬¦«}||||fS)Nr‹rFÚonline_dpo_trainer_lora_modelT)Úload_tensors)Úuse_tqdmÚlora_requestcóX•—g|]&}‰D]!}t|j|j¦«‘Œ"Œ'Srl)r…ÚoutputsÚ	token_ids)r‘ÚiÚoutputrºs   €rgú
<listcomp>z;_UnslothOnlineDPOTrainer._generate_vllm.<locals>.<listcomp>ús:ø€ÐdÐdÐdÀÐ\cÐdÐdÐRX�$˜vœ~¨aÔ0Ô:Ñ;Ô;ÐdÐdÐdÐdrirzcóB•—g|]}‰D]}t|j¦«‘ŒŒSrl)r…Úprompt_token_ids)r‘Ú_r½rºs   €rgr¾z;_UnslothOnlineDPOTrainer._generate_vllm.<locals>.<listcomp>ûs2ø€Ð\Ð\Ð\¸ÐT[Ð\Ð\È&•d˜6Ô2Ñ3Ô3Ð\Ð\Ð\Ð\ric3ó4K—|]}t|¦«V—ŒdS©N©rˆ)r‘Úidss  rgú	<genexpr>z:_UnslothOnlineDPOTrainer._generate_vllm.<locals>.<genexpr>þs(èè€Ð?Ð?¨S¥ C¡¤Ð?Ð?Ð?Ð?Ð?Ð?ricód•—g|],}dg‰t|¦«z
zdgt|¦«zz‘Œ-S)rrQrÄ)r‘rÅÚmax_prompt_lengths  €rgr¾z;_UnslothOnlineDPOTrainer._generate_vllm.<locals>.<listcomp>ÿs>ø€ÐcÐcÐcÐQT˜�sÐ/µ#°c±(´(Ñ:Ñ;¸q¸cÅCÈÁHÄH¹nÑLÐcÐcÐcricóB•—g|]}‰g‰t|¦«z
z|z‘ŒSrlrÄ)r‘rÅrÈrQs  €€rgr¾z;_UnslothOnlineDPOTrainer._generate_vllm.<locals>.<listcomp>s2ø€ÐbÐbÐbÐPS�|�nÐ(9½CÀ¹H¼HÑ(DÑEÈÑKÐbÐbÐbricód•—g|],}dgt|¦«zdg‰t|¦«z
zz‘Œ-S)rQrrÄ)r‘rÅrbs  €rgr¾z;_UnslothOnlineDPOTrainer._generate_vllm.<locals>.<listcomp>s<ø€ÐdÐdÐdÈc˜A˜3¥ S¡¤™>¨Q¨C°:ÅÀCÁÄÑ3HÑ,IÑIÐdÐdÐdricó^•—g|])}|d‰krt|¦«‰kr|‰gzn|‘Œ*S)rKrÄ)r‘rÅÚeos_token_idrbs  €€rgr¾z;_UnslothOnlineDPOTrainer._generate_vllm.<locals>.<listcomp>sTø€ð
ð
ð
àð%(¨¤G¨|Ò$;Ð$;ÅÀCÁÄÈ:Ò@UÐ@UˆC�<�.Ñ Ð Ð[^ð
ð
ð
ricóB•—g|]}|‰g‰t|¦«z
zz‘ŒSrlrÄ)r‘rÅrbrQs  €€rgr¾z;_UnslothOnlineDPOTrainer._generate_vllm.<locals>.<listcomp>s0ø€ÐcÐcÐcÈS˜#  °*½sÀ3¹x¼xÑ2GÑ HÑHÐcÐcÐcri©r‚)rErÌrQr,rzÚchatr|r>Ú	load_loraÚgenerateÚrangeÚmaxrbr7Útensorr�r‚)r0r>ÚpromptsÚcompletion_idsÚ
prompt_idsÚprompt_maskÚcompletion_maskrÌrÈrbrºrQs       @@@@@rgÚ_generate_vllmz'_UnslothOnlineDPOTrainer._generate_vllmës^øøøøø€ØÔ,Ô9ˆØÔ,Ô9ˆð	
àå˜h¨°¬
Ð3Ñ4Ô4ð	tØ”h—m’m G¨TÔ-CÈeÐdhÔdn×dxÒdxðzYðjnÐdxñeoôeo�mñpôpˆGˆGà”h×'Ò'¨°Ô1GÐRWÐhlÔhr×h|Òh|ð~]ðnrÐh|ñisôisÐ'ñtôtˆGàdÐdÐdÐdÅUÈ1ÁXÄXÐdÑdÔdˆØ\Ð\Ð\Ð\½UÀ1¹X¼XÐ\Ñ\Ô\ˆ
õ Ð?Ð?°JÐ?Ñ?Ô?Ñ?Ô?ÐØcÐcÐcÐcÐXbÐcÑcÔcˆØbÐbÐbÐbÐbÐWaÐbÑbÔbˆ
ØÔ+Ô6ˆ
ØdÐdÐdÐdÐUcÐdÑdÔdˆð
ð
ð
ð
ð
à%ð
ñ
ô
ˆðdÐcÐcÐcÐcÐTbÐcÑcÔcˆõ”\ *°TÔ5EÔ5LÐMÑMÔMˆ
Ý”l ;°tÔ7GÔ7NÐOÑOÔOˆÝœ n¸TÔ=MÔ=TÐUÑUÔUˆÝœ, ¸tÔ?OÔ?VÐWÑWÔWˆà˜;¨¸ÐGÐGricój‡—‰jj}‰jj}d„|D¦«}ˆfd„|D¦«}ˆfd„|D¦«}‰ |¦«}‰ |¦«}|d dd¦«}|d dd¦«}t
|‰j‰jj	¬¦«5}| 
||‰j¬	¦«}	ddd¦«n#1swxYwY|	dd…| d¦«d…f}
t|
||¦«\}
}|||
|fS)
Ncó—g|]}d|i‘ŒS©r‹rl)r‘r‹s  rgr¾z6_UnslothOnlineDPOTrainer._generate.<locals>.<listcomp>s€Ð;Ð;Ð;¨�8˜VÐ$Ð;Ð;Ð;ricó:•—g|]}t|‰j¦«‘ŒSrl)r1rE©r‘Úxr0s  €rgr¾z6_UnslothOnlineDPOTrainer._generate.<locals>.<listcomp>s'ø€ÐVÐVÐVÈ!Õ+¨A¨tÔ/DÑEÔEÐVÐVÐVricóR•—g|]#}‰ |‰j‰j¦«‘Œ$Srl)ršrurErßs  €rgr¾z6_UnslothOnlineDPOTrainer._generate.<locals>.<listcomp>s2ø€ÐgÐgÐgÐ[\�$×#Ò# A tÔ'>ÀÔ@UÑVÔVÐgÐgÐgriÚprompt_input_idsrzrQÚprompt_attention_mask)Úgather_deepspeed3_params)r�rŽr|)rErÌrQrBÚ_prepare_inputsÚrepeatr9r�rAr'rÑr|Úsizer8)r0r>rÕrÌrQÚinputsr×rØÚunwrapped_modelr½rÖrÙs`           rgÚ	_generatez"_UnslothOnlineDPOTrainer._generates©ø€ØÔ,Ô9ˆØÔ,Ô9ˆð<Ð;°7Ð;Ñ;Ô;ˆØVÐVÐVÐVÈvÐVÑVÔVˆØgÐgÐgÐgÐ`fÐgÑgÔgˆØ×#Ò# FÑ+Ô+ˆð×%Ò% fÑ-Ô-ˆØÐ.Ô/×6Ò6°q¸!Ñ<Ô<ˆ
ØÐ4Ô5×<Ò<¸QÀÑBÔBˆÝ
(Ø�4Ô#¸d¼iÔ>að
ñ
ô
ð	à
Ø$×-Ò-Ø$Ø*Ø"&Ô"8ð.ñôˆFð	ð	ð	ñ	ô	ð	ð	ð	ð	ð	ð	øøøð	ð	ð	ð	ð     :§?¢?°1Ñ#5Ô#5Ð#7Ð#7Ð 7Ô8ˆÝ*8¸ÈÐWcÑ*dÔ*dÑ'ˆ˜à˜;¨¸ÐGÐGsÃC/Ã/C3Ã6C3cóF—t| d¦«| d¦«z|jz
d¦«}|dd…|d…f}|dd…|d…f}tj||fd¬¦«}tj||fd¬¦«}|||¬¦«}	| d¦«}
|
dkr|
dz
nd}|	jdd…|d…f}tj| d¬¦«| d¦«d¬¦« 	d¦«}
|
S)NrQrrP)rŽrKrz)
rÓrçrr7Úcatr^Útake_along_dimÚlog_softmaxrYrZ)r0r>r×rØrÖrÙÚnum_tokens_to_truncateÚprompt_completion_idsÚprompt_completion_maskr½Ú
prompt_lenÚ	start_idxr^Úlogprobss              rgÚ_forwardz!_UnslothOnlineDPOTrainer._forward.sM€å!$ Z§_¢_°QÑ%7Ô%7¸.×:MÒ:MÈaÑ:PÔ:PÑ%PÐSWÔSbÑ%bÐdeÑ!fÔ!fÐð    Ð#9Ð#:Ð#:Ð :Ô;ˆ
Ø! ! ! !Ð%;Ð%<Ð%<Ð"<Ô=ˆõ!&¤	¨:°~Ð*FÈAÐ NÑ NÔ NÐÝ!&¤¨K¸Ð+IÈqÐ!QÑ!QÔ!QÐð�Ð,Ð=SÐTÑTÔTˆð —_’_ QÑ'Ô'ˆ
Ø&0°1¢n n�J ‘N�N¸!ˆ	Ø”˜q˜q˜q )¨B ,˜Ô/ˆõÔ'¨×(:Ò(:¸rÐ(:Ñ(BÔ(BÀN×D\ÒD\Ð]_ÑD`ÔD`ÐfgÐhÑhÔh×pÒpÐqsÑtÔtˆØˆrirèÚnum_items_in_batchcóö‡‡=—| ¦«|d}t|¦«}‰jjr‰ ||¦«\}}}}	n‰ ||¦«\}}}}	t
j|‰jj	kd¬¦«}
‰ 
|||||	¦«}t
j¦«5‰j�‰ 
‰j||||	¦«}nO‰j
 ¦«5‰ 
‰j
||||	¦«}ddd¦«n#1swxYwYddd¦«n#1swxYwY|j}
‰j |d¬¦«}t#d|di¦«rd„|D¦«}‰j�Èt#d|di¦«rIt'j¦«}| t,¦«Š=ˆ=fd„|D¦«}ˆ=fd	„|D¦«}‰j |t/t1|d|…||d…¦«¦«¦«}t
jd
„|D¦«|
¬¦«}�nzd|z}t#d|di¦«r@d
„t1||¦«D¦«}ˆfd„|D¦«}d„|D¦«}d„|D¦«}‰ |ddd¬¦«d |
¦«}|jd}‰ |ddd¬¦«d |
¦«}t
j||fd¬¦«}t
j¦«5t?‰j |‰jj!|¦«\}}}‰jj"�||
xx‰jj"zcc<ddd¦«n#1swxYwY| #|¦«\}}||k}t
j$||
¬¦«}|||zz}|||zz}t
j||fd¬¦«}||}||} |	 %¦«}!|!|}"||"z &d¦«}#| |"z &d¦«}$t
j#|#|¦«\}%}&t
j#|$|¦«\}'}(|%|&z
})|'|(z
}*|)|*z
}+‰jj'dkrtQj)‰j*|+z¦«},n;‰jj'dkr|+dd‰j*zzz
dz},ntWd‰j'›�¦«‚|, ,¦«}-‰j �í||||z
}.‰j-d .‰j/ 0|. ,¦«¦« ,¦« 1¦«¦«‰j-d .‰j/ 0| ,¦«¦« ,¦« 1¦«¦«‰j-d .|
 2¦« ,¦« 1¦«¦«‰j-d .‰j/ 0|%¦« ,¦« 1¦«¦«‰j-d .‰j/ 0|&¦« ,¦« 1¦«¦«||z
}/|/ &d¦« ,¦«}0‰j-d .‰j/ 0|0¦« ,¦« 1¦«¦«‰j*|/z &d¦«}1|1 ,¦«}2‰j-d  .‰j/ 0|2¦« ,¦« 1¦«¦«‰j �a||1z}3‰j-d! .‰j/ 0|3¦« ,¦« 1¦«¦«| &d¦« ,¦«}4‰j-d" .‰j/ 0|4¦« ,¦« 1¦«¦«‰j*|%|'z
z}5‰j/ 0|5¦«}6‰j-d# .|6 ,¦« 1¦«¦«‰j*|&|(z
z}7‰j/ 0|7¦«}8‰j-d$ .|8 ,¦« 1¦«¦«|6|8z
}9‰j-d% .|9 ,¦« 1¦«¦«|9dk}:‰j-d& .|: 2¦« ,¦« 1¦«¦«‰j-d' .‰j*¦«‰jj3�+‰j4j5‰jj3zdkrtm¦«i};‰jj7tpj9tpj:fvr‰ ;¦«|;d(<‰jj<dkr|- ,¦«}-‰j=rMt| ?|-‰j@¦«5}<|< A¦«ddd¦«n#1swxYwYn‰j/jA|-fi|;¤Ž|- B¦«‰jjCzS))Nr‹rKrPT)Úskip_special_tokensrcó—g|]}d|dœg‘Œ	S)Ú	assistant)ÚroleÚcontentrl)r‘Ú
completions  rgr¾z:_UnslothOnlineDPOTrainer.training_step.<locals>.<listcomp>as#€ÐhÐhÐhÈj [¸ZÐHÐHÐIÐhÐhÐhricó<•—g|]}‰ |¬¦«‘ŒS©)Úmessages©Úrender)r‘r‹Útemplates  €rgr¾z:_UnslothOnlineDPOTrainer.training_step.<locals>.<listcomp>ls'ø€ÐRÐRÐRÀ˜8Ÿ?š?°F˜?Ñ;Ô;ÐRÐRÐRricó<•—g|]}‰ |¬¦«‘ŒSrÿr)r‘rýrs  €rgr¾z:_UnslothOnlineDPOTrainer.training_step.<locals>.<listcomp>ms'ø€ÐbÐbÐbÈ
˜xŸš¸
˜ÑCÔCÐbÐbÐbricó—g|]}|dk‘Œ	S)rrl)r‘Úranks  rgr¾z:_UnslothOnlineDPOTrainer.training_step.<locals>.<listcomp>vs€Ð QÐ QÐ Q¨t ¨¢Ð QÐ QÐ QrirÎrzcó—g|]
\}}||dœ‘ŒS))r‹rýrl)r‘ÚpÚcs   rgr¾z:_UnslothOnlineDPOTrainer.training_step.<locals>.<listcomp>|s$€ÐaÐaÐa¹t¸qÀ! q¸Ð:Ð:ÐaÐaÐaricó:•—g|]}t|‰j¦«‘ŒSrl)r$rF)r‘Úexampler0s  €rgr¾z:_UnslothOnlineDPOTrainer.training_step.<locals>.<listcomp>}s(ø€ÐoÐoÐoÐ[bÕ/°¸Ô9UÑVÔVÐoÐoÐoricó—g|]
}|d‘ŒSrÝrl©r‘rs  rgr¾z:_UnslothOnlineDPOTrainer.training_step.<locals>.<listcomp>~s€ÐEÐEÐE°˜7 8Ô,ÐEÐEÐEricó—g|]
}|d‘ŒS)rýrlr
s  rgr¾z:_UnslothOnlineDPOTrainer.training_step.<locals>.<listcomp>s€ÐMÐMÐM¸˜w |Ô4ÐMÐMÐMriÚptÚleft)ÚpaddingÚreturn_tensorsÚpadding_sider�rQÚrightr•Úipozinvalid loss type r^r_r[rYrZrRrTr]rSrUrVrXrWr\rª)DÚtrainrˆrAr$rÚrêr7ÚanyrErÌrõÚno_gradr?r>Údisable_adapterr‚Úbatch_decoder,rr/ÚEnvironmentÚfrom_stringr!r…rUrÔrFrVrTrìÚinference_moder+r@rQr ÚsplitÚarangeÚboolÚsumr!rÚ
logsigmoidr\ÚNotImplementedErrorÚmeanryr\r�Úgather_for_metricsÚitemÚfloatr©r†Úglobal_stepr(rërÚLOMOÚADALOMOÚ_get_learning_rateÚn_gpuÚuse_apexÚampÚ
scale_lossÚ	optimizerÚbackwardÚdetachr¦)>r0r>rèrörÕr�r×rØrÖrÙÚcontain_eos_tokenrôÚref_logprobsr‚ÚcompletionsÚenvironmentÚranks_of_first_completionÚmaskÚexamplesÚprompts_idsÚcontext_lengthÚcompletions_idsrðrÁÚscoresÚ
first_halfÚsecond_halfÚbatch_rangeÚchosen_indicesÚrejected_indicesÚ
cr_indicesÚcr_logprobsÚcr_ref_logprobsÚpadding_maskÚcr_padding_maskÚcr_logprobs_sumÚcr_ref_logprobs_sumÚchosen_logprobs_sumÚrejected_logprobs_sumÚchosen_ref_logprobs_sumÚrejected_ref_logprobs_sumÚpi_logratiosÚ
ref_logratiosr^ÚlossesÚlossÚ
scores_marginÚklÚmean_klÚnon_score_rewardÚmean_non_score_rewardÚrlhf_rewardÚmean_entropyÚchosen_rewardsÚgathered_chosen_rewardsÚrejected_rewardsÚgathered_rejected_rewardsÚmarginÚaccuracyroÚscaled_lossrs>`                                                            @rgÚ
training_stepz&_UnslothOnlineDPOTrainer.training_stepFs™øø€ð	�Š‰
Œ
ˆ
à˜Ô"ˆÝ˜‘\”\ˆ
àŒ9Ôð	fØGK×GZÒGZÐ[`ÐbiÑGjÔGjÑDˆJ˜ ^°_°_àGKÇ~Â~ÐV[Ð]dÑGeÔGeÑDˆJ˜ ^°_å!œI n¸Ô8MÔ8ZÒ&ZÐ`bÐcÑcÔcÐà—=’= ¨
°KÀÐQ`ÑaÔaˆÝ
Œ]‰_Œ_ð	wð	wØŒ~Ð)Ø#Ÿ}š}¨T¬^¸ZÈÐVdÐfuÑvÔv��à”Z×/Ò/Ñ1Ô1ðwðwØ#'§=¢=°´¸ZÈÐVdÐfuÑ#vÔ#v�Lðwðwðwñwôwðwðwðwðwðwðwøøøðwðwðwðwð		wð	wð	wñ	wô	wð	wð	wð	wð	wð	wð	wøøøð	wð	wð	wð	wð”ˆØÔ+×8Ò8¸Ð]aÐ8ÑbÔbˆÝ˜h¨°¬
Ð3Ñ4Ô4ð	iØhÐhÐ\gÐhÑhÔhˆKðŒ:Ð!õ
! (¨G°A¬JÐ!7Ñ8Ô8ð
cÝ$Ô0Ñ2Ô2�Ø&×2Ò2Õ3GÑHÔH�ØRÐRÐRÐRÈ'ÐRÑRÔR�ØbÐbÐbÐbÐVaÐbÑbÔb�à(,¬
×(8Ò(8Ø��c +¨k¨z¨kÔ":¸KÈ
ÈÈÔ<TÑUÔUÑVÔVñ)ô)Ð%õ”<Ð QÐ QÐ7PÐ QÑ QÔ QÐZ`ÐaÑaÔaˆD‰Dð˜'‘kˆGÝ  (¨G°A¬JÐ!7Ñ8Ô8ð
NØaÐaÅsÈ7ÐT_ÑG`ÔG`ÐaÑaÔa�ØoÐoÐoÐoÐfnÐoÑoÔo�ØEÐE¸HÐEÑEÔE�ØMÐMÀHÐMÑMÔM�ð×6Ò6Ø °dÈð7ñôàôçš2˜f™:œ:ð
ð)Ô.¨qÔ1ˆNð#×:Ò:Ø T¸$ÈWð;ñôàôçš2˜f™:œ:ð
õ
%*¤I¨{¸OÐ.LÐRSÐ$TÑ$TÔ$TÐ!ÝÔ%Ñ'Ô'ð
Pð
PÝ)ØÔ%Ð'<¸dÔ>ZÔ>gÐiwñ ô ‘��6˜1ð”9Ô0Ð<ØÐ-Ð-Ð.Ð.Ô.°$´)Ô2OÑOÐ.Ð.Ñ.ð
Pð
Pð
Pñ
Pô
Pð
Pð
Pð
Pð
Pð
Pð
Pøøøð
Pð
Pð
Pð
Pð'-§l¢l°:Ñ&>Ô&>Ñ#ˆJ˜ð Ò,ˆDå”l :°fÐ=Ñ=Ô=ˆØ$¨¨°
Ñ(:Ñ;ˆØ&¨$°Ñ*;Ñ<Ðõ”Y Ð0@ÐAÀqÐIÑIÔIˆ
Ø˜zÔ*ˆØ& zÔ2ˆð(×,Ò,Ñ.Ô.Ð.ˆØ& zÔ2ˆà&¨/Ð)9Ñ9×>Ò>¸qÑAÔAˆØ.°/Ð1AÑA×FÒFÀqÑIÔIÐõ6;´[ÀÐR\Ñ5]Ô5]Ñ2ÐÐ2Ý=B¼[ÐI\Ð^hÑ=iÔ=iÑ:ÐÐ!:Ø*Ð-BÑBˆØ/Ð2KÑKˆ
à 
Ñ-ˆàŒ9Ô )Ò+Ð+Ý”l 4¤9¨vÑ#5Ñ6Ô6Ð6ˆFˆFØ