unsloth_compiled_cache/__pycache__/UnslothDDPOTrainer.cpython-311.pyc

§
3$�hXšãóÔ—dZddlmZddlZddlmZddlmZddlmZm	Z	m
Z
mZmZm
Z
mZmZddlmZmZmZmZmZmZm
Z
mZmZmZmZmZmZmZmZmZmZmZmZm Z m!Z!mZm"Z"ddlZddlTddl#m$Z$m%Z%dd	l&m'Z'ddlZddl(Z)dd
l*m+Z+ddlmZddl,m-Z-m.Z/dd
dd
d
dœZ0ej1dde0¬¦«d„¦«Z2e$Gd„de¦«¦«Z3	Gd„de¦«Z4Gd„de4¦«Z5dS)z8
2025.8.4
2025.8.5
4.55.1
0.21.0
__UNSLOTH_VERSIONING__
é)ÚTensorN)Ú
functional)ÚAnyÚListÚOptionalÚTupleÚUnionÚDictÚSetÚCallable)ÚAcceleratorrrÚ
DDPOConfigÚDDPOStableDiffusionPipelineÚDDPOTrainerrÚPathÚPerPromptStatTrackerÚProjectConfigurationÚPyTorchModelHubMixinr	ÚdefaultdictÚfuturesÚgenerate_model_cardÚget_comet_experiment_urlÚis_wandb_availableÚloggerÚosÚset_seedÚtextwrapÚtorchÚwarnings)Ú*)Ú	dataclassÚfield)ÚVersion)Únullcontext)ÚDataCollatorForSeq2SeqÚDataCollatorForLanguageModelingTF)Úepilogue_fusionÚmax_autotuneÚ
shape_paddingz
trace.enabledztriton.cudagraphs)ÚdynamicÚ	fullgraphÚoptionscó’—tj| d|jd¦«dd¬¦«}tj| d¦«dd¬¦«}g}t	||¦«D]‘\}}| tj¦«}tj|d| d¦«¬¦« 	d¦«}tj
|d¬¦«}||z
}	| |	¦«Œ’	tj|¦«}| |jd|jdf¦«}|S)Néÿÿÿÿér)ÚchunksÚdim)r1Úindex©r1é)
rÚchunkÚreshapeÚshapeÚzipÚtoÚfloat32ÚgatherÚ	unsqueezeÚsqueezeÚ	logsumexpÚappendÚconcat)
Úlogitsr2Úchunked_logitsÚ
chunked_indexÚall_per_token_logpsÚchunk_logitsÚchunk_indexÚselected_logitsÚlogsumexp_valuesÚper_token_logpss
          ú^/workspace/Fine-tuning/DS-LLM-TEMPLATE-FINETUNING/unsloth_compiled_cache/UnslothDDPOTrainer.pyÚchunked_selective_log_softmaxrK"s5€õ”[ §¢°°F´LÀÔ4DÑ!EÔ!EÐPQÐYZÐ[Ñ[Ô[€NÝ”[ §¢¨rÑ!2Ô!2¸QÀaÐHÑHÔH€MØÐå%(¨¸Ñ%GÔ%Gð4ð4Ñ!ˆ�kØ#—’¥u¤}Ñ5Ô5ˆÝœ, |¸2À{×G\ÒG\Ð]_ÑG`ÔG`ÐaÑaÔa×iÒiÐjlÑmÔmˆÝ œ?¨<¸rÐBÑBÔBÐØ)Ð,<Ñ<ˆØ×"Ò" ?Ñ3Ô3Ð3Ð3ØÝœ,Ð':Ñ;Ô;ÐØ-×5Ò5°v´|ÀA´ÈÌÐUVÌÐ6XÑYÔYÐØÐócóÞ‡—eZdZUdZedddi¬¦«Zeeed<edddi¬¦«Z	ee
ed	<																																								d!ˆfd „	ZˆxZS)"ÚUnslothDDPOConfigaÎ
    
    Configuration class for the [`DDPOTrainer`].

    Using [`~transformers.HfArgumentParser`] we can turn this class into
    [argparse](https://docs.python.org/3/library/argparse#module-argparse) arguments that can be specified on the
    command line.

    Parameters:
        exp_name (`str`, *optional*, defaults to `os.path.basename(sys.argv[0])[: -len(".py")]`):
            Name of this experiment (by default is the file name without the extension name).
        run_name (`str`, *optional*, defaults to `""`):
            Name of this run.
        seed (`int`, *optional*, defaults to `0`):
            Random seed.
        log_with (`Literal["wandb", "tensorboard"]]` or `None`, *optional*, defaults to `None`):
            Log with either 'wandb' or 'tensorboard', check
            https://huggingface.co/docs/accelerate/usage_guides/tracking for more details.
        tracker_kwargs (`Dict`, *optional*, defaults to `{}`):
            Keyword arguments for the tracker (e.g. wandb_project).
        accelerator_kwargs (`Dict`, *optional*, defaults to `{}`):
            Keyword arguments for the accelerator.
        project_kwargs (`Dict`, *optional*, defaults to `{}`):
            Keyword arguments for the accelerator project config (e.g. `logging_dir`).
        tracker_project_name (`str`, *optional*, defaults to `"trl"`):
            Name of project to use for tracking.
        logdir (`str`, *optional*, defaults to `"logs"`):
            Top-level logging directory for checkpoint saving.
        num_epochs (`int`, *optional*, defaults to `100`):
            Number of epochs to train.
        save_freq (`int`, *optional*, defaults to `1`):
            Number of epochs between saving model checkpoints.
        num_checkpoint_limit (`int`, *optional*, defaults to `5`):
            Number of checkpoints to keep before overwriting old ones.
        mixed_precision (`str`, *optional*, defaults to `"fp16"`):
            Mixed precision training.
        allow_tf32 (`bool`, *optional*, defaults to `True`):
            Allow `tf32` on Ampere GPUs.
        resume_from (`str`, *optional*, defaults to `""`):
            Resume training from a checkpoint.
        sample_num_steps (`int`, *optional*, defaults to `50`):
            Number of sampler inference steps.
        sample_eta (`float`, *optional*, defaults to `1.0`):
            Eta parameter for the DDIM sampler.
        sample_guidance_scale (`float`, *optional*, defaults to `5.0`):
            Classifier-free guidance weight.
        sample_batch_size (`int`, *optional*, defaults to `1`):
            Batch size (per GPU) to use for sampling.
        sample_num_batches_per_epoch (`int`, *optional*, defaults to `2`):
            Number of batches to sample per epoch.
        train_batch_size (`int`, *optional*, defaults to `1`):
            Batch size (per GPU) to use for training.
        train_use_8bit_adam (`bool`, *optional*, defaults to `False`):
            Use 8bit Adam optimizer from bitsandbytes.
        train_learning_rate (`float`, *optional*, defaults to `3e-4`):
            Learning rate.
        train_adam_beta1 (`float`, *optional*, defaults to `0.9`):
            Adam beta1.
        train_adam_beta2 (`float`, *optional*, defaults to `0.999`):
            Adam beta2.
        train_adam_weight_decay (`float`, *optional*, defaults to `1e-4`):
            Adam weight decay.
        train_adam_epsilon (`float`, *optional*, defaults to `1e-8`):
            Adam epsilon.
        train_gradient_accumulation_steps (`int`, *optional*, defaults to `1`):
            Number of gradient accumulation steps.
        train_max_grad_norm (`float`, *optional*, defaults to `1.0`):
            Maximum gradient norm for gradient clipping.
        train_num_inner_epochs (`int`, *optional*, defaults to `1`):
            Number of inner epochs per outer epoch.
        train_cfg (`bool`, *optional*, defaults to `True`):
            Whether to use classifier-free guidance during training.
        train_adv_clip_max (`float`, *optional*, defaults to `5.0`):
            Clip advantages to the range.
        train_clip_range (`float`, *optional*, defaults to `1e-4`):
            PPO clip range.
        train_timestep_fraction (`float`, *optional*, defaults to `1.0`):
            Fraction of timesteps to train on.
        per_prompt_stat_tracking (`bool`, *optional*, defaults to `False`):
            Whether to track statistics for each prompt separately.
        per_prompt_stat_tracking_buffer_size (`int`, *optional*, defaults to `16`):
            Number of reward values to store in the buffer for each prompt.
        per_prompt_stat_tracking_min_count (`int`, *optional*, defaults to `16`):
            Minimum number of reward values to store in the buffer.
        async_reward_computation (`bool`, *optional*, defaults to `False`):
            Whether to compute rewards asynchronously.
        max_workers (`int`, *optional*, defaults to `2`):
            Maximum number of workers to use for async reward computation.
        negative_prompts (`str`, *optional*, defaults to `""`):
            Comma-separated list of prompts to use as negative examples.
        push_to_hub (`bool`, *optional*, defaults to `False`):
            Whether to push the final model checkpoint to the Hub.
    
    NÚhelpzvLLM SamplingParams)ÚdefaultÚmetadataÚvllm_sampling_paramsr.z8Chunk size to reduce memory usage. -1 is most efficient.Úunsloth_num_chunksÚ	inferenceÚéO
ÚtrlÚlogsédr4éÚfp16Té2çð?ç@éFç-Cëâ6
?çÍÌÌÌÌÌì?ç+‡ÙÎ÷ï?ç{®Gáz„?ç:Œ0âŽyE>ç-Cëâ6?éc)ó:•—t¦«jd'id|“d|“d|“d|“d|“d|“d|“d|“d	|	“d
|
“d|“d|“d
|
“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d | “d!|!“d"|"“d#|#“d$|$“d%|%“d&|&“|)¤Ž|'|_|(|_dS)(NÚexp_nameÚrun_nameÚseedÚlog_withÚtracker_project_nameÚlogdirÚ
num_epochsÚ	save_freqÚnum_checkpoint_limitÚmixed_precisionÚ
allow_tf32Úresume_fromÚsample_num_stepsÚ
sample_etaÚsample_guidance_scaleÚsample_batch_sizeÚsample_num_batches_per_epochÚtrain_batch_sizeÚtrain_use_8bit_adamÚtrain_learning_rateÚtrain_adam_beta1Útrain_adam_beta2Útrain_adam_weight_decayÚtrain_adam_epsilonÚ!train_gradient_accumulation_stepsÚtrain_max_grad_normÚtrain_num_inner_epochsÚ	train_cfgÚtrain_adv_clip_maxÚtrain_clip_rangeÚtrain_timestep_fractionÚper_prompt_stat_trackingÚ$per_prompt_stat_tracking_buffer_sizeÚ"per_prompt_stat_tracking_min_countÚasync_reward_computationÚmax_workersÚnegative_promptsÚpush_to_hub©)ÚsuperÚ__init__rRrS)+Úselfrhrirjrkrlrmrnrorprqrrrsrtrurvrwrxryrzr{r|r}r~rr€r�r‚rƒr„r…r†r‡rˆr‰rŠr‹rŒr�rRrSÚkwargsÚ	__class__s+                                          €rJr�zUnslothDDPOConfig.__init__›s6ø€ðZ	�‰ŒÔð&	0ð&	0ð&	0Ø�xð&	0à�xð&	0ð�4ð&	0ð �xð	&	0ð
$8Ð#7ð&	0ð�Vð
&	0ð$˜ð&	0ð"˜	ð&	0ð$8Ð#7ð&	0ð.˜oð&	0ð$˜ð&	0ð&˜+ð&	0ð 0Ð/ð&	0ð$˜ð&	0ð%:Ð$9ð&	0ð !2Ð 1ð!&	0ð",HÐ+Gð#&	0ð$ 0Ð/ð%&	0ð&#6Ð"5ð'&	0ð(#6Ð"5ð)&	0ð* 0Ð/ð+&	0ð, 0Ð/ð-&	0ð.'>Ð&=ð/&	0ð0"4Ð!3ð1&	0ð21RÐ0Qð3&	0ð4#6Ð"5ð5&	0ð6&<Ð%;ð7&	0ð8"˜	ð9&	0ð:"4Ð!3ð;&	0ð< 0Ð/ð=&	0ð>'>Ð&=ð?&	0ð@(@Ð'?ðA&	0ðB4XÐ3WðC&	0ðD2TÐ1SðE&	0ðF(@Ð'?ðG&	0ðH&˜+ðI&	0ðJ 0Ð/ðK&	0ðL&˜+¨ðM&	0ð&	0ð&	0ðN%9ˆÔ!Ø"4ˆÔÐÐrL)(rTrUrVNrWrXrYr4rZr[TrUr\r]r^r4r_r4Fr`rarbrcrdr_r]r4Tr^rer]FrfrfFr_rUFNr.)
Ú__name__Ú
__module__Ú__qualname__Ú__doc__r"rRrrÚ__annotations__rSÚintr�Ú
__classcell__©r“s@rJrNrN3sEø€€€€€€ð]ð]ð|+0¨%ØØÐ1Ð2ð+ñ+ô+Ð˜( 3œ-ððñð*/¨ØØÐVÐWð*ñ*ô*Ð˜ #œððñðØØØØ$ØØØØ Ø ØØØØØ #ØØ'(ØØ#Ø#ØØ Ø"&Ø"Ø,-Ø!Ø!"ØØ Ø!Ø"%Ø#(Ø/1Ø-/Ø#(ØØØØ#ØðSU5ðU5ðU5ðU5ðU5ðU5ðU5ðU5ðU5ðU5rLrNcóÀ‡—eZdZdZddgZ	d$dedeeje	e
e	egejfdege	e
effded	e
eeeegeff
d
„Zd%d„Zd
edefd„Zd„Zdejdedejfd„Zd„Zd„Zd„Zd„Zd„Zde	ee
ffd„Zd$de
efd„Zd„Zˆfd„Z			d&d e
e
d!e
e
d"ee
e e
dffd#„Z!ˆxZ"S)'Ú_UnslothDDPOTrainerrUrWÚddpoNÚconfigÚreward_functionÚprompt_functionÚsd_pipelineÚimage_samples_hookc	óÚ
—tjdt¦«|€tjd¦«||_||_||_||_td i|jj¤Ž}|jj	�rJtj tj 
|jj	¦«¦«|j_	dtj |jj	¦«vrÏtt!d„tj|jj	¦«¦«¦«}t%|¦«dkrt'd|jj	›�¦«‚t)d„|D¦«¦«}tj |jj	d|d›�¦«|j_	|dd	z|_t/|jj|jjz¦«|_t7d |jj|jj||jj|jzd
œ|jj¤Ž|_ | !¦«\}	}
|	st'|
¦«‚|jduo
|jdk}|j j"rg|j  #|jj$|s"tK| &¦«¬¦«n| &¦«|jj'¬
¦«tQj)d|›�¦«tU|jj+d¬¦«||_,|j, -d	|j j.ddd¬¦«|j jdkr
t^j0}n)|j jdkr
t^j1}nt^j2}|j,j3 4|j j5|¬¦«|j,j6 4|j j5|¬¦«|j,j7 4|j j5|¬¦«|j, 8¦«}
|j  9|j:¦«|j  ;|j<¦«|jj=rdt^j>j?j@_=| At…|
t¦«s|
 C¦«n|
¦«|_D|j, 6|j, E|jjF€dgn|jjFddd|j,jEjG¬¦«jH 4|j j5¦«¦«d|_I|jJrt—|jL|jM¦«|_N|j,jOp|j jO|_Ot¡|j,d¦«rj|j,jQr^|j  R|
|jD¦«\}|_Dtt!d„| C¦«¦«¦«|_Sn-|j  R|
|jD¦«\|_S|_D|jjTrt«jV|jW¬¦«|_X|j	rrtQj)d|j	›�¦«|j  Y|j	¦«t/|j	 Zd¦«d¦«d	z|_[dSd|_[dS)!Nz@DDPOTrainer is deprecated and will be removed in version 0.23.0.z8No image_samples_hook provided; no images will be loggedÚcheckpoint_có
—d|vS)Nr¥rŽ)Úxs rJú<lambda>z._UnslothDDPOTrainer.__init__.<locals>.<lambda>s€ -°1Ð"4€rLrzNo checkpoints found in có^—g|]*}t| d¦«d¦«‘Œ+S)Ú_r.)r™Úsplit)Ú.0r§s  rJú
<listcomp>z0_UnslothDDPOTrainer.__init__.<locals>.<listcomp>s/€Ð,XÐ,XÐ,XÀqS°·²¸±´¸bÔ1AÑ-BÔ-BÐ,XÐ,XÐ,XrLr.r4)rkrqÚproject_configÚgradient_accumulation_stepsÚtensorboard)Úddpo_trainer_config)rŸÚinit_kwargsÚ
T)Údevice_specificFÚTimestep)ÚpositionÚdisableÚleaveÚdescÚ
dynamic_ncolsr[Úbf16)ÚdtyperUÚptÚ
max_length©Úreturn_tensorsÚpaddingÚ
truncationr¾Úuse_loracó—|jS©N)Ú
requires_grad)Úps rJr¨z._UnslothDDPOTrainer.__init__.<locals>.<lambda>|s€¸!¼/€rL)r‹zResuming from rªrŽ)\rÚwarnÚDeprecationWarningÚ	prompt_fnÚ	reward_fnrŸÚimage_samples_callbackrÚproject_kwargsrsrÚpathÚnormpathÚ
expanduserÚbasenameÚlistÚfilterÚlistdirÚlenÚ
ValueErrorÚsortedÚjoinÚ	iterationr™rtr†Únum_train_timestepsr
rkrqr€Úaccelerator_kwargsÚacceleratorÚ
_config_checkÚis_main_processÚ
init_trackersrlÚdictÚto_dictÚtracker_kwargsrÚinforrjr¢Úset_progress_bar_configÚis_local_main_processrÚfloat16Úbfloat16r:Úvaer9ÚdeviceÚtext_encoderÚunetÚget_trainable_layersÚregister_save_state_pre_hookÚ_save_model_hookÚregister_load_state_pre_hookÚ_load_model_hookrrÚbackendsÚcudaÚmatmulÚ_setup_optimizerÚ
isinstanceÚ
parametersÚ	optimizerÚ	tokenizerrŒÚmodel_max_lengthÚ	input_idsÚneg_prompt_embedr‡rrˆr‰Ústat_trackerÚautocastÚhasattrrÃÚprepareÚtrainable_layersrŠrÚThreadPoolExecutorr‹ÚexecutorÚ
load_stater«Úfirst_epoch)r‘rŸr r¡r¢r£Úaccelerator_project_configÚcheckpointsÚcheckpoint_numbersÚis_okayÚmessageÚis_using_tensorboardÚinference_dtyperrës               rJr�z_UnslothDDPOTrainer.__init__øs‡€õ	Œ
ØNÝñ	
ô	
ð	
ðÐ%ÝŒMÐTÑUÔUÐUà(ˆŒØ(ˆŒØˆŒØ&8ˆÔ#å%9Ð%WÐ%W¸D¼KÔ<VÐ%WÐ%WÐ"àŒ;Ô"ñ	RÝ&(¤g×&6Ò&6µr´w×7IÒ7IÈ$Ì+ÔJaÑ7bÔ7bÑ&cÔ&cˆDŒKÔ#Ø¥B¤G×$4Ò$4°T´[Ô5LÑ$MÔ$MÐMÐMå"ÝØ4Ð4Ýœ
 4¤;Ô#:Ñ;Ô;ñôñô�õ�{Ñ#Ô# qÒ(Ð(Ý$Ð%YÀÄÔ@WÐ%YÐ%YÑZÔZÐZÝ%+Ð,XÐ,XÈKÐ,XÑ,XÔ,XÑ%YÔ%YÐ"Ý*,¬'¯,ª,Ø”KÔ+Ø:Ð"4°RÔ"8Ð:Ð:ñ+ô+�”Ô'ð
8JÈ"Ô7MÐPQÑ7QÐ*Ô4õ$' t¤{Ô'CÀdÄkÔFiÑ'iÑ#jÔ#jˆÔ å&ð	
Ø”[Ô)Ø œKÔ7Ø5ð)-¬Ô(UÐX\ÔXpÑ(pð	
ð	
ðŒkÔ,ð	
ð	
ˆÔð ×-Ò-Ñ/Ô/Ñˆ�Øð	&Ý˜WÑ%Ô%Ð%à%œ°dÐ:Ð_¸v¼ÐR_Ò?_ÐàÔÔ+ð	ØÔ×*Ò*Ø”Ô0ØI]Ðs•t°·²Ñ0@Ô0@ÐAÑAÔAÐAÐci×cqÒcqÑcsÔcsØ œKÔ6ð
+ñ
ô
ð
õ	Œ�M˜�M�MÑ"Ô"Ð"å�”Ô!°4Ð8Ñ8Ô8Ð8à&ˆÔàÔ×0Ò0ØØÔ(Ô>Ð>ØØØð	1ñ	
ô	
ð	
ðÔÔ+¨vÒ5Ð5Ý#œmˆOˆOØ
Ô
Ô
-°Ò
7Ð
7Ý#œnˆOˆOå#œmˆOàÔÔ×Ò Ô 0Ô 7¸ÐÑOÔOÐOØÔÔ%×(Ò(¨Ô)9Ô)@ÈÐ(ÑXÔXÐXØÔÔ× Ò  Ô!1Ô!8ÀÐ ÑPÔPÐPàÔ+×@Ò@ÑBÔBÐàÔ×5Ò5°dÔ6KÑLÔLÐLØÔ×5Ò5°dÔ6KÑLÔLÐLðŒ;Ô!ð	9Ø48�EŒNÔÔ&Ô1à×.Ò.Ý1;Ð<LÍdÑ1SÔ1SÐiÐ×'Ò'Ñ)Ô)Ð)ÐYiñ
ô
ˆŒð!%Ô 0× =Ò =ØÔ×&Ò&ØœÔ4Ð<���À$Ä+ÔB^Ø#Ø$ØØÔ+Ô5ÔFð
'ñ
ô
ôŸš˜4Ô+Ô2Ñ3Ô3ñ!
ô!
ðô!
ˆÔðÔ*ð	Ý 4ØÔ;ØÔ9ñ!ô!ˆDÔðÔ(Ô1ÐN°TÔ5EÔ5NˆŒ
å�4Ô# ZÑ0Ô0ð	o°TÔ5EÔ5Nð	oØ#'Ô#3×#;Ò#;Ð<LÈdÌnÑ#]Ô#]Ñ ˆD�$”.Ý$(Ð0IÐ0IÈ4Ï?Ê?ÑK\ÔK\Ñ)]Ô)]Ñ$^Ô$^ˆDÔ!Ð!à48Ô4D×4LÒ4LÐM]Ð_cÔ_mÑ4nÔ4nÑ1ˆDÔ! 4¤>àŒ;Ô/ð	WÝ#Ô6À6ÔCUÐVÑVÔVˆDŒMàÔð	!ÝŒKÐ=¨Ô);Ð=Ð=Ñ>Ô>Ð>ØÔ×'Ò'¨Ô(:Ñ;Ô;Ð;Ý" 6Ô#5×#;Ò#;¸CÑ#@Ô#@ÀÔ#DÑEÔEÈÑIˆDÔÐÐà ˆDÔÐÐrLFcó(‡—|s[g}|D]U\}}}‰ |||¦«\}}| tj|‰jj¬¦«|f¦«ŒVn,‰j ˆfd„|¦«}ˆfd„|D¦«}t|ŽS)N©récó•—‰j|ŽSrÅ)rË)r§r‘s €rJr¨z5_UnslothDDPOTrainer.compute_rewards.<locals>.<lambda>–sø€°.°$´.À!Ð2D€rLcó¢•—g|]K\}}tj| ¦«‰jj¬¦«| ¦«f‘ŒLS©r
)rÚ	as_tensorÚresultrÜré)r¬ÚrewardÚreward_metadatar‘s   €rJrz7_UnslothDDPOTrainer.compute_rewards.<locals>.<listcomp>—s\ø€ðððá+�F˜Oõ” §¢¡¤¸Ô9IÔ9PÐQÑQÔQÐSb×SiÒSiÑSkÔSkÐlðððrL)	rËr?rrrÜrérÚmapr8)	r‘Úprompt_image_pairsÚis_asyncÚrewardsÚimagesÚpromptsÚprompt_metadatarrs	`        rJÚcompute_rewardsz#_UnslothDDPOTrainer.compute_rewardsŠsØø€Øð	ØˆGØ4Fð
ð
Ñ0�˜ Ø*.¯.ª.¸ÀÈ/Ñ*ZÔ*ZÑ'�˜Ø—’åœ¨°tÔ7GÔ7NÐOÑOÔOØ'ðñôððð
ð”m×'Ò'Ð(DÐ(DÐ(DÐ(DÐFXÑYÔYˆGððððà/6ðñôˆGõ
�Gˆ}ÐrLÚepochÚglobal_stepcó¬‡‡‡‡‡—‰ ‰jj‰jj¬¦«\Š}ˆfd„‰d ¦«D¦«Š‰ |‰jj¬¦«\}}t|¦«D](\}}| ||||g¦«Œ)‰j	�'‰ 	||‰j
jd¦«tj
|¦«}‰j
 |¦« ¦« ¦«}‰j
 ||| ¦«| ¦«dœ|¬¦«‰jjr�‰j
 ‰d¦« ¦« ¦«}‰jj |d	¬
¦«}	‰j |	|¦«}
n/|| ¦«z
| ¦«dzz}
tj|
¦« ‰j
jd¦«‰j
j ‰j
j¦«‰d
<‰d=‰dj \}ŠtC‰jj"¦«D�]O}tj#|‰j
j¬¦«Šˆfd„‰ $¦«D¦«Štj%ˆˆfd„tC|¦«D¦«¦«}
dD]=}‰|tj&|‰j
j¬¦«dd…df|
f‰|<Œ>‰ ¦«Š‰ '¦«}ˆfd„|D¦«}tQ|Ž}ˆfd„|D¦«}‰jj) *¦«‰ +||||¦«}‰j
j,st[d¦«‚�ŒQ|dkr8|‰jj.zdkr%‰j
j/r‰j
 0¦«|S)a
        Perform a single step of training.

        Args:
            epoch (int): The current epoch.
            global_step (int): The current global step.

        Side Effects:
            - Model weights are updated
            - Logs the statistics to the accelerator trackers.
            - If `self.image_samples_callback` is not None, it will be called with the prompt_image_pairs, global_step,
              and the accelerator tracker.

        Returns:
            global_step (int): The updated global step.

        )Ú
iterationsÚ
batch_sizecóT•‡—i|]#Š‰tjˆfd„‰D¦«¦«“Œ$S)có •—g|]
}|‰‘ŒSrŽrŽ)r¬ÚsÚks  €rJrz7_UnslothDDPOTrainer.step.<locals>.<dictcomp>.<listcomp>¶sø€Ð 7Ð 7Ð 7¨!  1¤Ð 7Ð 7Ð 7rL)rÚcat)r¬r%Úsampless @€rJú
<dictcomp>z,_UnslothDDPOTrainer.step.<locals>.<dictcomp>¶s;øø€ÐTÐTÐT¸Q�1•e”iÐ 7Ð 7Ð 7Ð 7¨wÐ 7Ñ 7Ô 7Ñ8Ô8ÐTÐTÐTrLr)rN)rrÚreward_meanÚ
reward_std©ÚstepÚ
prompt_idsT)Úskip_special_tokensrdr.Ú
advantagesÚ	timestepsr
có(•—i|]\}}||‰“ŒSrŽrŽ)r¬r%ÚvÚperms   €rJr(z,_UnslothDDPOTrainer.step.<locals>.<dictcomp>äs#ø€Ð>Ð>Ð>¡d a¨�q˜!˜Dœ'Ð>Ð>Ð>rLcóP•—g|]"}tj‰‰jj¬¦«‘Œ#Sr)rÚrandpermrÜré)r¬rªÚ
num_timestepsr‘s  €€rJrz,_UnslothDDPOTrainer.step.<locals>.<listcomp>és/ø€ÐpÐpÐpÐST•” 
°dÔ6FÔ6MÐNÑNÔNÐpÐpÐprL)r0ÚlatentsÚnext_latentsÚ	log_probscó\•—g|](}|jd‰jjg|jdd…¢RŽ‘Œ)S)r.r4N)r6rŸryr7)r¬r2r‘s  €rJrz,_UnslothDDPOTrainer.step.<locals>.<listcomp>õsBø€ÐrÐrÐrÐ]^˜y˜qœy¨¨T¬[Ô-IÐXÈAÌGÐTUÐTVÐTVÌKÐXÐXÐXÐrÐrÐrrLcóJ•—g|]}tt‰|¦«¦«‘Œ SrŽ)ràr8)r¬Ú
row_valuesÚ
original_keyss  €rJrz,_UnslothDDPOTrainer.step.<locals>.<listcomp>ús+ø€ÐhÐhÐhÈ
�t¥C¨
°zÑ$BÔ$BÑCÔCÐhÐhÐhrLzsOptimization step should have been performed by this point. Please check calculated gradient accumulation settings.)1Ú_generate_samplesrŸrxrwÚkeysrrŠÚ	enumerateÚextendrÌrÜÚtrackersrr&r;ÚcpuÚnumpyÚlogÚmeanÚstdr‡r¢røÚbatch_decoderüÚupdaterr6Ú
num_processesÚ
process_indexr9rér7Úranger‚r5ÚitemsÚstackÚarangeÚvaluesr8rëÚtrainÚ_train_batched_samplesÚsync_gradientsrÖrorÞÚ
save_state)r‘rrÚprompt_image_datarÚrewards_metadataÚiÚ
image_datar-rr/Útotal_batch_sizeÚinner_epochÚpermsÚkeyÚoriginal_valuesÚreshaped_valuesÚtransposed_valuesÚsamples_batchedr6r=r3r's`                  @@@@rJr,z_UnslothDDPOTrainer.stepžs~øøøøø€ð$&*×%;Ò%;Ø”{Ô?Ø”{Ô4ð&<ñ&
ô&
Ñ"ˆÐ"ðUÐTÐTÐTÀ'È!Ä*Ç/Â/ÑBSÔBSÐTÑTÔTˆØ$(×$8Ò$8Ø¨¬Ô(Lð%9ñ%
ô%
Ñ!ˆÐ!õ'Ð'8Ñ9Ô9ð	Að	A‰MˆAˆzØ×Ò˜w qœzÐ+;¸AÔ+>Ð?Ñ@Ô@Ð@Ð@àÔ&Ð2Ø×'Ò'Ð(9¸;ÈÔHXÔHaÐbcÔHdÑeÔeÐeå”)˜GÑ$Ô$ˆØÔ"×)Ò)¨'Ñ2Ô2×6Ò6Ñ8Ô8×>Ò>Ñ@Ô@ˆàÔ×Òà!ØØ&Ÿ|š|™~œ~Ø%Ÿkšk™mœmð	
ð
ðð	ñ	
ô	
ð	
ðŒ;Ô/ð	MàÔ)×0Ò0°¸Ô1FÑGÔG×KÒKÑMÔM×SÒSÑUÔUˆJØÔ&Ô0×=Ò=¸jÐ^bÐ=ÑcÔcˆGØÔ*×1Ò1°'¸7ÑCÔCˆJˆJà! G§L¢L¡N¤NÑ2°w·{²{±}´}ÀtÑ7KÑLˆJõ
ŒO˜JÑ'Ô'ß
ŠW�TÔ%Ô3°RÑ
8Ô
8¸Ô9IÔ9Wô
Yç
ŠR�Ô Ô'Ñ
(Ô
(ð	�Ñð
�LÐ!à*1°+Ô*>Ô*DÑ'Ð˜-å  ¤Ô!CÑDÔDð!	ñ!	ˆKå”>Ð"2¸4Ô;KÔ;RÐSÑSÔSˆDØ>Ð>Ð>Ð>¨g¯mªm©o¬oÐ>Ñ>Ô>ˆGõ”KØpÐpÐpÐpÐpÕX]Ð^nÑXoÔXoÐpÑpÔpñôˆEðMð
ð
�Ø& sœ|Ý”LÐ!1¸$Ô:JÔ:QÐRÑRÔRÐSTÐSTÐSTÐVZÐSZÔ[Øðô �˜‘�ð
$ŸLšL™NœNˆMØ%ŸnšnÑ.Ô.ˆOàrÐrÐrÐrÐbqÐrÑrÔrˆOõ!$ _Ð 5ÐàhÐhÐhÐhÐVgÐhÑhÔhˆOàÔÔ!×'Ò'Ñ)Ô)Ð)Ø×5Ò5°kÀ5È+ÐWfÑgÔgˆKàÔ#Ô2ð
Ý ðJñôðñ
ð
�AŠ:ˆ:˜% $¤+Ô"7Ñ7¸1Ò<Ð<ÀÔAQÔAaÐ<ØÔ×'Ò'Ñ)Ô)Ð)àÐrLcó¦—| ¦«5|jjr{|j tj|gdz¦«tj|gdz¦«|¦«j}| d¦«\}}	||jj	|	|z
zz}n!|j |||¦«j}|j 
||||jj|¬¦«}
|
j}ddd¦«n#1swxYwYtj
||jj|jj¦«}tj||z
¦«}| ||jj|¦«}
dtj||z
dz¦«z}tjtj|dz
¦«|jjk ¦«¦«}|
||fS)a‚
        Calculate the loss for a batch of an unpacked sample

        Args:
            latents (torch.Tensor):
                The latents sampled from the diffusion model, shape: [batch_size, num_channels_latents, height, width]
            timesteps (torch.Tensor):
                The timesteps sampled from the diffusion model, shape: [batch_size]
            next_latents (torch.Tensor):
                The next latents sampled from the diffusion model, shape: [batch_size, num_channels_latents, height,
                width]
            log_probs (torch.Tensor):
                The log probabilities of the latents, shape: [batch_size]
            advantages (torch.Tensor):
                The advantages of the latents, shape: [batch_size]
            embeds (torch.Tensor):
                The embeddings of the prompts, shape: [2*batch_size or batch_size, ...] Note: the "or" is because if
                train_cfg is True, the expectation is that negative prompts are concatenated to the embeds

        Returns:
            loss (torch.Tensor), approx_kl (torch.Tensor), clipfrac (torch.Tensor) (all of these are of shape (1,))
        r_)ÚetaÚprev_sampleNgà?r])rýrŸrƒr¢rërr&Úsampler5rvÚscheduler_steprur9Úclampr„ÚexpÚlossr…rFÚabsÚfloat)r‘r7r0r8r9r/ÚembedsÚ
noise_predÚnoise_pred_uncondÚnoise_pred_textÚscheduler_step_outputÚlog_probÚratiorhÚ	approx_klÚclipfracs                rJÚcalculate_lossz"_UnslothDDPOTrainer.calculate_loss	s€ð.�]Š]‰_Œ_ð	7ð	7ØŒ{Ô$ð
Ø!Ô-×2Ò2Ý”I˜w˜i¨!™mÑ,Ô,Ý”I˜y˜k¨A™oÑ.Ô.Øñôôð	ð
6@×5EÒ5EÀaÑ5HÔ5HÑ2Ð! ?Ø.°´Ô1RØ#Ð&7Ñ7ñ2ñ�
�
ð"Ô-×2Ò2ØØØñôôð	ð%)Ô$4×$CÒ$CØØØØ”KÔ*Ø(ð%Dñ%ô%Ð!ð-Ô6ˆHð7	7ð	7ð	7ñ	7ô	7ð	7ð	7ð	7ð	7ð	7ð	7øøøð	7ð	7ð	7ð	7õ:”[ØØ
Œ[Ô
+Ð+ØŒKÔ*ñ
ô
ˆ
õ”	˜( YÑ.Ñ/Ô/ˆà�yŠy˜ T¤[Ô%AÀ5ÑIÔIˆà�%œ* h°Ñ&:¸qÑ%@ÑAÔAÑAˆ	å”:�uœy¨°©Ñ5Ô5¸¼Ô8TÒT×[Ò[Ñ]Ô]Ñ^Ô^ˆà�Y Ð(Ð(s•CC:Ã:C>ÄC>r/Ú
clip_rangerqcóœ—||z}|tj|d|z
d|z¦«z}tjtj||¦«¦«S)Nr])rrfrFÚmaximum)r‘r/rurqÚunclipped_lossÚclipped_losss      rJrhz_UnslothDDPOTrainer.lossMs[€ð%˜ uÑ,ˆØ"�{¥U¤[ØØ�*ÑØ�*Ññ&
ô&
ñ
ˆõ
Œz�%œ-¨¸ÑEÔEÑFÔFÐFrLcóæ—|jjrddl}|jj}nt
jj}|||jj|jj|jj	f|jj
|jj¬¦«S)Nr)ÚlrÚbetasÚweight_decayÚeps)rŸrzÚbitsandbytesÚoptimÚ	AdamW8bitrÚAdamWr{r|r}r~r)r‘Útrainable_layers_parametersrÚ
optimizer_clss    rJrôz$_UnslothDDPOTrainer._setup_optimizer[sx€ØŒ;Ô*ð	.ØÐÐÐà(Ô.Ô8ˆMˆMå!œKÔ-ˆMàˆ}Ø'ØŒ{Ô.Ø”;Ô/°´Ô1MÐNØœÔ<Ø”Ô.ð
ñ
ô
ð	
rLcóf—|j |||¦«| ¦«dSrÅ)r¢Úsave_checkpointÚpop)r‘ÚmodelsÚweightsÚ
output_dirs    rJrîz$_UnslothDDPOTrainer._save_model_hookks.€ØÔ×(Ò(¨°¸*ÑEÔEÐEØ�Š‰
Œ
ˆ
ˆ
ˆ
rLcód—|j ||¦«| ¦«dSrÅ)r¢Úload_checkpointr‡)r‘rˆÚ	input_dirs   rJrðz$_UnslothDDPOTrainer._load_model_hookos,€ØÔ×(Ò(¨°Ñ;Ô;Ð;Ø�
Š
‰ŒˆˆˆrLcó
‡—g}g}‰jj ¦«‰j |dd¦«}t|¦«D�]°}t
ˆfd„t|¦«D¦«Ž\}}‰j |ddd‰jjj¬¦«j	 
‰jj¦«}	‰j