unsloth_compiled_cache/__pycache__/UnslothAlignPropTrainer.cpython-311.pyc

§
2$�hnãóÌ—dZddlmZddlZddlmZddlmZddlmZm	Z	m
Z
mZmZm
Z
mZmZddlmZmZmZmZmZmZm
Z
mZmZmZmZmZmZmZmZmZmZmZmZmZm Z ddlZddlTddl!m"Z"m#Z#dd	l$m%Z%ddlZddl&Z'dd
l(m)Z)ddlmZddl*m+Z+m,Z-dd
dd
d
dœZ.ej/dde.¬¦«d„¦«Z0e"Gd„de¦«¦«Z1	Gd„de¦«Z2Gd„de2¦«Z3dS)z8
2025.8.4
2025.8.5
4.55.1
0.21.0
__UNSLOTH_VERSIONING__
é)ÚTensorN)Ú
functional)ÚAnyÚListÚOptionalÚTupleÚUnionÚDictÚSetÚCallable)ÚAcceleratorÚAlignPropConfigÚAlignPropTrainerrrÚDDPOStableDiffusionPipelinerÚPathÚProjectConfigurationÚPyTorchModelHubMixinr	ÚdefaultdictÚgenerate_model_cardÚget_comet_experiment_urlÚis_wandb_availableÚloggerÚosÚset_seedÚtextwrapÚtorchÚwarnings)Ú*)Ú	dataclassÚfield)ÚVersion)Únullcontext)ÚDataCollatorForSeq2SeqÚDataCollatorForLanguageModelingTF)Úepilogue_fusionÚmax_autotuneÚ
shape_paddingz
trace.enabledztriton.cudagraphs)ÚdynamicÚ	fullgraphÚoptionscó’—tj| d|jd¦«dd¬¦«}tj| d¦«dd¬¦«}g}t	||¦«D]‘\}}| tj¦«}tj|d| d¦«¬¦« 	d¦«}tj
|d¬¦«}||z
}	| |	¦«Œ’	tj|¦«}| |jd|jdf¦«}|S)Néÿÿÿÿér)ÚchunksÚdim)r/Úindex)r/é)
rÚchunkÚreshapeÚshapeÚzipÚtoÚfloat32ÚgatherÚ	unsqueezeÚsqueezeÚ	logsumexpÚappendÚconcat)
Úlogitsr0Úchunked_logitsÚ
chunked_indexÚall_per_token_logpsÚchunk_logitsÚchunk_indexÚselected_logitsÚlogsumexp_valuesÚper_token_logpss
          úc/workspace/Fine-tuning/DS-LLM-TEMPLATE-FINETUNING/unsloth_compiled_cache/UnslothAlignPropTrainer.pyÚchunked_selective_log_softmaxrH"s5€õ”[ §¢°°F´LÀÔ4DÑ!EÔ!EÐPQÐYZÐ[Ñ[Ô[€NÝ”[ §¢¨rÑ!2Ô!2¸QÀaÐHÑHÔH€MØÐå%(¨¸Ñ%GÔ%Gð4ð4Ñ!ˆ�kØ#—’¥u¤}Ñ5Ô5ˆÝœ, |¸2À{×G\ÒG\Ð]_ÑG`ÔG`ÐaÑaÔa×iÒiÐjlÑmÔmˆÝ œ?¨<¸rÐBÑBÔBÐØ)Ð,<Ñ<ˆØ×"Ò" ?Ñ3Ô3Ð3Ð3ØÝœ,Ð':Ñ;Ô;ÐØ-×5Ò5°v´|ÀA´ÈÌÐUVÌÐ6XÑYÔYÐØÐócóÌ‡—eZdZUdZedddi¬¦«Zeeed<edddi¬¦«Z	ee
ed	<																															d ˆfd„	ZˆxZS)!ÚUnslothAlignPropConfiga´
    
    Configuration class for the [`AlignPropTrainer`].

    Using [`~transformers.HfArgumentParser`] we can turn this class into
    [argparse](https://docs.python.org/3/library/argparse#module-argparse) arguments that can be specified on the
    command line.

    Parameters:
        exp_name (`str`, *optional*, defaults to `os.path.basename(sys.argv[0])[: -len(".py")]`):
            Name of this experiment (defaults to the file name without the extension).
        run_name (`str`, *optional*, defaults to `""`):
            Name of this run.
        seed (`int`, *optional*, defaults to `0`):
            Random seed for reproducibility.
        log_with (`str` or `None`, *optional*, defaults to `None`):
            Log with either `"wandb"` or `"tensorboard"`. Check
            [tracking](https://huggingface.co/docs/accelerate/usage_guides/tracking) for more details.
        log_image_freq (`int`, *optional*, defaults to `1`):
            Frequency for logging images.
        tracker_kwargs (`dict[str, Any]`, *optional*, defaults to `{}`):
            Keyword arguments for the tracker (e.g., `wandb_project`).
        accelerator_kwargs (`dict[str, Any]`, *optional*, defaults to `{}`):
            Keyword arguments for the accelerator.
        project_kwargs (`dict[str, Any]`, *optional*, defaults to `{}`):
            Keyword arguments for the accelerator project config (e.g., `logging_dir`).
        tracker_project_name (`str`, *optional*, defaults to `"trl"`):
            Name of project to use for tracking.
        logdir (`str`, *optional*, defaults to `"logs"`):
            Top-level logging directory for checkpoint saving.
        num_epochs (`int`, *optional*, defaults to `100`):
            Number of epochs to train.
        save_freq (`int`, *optional*, defaults to `1`):
            Number of epochs between saving model checkpoints.
        num_checkpoint_limit (`int`, *optional*, defaults to `5`):
            Number of checkpoints to keep before overwriting old ones.
        mixed_precision (`str`, *optional*, defaults to `"fp16"`):
            Mixed precision training.
        allow_tf32 (`bool`, *optional*, defaults to `True`):
            Allow `tf32` on Ampere GPUs.
        resume_from (`str`, *optional*, defaults to `""`):
            Path to resume training from a checkpoint.
        sample_num_steps (`int`, *optional*, defaults to `50`):
            Number of sampler inference steps.
        sample_eta (`float`, *optional*, defaults to `1.0`):
            Eta parameter for the DDIM sampler.
        sample_guidance_scale (`float`, *optional*, defaults to `5.0`):
            Classifier-free guidance weight.
        train_batch_size (`int`, *optional*, defaults to `1`):
            Batch size for training.
        train_use_8bit_adam (`bool`, *optional*, defaults to `False`):
            Whether to use the 8bit Adam optimizer from `bitsandbytes`.
        train_learning_rate (`float`, *optional*, defaults to `1e-3`):
            Learning rate.
        train_adam_beta1 (`float`, *optional*, defaults to `0.9`):
            Beta1 for Adam optimizer.
        train_adam_beta2 (`float`, *optional*, defaults to `0.999`):
            Beta2 for Adam optimizer.
        train_adam_weight_decay (`float`, *optional*, defaults to `1e-4`):
            Weight decay for Adam optimizer.
        train_adam_epsilon (`float`, *optional*, defaults to `1e-8`):
            Epsilon value for Adam optimizer.
        train_gradient_accumulation_steps (`int`, *optional*, defaults to `1`):
            Number of gradient accumulation steps.
        train_max_grad_norm (`float`, *optional*, defaults to `1.0`):
            Maximum gradient norm for gradient clipping.
        negative_prompts (`str` or `None`, *optional*, defaults to `None`):
            Comma-separated list of prompts to use as negative examples.
        truncated_backprop_rand (`bool`, *optional*, defaults to `True`):
            If `True`, randomized truncation to different diffusion timesteps is used.
        truncated_backprop_timestep (`int`, *optional*, defaults to `49`):
            Absolute timestep to which the gradients are backpropagated. Used only if `truncated_backprop_rand=False`.
        truncated_rand_backprop_minmax (`tuple[int, int]`, *optional*, defaults to `(0, 50)`):
            Range of diffusion timesteps for randomized truncated backpropagation.
        push_to_hub (`bool`, *optional*, defaults to `False`):
            Whether to push the final model to the Hub.
    
    NÚhelpzvLLM SamplingParams)ÚdefaultÚmetadataÚvllm_sampling_paramsr,z8Chunk size to reduce memory usage. -1 is most efficient.Úunsloth_num_chunksÚ	inferenceÚéO
r1ÚtrlÚlogsédéÚfp16Té2çð?ç@Fç-Cëâ6
?çÍÌÌÌÌÌì?ç+‡ÙÎ÷ï?ç{®Gáz„?ç:Œ0âŽyE>éé1c ó•—t¦«jdid|“d|“d|“d|“d|“d|“d|“d|“d	|	“d
|
“d|“d|“d
|
“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“| ¤Ž||_||_dS)NÚexp_nameÚrun_nameÚseedÚlog_withÚlog_image_freqÚtracker_project_nameÚlogdirÚ
num_epochsÚ	save_freqÚnum_checkpoint_limitÚmixed_precisionÚ
allow_tf32Úresume_fromÚsample_num_stepsÚ
sample_etaÚsample_guidance_scaleÚtrain_batch_sizeÚtrain_use_8bit_adamÚtrain_learning_rateÚtrain_adam_beta1Útrain_adam_beta2Útrain_adam_weight_decayÚtrain_adam_epsilonÚ!train_gradient_accumulation_stepsÚtrain_max_grad_normÚnegative_promptsÚtruncated_backprop_randÚtruncated_backprop_timestepÚpush_to_hub©)ÚsuperÚ__init__rOrP)"Úselfrdrerfrgrhrirjrkrlrmrnrorprqrrrsrtrurvrwrxryrzr{r|r}r~rr€rOrPÚkwargsÚ	__class__s"                                 €rGrƒzUnslothAlignPropConfig.__init__‹s¯ø€ðH	�‰ŒÔð	0ð	0ð	0Ø�xð	0à�xð	0ð�4ð	0ð �xð		0ð
,˜^ð	0ð$8Ð#7ð
	0ð�Vð	0ð$˜ð	0ð"˜	ð	0ð$8Ð#7ð	0ð.˜oð	0ð$˜ð	0ð&˜+ð	0ð 0Ð/ð	0ð$˜ð	0ð %:Ð$9ð!	0ð" 0Ð/ð#	0ð$#6Ð"5ð%	0ð&#6Ð"5ð'	0ð( 0Ð/ð)	0ð* 0Ð/ð+	0ð,'>Ð&=ð-	0ð."4Ð!3ð/	0ð01RÐ0Qð1	0ð2#6Ð"5ð3	0ð4 0Ð/ð5	0ð6'>Ð&=ð7	0ð8+FÐ*Eð9	0ð:&˜+¨ð;	0ð	0ð	0ð<%9ˆÔ!Ø"4ˆÔÐÐrI)rQrRrSNr1rTrUrVr1rWrXTrRrYrZr[r1Fr\r]r^r_r`rarZNTrbFNr,)
Ú__name__Ú
__module__Ú__qualname__Ú__doc__r rOrrÚ__annotations__rPÚintrƒÚ
__classcell__©r†s@rGrKrK3s*ø€€€€€€ðMðMð\+0¨%ØØÐ1Ð2ð+ñ+ô+Ð˜( 3œ-ððñð*/¨ØØÐVÐWð*ñ*ô*Ð˜ #œððñðØØØØØ$ØØØØ Ø ØØØØØ #ØØ#Ø#ØØ Ø"&Ø"Ø,-Ø!ØØ"&Ø&(ØØ#ØðAC5ðC5ðC5ðC5ðC5ðC5ðC5ðC5ðC5ðC5rIrKcóž‡—eZdZdZddgZ	d!dedeeje	e
e	egejfdege	e
effded	e
eeeegeff
d
„Zd„Zded
efd„Zd„Zdejdedejfd„Zd„Zd„Zd„Zd"d„Zd!de
efd„Zd„Zˆfd„Z			d#de
e
de
e
dee
ee
dffd „ZˆxZS)$Ú_UnslothAlignPropTrainerrRrTÚ	alignpropNÚconfigÚreward_functionÚprompt_functionÚsd_pipelineÚimage_samples_hookc	ó‚—tjdt¦«|€tjd¦«||_||_||_||_tdi|jj¤Ž}|jj	�rJtj tj 
|jj	¦«¦«|j_	dtj |jj	¦«vrÏtt!d„tj|jj	¦«¦«¦«}t%|¦«dkrt'd|jj	›�¦«‚t)d„|D¦«¦«}tj |jj	d|d›�¦«|j_	|dd	z|_t/d|jj|jj||jjd
œ|jj¤Ž|_|jduo
|jdk}	|jjrg|j |jj|	s"tA| !¦«¬¦«n| !¦«|jj"¬
¦«tGj$d|›�¦«tK|jj&d¬¦«||_'|j' (d	|jj)ddd¬¦«|jjdkr
tTj+}
n)|jjdkr
tTj,}
ntTj-}
|j'j. /|jj0|
¬¦«|j'j1 /|jj0|
¬¦«|j'j2 /|jj0|
¬¦«|j' 3¦«}|j 4|j5¦«|j 6|j7¦«|jj8rdtTj9j:j;_8| <t{|t¦«s| >¦«n|¦«|_?|j' 1|j' @|jjA€dgn|jjAddd|j'j@jB¬¦«jC /|jj0¦«¦«d|_D|j'jEp|jjE|_Et�|j'd¦«rj|j'jGr^|j H||j?¦«\}|_?tt!d„| >¦«¦«¦«|_In-|j H||j?¦«\|_I|_?|j	rrtGj$d|j	›�¦«|j J|j	¦«t—|j	 Ld¦«d¦«d	z|_MdSd|_MdS) NzEAlignPropTrainer is deprecated and will be removed in version 0.23.0.z8No image_samples_hook provided; no images will be loggedÚcheckpoint_có
—d|vS)Nr˜r�)Úxs rGú<lambda>z3_UnslothAlignPropTrainer.__init__.<locals>.<lambda>òs€ -°1Ð"4€rIrzNo checkpoints found in có^—g|]*}t| d¦«d¦«‘Œ+S)Ú_r,)rŒÚsplit)Ú.0ršs  rGú
<listcomp>z5_UnslothAlignPropTrainer.__init__.<locals>.<listcomp>øs/€Ð,XÐ,XÐ,XÀqS°·²¸±´¸bÔ1AÑ-BÔ-BÐ,XÐ,XÐ,XrIr,r1)rgrnÚproject_configÚgradient_accumulation_stepsÚtensorboard)Úalignprop_trainer_config)r’Úinit_kwargsÚ
T)Údevice_specificFÚTimestep)ÚpositionÚdisableÚleaveÚdescÚ
dynamic_ncolsrXÚbf16)ÚdtyperRÚptÚ
max_length©Úreturn_tensorsÚpaddingÚ
truncationr±Úuse_loracó—|jS©N)Ú
requires_grad)Úps rGr›z3_UnslothAlignPropTrainer.__init__.<locals>.<lambda>Os€¸!¼/€rIzResuming from r�r�)NrÚwarnÚDeprecationWarningÚ	prompt_fnÚ	reward_fnr’Úimage_samples_callbackrÚproject_kwargsrprÚpathÚnormpathÚ
expanduserÚbasenameÚlistÚfilterÚlistdirÚlenÚ
ValueErrorÚsortedÚjoinÚ	iterationr
rgrnr{Úaccelerator_kwargsÚacceleratorÚis_main_processÚ
init_trackersriÚdictÚto_dictÚtracker_kwargsrÚinforrfr•Úset_progress_bar_configÚis_local_main_processrÚfloat16Úbfloat16r7Úvaer6ÚdeviceÚtext_encoderÚunetÚget_trainable_layersÚregister_save_state_pre_hookÚ_save_model_hookÚregister_load_state_pre_hookÚ_load_model_hookroÚbackendsÚcudaÚmatmulÚ_setup_optimizerÚ
isinstanceÚ
parametersÚ	optimizerÚ	tokenizerr}Úmodel_max_lengthÚ	input_idsÚneg_prompt_embedÚautocastÚhasattrr¶ÚprepareÚtrainable_layersÚ
load_staterŒržÚfirst_epoch)
r„r’r“r”r•r–Úaccelerator_project_configÚcheckpointsÚcheckpoint_numbersÚis_using_tensorboardÚinference_dtyperðrÜs
             rGrƒz!_UnslothAlignPropTrainer.__init__Ösà€õ	Œ
ØSÝñ	
ô	
ð	
ðÐ%ÝŒMÐTÑUÔUÐUà(ˆŒØ(ˆŒØˆŒØ&8ˆÔ#å%9Ð%WÐ%W¸D¼KÔ<VÐ%WÐ%WÐ"àŒ;Ô"ñ	RÝ&(¤g×&6Ò&6µr´w×7IÒ7IÈ$Ì+ÔJaÑ7bÔ7bÑ&cÔ&cˆDŒKÔ#Ø¥B¤G×$4Ò$4°T´[Ô5LÑ$MÔ$MÐMÐMå"ÝØ4Ð4Ýœ
 4¤;Ô#:Ñ;Ô;ñôñô�õ�{Ñ#Ô# qÒ(Ð(Ý$Ð%YÀÄÔ@WÐ%YÐ%YÑZÔZÐZÝ%+Ð,XÐ,XÈKÐ,XÑ,XÔ,XÑ%YÔ%YÐ"Ý*,¬'¯,ª,Ø”KÔ+Ø:Ð"4°RÔ"8Ð:Ð:ñ+ô+�”Ô'ð
8JÈ"Ô7MÐPQÑ7QÐ*Ô4å&ð	
Ø”[Ô)Ø œKÔ7Ø5ð)-¬Ô(Uð	
ð	
ðŒkÔ,ð	
ð	
ˆÔð &œ°dÐ:Ð_¸v¼ÐR_Ò?_ÐàÔÔ+ð	ØÔ×*Ò*Ø”Ô0à+ð&•t°V·^²^Ñ5EÔ5EÐFÑFÔFÐFà—^’^Ñ%Ô%Ø œKÔ6ð
+ñ
ô
ð
õ	Œ�M˜�M�MÑ"Ô"Ð"å�”Ô!°4Ð8Ñ8Ô8Ð8à&ˆÔàÔ×0Ò0ØØÔ(Ô>Ð>ØØØð	1ñ	
ô	
ð	
ðÔÔ+¨vÒ5Ð5Ý#œmˆOˆOØ
Ô
Ô
-°Ò
7Ð
7Ý#œnˆOˆOå#œmˆOàÔÔ×Ò Ô 0Ô 7¸ÐÑOÔOÐOØÔÔ%×(Ò(¨Ô)9Ô)@ÈÐ(ÑXÔXÐXØÔÔ× Ò  Ô!1Ô!8ÀÐ ÑPÔPÐPàÔ+×@Ò@ÑBÔBÐàÔ×5Ò5°dÔ6KÑLÔLÐLØÔ×5Ò5°dÔ6KÑLÔLÐLðŒ;Ô!ð	9Ø48�EŒNÔÔ&Ô1à×.Ò.Ý1;Ð<LÍdÑ1SÔ1SÐiÐ×'Ò'Ñ)Ô)Ð)ÐYiñ
ô
ˆŒð!%Ô 0× =Ò =ØÔ×&Ò&ØœÔ4Ð<���À$Ä+ÔB^Ø#Ø$ØØÔ+Ô5ÔFð
'ñ
ô
ôŸš˜4Ô+Ô2Ñ3Ô3ñ!
ô!
ðô!
ˆÔðÔ(Ô1ÐN°TÔ5EÔ5NˆŒ
å�4Ô# ZÑ0Ô0ð	o°TÔ5EÔ5Nð	oØ#'Ô#3×#;Ò#;Ð<LÈdÌnÑ#]Ô#]Ñ ˆD�$”.Ý$(Ð0IÐ0IÈ4Ï?Ê?ÑK\ÔK\Ñ)]Ô)]Ñ$^Ô$^ˆDÔ!Ð!à48Ô4D×4LÒ4LÐM]Ð_cÔ_mÑ4nÔ4nÑ1ˆDÔ! 4¤>àÔð	!ÝŒKÐ=¨Ô);Ð=Ð=Ñ>Ô>Ð>ØÔ×'Ò'¨Ô(:Ñ;Ô;Ð;Ý" 6Ô#5×#;Ò#;¸CÑ#@Ô#@ÀÔ#DÑEÔEÈÑIˆDÔÐÐà ˆDÔÐÐrIcó^—| |d|d|d¦«\}}|S)NÚimagesÚpromptsÚprompt_metadata)r¾)r„Úprompt_image_pairsÚrewardÚreward_metadatas    rGÚcompute_rewardsz(_UnslothAlignPropTrainer.compute_rewardsZs:€Ø"&§.¢.Ø˜xÔ(Ð*<¸YÔ*GÐI[Ð\mÔInñ#
ô#
Ñˆ�ðˆ
rIÚepochÚglobal_stepc
óÄ—tt¦«}|jj ¦«t|jj¦«D�]q}|j 	|jj¦«5| 
¦«5tj¦«5| 
|jj¬¦«}| |¦«}||d<|j |¦« ¦« ¦« ¦«}| |¦«}|j |¦«|jjr]|j t1|jt¦«s|j ¦«n|j|jj¦«|j ¦«|j ¦«ddd¦«n#1swxYwYddd¦«n#1swxYwYddd¦«n#1swxYwY|d |  ¦«¦«|d | !¦«¦«|d | "¦«¦«�Œs|jjr‡d„| #¦«D¦«}|j $|d¬	¦«}| %d
|i¦«|j &||¬¦«|dz
}tt¦«}ntOd
¦«‚|j(�:||jj)zdkr'| (|||jj*d¦«|dkr8||jj+zdkr%|jj,r|j -¦«|S)a
        Perform a single step of training.

        Args:
            epoch (int): The current epoch.
            global_step (int): The current global step.

        Side Effects:
            - Model weights are updated
            - Logs the statistics to the accelerator trackers.
            - If `self.image_samples_callback` is not None, it will be called with the prompt_image_pairs, global_step,
              and the accelerator tracker.

        Returns:
            global_step (int): The updated global step.
        )Ú
batch_sizeÚrewardsNÚreward_meanÚ
reward_stdÚlosscób—i|],\}}|tjtj|¦«¦«“Œ-Sr�)rÚmeanÚtensor)rŸÚkÚvs   rGú
<dictcomp>z1_UnslothAlignPropTrainer.step.<locals>.<dictcomp>—s0€ÐLÐLÐL±t°q¸!�A•u”z¥%¤,¨q¡/¤/Ñ2Ô2ÐLÐLÐLrIr	)Ú	reductionr)Ústepr1zsOptimization step should have been performed by this point. Please check calculated gradient accumulation settings.r).rrÅr•rÜÚtrainÚranger’r{rÎÚ
accumulaterírÚenable_gradÚ_generate_samplesrtrÿr8ÚdetachÚcpuÚnumpyÚcalculate_lossÚbackwardÚsync_gradientsÚclip_grad_norm_rærðrçr|rèrÚ	zero_gradr<r	ÚstdÚitemÚitemsÚreduceÚupdateÚlogrÉr¿rhÚtrackersrlrÏÚ
save_state)	r„rrrÔr�rürÚrewards_visrs	         rGrz_UnslothAlignPropTrainer.step`sN€õ"�4Ñ Ô ˆàÔÔ×#Ò#Ñ%Ô%Ð%å�t”{ÔDÑEÔEð	-ñ	-ˆAØÔ!×,Ò,¨TÔ-=Ô-BÑCÔCð
+ð
+ÀTÇ]Â]Á_Ä_ð
+ð
+ÕV[ÔVgÑViÔVið
+ð
+Ø%)×%;Ò%;Ø#œ{Ô;ð&<ñ&ô&Ð"ð×.Ò.Ð/AÑBÔB�à07Ð" 9Ñ-à"Ô.×5Ò5°gÑ>Ô>×EÒEÑGÔG×KÒKÑMÔM×SÒSÑUÔU�à×*Ò*¨7Ñ3Ô3�àÔ ×)Ò)¨$Ñ/Ô/Ð/àÔ#Ô2ðØÔ$×4Ò4å)¨$Ô*?ÅÑFÔFð3˜Ô-×8Ò8Ñ:Ô:Ð:à!Ô2ØœÔ7ñ	ôðð”×#Ò#Ñ%Ô%Ð%Ø”×(Ò(Ñ*Ô*Ð*ð1
+ð
+ð
+ñ
+ô
+ð
+ð
+ð
+ð
+ð
+ð
+øøøð
+ð
+ð
+ð
+ð
+ð
+ð
+ñ
+ô
+ð
+ð
+ð
+ð
+ð
+ð
+øøøð
+ð
+ð
+ð
+ð
+ð
+ð
+ñ
+ô
+ð
+ð
+ð
+ð
+ð
+ð
+øøøð
+ð
+ð
+ð
+ð4