unsloth_compiled_cache/__pycache__/UnslothPRMTrainer.cpython-311.pyc

§
5$�hÞ›ãó—dZddlmZddlZddlmZddlmZddlmZm	Z	m
Z
mZmZm
Z
mZmZddlmZmZmZmZmZmZmZm
Z
mZmZmZmZmZmZmZmZmZm Z mZm!Z!m"Z"m#Z#m$Z$m%Z%m&Z&m'Z'm(Z(mZm)Z)m*Z*m+Z+mZm,Z,m
Z
mZmZmZm'Z'm)Z)mZddl)Z)ddlTddl-m.Z.m/Z/dd	l0m1Z1ddlZddl2Z3dd
l4m5Z5ddlmZddl6m7Z7m8Z9dd
dd
d
dœZ:ej;dde:¬¦«d„¦«Z<e.Gd„de¦«¦«Z=	Gd„de¦«Z>Gd„de>¦«Z?dS)z8
2025.8.4
2025.8.5
4.55.1
0.21.0
__UNSLOTH_VERSIONING__
é)ÚTensorN)Ú
functional)ÚAnyÚListÚOptionalÚTupleÚUnionÚDictÚSetÚCallable)(ÚBaseImageProcessorrÚDataCollatorÚ"DataCollatorForTokenClassificationÚDatasetÚEvalPredictionÚFeatureExtractionMixinrÚ	PRMConfigÚ
PRMTrainerÚPartialStateÚPathÚ	PeftModelÚPreTrainedModelÚPreTrainedTokenizerBaseÚProcessorMixinÚTrainerÚTrainerCallbackr	ÚchainÚcompute_accuracyÚdisable_dropout_in_modelÚfeaturesÚgenerate_model_cardÚinspectÚis_peft_availableÚis_wandb_availableÚnnÚosÚprepare_model_for_kbit_trainingÚtextwrapÚtorchÚwarningsrrrrr#r&r))Ú*)Ú	dataclassÚfield)ÚVersion)Únullcontext)ÚDataCollatorForSeq2SeqÚDataCollatorForLanguageModelingTF)Úepilogue_fusionÚmax_autotuneÚ
shape_paddingz
trace.enabledztriton.cudagraphs)ÚdynamicÚ	fullgraphÚoptionscó’—tj| d|jd¦«dd¬¦«}tj| d¦«dd¬¦«}g}t	||¦«D]‘\}}| tj¦«}tj|d| d¦«¬¦« 	d¦«}tj
|d¬¦«}||z
}	| |	¦«Œ’	tj|¦«}| |jd|jdf¦«}|S)Néÿÿÿÿér)ÚchunksÚdim)r<Úindex)r<é)
r)ÚchunkÚreshapeÚshapeÚzipÚtoÚfloat32ÚgatherÚ	unsqueezeÚsqueezeÚ	logsumexpÚappendÚconcat)
Úlogitsr=Úchunked_logitsÚ
chunked_indexÚall_per_token_logpsÚchunk_logitsÚchunk_indexÚselected_logitsÚlogsumexp_valuesÚper_token_logpss
          ú]/workspace/Fine-tuning/DS-LLM-TEMPLATE-FINETUNING/unsloth_compiled_cache/UnslothPRMTrainer.pyÚchunked_selective_log_softmaxrU"s5€õ”[ §¢°°F´LÀÔ4DÑ!EÔ!EÐPQÐYZÐ[Ñ[Ô[€NÝ”[ §¢¨rÑ!2Ô!2¸QÀaÐHÑHÔH€MØÐå%(¨¸Ñ%GÔ%Gð4ð4Ñ!ˆ�kØ#—’¥u¤}Ñ5Ô5ˆÝœ, |¸2À{×G\ÒG\Ð]_ÑG`ÔG`ÐaÑaÔa×iÒiÐjlÑmÔmˆÝ œ?¨<¸rÐBÑBÔBÐØ)Ð,<Ñ<ˆØ×"Ò" ?Ñ3Ô3Ð3Ð3ØÝœ,Ð':Ñ;Ô;ÐØ-×5Ò5°v´|ÀA´ÈÌÐUVÌÐ6XÑYÔYÐØÐócó ‡—eZdZUdZedddi¬¦«Zeeed<edddi¬¦«Z	ee
ed	<																																																																																																																																									d,ˆfd+„	ZˆxZS)-ÚUnslothPRMConfiga:
    
    Configuration class for the [`PRMTrainer`].

    This class includes only the parameters that are specific to PRM training. For a full list of training arguments,
    please refer to the [`~transformers.TrainingArguments`] documentation. Note that default values in this class may
    differ from those in [`~transformers.TrainingArguments`].

    Using [`~transformers.HfArgumentParser`] we can turn this class into
    [argparse](https://docs.python.org/3/library/argparse#module-argparse) arguments that can be specified on the
    command line.

    Parameters:
        max_length (`int` or `None`, *optional*, defaults to `1024`):
            Maximum length of the sequences (prompt + completion) used for truncation.
        max_prompt_length (`int` or `None`, *optional*, defaults to `512`):
            Maximum length of the prompt used for truncation.
        max_completion_length (`int` or `None`, *optional*, defaults to `None`):
            Maximum length of the completion used for truncation. The completion is the concatenation of the steps.
        disable_dropout (`bool`, *optional*, defaults to `True`):
            Whether to disable dropout in the model.
        step_separator (`str`, *optional*, defaults to `"
"`):
            Separator used to separate each step of the reasoning process.
        train_on_last_step_only (`bool`, *optional*, defaults to `False`):
            Whether to train only on the last step.
        dataset_num_proc (`int`, *optional*, defaults to `None`):
            Number of processes to use for processing the dataset.
    
    NÚhelpzvLLM SamplingParams)ÚdefaultÚmetadataÚvllm_sampling_paramsr9z8Chunk size to reduce memory usage. -1 is most efficient.Úunsloth_num_chunksFÚnor:éréúç-Cëâ6
?ç{®Gáz„?çÍÌÌÌÌÌì?ç+‡ÙÎ÷ï?ç:Œ0âŽyE>çð?ç@Úlinearçš™™™™™¹?ÚpassiveÚwarningTÚstepsr>éôéO
ÚO1ÚautoÚçÚ
adamw_8bitÚlengthÚ
every_saveÚlastééécŠóN•—|dkrtd|›d�¦«‚|dkrtd|›d�¦«‚|€|#dkr
|$dkrd}d	}#|‡€!d
dlm}‹t	|‹¦«dzd¦«}‡t¦«jd”id
|“d|“d|“d|“d|“d|“d|“d|“d|	“d|
“d|“d|“d|
“d|“d|“d|“d|“d|“d|“d |“d!|“d"|“d#|“d$|“d%|“d&|“d'|“d(|“d)|“d*|“d+|“d,| “d-|!“d.|"“d/|#“d0|$“d1|%“d2|&“d3|'“d4|(“d5|)“d6|*“d7|+“d8|,“d9|-“d:|.“d;|/“d<|0“d=|1“d>|2“d?|3“d@|4“dA|5“dB|6“dC|7“dD|8“dE|9“dF|:“dG|;“dH|<“dI|=“dJ|>“dK|?“dL|@“dM|A“dN|B“dO|C“dP|D“dQ|E“dR|F“dS|G“dT|H“dU|I“dV|J“dW|K“dX|L“dY|M“dZ|N“d[|O“d\|P“d]|Q“d^|R“d_|S“d`|T“da|U“db|V“dc|W“dd|X“de|Y“df|Z“dg|[“dh|\“di|]“dj|^“dk|_“dl|`“dm|a“dn|b“do|c“dp|d“dq|e“dr|f“ds|g“dt|h“du|i“dv|j“dw|k“dx|l“dy|m“dz|n“d{|o“d||p“d}|q“d~|r“d|s“d€|t“d�|u“d‚|v“dƒ|w“d„|x“d…|y“d†|z“d‡|{“dˆ||“d‰|}“dŠ|~“d‹|“dŒ|€“d�|�“dŽ|‚“d�|ƒ“d�|„“d‘|…“d’|†“d“|‡“|Š¤Ž|ˆ|_|‰|_dS)•NgH¯¼šò×z>z Unsloth: Your learning rate of `zi` is too small and less than 1e-7! Consider increasing it, otherwise gradient updates will be close to 0!r>za` is way too larger > 1! Consider decreasing it to 1e-1, otherwise gradient updates will explode!rlrmÚunsloth_training_checkpointsr^r)Ú	cpu_countr_Ú
output_dirÚoverwrite_output_dirÚdo_trainÚdo_evalÚ
do_predictÚ
eval_strategyÚprediction_loss_onlyÚper_device_train_batch_sizeÚper_device_eval_batch_sizeÚper_gpu_train_batch_sizeÚper_gpu_eval_batch_sizeÚgradient_accumulation_stepsÚeval_accumulation_stepsÚ
eval_delayÚtorch_empty_cache_stepsÚ
learning_rateÚweight_decayÚ
adam_beta1Ú
adam_beta2Úadam_epsilonÚ
max_grad_normÚnum_train_epochsÚ	max_stepsÚlr_scheduler_typeÚwarmup_ratioÚwarmup_stepsÚ	log_levelÚlog_level_replicaÚlog_on_each_nodeÚlogging_dirÚlogging_strategyÚlogging_first_stepÚ
logging_stepsÚlogging_nan_inf_filterÚ
save_strategyÚ
save_stepsÚsave_total_limitÚsave_safetensorsÚsave_on_each_nodeÚsave_only_modelÚ'restore_callback_states_from_checkpointÚno_cudaÚuse_cpuÚuse_mps_deviceÚseedÚ	data_seedÚ
jit_mode_evalÚuse_ipexÚbf16Úfp16Úfp16_opt_levelÚhalf_precision_backendÚbf16_full_evalÚfp16_full_evalÚtf32Ú
local_rankÚddp_backendÚ
tpu_num_coresÚtpu_metrics_debugÚdebugÚdataloader_drop_lastÚ
eval_stepsÚdataloader_num_workersÚdataloader_prefetch_factorÚ
past_indexÚrun_nameÚdisable_tqdmÚremove_unused_columnsÚlabel_namesÚload_best_model_at_endÚmetric_for_best_modelÚgreater_is_betterÚignore_data_skipÚfsdpÚfsdp_min_num_paramsÚfsdp_configÚ"fsdp_transformer_layer_cls_to_wrapÚaccelerator_configÚ	deepspeedÚlabel_smoothing_factorÚoptimÚ
optim_argsÚ	adafactorÚgroup_by_lengthÚlength_column_nameÚ	report_toÚddp_find_unused_parametersÚddp_bucket_cap_mbÚddp_broadcast_buffersÚdataloader_pin_memoryÚdataloader_persistent_workersÚskip_memory_metricsÚuse_legacy_prediction_loopÚpush_to_hubÚresume_from_checkpointÚhub_model_idÚhub_strategyÚ	hub_tokenÚhub_private_repoÚhub_always_pushÚhub_revisionÚgradient_checkpointingÚgradient_checkpointing_kwargsÚinclude_inputs_for_metricsÚeval_do_concat_batchesÚfp16_backendÚpush_to_hub_model_idÚpush_to_hub_organizationÚpush_to_hub_tokenÚ
mp_parametersÚauto_find_batch_sizeÚfull_determinismÚtorchdynamoÚ	ray_scopeÚddp_timeoutÚ
torch_compileÚtorch_compile_backendÚtorch_compile_modeÚinclude_tokens_per_secondÚinclude_num_input_tokens_seenÚneftune_noise_alphaÚoptim_target_modulesÚbatch_eval_metricsÚ
eval_on_startÚuse_liger_kernelÚliger_kernel_configÚeval_use_gather_objectÚaverage_tokens_across_devicesÚ
max_lengthÚmax_prompt_lengthÚmax_completion_lengthÚdisable_dropoutÚstep_separatorÚtrain_on_last_step_onlyÚdataset_num_proc©)	ÚFloatingPointErrorÚ
OverflowErrorÚmultiprocessingr|ÚminÚsuperÚ__init__r\r])�Úselfr}r~rr€r�r‚rƒr„r…r†r‡rˆr‰rŠr‹rŒr�rŽr�r�r‘r’r“r”r•r–r—r˜r™ršr›rœr�ržrŸr r¡r¢r£r¤r¥r¦r§r¨r©rªr«r¬rr®r¯r°r±r²r³r´rµr¶r·r¸r¹rºr»r¼r½r¾r¿rÀrÁrÂrÃrÄrÅrÆrÇrÈrÉrÊrËrÌrÍrÎrÏrÐrÑrÒrÓrÔrÕrÖr×rØrÙrÚrÛrÜrÝrÞrßràrárârãrärårærçrèrérêrërìrírîrïrðrñròrórôrõrör÷rørùrúrûrürýrþrÿrrrrr\r]Úkwargsr|Ú	__class__s�                                                                                                                                            €rTr
zUnslothPRMConfig.__init__Zs	ø€ð\˜4ÒÐÕ'9ð;VÐ]jð;Vð;Vð;Vñ(Wô(Wð"WØ˜1ÒÐ¥Mð3FÐUbð3Fð3Fð3Fñ%Gô%GðGØÐ -°7Ò":Ð":¸zÈSÒ?PÐ?PØ7ˆJØ ˆMØÐ#Ø1Ð1Ð1Ð1Ð1Ð1Ý" 9 9¡;¤;¨q¡=°!Ñ4Ô4Ðà�‰ŒÔðG	:ðG	:ðG	:Ø#˜ðG	:à#7Ð#7ðG	:ð �xðG	:ð�gð	G	:ð
$˜ðG	:ð*˜Mð
G	:ð$8Ð#7ðG	:ð+FÐ*EðG	:ð*DÐ)CðG	:ð(@Ð'?ðG	:ð'>Ð&=ðG	:ð+FÐ*EðG	:ð'>Ð&=ðG	:ð$˜ðG	:ð'>Ð&=ðG	:ð *˜Mð!G	:ð"(˜<ð#G	:ð$$˜ð%G	:ð&$˜ð'G	:ð((˜<ð)G	:ð**˜Mð+G	:ð, 0Ð/ð-G	:ð."˜	ð/G	:ð0!2Ð 1ð1G	:ð2(˜<ð3G	:ð4(˜<ð5G	:ð6"˜	ð7G	:ð8!2Ð 1ð9G	:ð: 0Ð/ð;G	:ð<&˜+ð=G	:ð> 0Ð/ð?G	:ð@"4Ð!3ðAG	:ðB*˜MðCG	:ðD&<Ð%;ðEG	:ðF*˜MðGG	:ðH$˜ðIG	:ðJ 0Ð/ðKG	:ðL 0Ð/ðMG	:ðN!2Ð 1ðOG	:ðP.˜oðQG	:ðR7^Ð6]ðSG	:ðT�gðUG	:ðV�gðWG	:ðX,˜^ðYG	:ðZ�4ð[G	:ð\"˜	ð]G	:ð^*˜Mð_G	:ð` �xðaG	:ðb�4ðcG	:ðd�4ðeG	:ðf,˜^ðgG	:ðh&<Ð%;ðiG	:ðj,˜^ðkG	:ðl,˜^ðmG	:ðn�4ðoG	:ðp$˜ðqG	:ðr&˜+ðsG	:ðt*˜MðuG	:ðv!2Ð 1ðwG	:ðx�EðyG	:ðz$8Ð#7ð{G	:ð|$˜ð}G	:ð~&<Ð%;ðG	:ð@*DÐ)CðAG	:ðB$˜ðCG	:ðD �xðEG	:ðF(˜<ðGG	:ðH%:Ð$9ðIG	:ðJ&˜+ðKG	:ðL&<Ð%;ðMG	:ðN%:Ð$9ðOG	:ðP!2Ð 1ðQG	:ðR 0Ð/ðSG	:ðT�4ðUG	:ðV#6Ð"5ðWG	:ðX&˜+ðYG	:ðZ2TÐ1Sð[G	:ð\"4Ð!3ð]G	:ð^"˜	ð_G	:ð`&<Ð%;ðaG	:ðb�EðcG	:ðd$˜ðeG	:ðf"˜	ðgG	:ðh.˜oðiG	:ðj"4Ð!3ðkG	:ðl"˜	ðmG	:ðn*DÐ)CðoG	:ðp!2Ð 1ðqG	:ðr%:Ð$9ðsG	:ðt%:Ð$9ðuG	:ðv-JÐ,IðwG	:ðx#6Ð"5ðyG	:ðz*DÐ)Cð{G	:ð|&˜+ð}G	:ð~&<Ð%;ðG	:ð@(˜<ðAG	:ðB(˜<ðCG	:ðD"˜	ðEG	:ðF 0Ð/ðGG	:ðH.˜oðIG	:ðJ(˜<ðKG	:ðL&<Ð%;ðMG	:ðN-JÐ,IðOG	:ðP*DÐ)CðQG	:ðR&<Ð%;ðSG	:ðT(˜<ðUG	:ðV$8Ð#7ðWG	:ðX(@Ð'?ðYG	:ðZ!2Ð 1ð[G	:ð\*˜Mð]G	:ð^$8Ð#7ð_G	:ð` 0Ð/ðaG	:ðb&˜+ðcG	:ðd"˜	ðeG	:ðf&˜+ðgG	:ðh*˜MðiG	:ðj%:Ð$9ðkG	:ðl"4Ð!3ðmG	:ðn)BÐ(AðoG	:ðp-JÐ,IðqG	:ðr#6Ð"5ðsG	:ðt$8Ð#7ðuG	:ðv"4Ð!3ðwG	:ðx*˜MðyG	:ðz 0Ð/ð{G	:ð|#6Ð"5ð}G	:ð~&<Ð%;ðG	:ð@-JÐ,IðAG	:ðB$˜ðCG	:ðD!2Ð 1ðEG	:ðF%:Ð$9ðGG	:ðH.˜oðIG	:ðJ,˜^ðKG	:ðL'>Ð&=ðMG	:ðN 0Ð/°&ðOG	:ðG	:ðG	:ðP%9ˆÔ!Ø"4ˆÔÐÐrV)‰NNFFFr^Fr:r:NNr_r_rr`rarbrcrdrerfrgr9rhrirrjrkTNrlFr>FrlrmNTFFFFFFrnrnFFFFrorpFFNr9NNFrqFNrNr9NNTNFNNFrqrNNNNrrrsNFFrtNNNNTFTFFNNruNNFNFNFTrpNNNrqTFNrvrwFNNFFNNFFFNFTrxryNTrqFNNr9)
Ú__name__Ú
__module__Ú__qualname__Ú__doc__r-r\rrÚ__annotations__r]Úintr
Ú
__classcell__©r
s@rTrXrX3sgø€€€€€€ððð:+0¨%ØØÐ1Ð2ð+ñ+ô+Ð˜( 3œ-ððñð*/¨ØØÐVÐWð*ñ*ô*Ð˜ #œððñðØ#ØØØØØ$Ø&'Ø%&Ø#'Ø"&Ø&'Ø"#ØØ"%ØØØØØØØØØ$ØØØØ%ØØØ"Ø"ØØ!&ØØØØØ!ØØ27ØØØØØØØØØØØ!'ØØØØØØØ!ØØ$ØØ!"Ø%)ØØØØ $ØØ!&Ø $Ø Ø ØØØØ-1Ø!ØØ!$ØØØØØ%ØØ%)Ø Ø $Ø $Ø(-Ø"Ø%*ØØ!%ØØ#ØØØØØ!&Ø(,Ø%*Ø!%ØØ#Ø#'Ø ØØ#Ø ØØØØØ $Ø!Ø$)Ø(-Ø"Ø#Ø"ØØ Ø"Ø!&Ø(,ØØØ $Øðà"'ØØ#ØðW`5ð`5ð`5ð`5ð`5ð`5ð`5ð`5ð`5ð`5rVrXcó\‡—eZdZdZddgZ												ddeeeej	fdee
deed	eed
eeee
eeffdeeeeeefdeegefd
eeege
fdeeedeejjejjjfdeeejejgejfdee
fˆfd„
Zed„¦«Z ˆfd„Z!			ddeedeedeeeedffd„Z"ˆxZ#S)Ú_UnslothPRMTrainerrqÚtrlÚprmN©NNÚmodelÚargsÚ
data_collatorÚ
train_datasetÚeval_datasetÚprocessing_classÚ
model_initÚcompute_metricsÚ	callbacksÚ
optimizersÚpreprocess_logits_for_metricsÚpeft_configc
ó•—t¦«s|�td¦«‚t¦«r¯|�t|t¦«s˜t	|dd¦«st	|dd¦«rtdtt
jt¦«j	¦«v}
d|j
i}|
s|j�tj
d¦«n|
r|j�
|j|d<t|fi|¤Ž}|}|jrt|¦«|€t }|€'|€td¦«‚t#||j¬	¦«}d
|jv�rzt)¦« ¦«5||j|j|j|j|jdœ}i|¥ddi¥}| |j||j|jd
t;jt;jt;j d¦«¦«t;jt;j d¦«¦«dœ¦«¬¦«}i|¥ddi¥}|�‡| |j||j|jdt;jt;jt;j d¦«¦«t;jt;j d¦«¦«dœ¦«¬¦«}ddd¦«n#1swxYwYtC¦« "|||||||||	|
|¬¦«tG|j$d¦«r!|j$ %|j&¦«dSdS)NzvPEFT is not installed and you passed a `peft_config` in the trainer's kwargs, please install it to use the PEFT modelsÚis_loaded_in_8bitFÚis_quantizedrãÚuse_gradient_checkpointingzÂYou passed `gradient_checkpointing_kwargs` in the trainer's kwargs, but your peft version does not support it. please update to the latest version of peft to use `gradient_checkpointing_kwargs`.z^A processing_class must be specified when using the default DataCollatorForTokenClassification)rýÚ	input_ids)Ú	tokenizerrrýrþrÿrÚis_evalzTokenizing train datasetÚint64)Úlabelsr+)Ú	fn_kwargsÚnum_procÚremove_columnsÚdescr TzTokenizing eval dataset)rrrrrr r!r"r#r$r%Úadd_model_tags)'r#Ú
ValueErrorÚ
isinstancerÚgetattrÚlistr"Ú	signaturer'Ú
parametersrârãr*ÚwarnrrrrrýÚcolumn_namesrÚmain_process_firstrrþrÿrÚmapÚtokenize_rowrr ÚFeaturesÚSequenceÚValuer	r
Úhasattrrr4Ú
_tag_names)rrrrrrr r!r"r#r$r%r&Ú_supports_gc_kwargsÚprepare_model_kwargsr0Útrain_fn_kwargsÚeval_fn_kwargsr
s                  €rTr
z_UnslothPRMTrainer.__init__‚sáø€õ(!Ñ"Ô"ð	 {Ð'>ÝðIñôð
õÑ
 Ô
 ð	 [Ð%<Ý˜e¥YÑ/Ô/ð
Ý˜5Ð"5°uÑ=Ô=ð[ÅÈÐP^Ð`eÑAfÔAfð[Ø*IÍTÝÔ)Õ*IÑJÔJÔUñNôNð+Ð'ð-IÈ$ÔJeÐ+fÐ(à.ðs°4Ô3UÐ3aÝ œ
ðrñôððð-ðs°Ô1SÐ1_ØPTÔPrÐ,Ð-LÑMå;¸EÐZÐZÐEYÐZÐZ�Eà�ðÔð	,Ý$ UÑ+Ô+Ð+àÐ"Ý.ˆOàÐ ØÐ'Ý Øtñôðõ?Ð?OÐ\`Ô\kÐlÑlÔlˆMà˜mÔ8Ð8Ñ8Ý‘”×2Ò2Ñ4Ô4ð&
ð&
à!1Ø&*Ô&9Ø"&¤/Ø)-Ô)?Ø-1Ô-GØ/3Ô/Kð
ð�	ð#B YÐ"A°	¸5Ð"AÐ"A�Ø -× 1Ò 1ØÔ%Ø-Ø!Ô2Ø#0Ô#9Ø3Ý%Ô.å&.Ô&7½¼ÀwÑ8OÔ8OÑ&PÔ&PÝ)1Ô):½8¼>È'Ñ;RÔ;RÑ)SÔ)Sððñôð
!2ñ!ô!�
ð"@ IÐ!?¨y¸$Ð!?Ð!?�ØÐ+Ø#/×#3Ò#3ØÔ)Ø"0Ø!%Ô!6Ø'3Ô'<Ø6Ý!)Ô!2å*2Ô*;½H¼NÈ7Ñ<SÔ<SÑ*TÔ*TÝ-5Ô->½x¼~ÈgÑ?VÔ?VÑ-WÔ-Wððñ"ô"ð
$4ñ$ô$�Lð5&
ð&
ð&
ñ&
ô&
ð&
ð&
ð&
ð&
ð&
ð&
øøøð&
ð&
ð&
ð&
õP	‰Œ×ÒØØØ'Ø'Ø%Ø-Ø!Ø+ØØ!Ø*Gð	ñ	
ô	
ð	
õ�4”:Ð/Ñ0Ô0ð	7ØŒJ×%Ò% d¤oÑ6Ô6Ð6Ð6Ð6ð	7ð	7sÅEJÊJ#Ê&J#có¬‡‡
—‰|dd¬¦«d}ˆfd„|dD¦«}	|r<|s:dgt|d¦«d	z
zt|dd
¦«gz}
nd„|dD¦«}
‰ |d¬¦«Š
ˆ
fd„|	D¦«}	d
„t|	|
¦«D¦«}
t	t|	Ž¦«}t	t|
Ž¦«}
‰j�‰jg|z}|�||d…}|�|d|…}|
d|…}
||z}dgt|¦«z|
z}
|�|d|…}|
d|…}
||
dœS)a/	
        Tokenize a row of the dataset.

        Args:
            features (`dict[str, str]`):
                Row of the dataset, should contain the keys `"prompt"`, `"completions"`, and `"labels"`.
            tokenizer (`PreTrainedTokenizerBase`):
                Tokenizer used to process the data.
            step_separator (`str`):
                Separator between steps in the completion.
            max_length (`int` or `None`):
               Maximum length of the sequences (prompt + completion). If `None`, the sequences are not truncated.
            max_prompt_length (`int` or `None`):
                Maximum length of the prompt. If `None`, the prompt is not truncated.
            max_completion_length (`int` or `None`):
                Maximum length of the completion sequences. If `None`, the completion sequences are not truncated.
            train_on_last_step_only (`bool`):
                Whether to train only on the last step. If `True`, the labels are `-100` for all tokens except the last
                token of the completion.
            is_eval (`bool`):
                Whether the function is used to tokenize samples from a training or an evaluation dataset. Used only if
                `train_on_last_step_only` is set to `True`.

        Returns:
            `dict[str, list[int]]`:
                Tokenized sequences with the keys `"input_ids"`, and `"labels".

        Example:
        ```python
        >>> from transformers import AutoTokenizer

        >>> tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B")
        >>> features = {
        ...     "prompt": "Which number is larger, 9.8 or 9.11?",
        ...     "completions": ["11 is greater than 8.", "Hence, 9.11 > 9.8."],
        ...     "labels": [True, False],
        ... }
        >>> PRMTrainer.tokenize_row(
        ...     features, tokenizer, "\n", max_completion_length=None, train_on_last_step_only=False, is_eval=False
        ... )
        {'input_ids': [23085, 1372, 374, 8131, 11, 220, 24, 13, 23, 476, 220, 24, 13, 16, 16, 30, 16, 16, 374, 7046, 1091, 220, 23, 13, 198, 39, 763, 11, 220, 24, 13, 16, 16, 861, 220, 24, 13, 23, 13, 198],
         'labels': [-100, -100, -100, -100, -100, -100, -100, -100, 1, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, 0]}
        ```
        ÚpromptF©Úadd_special_tokensr+có6•—g|]}‰|d¬¦«d‘ŒS)FrKr+r)Ú.0Ú
completionr,s  €rTú
<listcomp>z3_UnslothPRMTrainer.tokenize_row.<locals>.<listcomp>1s:ø€ð
ð
ð
ØMWˆIˆI�j°UÐ;Ñ;Ô;¸KÔHð
ð
ð
rVÚcompletionséœÿÿÿr/r>r9có,—g|]}t|¦«‘ŒSr)r)rNÚlabels  rTrPz3_UnslothPRMTrainer.tokenize_row.<locals>.<listcomp>7s€ÐAÐAÐA U•c˜%‘j”jÐAÐAÐArVcó•—g|]}|‰z‘ŒSrr)rNrOÚ
separator_idss  €rTrPz3_UnslothPRMTrainer.tokenize_row.<locals>.<listcomp>;sø€ÐXÐXÐX¸*˜:¨
Ñ5ÐXÐXÐXrVcóH—g|]\}}dgt|¦«dz
z|gz‘Œ S)rRr>)Úlen)rNrOrTs   rTrPz3_UnslothPRMTrainer.tokenize_row.<locals>.<listcomp>>s6€ÐqÐqÐqÑ?P¸zÈ5�4�&�C 
™OœO¨aÑ/Ñ0°E°7Ñ:ÐqÐqÐqrVN)r+r/)rXrÚencoderBr8rÚbos_token_id)r r,rrýrþrÿrr-Ú
prompt_idsÚcompletions_idsr/Úcompletion_idsr+rVs `           @rTr?z_UnslothPRMTrainer.tokenize_rowøsâøø€ðp�Y˜x¨Ô1ÀeÐLÑLÔLÈ[ÔYˆ
ð
ð
ð
ð
Ø[cÐdqÔ[rð
ñ
ô
ˆð#ð	B¨7ð	BØ�V�s 8¨HÔ#5Ñ6Ô6¸Ñ:Ñ;½sÀ8ÈHÔCUÐVXÔCYÑ?ZÔ?ZÐ>[Ñ[ˆFˆFàAÐA¨h°xÔ.@ÐAÑAÔAˆFð"×(Ò(¨ÈEÐ(ÑRÔRˆ
ØXÐXÐXÐXÈÐXÑXÔXˆðrÐqÕTWÐXgÐioÑTpÔTpÐqÑqÔqˆõ�e _Ð5Ñ6Ô6ˆÝ•e˜V�nÑ%Ô%ˆàÔ!Ð-Ø#Ô0Ð1°JÑ>ˆJðÐ(Ø#Ð%6Ð$6Ð$7Ð$7Ô8ˆJØ Ð,Ø+Ð,BÐ-BÐ,BÔCˆNØÐ2Ð2Ð2Ô3ˆFà Ñ/ˆ	Ø��#˜j™/œ/Ñ)¨FÑ2ˆàÐ!Ø! + : +Ô.ˆIØ˜K˜Z˜KÔ(ˆFà&°&Ð9Ð9Ð9rVcó•—|jj€t|jj¦«j}n%|jj d¦«d}| |¬¦«t¦« ||¦«dS)Nú/r9)Ú
model_name)	rrÜrr}ÚnameÚsplitÚcreate_model_cardr	Ú_save_checkpoint)rrÚtrialr`r
s    €rTrdz#_UnslothPRMTrainer._save_checkpointXsyø€ØŒ9Ô!Ð)Ý˜dœiÔ2Ñ3Ô3Ô8ˆJˆJàœÔ/×5Ò5°cÑ:Ô:¸2Ô>ˆJØ×Ò¨*ÐÑ5Ô5Ð5Ý
‰Œ× Ò  ¨Ñ.Ô.Ð.Ð.Ð.rVr`Údataset_nameÚtagscó —| ¦«sdSt|jjd¦«r@tj |jjj¦«s|jjj}nd}|€t¦«}n(t|t¦«r|h}nt|¦«}t|jjd¦«r| d¦«| |j
¦«tjd¦«}t!|||j||t%¦«rt&j�t&jjndd|d¬¦	«	}| tj |jjd	¦«¦«dS)
aî
        Creates a draft of a model card using the information available to the `Trainer`.

        Args:
            model_name (`str` or `None`, *optional*, defaults to `None`):