a
    ¾ÀhÉ  ã                   @   sŒ   d dl mZmZmZ ddlmZ ddlmZ er<ddlm	Z	 ddl
mZmZmZmZ ddlmZ eƒ rnd d	lZe e¡ZG d
d„ deƒZd	S )é    )ÚTYPE_CHECKINGÚAnyÚOptionalé   )ÚHfQuantizer)Úget_module_from_nameé   )ÚPreTrainedModel)Úis_fp_quant_availableÚis_qutlass_availableÚis_torch_availableÚlogging)ÚQuantizationConfigMixinNc                	       sð   e Zd ZdZdZdZdZdgZedœ‡ fdd„Z	dd	„ Z
d
d
dœdd„Zd$ddedeeef eee  dœdd„Zddœdd„Zddœdd„Zee eee dœdd„Zed%ed dœdd„ƒZd&dd „Zddeeeef ed!œd"d#„Z‡  ZS )'ÚFPQuantHfQuantizerzŒ
    Quantizer for the FP-Quant method. Enables the loading of prequantized models and in-flight quantization of full-precision models.
    FTÚfp_quant)Úquantization_configc                    s   t ƒ j|fi |¤Ž || _d S ©N)ÚsuperÚ__init__r   )Úselfr   Úkwargs©Ú	__class__© úf/var/www/html/assistant/venv/lib/python3.9/site-packages/transformers/quantizers/quantizer_fp_quant.pyr   +   s    zFPQuantHfQuantizer.__init__c                 K   sˆ   t j ¡ stdƒ‚tƒ s(| jjs(tdƒ‚| jjr:t 	d¡ t
ƒ sHtdƒ‚|d u rZtdƒ‚n*t|tƒr„d| ¡ v s|d| ¡ v r„tdƒ‚d S )	NzPFPQuant quantization is only supported on GPU. Please use a different quantizer.a€  Using `fp_quant` with real quantization requires a **Blackwell GPU** and qutlass: `git clone https://github.com/IST-DASLab/qutlass.git && cd qutlass && pip install --no-build-isolation .`. You can use `FPQuantConfig(pseudoquantization=True, ...)` to use Triton-based pseudo-quantization. It doesn't provide any speedups but emulates the quantization behavior of the real quantization.zŠUsing pseudo-quantization for FP-Quant. This doesn't provide any speedups but emulates the quantization behavior of the real quantization.zGUsing `fp_quant` quantization requires fp_quant: `pip install fp_quant`zyYou are attempting to load a FPQuant model without setting device_map. Please set device_map comprised of 'cuda' devices.ÚcpuZdiskz±You are attempting to load a FPQuant model with a device_map that contains a CPU or disk device. This is not supported. Please remove the CPU or disk device from the device_map.)ÚtorchÚcudaZis_availableÚNotImplementedErrorr   r   ZpseudoquantizationÚImportErrorÚloggerÚwarningr
   Ú
ValueErrorÚ
isinstanceÚdictÚvalues)r   Z
device_mapr   r   r   r   Úvalidate_environment/   s,    
ÿÿÿÿ"ÿz'FPQuantHfQuantizer.validate_environmentztorch.dtype)ÚdtypeÚreturnc                 C   s8   |d u rt  d¡ tj}n|tjkr4td|› dƒ‚|S )NzJ`dtype` is None. Setting `dtype=torch.bfloat16` for qutlass compatibility.zInvalid `dtype` z=. fp_quant quantization only supports `dtype=torch.bfloat16`.)r    Úinfor   Zbfloat16r"   )r   r'   r   r   r   Úupdate_dtypeM   s    

zFPQuantHfQuantizer.update_dtypeNr	   ztorch.Tensorztorch.device)ÚmodelÚparam_valueÚ
param_nameÚtarget_deviceÚ
state_dictÚunexpected_keysc           	      C   s®   t ||ƒ\}}| d¡r@tjj| |¡dd|_d |_d |_d S | d¡rttj | |¡¡|_d |_d |_d |_	d S tj | |¡¡|_| 
¡  |d urª||v rª| |¡ d S )Nz.qweightF)Zrequires_gradz	.dqweight)r   Úendswithr   ÚnnÚ	ParameterÚtoÚqweightÚweightÚdqweightÚscalesZpre_forwardÚremove)	r   r+   r,   r-   r.   r/   r0   ÚmoduleÚ_r   r   r   Úcreate_quantized_paramV   s&    	
þ
z)FPQuantHfQuantizer.create_quantized_param)r+   c                 K   s8   ddl m} ddlm} |||| jƒd | j|j_d S )Nr   )Úreplace_with_fp_quant_linearr   )Úadapt_fp_quant_config)Zfp_quant_linear_config)r   r=   Zintegrations.fp_quantr>   r   Úconfig)r   r+   r   r=   r>   r   r   r   Ú$_process_model_before_weight_loading€   s    þz7FPQuantHfQuantizer._process_model_before_weight_loadingc                 K   s   |S r   r   )r   r+   r   r   r   r   Ú#_process_model_after_weight_loading   s    z6FPQuantHfQuantizer._process_model_after_weight_loading)Úmissing_keysÚprefixr(   c                    sJ   ddl m‰  ‡ fdd„| ¡ D ƒ‰ttdœ‡‡fdd„‰‡fdd	„|D ƒS )
Nr   ©ÚFPQuantLinearc                    s   h | ]\}}t |ˆ ƒr|’qS r   )r#   )Ú.0Únamer:   rD   r   r   Ú	<setcomp>•   ó    z9FPQuantHfQuantizer.update_missing_keys.<locals>.<setcomp>)Úkeyr(   c                    s>   ˆ  d¡sˆ  d¡rdS ˆ› dˆ› ‰ t‡ ‡fdd„ˆD ƒƒS )Nz.weightz.biasFÚ.c                 3   s   | ]}|ˆv p|ˆ v V  qd S r   r   )rF   rG   ©Zfull_keyrJ   r   r   Ú	<genexpr>›   rI   zQFPQuantHfQuantizer.update_missing_keys.<locals>.should_exclude.<locals>.<genexpr>)r1   Úany)rJ   )Úfp_quant_namesrC   rL   r   Úshould_exclude—   s    z>FPQuantHfQuantizer.update_missing_keys.<locals>.should_excludec                    s   g | ]}ˆ |ƒs|‘qS r   r   )rF   rJ   )rP   r   r   Ú
<listcomp>   rI   z:FPQuantHfQuantizer.update_missing_keys.<locals>.<listcomp>)r   rE   Znamed_modulesÚstrÚbool)r   r+   rB   rC   r   )rE   rO   rC   rP   r   Úupdate_missing_keys’   s    z&FPQuantHfQuantizer.update_missing_keysc                 C   s   dS )NFr   )r   r+   r   r   r   Úis_trainableŸ   s    zFPQuantHfQuantizer.is_trainablec                 C   s   dS )NTr   )r   Zsafe_serializationr   r   r   Úis_serializable£   s    z"FPQuantHfQuantizer.is_serializable)r+   r,   r-   r/   r(   c           	      K   s8   ddl m} t||ƒ\}}t||ƒr0|dv r0dS dS d S )Nr   rD   )r6   r5   r7   TF)r   rE   r   r#   )	r   r+   r,   r-   r/   r   rE   r:   Ztensor_namer   r   r   Úcheck_quantized_param¦   s
    z(FPQuantHfQuantizer.check_quantized_param)N)N)N)Ú__name__Ú
__module__Ú__qualname__Ú__doc__Zrequires_calibrationZ requires_parameters_quantizationZis_qat_trainableZrequired_packagesr   r   r&   r*   rR   r$   r   r   Úlistr<   r@   rA   rT   ÚpropertyrU   rV   rS   rW   Ú__classcell__r   r   r   r   r   !   s<    ù

ù,þ

ùr   )Útypingr   r   r   Úbaser   Zquantizers_utilsr   Zmodeling_utilsr	   Úutilsr
   r   r   r   Zutils.quantization_configr   r   Z
get_loggerrX   r    r   r   r   r   r   Ú<module>   s   