import pandas as pd

# Sample data
data = {
    'Feature1': [100, 200, 300, 400, 500],
    'Feature2': [1, 2, 3, 4, 5]
}
df = pd.DataFrame(data)

# Display original data
print("Original Data:")
print(df)

Original Data:
   Feature1  Feature2
0       100         1
1       200         2
2       300         3
3       400         4
4       500         5

# Importing necessary libraries
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler

# Standardization using StandardScaler
scaler = StandardScaler()
scaled_data = scaler.fit_transform(df)

# Convert the scaled data back to a DataFrame
scaled_df = pd.DataFrame(scaled_data, columns=df.columns)

# Display standardized data
print("Standardized Data:")
print(scaled_df)

Standardized Data:
   Feature1  Feature2
0 -1.414214 -1.414214
1 -0.707107 -0.707107
2  0.000000  0.000000
3  0.707107  0.707107
4  1.414214  1.414214

from sklearn.preprocessing import MinMaxScaler

# Create a MinMaxScaler instance
scaler = MinMaxScaler()

# Apply Min-Max Normalization
normalized_data = scaler.fit_transform(df)

# Convert the normalized data back to a DataFrame
normalized_df = pd.DataFrame(normalized_data, columns=df.columns)

# Display normalized data
print("Normalized Data (Min-Max Scaling):")
print(normalized_df)


# min-max scaler
# df[column_name] = (df[column_name] - np.min(df[column_name])) / (np.max(df[column_name]) - np.min(df[column_name]))

Normalized Data (Min-Max Scaling):
   Feature1  Feature2
0      0.00      0.00
1      0.25      0.25
2      0.50      0.50
3      0.75      0.75
4      1.00      1.00

from sklearn.preprocessing import RobustScaler

# Create a RobustScaler instance
scaler = RobustScaler()

# Apply Robust Scaling
robust_scaled_data = scaler.fit_transform(df)

# Convert the scaled data back to a DataFrame
robust_scaled_df = pd.DataFrame(robust_scaled_data, columns=df.columns)

# Display robust scaled data
print("Robust Scaled Data:")
print(robust_scaled_df)

Robust Scaled Data:
   Feature1  Feature2
0      -1.0      -1.0
1      -0.5      -0.5
2       0.0       0.0
3       0.5       0.5
4       1.0       1.0

from sklearn.preprocessing import MaxAbsScaler

# Create a MaxAbsScaler instance
scaler = MaxAbsScaler()

# Apply MaxAbs Scaling
maxabs_scaled_data = scaler.fit_transform(df)

# Convert the scaled data back to a DataFrame
maxabs_scaled_df = pd.DataFrame(maxabs_scaled_data, columns=df.columns)

# Display MaxAbs scaled data
print("MaxAbs Scaled Data:")
print(maxabs_scaled_df)

MaxAbs Scaled Data:
   Feature1  Feature2
0       0.2       0.2
1       0.4       0.4
2       0.6       0.6
3       0.8       0.8
4       1.0       1.0

from sklearn.preprocessing import Normalizer

# Create a Normalizer instance with L1 norm
normalizer = Normalizer(norm='l1')

# Apply L1 Normalization
l1_normalized_data = normalizer.fit_transform(df)

# Convert the normalized data back to a DataFrame
l1_normalized_df = pd.DataFrame(l1_normalized_data, columns=df.columns)

# Display L1 normalized data
print("L1 Normalized Data:")
print(l1_normalized_df)

# scaling - l1 normalization
# df[column_name] = df[column_name] / df[column_name].abs().sum()

L1 Normalized Data:
   Feature1  Feature2
0  0.990099  0.009901
1  0.990099  0.009901
2  0.990099  0.009901
3  0.990099  0.009901
4  0.990099  0.009901

from sklearn.preprocessing import Normalizer

# Create a Normalizer instance with L2 norm
normalizer = Normalizer(norm='l2')

# Apply L2 Normalization
l2_normalized_data = normalizer.fit_transform(df)

# Convert the normalized data back to a DataFrame
l2_normalized_df = pd.DataFrame(l2_normalized_data, columns=df.columns)

# Display L2 normalized data
print("L2 Normalized Data:")
print(l2_normalized_df)


# scaling - l2 normalization
# df[column_name] = df[column_name] / np.sqrt((df[column_name]**2).sum())

L2 Normalized Data:
   Feature1  Feature2
0   0.99995      0.01
1   0.99995      0.01
2   0.99995      0.01
3   0.99995      0.01
4   0.99995      0.01

import numpy as np

def apply_log_transformation(dataframe, columns=None, base=np.e, add=0):
    """
    Apply log transformation to specific columns of a DataFrame.
    
    Parameters:
        dataframe (pd.DataFrame): Input DataFrame.
        columns (list): List of columns to apply log transformation. If None, apply to all columns.
        base (float): Base of the logarithm. Default is natural log (e).
        add (float): A value to add to the data before applying log. Default is 0.
    
    Returns:
        pd.DataFrame: DataFrame with log-transformed values.
    """
    # Select columns for transformation
    if columns is None:
        columns = dataframe.columns

    transformed_data = dataframe.copy()
    for col in columns:
        transformed_data[col] = np.log(transformed_data[col] + add) / np.log(base)  # Adjust for log base

    return transformed_data

# Example usage
# Assuming `df` is the DataFrame to be transformed
log_transformed_df = apply_log_transformation(df, columns=['Feature1', 'Feature2'], base=10, add=1)

# Display the transformed DataFrame
print("Generalized Log Transformed Data:")
print(log_transformed_df)

# scaling - log transform to the base e
# df[column_name] = np.log(df[column_name]) / np.log(math.e)

Generalized Log Transformed Data:
   Feature1  Feature2
0  2.004321  0.301030
1  2.303196  0.477121
2  2.478566  0.602060
3  2.603144  0.698970
4  2.699838  0.778151

from sklearn.preprocessing import PowerTransformer

# Create a PowerTransformer instance (default is Yeo-Johnson)
power_transformer = PowerTransformer(method='yeo-johnson', standardize=True)

# Apply Power Transformation
power_transformed_data = power_transformer.fit_transform(df)

# Convert the transformed data back to a DataFrame
power_transformed_df = pd.DataFrame(power_transformed_data, columns=df.columns)

# Display Power Transformed Data
print("Power Transformed Data:")
print(power_transformed_df)

Power Transformed Data:
   Feature1  Feature2
0 -1.500778 -1.472976
1 -0.647010 -0.669761
2  0.078865  0.055343
3  0.732301  0.727399
4  1.336622  1.359996

from sklearn.preprocessing import QuantileTransformer

# Create a QuantileTransformer instance
quantile_transformer = QuantileTransformer(output_distribution='uniform', random_state=42)

# Apply Quantile Transformation
quantile_transformed_data = quantile_transformer.fit_transform(df)

# Convert the transformed data back to a DataFrame
quantile_transformed_df = pd.DataFrame(quantile_transformed_data, columns=df.columns)

# Display Quantile Transformed Data
print("Quantile Transformed Data:")
print(quantile_transformed_df)

Quantile Transformed Data:
   Feature1  Feature2
0      0.00      0.00
1      0.25      0.25
2      0.50      0.50
3      0.75      0.75
4      1.00      1.00

/Users/ashrithreddy/anaconda3/lib/python3.11/site-packages/sklearn/preprocessing/_data.py:2829: UserWarning: n_quantiles (1000) is greater than the total number of samples (5). n_quantiles is set to n_samples.
  warnings.warn(

import numpy as np

# Define thresholds
min_val = 0
max_val = 100

# Apply clipping to the DataFrame
clipped_df = df.clip(lower=min_val, upper=max_val)

# Display clipped data
print("Clipped Data:")
print(clipped_df)

Clipped Data:
   Feature1  Feature2
0       100         1
1       100         2
2       100         3
3       100         4
4       100         5

# Define the desired range
desired_min = 0
desired_max = 1

# Apply range adjustment
scaled_by_range_df = (df - df.min()) / (df.max() - df.min()) * (desired_max - desired_min) + desired_min

# Display the scaled DataFrame
print("Scaled by Range Adjustment Data:")
print(scaled_by_range_df)

Scaled by Range Adjustment Data:
   Feature1  Feature2
0      0.00      0.00
1      0.25      0.25
2      0.50      0.50
3      0.75      0.75
4      1.00      1.00

📖 Scaling Features¶

⚖️ Standardization¶

📏 Normalization¶

🛡️ Robust Scaling¶

📶 MaxAbs Scaling¶

📐 L1 Normalization¶

📏 L2 Normalization¶

🔢 Log Transformation¶

🧮 Power Transformation¶

Quantile Transformation¶

✂️ Clipping¶

📊 Scaling by Range Adjustment¶

Advantages:¶

When to Use:¶