常用数据类型

本章将为你介绍机器学习中最常见的四种数据类型:数值型、文本型、图像型和类别型数据。

数据类型就像是食材的种类,不同的食材需要不同的处理方法。同样,不同类型的数据也需要不同的处理技术和算法。

四大数据类型分类

数值型数据

什么是数值型数据?

数值型数据就像尺子测量的结果,可以进行数学运算,是机器学习中最常见的数据类型。

数值型数据的分类

1. 连续型数值数据

实例

# 连续型数值数据示例
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

def continuous_data_example():
    """连续型数值数据示例"""
   
    print("=== 连续型数值数据示例 ===")
   
    # 生成连续型数据
    np.random.seed(42)
    n_samples = 1000
   
    # 身高数据(连续型)
    heights = np.random.normal(170, 10, n_samples)  # 均值170,标准差10
    weights = heights * 0.7 + np.random.normal(0, 5, n_samples)  # 体重与身高相关
    temperatures = np.random.normal(36.5, 0.5, n_samples)  # 体温
   
    # 创建数据框
    continuous_data = pd.DataFrame({
        '身高(cm)': heights,
        '体重(kg)': weights,
        '体温(°C)': temperatures,
        '年龄': np.random.randint(18, 65, n_samples)
    })
   
    print("连续型数据示例:")
    print(continuous_data.head())
    print(f"\n数据统计信息:")
    print(continuous_data.describe())
   
    # 可视化连续型数据分布
    plt.figure(figsize=(12, 8))
   
    plt.subplot(2, 2, 1)
    plt.hist(continuous_data['身高(cm)'], bins=30, alpha=0.7, color='skyblue')
    plt.title('身高分布')
    plt.xlabel('身高 (cm)')
    plt.ylabel('频数')
   
    plt.subplot(2, 2, 2)
    plt.hist(continuous_data['体重(kg)'], bins=30, alpha=0.7, color='lightgreen')
    plt.title('体重分布')
    plt.xlabel('体重 (kg)')
    plt.ylabel('频数')
   
    plt.subplot(2, 2, 3)
    plt.hist(continuous_data['体温(°C)'], bins=30, alpha=0.7, color='salmon')
    plt.title('体温分布')
    plt.xlabel('体温 (°C)')
    plt.ylabel('频数')
   
    plt.subplot(2, 2, 4)
    plt.scatter(continuous_data['身高(cm)'], continuous_data['体重(kg)'], alpha=0.6)
    plt.title('身高 vs 体重')
    plt.xlabel('身高 (cm)')
    plt.ylabel('体重 (kg)')
   
    plt.tight_layout()
    plt.show()
   
    return continuous_data

# 运行示例
continuous_df = continuous_data_example()
x

. 离散型数值数据

实例

# 离散型数值数据示例
def discrete_data_example():
    """离散型数值数据示例"""
   
    print("\n=== 离散型数值数据示例 ===")
   
    # 生成离散型数据
    np.random.seed(42)
    n_samples = 500
   
    # 离散型数据
    customer_count = np.random.poisson(10, n_samples)  # 泊松分布:顾客数量
    product_rating = np.random.randint(1, 6, n_samples)  # 1-5星评分
    defect_count = np.random.binomial(20, 0.1, n_samples)  # 二项分布:缺陷数量
    call_duration = np.random.exponential(5, n_samples) * 60  # 指数分布:通话时长(秒)
   
    # 创建数据框
    discrete_data = pd.DataFrame({
        '顾客数量': customer_count,
        '产品评分': product_rating,
        '缺陷数量': defect_count,
        '通话时长(秒)': call_duration.astype(int)
    })
   
    print("离散型数据示例:")
    print(discrete_data.head())
    print(f"\n数据统计信息:")
    print(discrete_data.describe())
   
    # 可视化离散型数据
    plt.figure(figsize=(12, 8))
   
    plt.subplot(2, 2, 1)
    plt.hist(discrete_data['顾客数量'], bins=range(0, max(discrete_data['顾客数量'])+2),
             alpha=0.7, color='orange')
    plt.title('顾客数量分布')
    plt.xlabel('顾客数量')
    plt.ylabel('频数')
   
    plt.subplot(2, 2, 2)
    value_counts = discrete_data['产品评分'].value_counts().sort_index()
    plt.bar(value_counts.index, value_counts.values, color='purple', alpha=0.7)
    plt.title('产品评分分布')
    plt.xlabel('评分')
    plt.ylabel('频数')
   
    plt.subplot(2, 2, 3)
    plt.hist(discrete_data['缺陷数量'], bins=range(0, max(discrete_data['缺陷数量'])+2),
             alpha=0.7, color='red')
    plt.title('缺陷数量分布')
    plt.xlabel('缺陷数量')
    plt.ylabel('频数')
   
    plt.subplot(2, 2, 4)
    plt.hist(discrete_data['通话时长(秒)'], bins=30, alpha=0.7, color='brown')
    plt.title('通话时长分布')
    plt.xlabel('通话时长 (秒)')
    plt.ylabel('频数')
   
    plt.tight_layout()
    plt.show()
   
    return discrete_data

# 运行示例
discrete_df = discrete_data_example()

数值型数据的处理方法

实例

# 数值型数据处理方法
class NumericDataProcessor:
    def __init__(self):
        self.scalers = {}
        self.transformers = {}
   
    def detect_outliers(self, data, method='iqr'):
        """检测异常值"""
        outliers_info = {}
       
        for column in data.select_dtypes(include=[np.number]).columns:
            if method == 'iqr':
                Q1 = data[column].quantile(0.25)
                Q3 = data[column].quantile(0.75)
                IQR = Q3 - Q1
                lower_bound = Q1 - 1.5 * IQR
                upper_bound = Q3 + 1.5 * IQR
               
                outliers = data[(data[column] < lower_bound) |
                               (data[column] > upper_bound)]
               
            elif method == 'zscore':
                z_scores = np.abs((data[column] - data[column].mean()) / data[column].std())
                outliers = data[z_scores > 3]
           
            outliers_info[column] = {
                'count': len(outliers),
                'indices': outliers.index.tolist(),
                'percentage': (len(outliers) / len(data)) * 100
            }
       
        return outliers_info
   
    def handle_missing_values(self, data, strategy='mean'):
        """处理缺失值"""
        processed_data = data.copy()
       
        for column in processed_data.select_dtypes(include=[np.number]).columns:
            if processed_data[column].isnull().sum() > 0:
                if strategy == 'mean':
                    processed_data[column].fillna(processed_data[column].mean(), inplace=True)
                elif strategy == 'median':
                    processed_data[column].fillna(processed_data[column].median(), inplace=True)
                elif strategy == 'mode':
                    processed_data[column].fillna(processed_data[column].mode()[0], inplace=True)
                elif strategy == 'forward':
                    processed_data[column].fillna(method='ffill', inplace=True)
                elif strategy == 'backward':
                    processed_data[column].fillna(method='bfill', inplace=True)
       
        return processed_data
   
    def normalize_data(self, data, method='minmax'):
        """数据标准化"""
        from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler
       
        processed_data = data.copy()
        numeric_columns = data.select_dtypes(include=[np.number]).columns
       
        if method == 'minmax':
            scaler = MinMaxScaler()
        elif method == 'standard':
            scaler = StandardScaler()
        elif method == 'robust':
            scaler = RobustScaler()
        else:
            raise ValueError("方法必须是 'minmax', 'standard', 或 'robust'")
       
        processed_data[numeric_columns] = scaler.fit_transform(processed_data[numeric_columns])
        self.scalers[method] = scaler
       
        return processed_data
   
    def create_features(self, data):
        """特征工程"""
        processed_data = data.copy()
        numeric_columns = data.select_dtypes(include=[np.number]).columns
       
        # 创建多项式特征
        if len(numeric_columns) >= 2:
            col1, col2 = numeric_columns[0], numeric_columns[1]
            processed_data[f'{col1}_x_{col2}'] = data[col1] * data[col2]
            processed_data[f'{col1}_div_{col2}'] = data[col1] / (data[col2] + 1e-8)
       
        # 创建统计特征
        for column in numeric_columns:
            processed_data[f'{column}_log'] = np.log1p(data[column])
            processed_data[f'{column}_sqrt'] = np.sqrt(np.abs(data[column]))
            processed_data[f'{column}_square'] = data[column] ** 2
       
        return processed_data

# 使用示例
processor = NumericDataProcessor()

# 检测异常值
outliers = processor.detect_outliers(continuous_df)
print("\n异常值检测结果:")
for column, info in outliers.items():
    if info['count'] > 0:
        print(f"{column}: {info['count']} 个异常值 ({info['percentage']:.2f}%)")

# 数据标准化
normalized_data = processor.normalize_data(continuous_df, method='standard')
print("\n标准化后的数据示例:")
print(normalized_data.head())

文本型数据

什么是文本型数据?

文本型数据就像人类语言的表达,包含丰富的语义信息,但需要特殊处理才能被机器学习模型使用。

文本型数据的分类

1. 结构化文本数据

实例

# 结构化文本数据示例
import pandas as pd
import re
from collections import Counter

def structured_text_example():
    """结构化文本数据示例"""
   
    print("\n=== 结构化文本数据示例 ===")
   
    # 创建结构化文本数据
    structured_data = pd.DataFrame({
        '邮件ID': range(1, 11),
        '发件人': [
            'zhangsan@example.com', 'lisi@company.com', 'wangwu@service.com',
            'zhaoliu@business.com', 'qianqi@personal.com', 'sunba@tech.com',
            'zhoujiu@edu.com', 'wushi@org.com', 'zhengyi@gov.com',
            'chener@health.com'
        ],
        '主题': [
            '会议通知:明天下午3点开会',
            '产品报价:最新价格表',
            '客户反馈:服务满意度调查',
            '项目进度:第一阶段完成',
            '假期安排:国庆节放假通知',
            '技术更新:系统升级公告',
            '学术会议:论文征集通知',
            '培训通知:新员工培训',
            '政策文件:最新规定',
            '健康提醒:体检通知'
        ],
        '内容长度': [156, 234, 189, 145, 98, 267, 198, 134, 312, 87]
    })
   
    print("结构化文本数据示例:")
    print(structured_data)
   
    # 文本特征提取
    print("\n=== 文本特征分析 ===")
   
    # 邮箱域名分析
    domains = [email.split('@')[1] for email in structured_data['发件人']]
    domain_counts = Counter(domains)
    print(f"邮箱域名分布:{dict(domain_counts)}")
   
    # 主题关键词分析
    all_words = []
    for subject in structured_data['主题']:
        words = re.findall(r'[\u4e00-\u9fff]+', subject)  # 提取中文词汇
        all_words.extend(words)
   
    word_counts = Counter(all_words)
    print(f"主题词频:{dict(word_counts)}")
   
    # 内容长度统计
    print(f"内容长度统计:")
    print(structured_data['内容长度'].describe())
   
    return structured_data

# 运行示例
structured_text_df = structured_text_example()

2. 非结构化文本数据

实例

# 非结构化文本数据示例
def unstructured_text_example():
    """非结构化文本数据示例"""
   
    print("\n=== 非结构化文本数据示例 ===")
   
    # 创建非结构化文本数据
    unstructured_texts = [
        """
        人工智能技术正在快速发展,深度学习、机器学习、自然语言处理等领域取得了重大突破。
        这些技术在医疗、金融、教育、交通等多个行业都有广泛应用,为社会发展带来了新的机遇。
        未来,随着计算能力的提升和算法的改进,人工智能将在更多领域发挥重要作用。
        """
,
        """
        今天天气真好,阳光明媚,微风徐徐。我决定去公园散步,享受这美好的时光。
        公园里有很多花,红的、黄的、紫的,五颜六色,非常美丽。小鸟在树上歌唱,
        蝴蝶在花丛中飞舞,一切都显得那么和谐自然。
        """
,
        """
        股市今天表现强劲,上证指数上涨2.3%,深证成指上涨1.8%。
        科技股领涨,多只股票涨停。分析师认为,这主要得益于近期出台的利好政策。
        投资者信心得到提振,市场交投活跃,成交量明显放大。
        """
,
        """
        健康生活方式包括合理饮食、适量运动、充足睡眠和良好心态。
        建议每天摄入蔬菜水果,减少油腻食物;每周至少运动3次,每次30分钟以上;
        保证7-8小时睡眠;学会调节情绪,保持积极乐观的心态。
        """

    ]
   
    text_categories = ['科技', '生活', '财经', '健康']
   
    # 创建数据框
    unstructured_df = pd.DataFrame({
        '文本': unstructured_texts,
        '类别': text_categories
    })
   
    print("非结构化文本数据示例:")
    for i, row in unstructured_df.iterrows():
        print(f"\n类别:{row['类别']}")
        print(f"文本:{row['文本'][:100]}...")
   
    return unstructured_df

# 运行示例
unstructured_text_df = unstructured_text_example()

文本数据处理方法

实例


# 文本数据处理方法
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.preprocessing import LabelEncoder

class TextDataProcessor:
    def __init__(self):
        self.vectorizers = {}
        self.label_encoders = {}
   
    def clean_text(self, text):
        """文本清洗"""
        # 移除特殊字符和数字
        text = re.sub(r'[^\u4e00-\u9fff\s]', '', text)
        # 移除多余空格
        text = re.sub(r'\s+', ' ', text).strip()
        return text
   
    def tokenize_chinese(self, text):
        """中文分词"""
        words = jieba.lcut(text)
        # 移除停用词(简化版)
        stop_words = {'的', '了', '在', '是', '我', '有', '和', '就', '不', '人', '都', '一', '一个', '上', '也', '很', '到', '说', '要', '去', '你', '会', '着', '没有', '看', '好', '自己', '这'}
        words = [word for word in words if word not in stop_words and len(word) > 1]
        return words
   
    def extract_features(self, texts, method='tfidf'):
        """特征提取"""
        # 文本预处理
        cleaned_texts = [self.clean_text(text) for text in texts]
       
        if method == 'tfidf':
            vectorizer = TfidfVectorizer(max_features=1000, token_pattern=r'(?u)\b\w+\b')
        elif method == 'count':
            vectorizer = CountVectorizer(max_features=1000, token_pattern=r'(?u)\b\w+\b')
        else:
            raise ValueError("方法必须是 'tfidf' 或 'count'")
       
        features = vectorizer.fit_transform(cleaned_texts)
        self.vectorizers[method] = vectorizer
       
        return features.toarray(), vectorizer.get_feature_names_out()
   
    def analyze_text_statistics(self, texts):
        """文本统计分析"""
        stats = []
       
        for text in texts:
            cleaned_text = self.clean_text(text)
            words = self.tokenize_chinese(cleaned_text)
           
            stats.append({
                '字符数': len(text),
                '清洗后字符数': len(cleaned_text),
                '词数': len(words),
                '平均词长': np.mean([len(word) for word in words]) if words else 0,
                '唯一词数': len(set(words))
            })
       
        return pd.DataFrame(stats)
   
    def encode_labels(self, labels):
        """标签编码"""
        encoder = LabelEncoder()
        encoded_labels = encoder.fit_transform(labels)
        self.label_encoders['default'] = encoder
        return encoded_labels, encoder.classes_

# 使用示例
text_processor = TextDataProcessor()

# 文本统计分析
text_stats = text_processor.analyze_text_statistics(unstructured_text_df['文本'])
print("\n文本统计分析:")
print(text_stats)

# 特征提取
features, feature_names = text_processor.extract_features(
    unstructured_text_df['文本'], method='tfidf'
)
print(f"\n特征矩阵形状:{features.shape}")
print(f"前10个特征:{feature_names[:10]}")

# 标签编码
encoded_labels, label_classes = text_processor.encode_labels(
    unstructured_text_df['类别']
)
print(f"\n编码后的标签:{encoded_labels}")
print(f"标签类别:{label_classes}")

图像型数据

什么是图像型数据?

图像型数据就像视觉世界的数字化表达,由像素点组成,包含丰富的空间和颜色信息。

图像型数据的分类

1. 灰度图像

实例

# 灰度图像示例
import numpy as np
import matplotlib.pyplot as plt
from PIL import Image

def grayscale_image_example():
    """灰度图像示例"""
   
    print("\n=== 灰度图像示例 ===")
   
    # 创建简单的灰度图像
    # 创建一个 100x100 的灰度图像
    height, width = 100, 100
   
    # 创建渐变图像
    gradient = np.zeros((height, width))
    for i in range(height):
        gradient[i, :] = i  # 垂直渐变
   
    # 创建棋盘图案
    checkerboard = np.zeros((height, width))
    for i in range(0, height, 10):
        for j in range(0, width, 10):
            if (i // 10 + j // 10) % 2 == 0:
                checkerboard[i:i+10, j:j+10] = 255
   
    # 创建圆形图案
    circle = np.zeros((height, width))
    center_x, center_y = width // 2, height // 2
    radius = 30
    for i in range(height):
        for j in range(width):
            if (i - center_y) ** 2 + (j - center_x) ** 2 <= radius ** 2:
                circle[i, j] = 255
   
    # 显示图像
    plt.figure(figsize=(12, 4))
   
    plt.subplot(1, 3, 1)
    plt.imshow(gradient, cmap='gray')
    plt.title('渐变图像')
    plt.axis('off')
   
    plt.subplot(1, 3, 2)
    plt.imshow(checkerboard, cmap='gray')
    plt.title('棋盘图案')
    plt.axis('off')
   
    plt.subplot(1, 3, 3)
    plt.imshow(circle, cmap='gray')
    plt.title('圆形图案')
    plt.axis('off')
   
    plt.tight_layout()
    plt.show()
   
    # 图像数据信息
    print(f"渐变图像形状:{gradient.shape}")
    print(f"数据类型:{gradient.dtype}")
    print(f"像素值范围:{gradient.min()} - {gradient.max()}")
   
    return gradient, checkerboard, circle

# 运行示例
gradient_img, checkerboard_img, circle_img = grayscale_image_example()
x

2. 彩色图像

实例

# 彩色图像示例
def color_image_example():
    """彩色图像示例"""
   
    print("\n=== 彩色图像示例 ===")
   
    height, width = 100, 100
   
    # 创建 RGB 彩色图像
    # 红色渐变
    red_gradient = np.zeros((height, width, 3), dtype=np.uint8)
    red_gradient[:, :, 0] = np.linspace(0, 255, width)  # 红色通道渐变
   
    # 绿色渐变
    green_gradient = np.zeros((height, width, 3), dtype=np.uint8)
    green_gradient[:, :, 1] = np.linspace(0, 255, width)  # 绿色通道渐变
   
    # 蓝色渐变
    blue_gradient = np.zeros((height, width, 3), dtype=np.uint8)
    blue_gradient[:, :, 2] = np.linspace(0, 255, width)  # 蓝色通道渐变
   
    # 彩虹图案
    rainbow = np.zeros((height, width, 3), dtype=np.uint8)
    for i in range(width):
        hue = i / width
        # 简化的 HSV 到 RGB 转换
        if hue < 1/3:
            rainbow[:, i] = [255 * (1 - 3*hue), 255 * 3*hue, 0]
        elif hue < 2/3:
            rainbow[:, i] = [0, 255 * (2 - 3*hue), 255 * (3*hue - 1)]
        else:
            rainbow[:, i] = [255 * (3*hue - 2), 0, 255 * (3 - 3*hue)]
   
    # 显示图像
    plt.figure(figsize=(12, 8))
   
    plt.subplot(2, 2, 1)
    plt.imshow(red_gradient)
    plt.title('红色渐变')
    plt.axis('off')
   
    plt.subplot(2, 2, 2)
    plt.imshow(green_gradient)
    plt.title('绿色渐变')
    plt.axis('off')
   
    plt.subplot(2, 2, 3)
    plt.imshow(blue_gradient)
    plt.title('蓝色渐变')
    plt.axis('off')
   
    plt.subplot(2, 2, 4)
    plt.imshow(rainbow)
    plt.title('彩虹图案')
    plt.axis('off')
   
    plt.tight_layout()
    plt.show()
   
    # 图像通道信息
    print(f"彩色图像形状:{rainbow.shape}")
    print(f"数据类型:{rainbow.dtype}")
    print(f"像素值范围:{rainbow.min()} - {rainbow.max()}")
   
    return red_gradient, green_gradient, blue_gradient, rainbow

# 运行示例
red_img, green_img, blue_img, rainbow_img = color_image_example()

图像数据处理方法

实例


# 图像数据处理方法
from skimage import filters, feature, measure, transform
from skimage.color import rgb2gray, rgb2hsv

class ImageDataProcessor:
    def __init__(self):
        pass
   
    def resize_image(self, image, target_size):
        """调整图像大小"""
        from skimage.transform import resize
        return resize(image, target_size, anti_aliasing=True)
   
    def normalize_image(self, image):
        """图像归一化"""
        return (image - image.min()) / (image.max() - image.min())
   
    def extract_color_features(self, image):
        """提取颜色特征"""
        if len(image.shape) == 3:  # 彩色图像
            # 计算各通道的统计特征
            features = {}
            for i, channel in enumerate(['R', 'G', 'B']):
                channel_data = image[:, :, i]
                features[f'{channel}_mean'] = np.mean(channel_data)
                features[f'{channel}_std'] = np.std(channel_data)
                features[f'{channel}_min'] = np.min(channel_data)
                features[f'{channel}_max'] = np.max(channel_data)
           
            # 计算颜色直方图特征
            hist_r, _ = np.histogram(image[:, :, 0], bins=256, range=(0, 256))
            hist_g, _ = np.histogram(image[:, :, 1], bins=256, range=(0, 256))
            hist_b, _ = np.histogram(image[:, :, 2], bins=256, range=(0, 256))
           
            features.update({
                'hist_r_peak': np.argmax(hist_r),
                'hist_g_peak': np.argmax(hist_g),
                'hist_b_peak': np.argmax(hist_b)
            })
           
            return features
        else:  # 灰度图像
            return {
                'mean': np.mean(image),
                'std': np.std(image),
                'min': np.min(image),
                'max': np.max(image)
            }
   
    def extract_texture_features(self, image):
        """提取纹理特征"""
        if len(image.shape) == 3:
            image = rgb2gray(image)
       
        # 计算边缘特征
        edges = filters.sobel(image)
        edge_density = np.sum(edges > 0) / edges.size
       
        # 计算局部二值模式(简化版)
        lbp = feature.local_binary_pattern(image, P=8, R=1, method='uniform')
        lbp_hist, _ = np.histogram(lbp.ravel(), bins=10)
       
        return {
            'edge_density': edge_density,
            'lbp_hist': lbp_hist.tolist()
        }
   
    def augment_image(self, image):
        """图像增强"""
        augmented = []
       
        # 原图
        augmented.append(image)
       
        # 水平翻转
        augmented.append(np.fliplr(image))
       
        # 垂直翻转
        augmented.append(np.flipud(image))
       
        # 旋转90度
        augmented.append(np.rot90(image))
       
        # 亮度调整
        if len(image.shape) == 3:
            brightened = np.clip(image * 1.2, 0, 255).astype(np.uint8)
        else:
            brightened = np.clip(image * 1.2, 0, 1)
        augmented.append(brightened)
       
        return augmented
   
    def visualize_image_channels(self, image):
        """可视化图像通道"""
        if len(image.shape) == 3:
            plt.figure(figsize=(12, 3))
           
            plt.subplot(1, 4, 1)
            plt.imshow(image)
            plt.title('原始图像')
            plt.axis('off')
           
            plt.subplot(1, 4, 2)
            plt.imshow(image[:, :, 0], cmap='Reds')
            plt.title('红色通道')
            plt.axis('off')
           
            plt.subplot(1, 4, 3)
            plt.imshow(image[:, :, 1], cmap='Greens')
            plt.title('绿色通道')
            plt.axis('off')
           
            plt.subplot(1, 4, 4)
            plt.imshow(image[:, :, 2], cmap='Blues')
            plt.title('蓝色通道')
            plt.axis('off')
           
            plt.tight_layout()
            plt.show()

# 使用示例
image_processor = ImageDataProcessor()

# 提取颜色特征
color_features = image_processor.extract_color_features(rainbow_img)
print("\n颜色特征:")
for key, value in color_features.items():
    if not key.startswith('hist'):
        print(f"{key}: {value:.2f}")

# 提取纹理特征
texture_features = image_processor.extract_texture_features(checkerboard_img)
print("\n纹理特征:")
for key, value in texture_features.items():
    if key != 'lbp_hist':
        print(f"{key}: {value:.4f}")

# 图像增强
augmented_images = image_processor.augment_image(circle_img)
print(f"\n图像增强:生成了 {len(augmented_images)} 个变体")

# 可视化图像通道
image_processor.visualize_image_channels(rainbow_img)

类别型数据

什么是类别型数据?

类别型数据就像分类标签,表示不同的类别或分组,不能进行数学运算。

类别型数据的分类

1. 名义型数据

实例

# 名义型数据示例
def nominal_data_example():
    """名义型数据示例"""
   
    print("\n=== 名义型数据示例 ===")
   
    # 创建名义型数据
    nominal_data = pd.DataFrame({
        '学生ID': range(1, 11),
        '姓名': ['张三', '李四', '王五', '赵六', '钱七', '孙八', '周九', '吴十', '郑十一', '陈十二'],
        '性别': ['男', '女', '男', '男', '女', '女', '男', '女', '男', '女'],
        '血型': ['A', 'B', 'O', 'AB', 'A', 'B', 'O', 'AB', 'A', 'O'],
        '城市': ['北京', '上海', '广州', '深圳', '北京', '上海', '广州', '深圳', '北京', '上海'],
        '专业': ['计算机', '数学', '物理', '化学', '计算机', '数学', '物理', '化学', '计算机', '数学']
    })
   
    print("名义型数据示例:")
    print(nominal_data)
   
    # 类别统计分析
    print("\n=== 类别统计分析 ===")
   
    for column in nominal_data.select_dtypes(include=['object']).columns:
        if column != '姓名':  # 跳过姓名列
            value_counts = nominal_data[column].value_counts()
            print(f"\n{column} 分布:")
            print(value_counts)
            print(f"唯一值数量:{len(value_counts)}")
   
    return nominal_data

# 运行示例
nominal_df = nominal_data_example()

2. 有序型数据

实例

# 有序型数据示例
def ordinal_data_example():
    """有序型数据示例"""
   
    print("\n=== 有序型数据示例 ===")
   
    # 创建有序型数据
    ordinal_data = pd.DataFrame({
        '产品ID': range(1, 11),
        '产品名称': [f'产品{i}' for i in range(1, 11)],
        '质量等级': ['优秀', '良好', '一般', '优秀', '良好', '一般', '差', '优秀', '良好', '一般'],
        '客户满意度': ['非常满意', '满意', '一般', '非常满意', '满意', '一般', '不满意', '非常满意', '满意', '一般'],
        '价格区间': ['高', '中', '低', '高', '中', '低', '低', '高', '中', '中'],
        '销量排名': [1, 3, 5, 2, 4, 7, 9, 6, 8, 10]
    })
   
    print("有序型数据示例:")
    print(ordinal_data)
   
    # 有序数据统计分析
    print("\n=== 有序数据统计分析 ===")
   
    # 定义顺序
    quality_order = ['差', '一般', '良好', '优秀']
    satisfaction_order = ['不满意', '一般', '满意', '非常满意']
    price_order = ['低', '中', '高']
   
    # 转换为有序类别
    ordinal_data['质量等级_有序'] = pd.Categorical(
        ordinal_data['质量等级'], categories=quality_order, ordered=True
    )
    ordinal_data['客户满意度_有序'] = pd.Categorical(
        ordinal_data['客户满意度'], categories=satisfaction_order, ordered=True
    )
    ordinal_data['价格区间_有序'] = pd.Categorical(
        ordinal_data['价格区间'], categories=price_order, ordered=True
    )
   
    # 统计分析
    for column in ['质量等级_有序', '客户满意度_有序', '价格区间_有序']:
        print(f"\n{column} 分布:")
        value_counts = ordinal_data[column].value_counts().sort_index()
        print(value_counts)
       
        # 计算中位数
        median_value = ordinal_data[column].median()
        print(f"中位数:{median_value}")
   
    return ordinal_data

# 运行示例
ordinal_df = ordinal_data_example()

类别型数据处理方法

实例


# 类别型数据处理方法
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, OrdinalEncoder

class CategoricalDataProcessor:
    def __init__(self):
        self.encoders = {}
        self.feature_names = {}
   
    def label_encoding(self, data, columns):
        """标签编码"""
        encoded_data = data.copy()
       
        for column in columns:
            encoder = LabelEncoder()
            encoded_data[f'{column}_encoded'] = encoder.fit_transform(data[column])
            self.encoders[f'{column}_label'] = encoder
           
            print(f"{column} 标签编码:")
            for i, category in enumerate(encoder.classes_):
                print(f"  {category} -> {i}")
       
        return encoded_data
   
    def one_hot_encoding(self, data, columns):
        """独热编码"""
        encoded_data = data.copy()
       
        for column in columns:
            encoder = OneHotEncoder(sparse=False, drop='first')  # 避免多重共线性
            encoded_features = encoder.fit_transform(data[[column]])
           
            # 创建新的列名
            feature_names = [f'{column}_{category}' for category in encoder.categories_[0][1:]]
           
            # 添加到数据框
            for i, feature_name in enumerate(feature_names):
                encoded_data[feature_name] = encoded_features[:, i]
           
            self.encoders[f'{column}_onehot'] = encoder
            self.feature_names[f'{column}_onehot'] = feature_names
           
            print(f"{column} 独热编码:创建了 {len(feature_names)} 个特征")
       
        return encoded_data
   
    def ordinal_encoding(self, data, columns, categories_list):
        """有序编码"""
        encoded_data = data.copy()
       
        for column, categories in zip(columns, categories_list):
            encoder = OrdinalEncoder(categories=[categories])
            encoded_data[f'{column}_ordinal'] = encoder.fit_transform(data[[column]])
            self.encoders[f'{column}_ordinal'] = encoder
           
            print(f"{column} 有序编码:")
            for i, category in enumerate(categories):
                print(f"  {category} -> {i}")
       
        return encoded_data
   
    def target_encoding(self, data, categorical_column, target_column):
        """目标编码"""
        encoded_data = data.copy()
       
        # 计算每个类别的目标均值
        target_means = data.groupby(categorical_column)[target_column].mean()
       
        # 应用编码
        encoded_data[f'{categorical_column}_target'] = data[categorical_column].map(target_means)
       
        print(f"{categorical_column} 目标编码:")
        for category, mean_value in target_means.items():
            print(f"  {category} -> {mean_value:.4f}")
       
        return encoded_data
   
    def frequency_encoding(self, data, columns):
        """频率编码"""
        encoded_data = data.copy()
       
        for column in columns:
            # 计算每个类别的频率
            frequency = data[column].value_counts(normalize=True)
           
            # 应用编码
            encoded_data[f'{column}_frequency'] = data[column].map(frequency)
           
            print(f"{column} 频率编码:")
            for category, freq in frequency.head().items():
                print(f"  {category} -> {freq:.4f}")
       
        return encoded_data
   
    def analyze_categorical_importance(self, data, categorical_columns, target_column):
        """分析类别特征重要性"""
        importance_scores = {}
       
        for column in categorical_columns:
            # 计算每个类别的目标均值差异
            category_means = data.groupby(column)[target_column].mean()
            mean_difference = category_means.max() - category_means.min()
           
            # 计算类别数量
            unique_count = data[column].nunique()
           
            # 简单的重要性评分
            importance = mean_difference * np.log(unique_count + 1)
            importance_scores[column] = importance
       
        # 排序
        sorted_importance = sorted(importance_scores.items(), key=lambda x: x[1], reverse=True)
       
        print("\n类别特征重要性:")
        for column, importance in sorted_importance:
            print(f"{column}: {importance:.4f}")
       
        return importance_scores

# 使用示例
cat_processor = CategoricalDataProcessor()

# 为名义型数据添加数值目标
nominal_df_with_target = nominal_df.copy()
nominal_df_with_target['成绩'] = np.random.randint(60, 100, len(nominal_df))

# 标签编码
label_encoded = cat_processor.label_encoding(
    nominal_df_with_target, ['性别', '血型', '城市']
)

# 独热编码
onehot_encoded = cat_processor.one_hot_encoding(
    nominal_df_with_target, ['专业']
)

# 目标编码
target_encoded = cat_processor.target_encoding(
    nominal_df_with_target, '城市', '成绩'
)

# 频率编码
frequency_encoded = cat_processor.frequency_encoding(
    nominal_df_with_target, ['性别', '血型']
)

# 分析特征重要性
importance_scores = cat_processor.analyze_categorical_importance(
    nominal_df_with_target, ['性别', '血型', '城市', '专业'], '成绩'
)

多模态数据融合

数据类型融合示例

实例

# 多模态数据融合示例
class MultiModalDataProcessor:
    def __init__(self):
        self.numeric_processor = NumericDataProcessor()
        self.text_processor = TextDataProcessor()
        self.image_processor = ImageDataProcessor()
        self.categorical_processor = CategoricalDataProcessor()
   
    def create_multimodal_dataset(self):
        """创建多模态数据集"""
        print("\n=== 多模态数据集示例 ===")
       
        n_samples = 100
       
        # 数值特征
        numeric_features = {
            '年龄': np.random.randint(18, 65, n_samples),
            '收入': np.random.normal(50000, 15000, n_samples),
            '工作经验': np.random.randint(0, 20, n_samples)
        }
       
        # 类别特征
        categorical_features = {
            '性别': np.random.choice(['男', '女'], n_samples),
            '教育程度': np.random.choice(['高中', '本科', '硕士', '博士'], n_samples),
            '城市': np.random.choice(['北京', '上海', '广州', '深圳'], n_samples)
        }
       
        # 文本特征
        text_features = [
            f"这是第{i}个样本的文本描述,包含一些基本信息和特征。"
            for i in range(n_samples)
        ]
       
        # 图像特征(模拟)
        image_features = np.random.rand(n_samples, 64, 64, 3)  # 模拟64x64彩色图像
       
        # 目标变量
        target = np.random.choice([0, 1], n_samples)
       
        # 创建数据集
        dataset = {
            'numeric': pd.DataFrame(numeric_features),
            'categorical': pd.DataFrame(categorical_features),
            'text': text_features,
            'image': image_features,
            'target': target
        }
       
        print(f"数据集大小:{n_samples}")
        print(f"数值特征:{list(numeric_features.keys())}")
        print(f"类别特征:{list(categorical_features.keys())}")
        print(f"文本特征:{len(text_features)} 条")
        print(f"图像特征:{image_features.shape}")
        print(f"目标变量:{np.bincount(target)}")
       
        return dataset
   
    def process_multimodal_data(self, dataset):
        """处理多模态数据"""
        print("\n=== 多模态数据处理 ===")
       
        processed_features = {}
       
        # 处理数值特征
        numeric_data = dataset['numeric']
        numeric_processed = self.numeric_processor.normalize_data(numeric_data, method='standard')
        processed_features['numeric'] = numeric_processed
       
        # 处理类别特征
        categorical_data = dataset['categorical']
        categorical_processed = self.categorical_processor.one_hot_encoding(
            categorical_data, list(categorical_data.columns)
        )
        # 只保留编码后的列
        categorical_encoded = categorical_processed.select_dtypes(include=[np.number])
        processed_features['categorical'] = categorical_encoded
       
        # 处理文本特征
        text_data = dataset['text']
        text_features, _ = self.text_processor.extract_features(text_data, method='tfidf')
        processed_features['text'] = text_features
       
        # 处理图像特征
        image_data = dataset['image']
        # 提取简单的图像特征(均值、标准差等)
        image_features = []
        for img in image_data:
            features = self.image_processor.extract_color_features(img)
            feature_vector = list(features.values())[:10]  # 取前10个特征
            image_features.append(feature_vector)
       
        processed_features['image'] = np.array(image_features)
       
        # 打印处理结果
        for modality, features in processed_features.items():
            if isinstance(features, pd.DataFrame):
                print(f"{modality} 特征:{features.shape}")
            else:
                print(f"{modality} 特征:{features.shape}")
       
        return processed_features
   
    def fuse_features(self, processed_features):
        """特征融合"""
        print("\n=== 特征融合 ===")
       
        # 将所有特征合并
        feature_arrays = []
       
        for modality, features in processed_features.items():
            if isinstance(features, pd.DataFrame):
                feature_arrays.append(features.values)
            else:
                feature_arrays.append(features)
       
        # 水平拼接
        fused_features = np.hstack(feature_arrays)
       
        print(f"融合后特征形状:{fused_features.shape}")
       
        return fused_features

# 使用示例
multimodal_processor = MultiModalDataProcessor()

# 创建多模态数据集
multimodal_dataset = multimodal_processor.create_multimodal_dataset()

# 处理多模态数据
processed_multimodal = multimodal_processor.process_multimodal_data(multimodal_dataset)

# 特征融合
fused_features = multimodal_processor.fuse_features(processed_multimodal)