[CF]添加audioClassifier.js，导出主要接口

[DOC]更新音频文档
2025-08-14 14:35:44 +08:00 · 2025-08-14 14:35:44 +08:00 · 35d18deb43
commit 35d18deb43
parent 9a8a767656
3 changed files with 287 additions and 0 deletions
--- a/音频分类/README.md
+++ b/音频分类/README.md
@ -33,6 +33,27 @@
 **注：直接打开index.html文件会需要重复授权麦克风权限，请使用live server插件开启本地服务器可以解决**
 ## 提取主要功能
 audioClassifier.js文件中主要实现了以下功能：
 *   录制背景噪音样本：通过录制音频文件，将其转换成频谱图，并传入模型进行训练。
 *   训练模型：将背景噪音样本和自定义声音样本合并，并训练模型。
 *   实时识别：实时从麦克风输入音频，将其转换成频谱图，并传入模型进行识别。
 ## 目录结构
 ```
 .
 ├── README.md
 ├── script.js
 ├── voice.html
 ├── audioClassifier.js
 ├── speech-commands(js文件仓库,不需要关注)
 │   └── ...
 └──
 ```
 ## 音频切片
--- a/音频分类/audioClassifier.js
+++ b/音频分类/audioClassifier.js
@ -0,0 +1,264 @@
 // 全局变量和模型实例
 let recognizer; // 基础的 SpeechCommands recognizer
 let transferRecognizer; // 用于迁移学习的 recognizer
 const labels = []; // 用户定义的类别标签数组 (包括背景噪音)
 // 将背景噪音定义为第一个类别，其内部名称为 _background_noise_
 const BACKGROUND_NOISE_LABEL = '_background_noise_';
 const BACKGROUND_NOISE_INDEX = 0; // 仅用于本地 labels 数组索引，不直接用于collectExample
 let isPredicting = false; // 预测状态标志
 let isRecording = false; // 录音状态标志，防止重复点击
 const recordDuration = 1000; // 每个样本的录音时长 (毫秒)
 let isModelTrainedFlag = false; // 手动维护模型训练状态
 let predictionStopFunction = null; // 存储 transferRecognizer.listen() 返回的停止函数
 /**
 * 初始化函数 - 加载模型和创建迁移学习模型
 * @returns {Promise<void>}
 */
 async function init() {
    try {
        recognizer = speechCommands.create(
            'BROWSER_FFT' // 使用浏览器内置的 FFT 处理，性能更好
        );
        await recognizer.ensureModelLoaded();
        transferRecognizer = recognizer.createTransfer('my-custom-model');
        // 只有在 transferRecognizer 创建成功后，才将背景噪音标签加入我们的 local labels 数组
        labels.push(BACKGROUND_NOISE_LABEL);
        return Promise.resolve();
    } catch (error) {
        return Promise.reject(error);
    }
 }
 /**
 * 批量录制样本的通用函数
 * @param {string} label - 标签名称
 * @param {number} countToRecord - 要录制的样本数量
 * @returns {Promise<void>}
 */
 async function recordMultipleExamples(label, countToRecord = 5) {
    if (isRecording) {
        return Promise.reject(new Error('正在录制中，请等待当前录音完成'));
    }
    isRecording = true;
    for (let i = 0; i < countToRecord; i++) {
        try {
            await transferRecognizer.collectExample(
                label,
                { amplitudeRequired: true, durationMillis: recordDuration }
            );
            // 在每次录音之间增加短暂延迟，以便更好地分离样本
            if (i < countToRecord - 1) {
                await new Promise(resolve => setTimeout(resolve, Math.max(200, recordDuration / 5)));
            }
        } catch (error) {
            isRecording = false;
            return Promise.reject(error);
        }
    }
    isRecording = false;
    return Promise.resolve();
 }
 /**
 * 添加自定义类别
 * @param {string} categoryName - 类别名称
 */
 function addCustomCategory(categoryName) {
    if (!categoryName) {
        return Promise.reject(new Error('类别名称不能为空'));
    }
    // 检查是否与现有标签重复
    if (labels.some(label => label.toLowerCase() === categoryName.toLowerCase())) {
        return Promise.reject(new Error(`类别 "${categoryName}" 已经存在`));
    }
    // 将标签添加到本地数组
    labels.push(categoryName);
    return Promise.resolve();
 }
 /**
 * 检查训练就绪状态
 * @returns {boolean} 是否可以开始训练
 */
 function checkTrainingReadiness() {
    const exampleCounts = transferRecognizer.countExamples();
    let backgroundNoiseReady = (exampleCounts[BACKGROUND_NOISE_LABEL] || 0) > 0;
    let customCategoriesReady = 0;
    // 遍历本地 labels 数组，检查每个自定义类别是否有样本
    for (let i = 1; i < labels.length; i++) { // 从索引 1 开始，因为 0 是背景噪音
        const customLabel = labels[i];
        if ((exampleCounts[customLabel] || 0) > 0) {
            customCategoriesReady++;
        }
    }
    // 必须有背景噪音样本，并且至少一个自定义类别有样本
    return backgroundNoiseReady && customCategoriesReady >= 1;
 }
 /**
 * 模型训练函数
 * @param {Object} trainingConfig - 训练配置参数
 * @returns {Promise<void>}
 */
 async function trainModel(trainingConfig = {}) {
    const exampleCounts = transferRecognizer.countExamples();
    let totalExamples = 0;
    let validClasses = 0;
    const MIN_SAMPLES_PER_CLASS_FOR_TRAINING = 5; 
    let allClassesHaveEnoughSamples = true; 
    // 统计所有类别的有效样本数，并检查每个类别是否达到最低要求
    for (const labelName of labels) {
        if (exampleCounts[labelName] && exampleCounts[labelName] > 0) {
            totalExamples += exampleCounts[labelName];
            validClasses++;
            if (exampleCounts[labelName] < MIN_SAMPLES_PER_CLASS_FOR_TRAINING) {
                allClassesHaveEnoughSamples = false; 
            }
        }
    }
    if (validClasses < 2) { 
        return Promise.reject(new Error(`训练需要至少 "背景噪音" 和另一个自定义类别。当前只有 ${validClasses} 个有效类别。`));
    }
    if (!allClassesHaveEnoughSamples) {
        return Promise.reject(new Error(`请确保每个类别至少收集了 ${MIN_SAMPLES_PER_CLASS_FOR_TRAINING} 个样本。`));
    }
    if (totalExamples === 0) {
        return Promise.reject(new Error('没有收集到任何训练样本'));
    }
    const defaultConfig = {
        epochs: 50, 
        batchSize: 16, 
        validationSplit: 0.1, 
        shuffle: true, 
        yieldEvery: 'epoch'
    };
    const config = Object.assign(defaultConfig, trainingConfig);
    try {
        await transferRecognizer.train(config);
        isModelTrainedFlag = true;
        return Promise.resolve();
    } catch (error) {
        isModelTrainedFlag = false;
        return Promise.reject(error);
    }
 }
 /**
 * 开始实时预测
 * @param {Function} onPrediction - 预测结果回调函数
 * @param {Object} listenOptions - 监听选项
 * @returns {Promise<Function>} 停止预测的函数
 */
 async function startPrediction(onPrediction, listenOptions = {}) {
    if (isPredicting) {
        return Promise.reject(new Error('识别已经在进行中'));
    }
    if (!isModelTrainedFlag) { 
        return Promise.reject(new Error('模型尚未训练完成'));
    }
    isPredicting = true;
    const defaultOptions = {
        includeEmbedding: true, 
        probabilityThreshold: 0.75, 
        suppressionTimeMillis: 300, 
        overlapFactor: 0.50, 
    };
    const options = Object.assign(defaultOptions, listenOptions);
    predictionStopFunction = await transferRecognizer.listen(result => {
        if (!isPredicting) return;
        const classLabels = transferRecognizer.wordLabels(); 
        const scores = result.scores; 
        const maxScore = Math.max(...scores);
        const predictedIndex = scores.indexOf(maxScore);
        let predictedLabel = classLabels[predictedIndex];
        // 如果预测结果是内部的背景噪音标签，转换成用户友好的显示
        if (predictedLabel === BACKGROUND_NOISE_LABEL) {
            predictedLabel = '背景噪音'; 
        }
        // 调用回调函数返回预测结果
        if (typeof onPrediction === 'function') {
            onPrediction({
                label: predictedLabel,
                score: maxScore,
                scores: scores,
                labels: classLabels.map(label => label === BACKGROUND_NOISE_LABEL ? '背景噪音' : label)
            });
        }
    }, options);
    return Promise.resolve(predictionStopFunction);
 }
 /**
 * 停止实时预测
 */
 function stopPrediction() {
    if (isPredicting) {
        if (typeof predictionStopFunction === 'function') {
            predictionStopFunction();
            predictionStopFunction = null;
        }
        isPredicting = false;
    }
 }
 /**
 * 获取各类别样本数量
 * @returns {Object} 各类别样本数量统计
 */
 function getExampleCounts() {
    return transferRecognizer.countExamples();
 }
 /**
 * 获取模型是否已训练的状态
 * @returns {boolean} 模型是否已训练
 */
 function isModelTrained() {
    return isModelTrainedFlag;
 }
 // 导出公共接口
 window.AudioClassifier = {
    init,
    recordMultipleExamples,
    addCustomCategory,
    checkTrainingReadiness,
    trainModel,
    startPrediction,
    stopPrediction,
    getExampleCounts,
    isModelTrained,
    labels
 };
--- a/音频分类/script.js
+++ b/音频分类/script.js
@ -63,6 +63,7 @@ async function init() {
 }
 // ======================= 批量录制样本的通用函数 =======================
 // recordMultipleExamples传入 label, 样本数量显示元素, 按钮元素, 一次录制的样本数量
 async function recordMultipleExamples(label, sampleCountSpanElement, buttonElement, countToRecord = 5) { // 默认一次录制5个样本
    if (isRecording) {
        statusDiv.innerText = '请等待当前录音完成...';
@ -102,6 +103,7 @@ async function recordMultipleExamples(label, sampleCountSpanElement, buttonEleme
 }
 // ======================= 背景噪音样本收集 =======================
 // 按钮点击事件
 recordBackgroundNoiseBtn.onclick = async () => {
    await recordMultipleExamples(BACKGROUND_NOISE_LABEL, backgroundNoiseSampleCountSpan, recordBackgroundNoiseBtn, 5);
 };