精华知识：AI 工具与技术

AI 工具与技术

• AI Studio / Gemini (Google):
- • 可创建 Prompt，调整输出格式 (如 JSON)，查看 Token 数量。
- • 示例：根据描述生成卡通形象，并可根据反馈调整 (如毛发更卷，更像比熊犬)。
• 即梦AI (图像生成):
- • 高级文字风格设计提示生成器：根据输入文字分析情感风格，从预设风格集合 (如光韵夜影、工业质朴、童趣涂绘、甜心风潮、动漫爆炸、科技方块、清逸笔迹、文艺钢笔) 中智能匹配，生成绘图提示词。
- • 存在字体输出限制，输入指定字体 (如宋体、楷书) 可能无法精确匹配。反推高频提示词结合字体效果描述，打包生成绘图提示词是可行策略。
• VideoLingo (视频翻译工具):
- • 支持 YouTube 链接下载或本地视频上传。
- • 处理流程：WhisperX 词级转录 -> NLP/LLM 句子分割 -> 总结和多步翻译 -> 长字幕切割对齐 -> 生成时间轴和字幕 -> 字幕合并到视频。
- • 配置项：API_KEY (siliconflow.cn), BASE_URL, MODEL (deepseek-ai/DeepSeek-V3), 字幕语言，人声分离增强，烧录字幕，TTS方法 (azure_tts, 302ai API, Azure Voice 等)。
• Spark-TTS (语音合成):
- • 官方 PyTorch 推理代码。
- • 合作机构：香港科技大学、出门问问、上海交通大学、西北工业大学、南洋理工大学、SparkAudio开源社区。
• 自动视频翻译工具 (开源):
- • 特点：多种配音和翻译渠道，可完全离线，免费开源 (GPL-v3)。
- • 翻译渠道：Google, ChatGPT, DeepL, Gemini, Microsoft, 百度, 腾讯, 本地模型。
- • 配音渠道：edgeTTS, AzureTTS, OpenAI TTS, Elevenlabs, clone-voice, GPT-SoVITS。
- • 集成 faster-whisper 模型，支持自定义 huggingface 模型。
- • 功能：批量语音转字幕、批量字幕翻译、批量配音。
- • 可编辑字幕，语音前后延展，CUDA加速。
• 大模型应用开发平台/工具:
- • Dify: 支持 DeepSeek 模型的 LLM 应用开发平台 (创建AI助手、工作流、文本生成器)。
- • ChatBox, Cherry Studio, OneAPI, LobeChat, NextChat: 大模型客户端应用。
- • Cursor, Windsurf, Cline: 代码生成应用。
- • Obsidian AI, FastGPT: AI 知识库。
- • 沉浸式翻译、欧路词典: 翻译插件。
• AI 发展相关书籍:
- • 《智慧的疆界：从图灵机到人工智能》 (周志明)
• AI 与内容创作 (小杨哥案例):
- • 前字节产品经理，从指挥程序员写代码到指挥AI写代码出海赚美元。
- • 关键节点：谷歌点击过百 (6月9日)，赚到第一美元 (6月13日)，谷歌点击破千 (6月18日)，接入Stripe订阅出单 (7月25日)，月入过万人民币 (7月31日)，月入过万刀 (12月31日)。

发表回复 取消回复

发表回复取消回复