AI 工具与技术
- • AI Studio / Gemini (Google):
- • 可创建 Prompt,调整输出格式 (如 JSON),查看 Token 数量。
- • 示例:根据描述生成卡通形象,并可根据反馈调整 (如毛发更卷,更像比熊犬)。
- • 即梦AI (图像生成):
- • 高级文字风格设计提示生成器:根据输入文字分析情感风格,从预设风格集合 (如光韵夜影、工业质朴、童趣涂绘、甜心风潮、动漫爆炸、科技方块、清逸笔迹、文艺钢笔) 中智能匹配,生成绘图提示词。
- • 存在字体输出限制,输入指定字体 (如宋体、楷书) 可能无法精确匹配。反推高频提示词结合字体效果描述,打包生成绘图提示词是可行策略。
- • VideoLingo (视频翻译工具):
- • 支持 YouTube 链接下载或本地视频上传。
- • 处理流程:WhisperX 词级转录 -> NLP/LLM 句子分割 -> 总结和多步翻译 -> 长字幕切割对齐 -> 生成时间轴和字幕 -> 字幕合并到视频。
- • 配置项:API_KEY (siliconflow.cn), BASE_URL, MODEL (deepseek-ai/DeepSeek-V3), 字幕语言,人声分离增强,烧录字幕,TTS方法 (azure_tts, 302ai API, Azure Voice 等)。
- • Spark-TTS (语音合成):
- • 官方 PyTorch 推理代码。
- • 合作机构:香港科技大学、出门问问、上海交通大学、西北工业大学、南洋理工大学、SparkAudio开源社区。
- • 自动视频翻译工具 (开源):
- • 特点:多种配音和翻译渠道,可完全离线,免费开源 (GPL-v3)。
- • 翻译渠道:Google, ChatGPT, DeepL, Gemini, Microsoft, 百度, 腾讯, 本地模型。
- • 配音渠道:edgeTTS, AzureTTS, OpenAI TTS, Elevenlabs, clone-voice, GPT-SoVITS。
- • 集成 faster-whisper 模型,支持自定义 huggingface 模型。
- • 功能:批量语音转字幕、批量字幕翻译、批量配音。
- • 可编辑字幕,语音前后延展,CUDA加速。
- • 大模型应用开发平台/工具:
- • Dify: 支持 DeepSeek 模型的 LLM 应用开发平台 (创建AI助手、工作流、文本生成器)。
- • ChatBox, Cherry Studio, OneAPI, LobeChat, NextChat: 大模型客户端应用。
- • Cursor, Windsurf, Cline: 代码生成应用。
- • Obsidian AI, FastGPT: AI 知识库。
- • 沉浸式翻译、欧路词典: 翻译插件。
- • AI 发展相关书籍:
- • 《智慧的疆界:从图灵机到人工智能》 (周志明)
- • AI 与内容创作 (小杨哥案例):
- • 前字节产品经理,从指挥程序员写代码到指挥AI写代码出海赚美元。
- • 关键节点:谷歌点击过百 (6月9日),赚到第一美元 (6月13日),谷歌点击破千 (6月18日),接入Stripe订阅出单 (7月25日),月入过万人民币 (7月31日),月入过万刀 (12月31日)。