基于MAX 10 FPGA的Z80与8051双核单板计算机设计与实现

基于MAX 10 FPGA的Z80与8051双核单板计算机设计与实现 1. 项目概述与核心价值最近在整理工作室的旧物翻出了一堆老古董——Z80和8051的芯片。看着这些曾经叱咤风云的处理器一个念头冒了出来能不能用现代的技术把它们“复活”在一块板子上做一个集成的单板计算机这个想法听起来有点“复古朋克”但背后的技术考量其实很实际。用FPGA来实现意味着我们可以在一块芯片里同时拥有两个完全独立的、可灵活配置的处理器系统这对于学习计算机体系结构、嵌入式系统设计甚至是做一些特定的控制或教学演示都极具价值。这个项目的核心就是基于Intel现在叫Altera的MAX 10 FPGA来构建一个同时包含Z80和8051 CPU的单板计算机。Z80作为8位微处理器的经典指令集丰富在早期的CP/M系统和众多嵌入式设备中广泛应用而8051则是单片机领域的常青树其架构简单、外设经典是学习嵌入式入门的绝佳选择。用FPGA来实现它们你得到的不是两个固定的芯片而是两套可以随时修改、调整、甚至优化其内部微架构的“软核”。你可以调整总线宽度、外设映射、中断控制器一切尽在掌握。这比单纯玩现成的开发板理解要深入得多。选择MAX 10 FPGA是因为它在成本和易用性上找到了一个很好的平衡点。它内部集成了闪存配置芯片和模拟模块对于这样一个中等复杂度的数字系统来说资源足够又不需要额外昂贵的配置芯片非常适合爱好者和小批量项目。最终的目标是设计出一块PCB上面有MAX 10 FPGA、SDRAM、Flash、串口、按键、LED等基本外设然后通过硬件描述语言如Verilog或VHDL编写Z80和8051的软核并让它们共享或独立访问部分外设形成一个真正的、可工作的“二合一”单板机。2. 整体系统架构与设计思路2.1 核心芯片选型为什么是MAX 10市面上FPGA选择很多从低端的Lattice到高端的Xilinx UltraScale。但对于这个项目Intel MAX 10系列几乎是量身定做。首先它属于非易失性FPGA配置比特流直接存储在芯片内部的闪存中。上电即运行无需外部配置存储器如EPCS。这极大地简化了PCB设计和BOM成本对于单板计算机的稳定性和可靠性是极大的加分项。其次MAX 10内部集成了双配置闪存和用户闪存UFM。这意味着你不仅可以存储FPGA的配置文件还可以利用UFM来存储Z80或8051需要执行的程序代码比如8051的固件或者Z80的监控程序Monitor实现真正的“单芯片”解决方案。虽然容量不大几十到几百Kb但对于简单的演示程序绰绰有余。再者MAX 10部分型号还集成了ADC模数转换器这为未来扩展模拟传感器接口提供了可能虽然本项目主要聚焦数字系统但预留这个能力总是好的。最后它的逻辑资源LEs和存储器资源M9K对于实现两个8位CPU软核及其必要的外设如定时器、UART、GPIO控制器来说是足够且经济的。例如一颗10M08SCE144C8G芯片约有8000个逻辑单元完成本项目核心功能后仍有富余。2.2 双核系统架构设计在一个FPGA内部实现两个CPU并不是简单地把两个软核代码扔进去编译就行。核心挑战在于资源仲裁和系统互连。我们设计的是一种“松散耦合”的共享总线架构。主系统总线Avalon-MM或自定义总线我们以FPGA内部构建一个主系统总线为中心。这个总线负责连接主要的共享资源如SDRAM控制器、Flash控制器、以及连接外部物理芯片的接口。Z80软核和8051软核作为总线上的两个主设备Master。独立外设与共享外设一些外设可以设计为各自CPU独享以简化逻辑。例如每个CPU都可以拥有自己独立的UART串口控制器这样它们可以同时通过不同的物理串口如USB转双串口芯片CH340与PC通信互不干扰。而像SDRAM、Nor Flash这类大容量存储设备则通过总线仲裁器共享。仲裁器可以采用简单的固定优先级或轮询策略确保同一时刻只有一个CPU能访问共享资源避免冲突。中断与通信机制两个CPU之间可能需要通信。我们可以设计一个简单的“邮箱”Mailbox模块即一段双端口RAM或利用FPGA的RAM块实现配合中断产生电路。Z80可以向邮箱写入数据然后触发一个8051的外部中断反之亦然。这是多核系统间最简单的进程间通信IPC方式。时钟与复位两个软核可以运行在不同的时钟频率下这得益于FPGA内部灵活的时钟网络。Z80可能运行在50MHz而8051运行在24MHz。我们需要使用FPGA内部的PLL或时钟分频器来生成这些时钟并为每个时钟域提供独立的复位同步电路这是确保系统稳定性的关键。注意在FPGA中实现多时钟域设计需要格外小心跨时钟域信号的处理。对于“邮箱”这类需要跨域通信的信号必须使用同步器如两级触发器来避免亚稳态否则系统会表现出极不稳定的随机错误。2.3 外设规划与板级设计单板计算机要“有用”外设必不可少。以下是我们规划的核心外设存储系统SDRAM选用一颗32Mbit4MB或64Mbit8MB的SDRAM芯片如IS42S16400J。它为两个CPU提供运行程序和数据存储的空间。需要在FPGA内实现一个SDRAM控制器这是整个项目的难点之一。Nor Flash一颗16Mbit2MB或更大的SPI Nor Flash如W25Q16JV。用于存储FPGA配置比特流虽然MAX10内置闪存但外部Flash可作为备用以及Z80/8051的应用程序代码实现“存储程序”的概念。MAX10 UFM作为Boot ROM存储8051或Z80的初级引导程序用于从外部Flash加载更大规模的应用程序到SDRAM中运行。通信接口双UART使用一片CH340G或FT2232HL这类USB转多串口芯片为两个CPU提供独立的、稳定的USB串口调试和通信通道。GPIO引出足够多的FPGA IO到排针用于连接LED、按键、数码管、LCD屏等提供最基础的输入输出能力。调试与配置接口JTAG用于FPGA的编程、调试和SignalTap II逻辑分析仪调试这是开发阶段的“眼睛”。USB供电采用Micro-USB或Type-C接口进行5V供电并通过板载LDO稳压器转换为FPGA和芯片所需的3.3V、2.5V、1.2V等电压。3. 核心模块的硬件描述语言实现3.1 Z80软核的实现要点Z80软核已经有大量成熟的开源实现例如T80核心。我们不需要从零开始写一个Z80但需要理解如何将它集成到我们的系统中。核心实例化与接口我们需要将Z80核心T80模块封装一层形成我们自己的z80_system模块。这个封装层主要负责时钟生成Z80原生的总线周期需要等待信号WAIT_n我们需要根据总线仲裁和外围设备响应情况正确产生这个信号。地址译码将Z80输出的16位地址线映射到我们自定义的系统总线地址空间。例如规定地址0x0000-0x7FFF映射到SDRAM0x8000-0x80FF映射到本地的UART控制器等。总线周期转换Z80有自己的MREQ_n、IORQ_n、RD_n、WR_n信号我们需要将这些信号转换为Avalon-MM总线或我们自定义总线所需的read、write、address、writedata、readdata信号格式。module z80_system ( input wire clk_50m, // 50MHz主时钟 input wire rst_n, // 全局复位低有效 // 与系统总线的接口 output wire [31:0] bus_addr, output wire bus_read, output wire bus_write, input wire [31:0] bus_readdata, output wire [31:0] bus_writedata, input wire bus_waitrequest, // 独享外设接口如UART output wire uart_tx, input wire uart_rx ); // 实例化T80核心 T80a cpu_core ( .RESET_n (rst_n), .CLK (clk_50m), .WAIT_n (~bus_waitrequest), // 将总线等待转换为Z80的WAIT_n .INT_n (1b1), // 中断暂时悬空 .NMI_n (1b1), .BUSRQ_n (1b1), .M1_n (), .MREQ_n (mreq_n), .IORQ_n (iorq_n), .RD_n (rd_n), .WR_n (wr_n), .RFSH_n (), .HALT_n (), .BUSAK_n (), .A (z80_addr), .DI (z80_data_in), .DO (z80_data_out) ); // 总线接口转换逻辑此处省略具体译码和状态机 // ... endmodule外设控制器需要为Z80实现必要的外设IP如UART 16550兼容控制器实现发送、接收、波特率生成、中断产生等功能。波特率发生器通常由系统时钟分频得到。定时器/计数器实现类似Z80 CTCCounter/Timer Channel的功能用于产生精确的时间间隔或脉冲。GPIO控制器简单的输入输出寄存器用于控制LED和读取按键状态。3.2 8051软核的实现与优化8051软核的选择也很多如MC8051或CPU51。8051是哈佛架构程序存储器和数据存储器分开。在FPGA中我们可以灵活配置这两块存储器的大小和位置。存储器映射典型的8051软核会有rom_addr/rom_data接口和ram_addr/ram_data接口。我们可以将内部ROMrom_*连接到MAX10的UFM存放一小段Bootloader。将内部RAMram_*用FPGA的LEs或M9K块RAM实现通常是256字节的内部RAM。外部数据存储器XDATA空间则可以映射到我们自定义的系统总线上从而让8051也能访问SDRAM和共享外设。特殊功能寄存器SFR扩展标准的8051 SFR如P0, P1, TCON, SCON等需要实现。此外我们还可以自定义新的SFR用于访问我们为8051独享或共享的外设。例如地址0xA0可以映射到我们自定义的、连接LED的GPIO端口。性能考量一个时钟周期执行一条指令的8051软核1T 8051比传统的12时钟周期机器快得多。我们可以选择或修改软核让其运行在更高的频率如50MHz并保持1T架构这样其性能将远超传统的89C51芯片。3.3 SDRAM控制器的设计与挑战SDRAM控制器是连接FPGA逻辑世界和动态存储器的桥梁也是整个系统稳定性的基石。SDRAM操作复杂需要严格的时序控制上电初始化、预充电、刷新、行列激活、读写 burst 操作等。状态机设计控制器核心是一个复杂的状态机。通常包含以下状态INIT_POWER_ON、INIT_PRECHARGE、INIT_LOAD_MODE_REGISTER、IDLE、ACTIVE、READ、WRITE、PRECHARGE、AUTO_REFRESH。状态机的设计必须严格按照所选SDRAM芯片的数据手册中的时序参数如tRCD,tRP,tRC,CL等进行。刷新管理SDRAM需要定期刷新例如每64ms刷新8192行。控制器必须维护一个刷新计数器在IDLE状态下定期插入AUTO_REFRESH命令。这可能会暂时阻塞CPU的访问因此需要设计合理的仲裁或者使用带缓冲的读写FIFO来隐藏刷新延迟。与系统总线的接口控制器面向系统总线的一端应该提供一个简单的、类似SRAM的接口地址、数据、读使能、写使能。内部则负责将这个请求翻译成一系列的SDRAM命令并管理数据路径。实操心得调试SDRAM控制器时SignalTap II逻辑分析仪是你的最佳伙伴。你需要抓取SDRAM的命令线CKE, CS_n, RAS_n, CAS_n, WE_n、地址线、数据线以及内部状态机信号。对照数据手册的时序图一个周期一个周期地核对确保tRCD、CL等参数满足要求。初次尝试可以从较低频率如50MHz开始稳定后再逐步提升。另外PCB布局布线对SDRAM稳定性影响巨大时钟线和数据线尽可能等长并做好阻抗控制。3.4 总线仲裁器与系统集成当Z80和8051都要访问共享的SDRAM控制器或Flash控制器时就需要仲裁。一个简单可靠的轮询仲裁器设计如下module round_robin_arbiter ( input wire clk, input wire rst_n, // 来自主设备0如Z80的请求 input wire req0, output reg gnt0, // 来自主设备1如8051的请求 input wire req1, output reg gnt1, // 共享总线接口连接到从设备如SDRAM控制器 output reg bus_read, output reg bus_write, output reg [31:0] bus_addr, output reg [31:0] bus_writedata, input wire [31:0] bus_readdata, input wire bus_waitrequest ); reg last_winner; // 记录上一次获得授权的主设备 always (posedge clk or negedge rst_n) begin if (!rst_n) begin gnt0 1b0; gnt1 1b0; last_winner 1b0; end else begin // 默认无授权 gnt0 1b0; gnt1 1b0; // 仲裁逻辑 if (req0 req1) begin // 两者都请求轮询 if (last_winner 1b0) begin gnt1 1b1; last_winner 1b1; end else begin gnt0 1b1; last_winner 1b0; end end else if (req0) begin gnt0 1b1; last_winner 1b0; end else if (req1) begin gnt1 1b1; last_winner 1b1; end end end // 根据授权信号将当前获得授权的主设备信号切换到共享总线 always (*) begin if (gnt0) begin // 将主设备0的信号连接到总线 bus_read z80_bus_read; bus_write z80_bus_write; bus_addr z80_bus_addr; bus_writedata z80_bus_writedata; // 将总线数据回传给主设备0 z80_bus_readdata bus_readdata; z80_bus_waitrequest bus_waitrequest; // 主设备1的信号置为无效或高阻 _51_bus_readdata 32bz; _51_bus_waitrequest 1b1; end else if (gnt1) begin // 将主设备1的信号连接到总线 bus_read _51_bus_read; bus_write _51_bus_write; bus_addr _51_bus_addr; bus_writedata _51_bus_writedata; // 将总线数据回传给主设备1 _51_bus_readdata bus_readdata; _51_bus_waitrequest bus_waitrequest; // 主设备0的信号置为无效或高阻 z80_bus_readdata 32bz; z80_bus_waitrequest 1b1; end else begin // 无授权总线空闲 bus_read 1b0; bus_write 1b0; bus_addr 32b0; bus_writedata 32b0; z80_bus_readdata 32bz; z80_bus_waitrequest 1b1; _51_bus_readdata 32bz; _51_bus_waitrequest 1b1; end end endmodule这个仲裁器确保了公平性避免了某个CPU长时间霸占总线导致另一个CPU“饿死”。在实际集成时你需要将Z80系统模块和8051系统模块的顶层信号连接到这个仲裁器的req0/gnt0和req1/gnt1端口。4. 软件开发与系统调试4.1 交叉编译工具链搭建硬件是躯体软件是灵魂。我们需要为Z80和8051分别搭建交叉编译环境。对于Z80汇编器/链接器z80asm或sdccSmall Device C Compiler它支持Z80后端。sdcc允许你用C语言为Z80编写程序虽然代码效率可能不如手写汇编但开发效率高。二进制文件转换编译链接后生成的文件通常是ihx或hex格式需要转换成纯二进制bin格式以便写入Flash或通过Bootloader加载。库与启动代码需要编写或找到Z80的极简运行时库crt0.s负责设置栈指针、初始化数据段如果有、然后跳转到main函数。对于8051编译器最经典的是sdcc它对8051的支持非常成熟。也可以使用Keil C51但它是商业软件。编程方式8051的程序通常直接编译后写入其程序存储器ROM。在我们的系统中8051的ROM在UFM中我们可以利用Quartus的In-System Memory Content Editor工具在FPGA运行时通过JTAG直接修改UFM内容实现“软”编程非常方便调试。4.2 Bootloader设计与系统启动流程一个优雅的系统需要一个Bootloader。我们的设计思路是上电FPGA配置完成Z80和8051软核开始运行。8051 Bootloader8051软核从其UFM中的ROM起始地址0x0000开始执行。这里的代码是一个简单的Bootloader它通过SPI接口或GPIO模拟SPI读取外部Flash中指定扇区的8051应用程序代码将其拷贝到SDRAM中为8051分配的地址空间例如0x80000000然后跳转到SDRAM中执行。Z80 Bootloader/MonitorZ80软核从其复位向量通常为0x0000开始执行这个地址映射到一块小的Boot ROM也可以用UFM实现但需与8051的Bootloader代码分区存放。Z80的Bootloader可以更复杂成为一个简单的监控程序Monitor它通过UART接收来自PC的命令可以读写内存、加载程序到SDRAM、执行程序等。这样Z80的应用程序就可以通过串口动态加载无需每次修改都重新综合FPGA工程。双核并行运行当两个CPU的Bootloader都完成任务后它们便分别运行在SDRAM中的应用程序里共享着系统的其他资源。4.3 调试技巧与问题排查实录在这样一个软硬件协同的复杂系统中调试是最大的挑战。以下是一些实录的技巧问题一系统上电后某个CPU完全不运行。排查首先用SignalTap II抓取该CPU的时钟和复位信号。确认时钟是否正常有翻转复位信号是否在上电后稳定释放从低变高。很多时候是复位同步电路没做好导致CPU一直处于复位状态。技巧在设计中加入“心跳”信号。例如让每个CPU在某个GPIO引脚上以1Hz的频率翻转电平用示波器或逻辑分析仪一看便知CPU是否“活着”。问题二CPU能运行但读写SDRAM数据错误。排查这是最复杂的情况。分层排查先测控制器编写一个FPGA内部的测试状态机绕过CPU直接对SDRAM控制器进行连续的“写-读-比较”测试。如果这个测试都失败问题肯定在SDRAM控制器或PCB硬件上。再测总线如果控制器自测通过再用SignalTap II抓取CPU发起读写请求时仲裁器、总线以及SDRAM控制器接口上的所有信号。检查地址、数据、控制信号在传输过程中是否有错位或延迟不匹配。检查时序约束在Quartus中检查SDRAM时钟和相关IO的时序约束是否正确添加。不正确的约束会导致综合布线后的时序不满足在高速下出现随机错误。问题三双核同时高强度访问共享资源时系统卡死。排查可能是总线仲裁器逻辑有缺陷在特定请求序列下进入了死锁状态。或者SDRAM控制器的刷新逻辑没有处理好在刷新周期内没有正确响应仲裁器的请求释放。技巧在仲裁器和SDRAM控制器中增加超时机制。如果某个主设备占用总线超过一定时间如1024个时钟周期强制释放总线授权。同时在SignalTap中设置触发条件抓取系统卡死前一瞬间的总线状态和状态机这是定位死锁问题的关键。问题四通过UART输出乱码。排查检查波特率生成器的分频系数计算是否正确。BAUD_DIVISOR System_CLK / (Desired_BAUD * 16)。用示波器测量UART TX引脚的实际波形测量一个位的时间宽度反推实际波特率。检查FPGA工程中为UART模块和CPU模块分配的时钟是否同源且频率正确跨时钟域的数据如CPU要发送的数据是否通过了FIFO或同步器正确处理。个人体会FPGA项目的调试七分靠设计预先考虑周全三分靠工具逻辑分析仪、示波器。在编写每一段关键代码如状态机、仲裁器、跨时钟域模块时就要同步思考“这部分我该如何观测和调试”。提前在代码里埋设一些调试用的计数器或状态输出信号会比出了问题再回头加要高效得多。对于这种多核系统采用“分而治之逐步集成”的策略至关重要先确保每个CPU子系统独立工作再集成共享总线和仲裁器最后进行双核协同测试。